摘要:
在之前的博文中,我們回顧和總結(jié)了2014年Spark在性能提升上所做的努力。本篇博文中,我們將為你介紹性能提升的下一階段——Tungsten。在2014年,我們目睹了Spark締造大規(guī)模排序的新世界紀(jì)錄,同時(shí)也看到了Spark整個(gè)引擎的大幅度提升——從Python到SQL再到機(jī)器學(xué)習(xí)。 Tungst 閱讀全文
posted @ 2018-02-20 15:40
shishanyuan
閱讀(1380)
評(píng)論(0)
推薦(0)
摘要:
Spark SQL是Apache Spark最廣泛使用的一個(gè)組件,它提供了非常友好的接口來(lái)分布式處理結(jié)構(gòu)化數(shù)據(jù),在很多應(yīng)用領(lǐng)域都有成功的生產(chǎn)實(shí)踐,但是在超大規(guī)模集群和數(shù)據(jù)集上,Spark SQL仍然遇到不少易用性和可擴(kuò)展性的挑戰(zhàn)。為了應(yīng)對(duì)這些挑戰(zhàn),英特爾大數(shù)據(jù)技術(shù)團(tuán)隊(duì)和百度大數(shù)據(jù)基礎(chǔ)架構(gòu)部工程師在S 閱讀全文
posted @ 2018-02-20 10:59
shishanyuan
閱讀(2441)
評(píng)論(0)
推薦(0)

浙公網(wǎng)安備 33010602011771號(hào)