石山園

2018年2月21日

SparkSQL – 從0到1認(rèn)識(shí)Catalyst（轉(zhuǎn)載）

摘要：最近想來(lái)，大數(shù)據(jù)相關(guān)技術(shù)與傳統(tǒng)型數(shù)據(jù)庫(kù)技術(shù)很多都是相互融合、互相借鑒的。傳統(tǒng)型數(shù)據(jù)庫(kù)強(qiáng)勢(shì)在于其久經(jīng)考驗(yàn)的SQL優(yōu)化器經(jīng)驗(yàn)，弱勢(shì)在于分布式領(lǐng)域的高可用性、容錯(cuò)性、擴(kuò)展性等，假以時(shí)日，讓其經(jīng)過(guò)一定的改造，比如引入Paxos、raft等，強(qiáng)化自己在分布式領(lǐng)域的能力，相信一定會(huì)在大數(shù)據(jù)系統(tǒng)中占有一席之地。相閱讀全文

posted @ 2018-02-21 10:11 shishanyuan 閱讀(1422) 評(píng)論(1) 推薦(0)

深入研究Spark SQL的Catalyst優(yōu)化器（原創(chuàng)翻譯）

摘要： Spark SQL是Spark最新和技術(shù)最為復(fù)雜的組件之一。它支持SQL查詢(xún)和新的DataFrame API。Spark SQL的核心是Catalyst優(yōu)化器，它以一種新穎的方式利用高級(jí)編程語(yǔ)言特性（例如Scala的模式匹配和quasiquotes）來(lái)構(gòu)建可擴(kuò)展查詢(xún)優(yōu)化器。我們最近發(fā)布了一篇關(guān)于S 閱讀全文

posted @ 2018-02-21 09:03 shishanyuan 閱讀(10441) 評(píng)論(0) 推薦(0)

GC調(diào)優(yōu)在Spark應(yīng)用中的實(shí)踐（轉(zhuǎn)載）

摘要： Spark是時(shí)下非常熱門(mén)的大數(shù)據(jù)計(jì)算框架，以其卓越的性能優(yōu)勢(shì)、獨(dú)特的架構(gòu)、易用的用戶接口和豐富的分析計(jì)算庫(kù)，正在工業(yè)界獲得越來(lái)越廣泛的應(yīng)用。與Hadoop、HBase生態(tài)圈的眾多項(xiàng)目一樣，Spark的運(yùn)行離不開(kāi)JVM的支持。由于Spark立足于內(nèi)存計(jì)算，常常需要在內(nèi)存中存放大量數(shù)據(jù)，因此也更依賴(lài)JV 閱讀全文

posted @ 2018-02-21 09:03 shishanyuan 閱讀(9901) 評(píng)論(0) 推薦(2)

石山園

公告