100億小數(shù)據(jù)實(shí)時計算平臺(大數(shù)據(jù)系列目錄)
2017年6月,開始數(shù)據(jù)分析的職業(yè)生涯,作為架構(gòu)師,建立起一套基于.Net/.Net Core的小數(shù)據(jù)實(shí)時處理計算平臺,這里記錄學(xué)習(xí)過程中的點(diǎn)點(diǎn)滴滴!
數(shù)據(jù)分析的核心,可以理解為:Select xxx From table Where yyy Group By zzz
一、小數(shù)據(jù)定位
小數(shù)據(jù)計算平臺的定位:
- 數(shù)據(jù)量在1000萬行到100億行之間,傳統(tǒng)關(guān)系型數(shù)據(jù)庫算起來吃力,且類似項目不是特別多,Hadoop搭起來難以收回成本
- 資源投入有限,基于傳統(tǒng)項目之上的輕量級數(shù)據(jù)分析,一般只能有1~2臺服務(wù)器,Hadoop最好能有8臺以上服務(wù)器
- 門檻低,普通軟件工程師容易上手做數(shù)據(jù)分析,并參與開發(fā)配套的業(yè)務(wù)系統(tǒng),大數(shù)據(jù)開發(fā)工程師需要會很多(Hadoop、MapReduce、HDFS、Hive、HBase、Spark、Zookeeper、Sqoop)
- 實(shí)時內(nèi)存計算,C#/Java/Go+Redis/MongoDB,輕松做到0.5~5分鐘實(shí)時處理,大多數(shù)大數(shù)據(jù)開發(fā)工程師只熟悉 Hadoop+Hive,擅長T+1離線計算,對實(shí)時計算Spark+HBASE熟悉的不多
題外:其實(shí)大家平時借助消息隊列(Kafaka/RocketMQ)異步處理的統(tǒng)計,本身就屬于實(shí)時計算數(shù)據(jù)分析的一種!
該平臺的目標(biāo)并非替代Hadoop,而是對中小型數(shù)據(jù)分析提供一種輕量級選擇。
實(shí)際上我們大部門就有完整的Hadoop大數(shù)據(jù)平臺,我們的許多模塊,都跟Hive、HBase、Kafka等有大量的數(shù)據(jù)交互
未來的日子里,會根據(jù)后面的小數(shù)據(jù)平臺配套,把相關(guān)技術(shù)慢慢寫下來。
二、文章目錄
大數(shù)據(jù)系列文章目錄:
1,大數(shù)據(jù)分析中使用關(guān)系型數(shù)據(jù)庫的關(guān)鍵點(diǎn)
2,MySql如何做到600000tps的極速批量寫入
3,大數(shù)據(jù)分析中Redis經(jīng)驗分享
4,如何分批處理大數(shù)據(jù)(調(diào)度系統(tǒng))
大數(shù)據(jù)分析中Redis怎么做到220萬ops
每天4億行SQLite訂單大數(shù)據(jù)測試(源碼)
三、小數(shù)據(jù)平臺配套
小數(shù)據(jù)計算平臺配套:
- 關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)來源以及計算結(jié)果存儲,推薦MySql,批量插入5000~50000tps
- Redis,原始數(shù)據(jù)源預(yù)熱,中間計算數(shù)據(jù)臨時存儲,結(jié)果數(shù)據(jù)緩沖隊列,選Linux/Windows多實(shí)例部署,單實(shí)例性能8w~10wops
- 計算節(jié)點(diǎn),核心數(shù)據(jù)分析應(yīng)用,從數(shù)據(jù)庫或Redis或微服務(wù)讀取原始數(shù)據(jù)和基礎(chǔ)數(shù)據(jù),根據(jù)業(yè)務(wù)規(guī)則進(jìn)行計算,統(tǒng)計結(jié)果直接落庫或借助Redis異步落庫
- 調(diào)度系統(tǒng),時間片調(diào)度算法,對數(shù)據(jù)進(jìn)行切片處理,多實(shí)例多線程并行計算,錯誤或超時重試機(jī)制。計算節(jié)點(diǎn)上跑的分析應(yīng)用依賴于調(diào)度系統(tǒng)
- 服務(wù)節(jié)點(diǎn),頻繁且反復(fù)讀取的小數(shù)據(jù)(1000萬~100億)預(yù)熱進(jìn)入Redis,大量部署微服務(wù),封裝各種數(shù)據(jù)訪問,10萬以下數(shù)據(jù)直接緩存到進(jìn)程內(nèi)存
- 微服務(wù)注冊中心,每個服務(wù)至少部署2個節(jié)點(diǎn)(可用性、負(fù)載均衡),大量服務(wù)需要管理起來,伸縮擴(kuò)容
- 配置中心,數(shù)據(jù)分析應(yīng)用和微服務(wù)的大量伸縮部署,需要有配置中心把數(shù)據(jù)庫配置等各種配置管理起來
- 監(jiān)控中心,監(jiān)控重要計算節(jié)點(diǎn)和服務(wù)節(jié)點(diǎn),通過微信/短信/釘釘?shù)裙ぞ邎蟾婢o急情況,或每天提供數(shù)據(jù)簡報
實(shí)際使用根據(jù)需要進(jìn)行調(diào)整,如果數(shù)據(jù)分析項目不多,后面的輔助性配套可以不要。
四、關(guān)于我
關(guān)于博客,10多年來斷斷續(xù)續(xù)也寫了不少博文,我寫的博客有個特點(diǎn),都是經(jīng)過深思熟慮并且在網(wǎng)絡(luò)上很少能找到相關(guān)內(nèi)容的知識點(diǎn)。
關(guān)于工作,公司財報提到2018年第二季度包裹量21.16億件,公司名和具體工作內(nèi)容不方便討論,還請大家見諒和監(jiān)督!
本文答疑:QQ群1600800,2018-08-12 20:00:00
End.

浙公網(wǎng)安備 33010602011771號