(讀書(shū)筆記)
許多公司,儘管想導(dǎo)入 Big Data,仍必須繼續(xù)用 Data Warehouse 來(lái)管理結(jié)構(gòu)化的營(yíng)運(yùn)數(shù)據(jù)、系統(tǒng)記錄。而 Big Data 的出現(xiàn),為 Data Warehouse 提供了一個(gè)互補(bǔ)的機(jī)會(huì),而不是取代後者。
高度結(jié)構(gòu)化的營(yíng)運(yùn)資料 (data,數(shù)據(jù)),仍然可保留在 Data Warehouse 中;而分散式 (distributed) 的資料,以及會(huì)即時(shí)改變的資料,則可交由基於 Hadoop 的架構(gòu)來(lái)控制。

圖 1 傳統(tǒng)的 Data Warehouse 和 Data Mart 架構(gòu)

圖 2 混合 Data Warehouse 和 Big Data 倉(cāng)庫(kù)的新架構(gòu)
一間公司的客戶(hù)、潛在使用者,在網(wǎng)路上和實(shí)體上的互動(dòng),這些大量產(chǎn)生的數(shù)據(jù),傳統(tǒng)的 Data Warehouse 僅能跟蹤交易及營(yíng)運(yùn)數(shù)據(jù),但卻不能跟蹤網(wǎng)路流量及相關(guān)資訊。為了儘可能多保留這些數(shù)據(jù),與其建立一個(gè) Data Warehouse 來(lái)儲(chǔ)存所有數(shù)據(jù),不如用 Hadoop 分散式計(jì)算的方式,將數(shù)據(jù)存放在公司的伺服器上。這樣,公司就能將所有來(lái)自「網(wǎng)頁(yè)互動(dòng)」的數(shù)據(jù)保存下來(lái)了。這些數(shù)據(jù)儲(chǔ)存在運(yùn)行著 Hadoop 和 MapReduce 的伺服器叢集 (cluster) 中,配合使用 Flume 和 Sqoop 之類(lèi)的工具,公司的資訊團(tuán)隊(duì),就能夠?qū)?shù)據(jù)從 Hadoop 裡遷移出來(lái),匯入關(guān)聯(lián)式模型及資料庫(kù)中,讓大家用熟悉的傳統(tǒng) SQL 工具來(lái)查詢(xún)。
這樣公司就能在發(fā)現(xiàn)某些客戶(hù)群,希望獲得某些新型態(tài)服務(wù)時(shí),快速地轉(zhuǎn)變服務(wù)和產(chǎn)品。公司 (線(xiàn)上旅遊網(wǎng)站) 還能夠預(yù)測(cè)一些趨勢(shì),像是如何適時(shí)地調(diào)整機(jī)票的價(jià)格。這些數(shù)據(jù)中,有一部分仍保留在 Hadoop 環(huán)境中,並能保持幾乎「即時(shí)」的更新;另有一些數(shù)據(jù),經(jīng)過(guò)處理後,已被轉(zhuǎn)移到了 Data Warehouse 中,這樣他們就可用於和歷史數(shù)據(jù)進(jìn)行比對(duì)。既有的 Data Warehouse 繼續(xù)提供公司業(yè)務(wù)需要的內(nèi)容,Hadoop 環(huán)境則可以跟蹤每分鐘都發(fā)生了什麼事。這種將系統(tǒng)記錄與 Data Warehouse 整合的動(dòng)態(tài)大數(shù)據(jù)系統(tǒng),能為公司提供巨大的商機(jī),讓公司能在網(wǎng)路世界中,把即時(shí)產(chǎn)生的大量數(shù)據(jù)、分析結(jié)果,應(yīng)用到公司的業(yè)務(wù)上。
----------------------------------------------
以上節(jié)錄自 Big Data For Dummies 簡(jiǎn)體中譯本
Ch11, 設(shè)備和大數(shù)據(jù)倉(cāng)庫(kù)
該書(shū) 260頁(yè),圖多,內(nèi)容偏重講原理、技術(shù)簡(jiǎn)介、和企業(yè)既有應(yīng)用的整合,幾乎沒(méi)程式碼 (適合老闆和主管看)
寫(xiě)給大家看的大數(shù)據(jù)(簡(jiǎn)體中譯本):
http://www.m.sanmin.com.tw/Product/Index/004706578
ISBN13:9787115356130
ISBN: 9781118504222
浙公網(wǎng)安備 33010602011771號(hào)