淺評數據倉庫三大王者
TeraData, 當仁不讓的霸主
TeraData已經在這個領域縱橫好多年了, 你從Tera這個詞就能看出這點. 如果是新兵的話, 名字肯定不會是Tera, 這年頭還叫Tera, 那也太沒有發展的眼光了. 在國內, 多為不差錢的公司采用, 比如銀行什么的.
數據倉庫流圖, OLTP-->ETL-->TeraData-->BI
優點: (1)生態環境已經營造的很好了, 無論ETL工具還是BI工具都很好地支持. (2) 開箱即用, 甚至將硬件也打包在一起, 省事. (3)成功案例比較多
缺點: (2)巨貴
Greenplum, 新銳,
2010年被EMC收購, 算是嫁入豪門了(據傳Oracle近來有意收購要EMC了). 采用Share nothing的架構, 支持Map-reduce, 后臺數據庫基于開源的PostgreSQL數據庫.
數據倉庫流圖, OLTP-->ETL(或簡單的EL)-->Greenplum-->BI
優點:(1)因為采用RDBMS數據庫, 容易集成現有的ETL和BI工具. (2) 能夠運行在所有的X86/X64硬件上, 所以硬件的選擇自由度比較大. (3)線性擴展.
缺點:(1)案例還不算多. (2)具有豐富運維經驗的工程師還不多
Hadoop+Hive, 新兵蛋子, 極具王者風范
互聯網企業用的比較多, Yahoo/Facebook, 國內阿里系的公司也在用
優點: (1)開源搭配, 免費. (2)互聯網巨人不斷貢獻和完善代碼, 發展前景不錯. (3)和greenplum一樣, 硬件的選擇自由度大, (4)線性擴展
缺點: (1)需要較高的技術儲備, 學習曲線比較陡, 這也是為什么僅僅在互聯網公司用的比較多. (2)仍在不斷完善中, 換句話講, 現在還不成熟.
考慮到簡化和BI等的集成, 我認為下面是1個比較靠譜的數據倉庫流圖:
OLTP(或
結構化文檔)-->定制hive的inputFormat/outputFormat適配器-->Hadoop+Hive-->編寫
hive的自定義函數UDF (只將必需的數據傳到數據庫)-->RDBMS(比如Oracle等)-->BI

浙公網安備 33010602011771號