Hadoop介紹
一,Hadoop介紹
狹義上Hadoop指的是Apache軟件基金會的一款開源軟件,用java語言實現。允許用戶使用簡單的編程模型實現跨機器集群對海量數據進行分布式計算處理
- Hadoop核心組件
Hadoop HDFS(分布式文件存儲系統):解決海量數據存儲
Hadoop YARN(集群資源管理和任務調度框架):解決資源任務調度
Hadoop MapReduce(分布式計算框架):解決海量數據計算 - 官網
http://hadoop.apache.org/
廣義上Hadoop指的是圍繞Hadoop打造的大數據生態圈
Hadoop發展簡史
-
Hadoop之父: Doug Cutting
-
Hadoop起源于Apache Lucene子項目:Nutch
Nutch的設計目標是構建一個大型的全網搜索引擎
遇到瓶頸:如何解決數十億網頁的存儲和索引問題 -
Google三篇論文
《The Google file system》 :谷歌分布式文件系統GFS
《MapReduce: Simplifed Data Processing on Large Clusters》 :谷歌分布式計算框架MapReduce
《Bigtable: A Distributed Storage System for Structured Data》 :谷歌結構化數據存儲系統
Hadoop現狀
- HDFS作為分布式文件存儲系統,處在生態圈的底層與核心地位
- YARN作為分布式通用的集群資源管理系統和任務調度平臺,支撐各種計算引擎運行,保證了Hadoop地位
- MapReduce作為大數據生態圈第一代分布式計算引擎,由于自身設計的模型所產生的整端,導致企業一線幾乎不再
直接使用MapReduce進行編程處理,但是很多軟件的底層依然在使用MapReduce引警來處理數據
二,Hadoop特性
-
擴容能力
Hadoop是在可用的計算機集群間分配數據并完成計算任務的,這些集群可方便靈活的方式擴展到數以千計的節點
-
成本低
Hadoop集群允許通過部署普通廉價的機器組成集群來處理大數據,以至于成本很低看重的是集群整體能力
-
效率高
通過并發數據,Hadoop可以在節點之間動態并行的移動數據,使得速度非常快
-
可靠性
能自動維護數據的多份復制,并且在任務失敗后能自動地重新部署(redeploy )計算任務。所以Hadoop的按位存儲和處理數據的能力值得人們信賴
三,Hadoop發行版本,架構變遷
3.1 Hadoop發行版本

Apache開源社區版本
商業發行版本:
3.2 Hadoop架構變遷
Hadoop架構變遷(1.0-3.0變遷)
-
Hadoop 1.0
HDFS(分布式文件存儲)
MapReduce(資源管理和分布式數據處理 -
Hadoop 2.0
HDFS(分布式文件存儲)
MapReduce(分布式數據處理)
YARN(集群資源管理、任務度) -
Hadoop 3.0:Hadoop 3.0架構組件和Hadoop 2.0類似,3.0著重于性能優化
- 通用方面
精簡內核、類路徑隔離、she11腳本重構 - Hadoop HDFS
EC糾刪碼、多NameNode支持 - Hadoop MapReduce
任務本地化優化、內存參數自動推斷 - Hadoop YARN
Timeline Service V2、隊列配置
- 通用方面

浙公網安備 33010602011771號