<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      大數據時代的寵兒——Hadoop簡介和實踐分享

      這篇文章簡單介紹了Hadoop相關的技術生態圈,同時共享一份前一陣編寫的實踐教程,需要者自取。

      在云計算和大數據大行其道的今天,Hadoop及其相關技術起到了非常重要的作用,是這個時代不容忽視的一個技術平臺。事實上,由于其開源、低成本和和前所未有的擴展性,Hadoop正成為新一代的數據處理平臺。

      Hadoop是基于Java語言構建的一套分布式數據處理框架,從其歷史發展角度我們就可以看出,Hadoop一誕生,就具備高貴的血統,發展順風順水:

      2004年,Google發表論文,向全世界介紹了MapReduce
      2005年初,為了支持Nutch搜索引擎項目,Nutch的開發者基于Google發布的MapReduce報告,在Nutch上開發了一個可工作的MapReduce應用
      2005年中,所有主要的Nutch算法被移植到MapReduce和NDFS(Nutch Distributed File System )環境來運行
      2006年2月,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展
      2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日志處理
      2008年,淘寶開始投入研究基于Hadoop的系統--云梯,并將其用于處理電子商務相關數據。云梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業,掃描500TB數據
      2008年1月,Hadoop成為Apache頂級項目
      2008年7月,Hadoop打破1TB數據排序基準測試記錄。Yahoo的一個Hadoop集群用209秒完成1TB數據的排序,比上一年的紀錄保持者保持的297秒快了將近90秒
      ......

      很多人開始接觸Hadoop時,都以為這是一個項目,其實Hadoop除了核心的MapReduce和HDFS之外,還包含了眾多的子項目,換句話說,Hadoop已經形成了一個豐富的技術生態圈:

      為什么會有這樣的技術誕生呢?
      簡而言之,隨著互聯網的飛速發展,大量數據的存儲和分析遇到瓶頸,磁盤容量的增長遠遠大于磁盤讀取速度,1TB的磁盤,數據傳輸速度100MB/s,讀一遍2.5H,寫數據就別提了,心拔涼拔涼的(當然SSD在生產環境的實際應用,大大緩解了這一窘境)。數據量的增長在互聯網應用中體現的非常明顯,好的互聯網應用動輒就有上千萬的用戶,無論是數據的容量、壓力都與日俱增。另外在企業應用層面,很多大中型企業,信息化進行了十幾年,企業內部積累了大量的非結構化數據,各種類型的文件需要存儲、備份、分析、展示,苦于沒有很好的辦法進行數據處理。

      那么如何解決這樣的問題,技術牛娃自然有辦法,比如磁盤數據的并行讀寫,數據分塊,分布式文件系統,冗余數據,MapReduce算法等等,最后Hadoop等類似的技術應運而生。于是我等草民有福了。
      不是有那么一句話么,大數據勝于好算法,如果數據足夠多,可能產生出意想之外的應用,看看現在Facebook、Twitter、微博相關的衍生應用就知道了。另外,無論算法好壞,更多的數據總能帶了來更好的推薦效果,這也是顯而易見。

      所以,無論云計算和大數據口號喊的多么虛頭八腦,但Hadoop都是一門非常務實的技術,無論你身在互聯網企業還是傳統軟件公司,都應該學習和了解這門技術。

      下面是我前一陣內部技術交流寫的一份Hadoop簡介和實踐的教程類KeyNote,希望能有點幫助。

      多說一句,Hadoop的部署提供三種模式,本地模式、偽分布模式和全分布模式,建議大家采用第三種進行實踐,這樣對系統用法的理解更深入一些。這就需要你至少要兩臺機器進行集群,比較好的方式是使用虛擬機。Hadoop原生支持Unix/Linux,你要是想在Windows上玩,還需要裝模擬環境cygwin。這時候就體現出Mac用戶的優勢了,我是采用Mac做Master,起兩臺虛擬Linux做Slave,SSD+8G內存,毫無壓力。這樣做的好處其實在Unix編程思想這部書中也提到過,就是用最小工作環境達到最大的工作范圍。

      推薦閱讀:《Hadoop The Definitive Guide 2nd Edition》

      posted @ 2012-06-25 19:24  池建強  閱讀(9700)  評論(13)    收藏  舉報
      主站蜘蛛池模板: 一区二区在线观看成人午夜| 亚洲中文字幕在线二页| 国产成人无码区免费内射一片色欲| 鲁鲁网亚洲站内射污| 蜜桃麻豆www久久囤产精品| 国产一区二区三区无遮挡| 日本午夜精品一区二区三区电影 | 真人在线射美女视频在线观看| 天天看片视频免费观看| 精品久久综合日本久久网| 激情综合网址| 欧美极品色午夜在线视频| 久久久久亚洲AV色欲av| 国产精品一区在线蜜臀| 缙云县| 精品国产成人午夜福利| 又爽又黄又无遮挡的激情视频| 免费看成人aa片无码视频吃奶 | 国产爽视频一区二区三区| 国产中文99视频在线观看| 欧美日韩国产综合草草| 欧美成人午夜在线观看视频| 人妻丰满熟妇无码区免费| 亚洲国产在一区二区三区| 国产成人一区二区三区免费| 开江县| 天天躁日日躁狠狠躁中文字幕| 亚洲成av人片在www鸭子| 国产精品免费视频网站| 亚洲午夜香蕉久久精品| 四虎永久在线精品无码视频| 大香伊蕉在人线国产免费| 男女猛烈激情xx00免费视频| 99精品久久免费精品久久| 中文字幕人妻精品在线| 阿鲁科尔沁旗| 久久婷婷综合色丁香五月| 国产在线播放专区av| 国产片AV国语在线观看手机版| 人妻一区二区三区人妻黄色| 久久人人97超碰国产精品|