<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      大數據計算引擎MapReduce、Storm、Spark、Sparkstreaming、Flink到底哪家強?

      自大數據的概念被提出以來,企業對于數據信息變為數據資產的訴求越來越強烈,進而在技術領域出現了很多大數據計算引擎服務,最著名、使用最廣的莫過于MapReduce、Storm、Spark、Sparkstreaming、Flink了。它們都是在不同的時代背景下所產生的,又是為了解決每個階段所不能遇到的難題而新出現的解決方案,那么它們到底是什么呢?我們今天一一的來看看這些計算引擎寶貝們~ 從處理的時間來看,我們可以把大數據計算引擎劃分為離線計算、實時計算兩類,離線計算一般是T+1的延遲,實時計算一般是秒級或毫秒級的延遲;從處理的數據量來看,我們可以把大數據引擎劃分為流式計算、批量計算兩類,流式計算是一次來一條處理一條,批量計算則是一次來多條處理多條。MapReduce、Spark屬于離線計算、批量計算引擎,Storm、Sparkstreaming、Flink屬于實時計算、流式與批量并存的計算引擎。

      image

       從處理的時間來看,我們可以把大數據計算引擎劃分為離線計算、實時計算兩類,離線計算一般是T+1的延遲,實時計算一般是秒級或毫秒級的延遲;從處理的數據量來看,我們可以把大數據引擎劃分為流式計算、批量計算兩類,流式計算是一次來一條處理一條,批量計算則是一次來多條處理多條。MapReduce、Spark屬于離線計算、批量計算引擎,Storm、Sparkstreaming、Flink屬于實時計算、流式與批量并存的計算引擎。 給計算引擎寶貝們分好類之后,我們一個個的來看看它們的絕技。MapReduce是大數據計算引擎的開山鼻祖,自Google著名的三篇論文發表之后,大數據處理開始流行起來,很多企業都使用Hadoop三件套MapReduce、HDFS、YARN來進行大數據的處理任務,所有的數據在進行處理前會劃分成大小相同的數據,經過Map模型初次處理數據,得到中間結果,再經過Reduce模型二次處理中間結果數據,最后得到分析數據,存儲在HDFS。在該模型中,存在兩個問題: 1、模型簡單,對于復雜的處理任務不好支持。對于復雜的統計分析任務,在MR模型中就需要經過多次轉換成中間結果,尤其是人工智能、深度學習類需要多次計算的場景就更不好使了; 2、不能有效的利用內存,在MR模型中所生成的中間數據都是存儲在磁盤中的,每次數據進入磁盤,再從磁盤讀取出來,非常的耗費IO,時間延遲太長了。因此Spark出現了。

      image

       Spark是升級版的MapReduce計算引擎,在Spark中引入了RDD彈性分布式數據集(ResilientDistributedDatasets),在Spark中多個計算任務可以并在1個RDD里進行,假設我們的數據是存儲在HDFS當中,當要進行數據處理時,我們先把數據劃分成為多個大小相同的數據,一組任務是一個Stage,在Stage1階段進行Map計算,產生中間結果(RDD1),在Stage2階段進行Reduce計算,產生中間結果(RDD2),在Stage3階段再將之前階段的結果關聯起來(RDD3),最后給到Actions將RDD計算結果給到業務呈現。 在Spark模型中,它支持復雜的計算模型(支持多個Stage),也優化了磁盤性能問題(每個數據集任務都被抽象成RDD進行計算,存儲在內存中),以至于有人說Spark會取代MapReduce。在Spark模型流行了一段時間后,互聯網企業們對于數據的要求變得越來越高了,他們希望更快的得到數據分析結果,所以實時計算應運而生。

      image

       最先出現的實時計算框架是Storm,在Storm中有spout管口、bolt處理器、tuple元組的概念,spout負責從數據源接收數據tuple,按照一定的規則下放給到bolt進行處理,處理結束之后由數據庫存儲相應的結果。Storm處理模型中存在高可用和數據準確性問題,所謂高可用指的是spout節點掛掉了,數據計算任務怎么辦? 在MapReduce中數據掛掉了之后會重啟Map模型,而在Storm中也有一個對應的ACK機制,bolt接收到數據之后返回確認,處理完數據后返回確認,數據庫存儲數據后返回確認,基本要三輪確認后整個處理任務才算完成了;所謂準確性指的是數據重復處理問題,比如在數據處理過程中,處理節點bolt1處理完數據之后,發送給了接收節點bolt1,但接收節點bolt1還沒來得及確認,處理節點bolt1掛掉了,處理節點bolt2繼續重復處理bolt1的數據,從而導致在整個任務中數據是有冗余的。在Sparkstreaming中針對這兩個問題,提出了對應的解決方案。

      image

       

      Sparkstreaming是Spark的升級版本,在Sparkstreaming使用RDD模型將每次處理的數據轉換成1個數據集進行處理,減少了每次ACK的開銷,提高了效率,并通過exactlyone精準消費一次模型來保障數據的重復處理問題。它聯同分布式消息隊列Kafka(生產者消費者使用事務ACID模型來保障了數據消費和更新的原子性)在消息發送處、消息接收處實現了exactlyone。在Sparkstreaming中存在的問題是每次處理的數據量都是小批量的,如果我們想實現更小顆粒度的數據處理,就沒有辦法了,但這時候Flink應運而生。

      Flink通過分布式快照snapshot快照模型來實現數據按條處理,在整個數據處理任務當中,snapshot快照模型對每次操作都進行拍照,記錄當時處理現況,當處理發生故障時,Flink則停止當下處理,找到最近一次快照,把數據流恢復到當時的處理節點,讓業務按照當時處理情況繼續處理。并且為了更高效的處理任務,Flink還提供了Window窗口模型,支持用戶自定義每個窗口需要處理的數據或時長。

      image

       

      posted on 2025-10-26 22:11  luzhouxiaoshuai  閱讀(4)  評論(0)    收藏  舉報

      導航

      主站蜘蛛池模板: 日韩加勒比一本无码精品| 欧美人与禽2o2o性论交| 国产熟女真实乱精品51| 国产二区三区不卡免费| 国产精品视频中文字幕| 久久香蕉欧美精品| 成年黄页网站大全免费无码| 久久精品国产精品亚洲精品| 久久天天躁夜夜躁狠狠| 国产精品亚洲av三区色| 密云县| 亚洲精品国模一区二区| 大尺度国产一区二区视频| 成人无码视频97免费| 亚洲av成人三区国产精品| 日本韩国一区二区精品| 亚洲熟妇色自偷自拍另类| 翼城县| 一本一道av无码中文字幕麻豆| 少妇宾馆粉嫩10p| 亚洲 欧美 动漫 少妇 自拍| 在线天堂中文新版www| 欧美高清精品一区二区| 亚洲精品国产av成人网| 亚洲欧美人成电影在线观看| 99久久久国产精品消防器材| 99网友自拍视频在线| 久久久av男人的天堂| 免费观看的av在线播放| 亚洲国产精品日韩在线| 亚洲精品男男一区二区| 亚洲区一区二区激情文学| 亚洲欧美在线一区中文字幕| 亚洲国产欧美在线人成| 成人亚洲综合av天堂| 东京热人妻无码一区二区av| 狼色精品人妻在线视频| 美女爽到高潮嗷嗷嗷叫免费网站| 国产jizzjizz视频| 少妇仑乱a毛片无码| 免费99视频|