<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      《圖解Spark:核心技術(shù)與案例實戰(zhàn)》作者經(jīng)驗談

      1,看您有維護博客,還利用業(yè)余時間著書,在技術(shù)輸出、自我提升以及本職工作的時間利用上您有沒有什么心得和大家分享?(也可以包含一些您寫書的小故事。)
      回答:在工作之余能夠?qū)懖┛汀⒅鴷饕獙夹g(shù)的堅持和熱愛。自己平時除了工作時間回到家還得陪家人,用于自己學習的時間并不算多,自己每天在上下班的班車會看自己感興趣的書或者視頻,一天下來大概有一個多小時,在下班后會抽出兩個多小時動手做實驗或者寫博客,當然節(jié)假日會有更多的時間用于學習和寫東西。回顧自己寫博客和寫書的過程,開始的時候和大家一樣都是很痛苦,有時候很多想法寫不出來、有時候空白一片不知如何下筆,這種狀態(tài)下容易分散注意力,很長時間推進不了事情,后來自己用了番茄工作法,按照半個小時為一個單元全神貫注只做一件事情,慢慢就能夠集中精力進入寫作狀態(tài)。


      2,對于剛開始學習Spark框架的開發(fā)者新手,您是否能提供些最佳實踐方式?
      回答:對于Spark新入門的同學,建議多看網(wǎng)上文章和博客,還有就是看Spark相關(guān)的書和視頻,這樣能夠更加系統(tǒng)地學習Spark的知識。學習Spark的同時一定要動手做實驗,也就是"紙上得來終覺淺,絕知此事要躬行"的道理。另外對Spark內(nèi)部運行機制感興趣的同學,可以分析Spark的源代碼,對理解Spark運行原理有很好的幫助。如果個人精力允許平時也可以多參加一些社區(qū)活動、關(guān)注如InfoQ相關(guān)大數(shù)據(jù)的公眾號,可以開拓眼界、了解業(yè)界技術(shù)發(fā)展方向。


      3,目前支持的編程語言有Scala、Java、Python和R,您覺得這些語言相比而言有什么優(yōu)劣?您有什么推薦?并且Spark是用Scala寫的,對于開發(fā)者新手是否有難度?
      回答:Scala是函數(shù)式編程語言,可運行在JVM上,不過Scala語法上有點晦澀,學習門檻較高、編譯效率也較慢;Java是大家比較熟悉語言,使用起來門檻較低,另外Java擁有完善的生態(tài)系統(tǒng),很多大數(shù)據(jù)產(chǎn)品由Java開發(fā)或可以運行在JVM上,在接口能夠得到這些產(chǎn)品的支持,Java最大的痛點在于代碼比較啰嗦,有可能其他語言用幾行能夠?qū)崿F(xiàn)的,Java需要十幾行甚至幾十行才能夠?qū)崿F(xiàn);Python在學術(shù)界較為流行,尤其在自然語言處理(NLP)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域有較多的開源產(chǎn)品可以選擇,在機器學習中Python有后來居上的趨勢,不過由于Python不是大數(shù)據(jù)處理框架的原生語言,在這些大數(shù)據(jù)處理產(chǎn)品的新功能往往不能第一時間支持Python語言;R是開源統(tǒng)計分析、繪圖的語言,利用CRAN資源庫實現(xiàn)豐富的機器學習算法、數(shù)據(jù)測試和分析過程,相對R語言略顯深奧,另外R僅能單機運行(在Spark已經(jīng)打破這個瓶頸,可以使用SparkR實現(xiàn)R分布式運行)。
      大數(shù)據(jù)中使用何種編程語言也是大家比較糾結(jié)的問題,也有比較大的爭議,個人認為使用何用語言需要根據(jù)個人對語言的熟悉程度和使用場景來確定,如果在機器學習中想利用NLP或密集的神經(jīng)網(wǎng)絡(luò)處理則建議使用Python,如果需要對大規(guī)模的數(shù)據(jù)進行統(tǒng)計分析和標繪,那么R語言成為首選,如果想利用現(xiàn)有大數(shù)據(jù)計算產(chǎn)品運行進行通用的處理,那么Java或者Scala更適合選擇。
      雖然自己是Java的深度使用者,但是在開始接觸到Scala時,也還是有點痛苦,相比Java它融合了函數(shù)式和面向?qū)ο缶幊蹋Z法上比較晦澀難懂,對于新手而言Scala有一定難度,如果是深入學習或者應用則建議掌握Scala,畢竟用了它就知道它的好處了。


      4,Spark程序的性能和調(diào)優(yōu)方面,從您的實踐上來看,有哪些值得注意的?
      回答:在不同的應用場景對Spark優(yōu)化關(guān)注不同,自己談一下個人的經(jīng)驗:
      (1)資源調(diào)度:在實際部署的Spark集群資源調(diào)度一般分為粗粒度調(diào)度和細粒度調(diào)度兩種模式。粗粒度包括了獨立運行模式和Mesos粗粒度運行模式,在這種情況下整個機器作為分配單元執(zhí)行作業(yè),該模式優(yōu)點是由于資源長期持有減少了資源調(diào)度的時間開銷,缺點是該模式中無法感知資源使用的變化,易造成系統(tǒng)資源的閑置,從而造成了資源浪費。而細粒度包括了YARN運行模式和Mesos細粒度運行模式,該模式的優(yōu)點是系統(tǒng)資源能夠得到充分利用,缺點是該模式中每個任務(wù)都需要從管理器獲取資源,調(diào)度延遲較大、開銷較大。對于運行的作業(yè)工作量較大、集群共享程度低,建議使用粗粒度運行模式,而對于工作量比較均勻、集群共享程度高,則建議使用細粒度運行模式。
      (2)作業(yè)調(diào)度:對于Spark的作業(yè)目前提供了兩種調(diào)度策略:一種是FIFO模式,這也是目前默認的模式;另一種是FAIR模式,該模式的調(diào)度可以通過參數(shù)的配置來決定作業(yè)執(zhí)行的優(yōu)先模式。FIFO模式比較簡單,但無法根據(jù)作業(yè)的優(yōu)先級和權(quán)重進行分配,這種情況下對于調(diào)度算法也需要根據(jù)作業(yè)工作量和集群共享程度進行設(shè)置,一般認為工作量小或者集群共享程度低則建議使用FIFO模式,反之使用FAIR模式。
      (3)Shuffle:盡可能避免Shuffle,如果不能避免則應該減少Shuffle數(shù)據(jù)的規(guī)模,比如在數(shù)據(jù)處理中包含寬依賴和窄依賴操作,可以通過窄依賴操作把數(shù)據(jù)規(guī)模減下來后再進行寬依賴的操作。另外在Spark中Shuffle分為基于哈希的Shuffle寫操作和基于排序的Shuffle寫操作,基于哈希的Shuffle寫操作在Map和Reduce數(shù)量較大的情況會導致寫文件數(shù)量大和緩存開銷過大的問題,在Spark1.2版本開始默認為Shuffle寫。
      (4)序列化&壓縮:業(yè)界公認大數(shù)據(jù)處理最大的瓶頸在于集群的IO。在Spark中,把數(shù)據(jù)處理過程中的數(shù)據(jù)存在內(nèi)存中,減少磁盤的IO,極大提高處理速度。而對于在網(wǎng)絡(luò)傳輸上建議采用高效的序列化和壓縮算法,這樣能夠大幅度減少數(shù)據(jù)處理時間,比如可以使用Kryo序列化算法,在壓縮算法LZ4提供了壓縮速度和壓縮比俱佳的性能。
      (5)最后需要說的是如果條件允許,把Spark升級到2.0版本,在該版本中通過鎢絲計劃對Spark核心和Spark SQL進行底層優(yōu)化,相比以前的版本有了較大幅度的提升。

      5,能否談?wù)勈褂肧park Streaming庫執(zhí)行實時流數(shù)據(jù)分析的看法?以及流處理和實時處理的定義和區(qū)別?實時處理的重要性有哪些?
      回答:Spark Streaming是Spark核心API的一個擴展,具有延遲低、吞吐量高、容錯能力強的實時流數(shù)據(jù)處理系統(tǒng)。它先接收實時流的數(shù)據(jù)并根據(jù)一定的時間間隔拆分成一批批的數(shù)據(jù),這些批數(shù)據(jù)在Spark內(nèi)核對應一個RDD實例,然后調(diào)用Spark作業(yè)引擎處理這些批數(shù)據(jù),最終得到一批批結(jié)果數(shù)據(jù)。
      個人覺得實時處理強調(diào)的是處理響應程度,需要在很短時間內(nèi)(如毫秒級)對外部的事件進行響應,而流處理則強調(diào)的是數(shù)據(jù)輸入和處理的形態(tài),在這種處理形態(tài)中數(shù)據(jù)源源不斷的輸入,處理系統(tǒng)持續(xù)不斷地進行處理。
      實時處理對于某些場景非常重要,它能夠根據(jù)規(guī)則快速識別并對識別出的風險采取響應的動作,比如京東基于Spark的風控系統(tǒng)對交易的數(shù)據(jù)進行監(jiān)控,攔截惡意訂單、過濾機器秒殺和防止商家刷單等行為。

      6,Spark的機器學習庫提供了豐富的算法,還有哪些其他的開源機器學習庫可以支持Spark?它們各有什么優(yōu)勢?(優(yōu)缺點?如最近的Intel BigDL, Tensorflowonspark等等?)
      回答:個人了解TensorFlow、Caffe、MXNet、Apache Mahout和Intel BigDL等這些主流的開源機器學習庫直接或者間接支持Spark,在Spark中的SparkR能夠分布式地調(diào)用R語言的算法庫,另外由于Spark支持Scala、Java和Python等語言,它可以調(diào)用支持這些語言接口的機器學習庫。
      它們之間的優(yōu)缺點如下:
      (1)TensorFlow可以通過Yahoo TensorFlowOnSpark實現(xiàn)TensorFlow深度學習開源框架與Spark兼容,TensorFlow是可移植的機器學習和神經(jīng)網(wǎng)絡(luò)庫,有良好的執(zhí)行和伸縮性,它支持多種語言、較為豐富的文檔和實例,相對其他學習庫較為成熟,。
      (2)Caffe可以通過Yahoo CaffeOnSpark實現(xiàn)分布式版本,Caffe有強大的圖像分類算法,不過由于Caffe發(fā)展停滯不前,選用需要慎重。
      (3)MXNet是一個可移植的、可伸縮的深度學習庫,支持Python、R、Scala、Julia和C++等語言的API,不過缺乏文檔和實例。
      (4)Apache Mahout是Apache旗下的一個開源項目,計算引擎由之前的MapReduce遷移到Spark,它提供了經(jīng)典的機器學習的算法,是一個可靠、文檔較為翔實的機器學習庫。
      (5)Intel BigDL是運行在Spark上的分布式深度學習庫,它與Spark實現(xiàn)了無縫銜接,用戶可以像編寫Spark程序編寫深度學習應用,并運行在Spark集群中,BigDL庫目前支持Spark的1.5、1.6和2.0版本,不過由于產(chǎn)生時間不長,社區(qū)開放程度有待提高。

      7,Spark現(xiàn)在是一枝獨秀的狀態(tài),那么對Google的Apache Beam您有什么樣的看法?是否會對Spark有沖擊?
      回答:Apache Beam原名Google DataFlow,是Google在2016年2月奉獻給Apache基金會進行孵化,2017年1月畢業(yè)成為Apache的頂級項目。Apache Beam的主要目標是統(tǒng)一批處理和流處理的編程范式,為無限、亂序、web-scale的數(shù)據(jù)集處理提供簡單靈活、功能豐富以及表達能力強大的SDK。直白來說就是Apache Beam就是在大數(shù)據(jù)處理引擎之外加了一層“殼”,這個“殼”定義數(shù)據(jù)處理的相關(guān)標準,在數(shù)據(jù)引擎的選用上可以選用它自己的Google Cloud Platform,也可以選擇Flink、Spark等大數(shù)據(jù)處理產(chǎn)品,Apache Beam的角色類似于以前傳統(tǒng)信息系統(tǒng)中集成平臺。
      個人覺得Apache Beam并沒有直接與Spark競爭,它們的定位不同。Apache Beam是為大數(shù)據(jù)數(shù)據(jù)處理產(chǎn)品提供一個“集成平臺”,而Spark目標是實現(xiàn)的是在一個堆棧中實現(xiàn)批處理、流處理、數(shù)據(jù)查詢、圖處理和機器學習等功能強大的產(chǎn)品。

      8,您將會在大數(shù)據(jù)雜談分享什么樣的主題?(用作預告:))
      回答:本次大數(shù)據(jù)雜談將和京東Y事業(yè)部楊冬越同事做一次主題為《Spark技術(shù)在智能供應鏈的應用》的分享,在該分享首先會介紹京東智能供應鏈并介紹預測在供應鏈中的作用,接著介紹預測系統(tǒng)的業(yè)務(wù)和技術(shù)架構(gòu),再接著介紹系統(tǒng)核心系統(tǒng)并介紹Spark在核心系統(tǒng)中的使用,最后結(jié)合本人所著書《圖解Spark:核心技術(shù)與案例實戰(zhàn)》部分章節(jié)介紹在該系統(tǒng)中的使用。

      回答:在京東購物的同學都有這樣的體驗,如果的是購買京東自營商品,能夠在當天或者第二天就能收到商品,這是由京東強大的供應鏈實現(xiàn)的,本次大數(shù)據(jù)雜談將和京東Y事業(yè)部楊冬越將做一次主題為《Spark技術(shù)在智能供應鏈的應用》的分享,揭開在大數(shù)據(jù)和智能化背景下京東智能供應鏈的內(nèi)幕。在該分享首先會介紹京東智能供應鏈并介紹預測在供應鏈中的作用,接著介紹預測系統(tǒng)的業(yè)務(wù)和技術(shù)架構(gòu),再接著介紹系統(tǒng)核心系統(tǒng)并介紹Spark在核心系統(tǒng)中的使用,最后結(jié)合本人所著書《圖解Spark:核心技術(shù)與案例實戰(zhàn)》部分章節(jié)介紹在該系統(tǒng)中的使用。

       

      該文發(fā)表于2017-02-23 InfoQ的大數(shù)據(jù)雜談公眾號,微信號:BigdataTina2016

      鏈接地址為 http://mp.weixin.qq.com/s/XynuDFaVBl5mZ4r7GWIzrw 

      posted @ 2017-03-27 22:44  shishanyuan  閱讀(3032)  評論(1)    收藏  舉報
      主站蜘蛛池模板: 亚洲中文字幕无码爆乳APP| 日本一卡2卡3卡四卡精品网站| 在线精品视频一区二区三四| 97午夜理论电影影院| 国产精品人妻中文字幕| 成人网站av亚洲国产| 国产四虎永久免费观看| 伊在人间香蕉最新视频| 国产99视频精品免费视频6| 国产精品日韩中文字幕熟女| 老色鬼在线精品视频在线观看| 亚洲精品国产免费av| 久久夜色撩人精品国产小说| 国产玖玖视频| 午夜色大片在线观看免费| 国内在线视频一区二区三区| 91精品国产老熟女在线| 哈巴河县| 国产国产精品人体在线视| 国产无套护士在线观看| 日本毛茸茸的丰满熟妇| 久久99精品久久久大学生| 亚洲国产美国产综合一区| 午夜夜福利一区二区三区| 精品一区二区三区在线播放视频| 顶级欧美熟妇xx| 精品人妻少妇一区二区三区在线| 口爆少妇在线视频免费观看| 国产在线精品一区二区夜色| 成人一区二区不卡国产| 久久精品国产亚洲不av麻豆| 四虎永久精品在线视频| 免费无码AV一区二区波多野结衣| 又大又粗欧美成人网站| 国产精品麻豆中文字幕| 剑川县| 亚洲免费人成网站在线观看| 中文字幕精品人妻av在线| 婷婷久久香蕉五月综合加勒比| 中文天堂资源| 亚洲一二三区精品与老人|