《圖解Spark：核心技術(shù)與案例實戰(zhàn)》作者經(jīng)驗談

1，看您有維護博客，還利用業(yè)余時間著書，在技術(shù)輸出、自我提升以及本職工作的時間利用上您有沒有什么心得和大家分享？（也可以包含一些您寫書的小故事。）
回答：在工作之余能夠?qū)懖┛汀⒅鴷饕獙夹g(shù)的堅持和熱愛。自己平時除了工作時間回到家還得陪家人，用于自己學習的時間并不算多，自己每天在上下班的班車會看自己感興趣的書或者視頻，一天下來大概有一個多小時，在下班后會抽出兩個多小時動手做實驗或者寫博客，當然節(jié)假日會有更多的時間用于學習和寫東西。回顧自己寫博客和寫書的過程，開始的時候和大家一樣都是很痛苦，有時候很多想法寫不出來、有時候空白一片不知如何下筆，這種狀態(tài)下容易分散注意力，很長時間推進不了事情，后來自己用了番茄工作法，按照半個小時為一個單元全神貫注只做一件事情，慢慢就能夠集中精力進入寫作狀態(tài)。

2，對于剛開始學習Spark框架的開發(fā)者新手，您是否能提供些最佳實踐方式？
回答：對于Spark新入門的同學，建議多看網(wǎng)上文章和博客，還有就是看Spark相關(guān)的書和視頻，這樣能夠更加系統(tǒng)地學習Spark的知識。學習Spark的同時一定要動手做實驗，也就是"紙上得來終覺淺，絕知此事要躬行"的道理。另外對Spark內(nèi)部運行機制感興趣的同學，可以分析Spark的源代碼，對理解Spark運行原理有很好的幫助。如果個人精力允許平時也可以多參加一些社區(qū)活動、關(guān)注如InfoQ相關(guān)大數(shù)據(jù)的公眾號，可以開拓眼界、了解業(yè)界技術(shù)發(fā)展方向。

3，目前支持的編程語言有Scala、Java、Python和R，您覺得這些語言相比而言有什么優(yōu)劣？您有什么推薦？并且Spark是用Scala寫的，對于開發(fā)者新手是否有難度？
回答：Scala是函數(shù)式編程語言，可運行在JVM上，不過Scala語法上有點晦澀，學習門檻較高、編譯效率也較慢；Java是大家比較熟悉語言，使用起來門檻較低，另外Java擁有完善的生態(tài)系統(tǒng)，很多大數(shù)據(jù)產(chǎn)品由Java開發(fā)或可以運行在JVM上，在接口能夠得到這些產(chǎn)品的支持，Java最大的痛點在于代碼比較啰嗦，有可能其他語言用幾行能夠?qū)崿F(xiàn)的，Java需要十幾行甚至幾十行才能夠?qū)崿F(xiàn)；Python在學術(shù)界較為流行，尤其在自然語言處理(NLP)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域有較多的開源產(chǎn)品可以選擇，在機器學習中Python有后來居上的趨勢，不過由于Python不是大數(shù)據(jù)處理框架的原生語言，在這些大數(shù)據(jù)處理產(chǎn)品的新功能往往不能第一時間支持Python語言；R是開源統(tǒng)計分析、繪圖的語言，利用CRAN資源庫實現(xiàn)豐富的機器學習算法、數(shù)據(jù)測試和分析過程，相對R語言略顯深奧，另外R僅能單機運行（在Spark已經(jīng)打破這個瓶頸，可以使用SparkR實現(xiàn)R分布式運行）。
大數(shù)據(jù)中使用何種編程語言也是大家比較糾結(jié)的問題，也有比較大的爭議，個人認為使用何用語言需要根據(jù)個人對語言的熟悉程度和使用場景來確定，如果在機器學習中想利用NLP或密集的神經(jīng)網(wǎng)絡(luò)處理則建議使用Python，如果需要對大規(guī)模的數(shù)據(jù)進行統(tǒng)計分析和標繪，那么R語言成為首選，如果想利用現(xiàn)有大數(shù)據(jù)計算產(chǎn)品運行進行通用的處理，那么Java或者Scala更適合選擇。
雖然自己是Java的深度使用者，但是在開始接觸到Scala時，也還是有點痛苦，相比Java它融合了函數(shù)式和面向?qū)ο缶幊蹋Z法上比較晦澀難懂，對于新手而言Scala有一定難度，如果是深入學習或者應用則建議掌握Scala，畢竟用了它就知道它的好處了。

4，Spark程序的性能和調(diào)優(yōu)方面，從您的實踐上來看，有哪些值得注意的？
回答：在不同的應用場景對Spark優(yōu)化關(guān)注不同，自己談一下個人的經(jīng)驗：
（1）資源調(diào)度：在實際部署的Spark集群資源調(diào)度一般分為粗粒度調(diào)度和細粒度調(diào)度兩種模式。粗粒度包括了獨立運行模式和Mesos粗粒度運行模式，在這種情況下整個機器作為分配單元執(zhí)行作業(yè)，該模式優(yōu)點是由于資源長期持有減少了資源調(diào)度的時間開銷，缺點是該模式中無法感知資源使用的變化，易造成系統(tǒng)資源的閑置，從而造成了資源浪費。而細粒度包括了YARN運行模式和Mesos細粒度運行模式,該模式的優(yōu)點是系統(tǒng)資源能夠得到充分利用，缺點是該模式中每個任務(wù)都需要從管理器獲取資源，調(diào)度延遲較大、開銷較大。對于運行的作業(yè)工作量較大、集群共享程度低，建議使用粗粒度運行模式，而對于工作量比較均勻、集群共享程度高，則建議使用細粒度運行模式。
（2）作業(yè)調(diào)度：對于Spark的作業(yè)目前提供了兩種調(diào)度策略：一種是FIFO模式，這也是目前默認的模式；另一種是FAIR模式，該模式的調(diào)度可以通過參數(shù)的配置來決定作業(yè)執(zhí)行的優(yōu)先模式。FIFO模式比較簡單，但無法根據(jù)作業(yè)的優(yōu)先級和權(quán)重進行分配，這種情況下對于調(diào)度算法也需要根據(jù)作業(yè)工作量和集群共享程度進行設(shè)置，一般認為工作量小或者集群共享程度低則建議使用FIFO模式，反之使用FAIR模式。
（3）Shuffle：盡可能避免Shuffle，如果不能避免則應該減少Shuffle數(shù)據(jù)的規(guī)模，比如在數(shù)據(jù)處理中包含寬依賴和窄依賴操作，可以通過窄依賴操作把數(shù)據(jù)規(guī)模減下來后再進行寬依賴的操作。另外在Spark中Shuffle分為基于哈希的Shuffle寫操作和基于排序的Shuffle寫操作，基于哈希的Shuffle寫操作在Map和Reduce數(shù)量較大的情況會導致寫文件數(shù)量大和緩存開銷過大的問題，在Spark1.2版本開始默認為Shuffle寫。
（4）序列化&壓縮：業(yè)界公認大數(shù)據(jù)處理最大的瓶頸在于集群的IO。在Spark中，把數(shù)據(jù)處理過程中的數(shù)據(jù)存在內(nèi)存中，減少磁盤的IO，極大提高處理速度。而對于在網(wǎng)絡(luò)傳輸上建議采用高效的序列化和壓縮算法，這樣能夠大幅度減少數(shù)據(jù)處理時間，比如可以使用Kryo序列化算法，在壓縮算法LZ4提供了壓縮速度和壓縮比俱佳的性能。
（5）最后需要說的是如果條件允許，把Spark升級到2.0版本，在該版本中通過鎢絲計劃對Spark核心和Spark SQL進行底層優(yōu)化，相比以前的版本有了較大幅度的提升。

5，能否談?wù)勈褂肧park Streaming庫執(zhí)行實時流數(shù)據(jù)分析的看法？以及流處理和實時處理的定義和區(qū)別？實時處理的重要性有哪些？
回答：Spark Streaming是Spark核心API的一個擴展，具有延遲低、吞吐量高、容錯能力強的實時流數(shù)據(jù)處理系統(tǒng)。它先接收實時流的數(shù)據(jù)并根據(jù)一定的時間間隔拆分成一批批的數(shù)據(jù)，這些批數(shù)據(jù)在Spark內(nèi)核對應一個RDD實例，然后調(diào)用Spark作業(yè)引擎處理這些批數(shù)據(jù)，最終得到一批批結(jié)果數(shù)據(jù)。
個人覺得實時處理強調(diào)的是處理響應程度，需要在很短時間內(nèi)（如毫秒級）對外部的事件進行響應，而流處理則強調(diào)的是數(shù)據(jù)輸入和處理的形態(tài)，在這種處理形態(tài)中數(shù)據(jù)源源不斷的輸入，處理系統(tǒng)持續(xù)不斷地進行處理。
實時處理對于某些場景非常重要，它能夠根據(jù)規(guī)則快速識別并對識別出的風險采取響應的動作，比如京東基于Spark的風控系統(tǒng)對交易的數(shù)據(jù)進行監(jiān)控，攔截惡意訂單、過濾機器秒殺和防止商家刷單等行為。

6，Spark的機器學習庫提供了豐富的算法，還有哪些其他的開源機器學習庫可以支持Spark？它們各有什么優(yōu)勢？（優(yōu)缺點？如最近的Intel BigDL, Tensorflowonspark等等？）
回答：個人了解TensorFlow、Caffe、MXNet、Apache Mahout和Intel BigDL等這些主流的開源機器學習庫直接或者間接支持Spark，在Spark中的SparkR能夠分布式地調(diào)用R語言的算法庫，另外由于Spark支持Scala、Java和Python等語言，它可以調(diào)用支持這些語言接口的機器學習庫。
它們之間的優(yōu)缺點如下：
（1）TensorFlow可以通過Yahoo TensorFlowOnSpark實現(xiàn)TensorFlow深度學習開源框架與Spark兼容，TensorFlow是可移植的機器學習和神經(jīng)網(wǎng)絡(luò)庫，有良好的執(zhí)行和伸縮性，它支持多種語言、較為豐富的文檔和實例，相對其他學習庫較為成熟，。
（2）Caffe可以通過Yahoo CaffeOnSpark實現(xiàn)分布式版本，Caffe有強大的圖像分類算法，不過由于Caffe發(fā)展停滯不前，選用需要慎重。
（3）MXNet是一個可移植的、可伸縮的深度學習庫，支持Python、R、Scala、Julia和C++等語言的API，不過缺乏文檔和實例。
（4）Apache Mahout是Apache旗下的一個開源項目，計算引擎由之前的MapReduce遷移到Spark，它提供了經(jīng)典的機器學習的算法，是一個可靠、文檔較為翔實的機器學習庫。
（5）Intel BigDL是運行在Spark上的分布式深度學習庫，它與Spark實現(xiàn)了無縫銜接，用戶可以像編寫Spark程序編寫深度學習應用，并運行在Spark集群中，BigDL庫目前支持Spark的1.5、1.6和2.0版本，不過由于產(chǎn)生時間不長，社區(qū)開放程度有待提高。

7，Spark現(xiàn)在是一枝獨秀的狀態(tài)，那么對Google的Apache Beam您有什么樣的看法？是否會對Spark有沖擊？
回答：Apache Beam原名Google DataFlow，是Google在2016年2月奉獻給Apache基金會進行孵化，2017年1月畢業(yè)成為Apache的頂級項目。Apache Beam的主要目標是統(tǒng)一批處理和流處理的編程范式，為無限、亂序、web-scale的數(shù)據(jù)集處理提供簡單靈活、功能豐富以及表達能力強大的SDK。直白來說就是Apache Beam就是在大數(shù)據(jù)處理引擎之外加了一層“殼”，這個“殼”定義數(shù)據(jù)處理的相關(guān)標準，在數(shù)據(jù)引擎的選用上可以選用它自己的Google Cloud Platform，也可以選擇Flink、Spark等大數(shù)據(jù)處理產(chǎn)品，Apache Beam的角色類似于以前傳統(tǒng)信息系統(tǒng)中集成平臺。
個人覺得Apache Beam并沒有直接與Spark競爭，它們的定位不同。Apache Beam是為大數(shù)據(jù)數(shù)據(jù)處理產(chǎn)品提供一個“集成平臺”，而Spark目標是實現(xiàn)的是在一個堆棧中實現(xiàn)批處理、流處理、數(shù)據(jù)查詢、圖處理和機器學習等功能強大的產(chǎn)品。

8，您將會在大數(shù)據(jù)雜談分享什么樣的主題？（用作預告：））
回答：本次大數(shù)據(jù)雜談將和京東Y事業(yè)部楊冬越同事做一次主題為《Spark技術(shù)在智能供應鏈的應用》的分享，在該分享首先會介紹京東智能供應鏈并介紹預測在供應鏈中的作用，接著介紹預測系統(tǒng)的業(yè)務(wù)和技術(shù)架構(gòu)，再接著介紹系統(tǒng)核心系統(tǒng)并介紹Spark在核心系統(tǒng)中的使用,最后結(jié)合本人所著書《圖解Spark：核心技術(shù)與案例實戰(zhàn)》部分章節(jié)介紹在該系統(tǒng)中的使用。

回答：在京東購物的同學都有這樣的體驗，如果的是購買京東自營商品，能夠在當天或者第二天就能收到商品，這是由京東強大的供應鏈實現(xiàn)的，本次大數(shù)據(jù)雜談將和京東Y事業(yè)部楊冬越將做一次主題為《Spark技術(shù)在智能供應鏈的應用》的分享，揭開在大數(shù)據(jù)和智能化背景下京東智能供應鏈的內(nèi)幕。在該分享首先會介紹京東智能供應鏈并介紹預測在供應鏈中的作用，接著介紹預測系統(tǒng)的業(yè)務(wù)和技術(shù)架構(gòu)，再接著介紹系統(tǒng)核心系統(tǒng)并介紹Spark在核心系統(tǒng)中的使用,最后結(jié)合本人所著書《圖解Spark：核心技術(shù)與案例實戰(zhàn)》部分章節(jié)介紹在該系統(tǒng)中的使用。

該文發(fā)表于2017-02-23 InfoQ的大數(shù)據(jù)雜談公眾號，微信號：BigdataTina2016

鏈接地址為 http://mp.weixin.qq.com/s/XynuDFaVBl5mZ4r7GWIzrw

posted @ 2017-03-27 22:44 shishanyuan 閱讀(3032) 評論(1) 收藏舉報

刷新頁面返回頂部

石山園

《圖解Spark：核心技術(shù)與案例實戰(zhàn)》作者經(jīng)驗談

公告