<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      新版本來襲:Apache Spark 1.5新特性介紹

      Apache Spark社區201599日發布了1.5版本,該版本由230+開發人員和80+機構參與,修復了1400多個補丁,該版本可以通過 http://spark.apache.org/downloads.html進行下載。Spark1.5中最主要的修改內容是為了提升Spark性能、可用性和操作穩定性,特別在該版本中引入了Project Tungsten(鎢絲項目),該項目通過對幾個底層框架構建的優化進一步Spark性能。另外在該版本中添加了Streaming組件、機器學習算法和新的SparkR接口等。具體內容如下:

      性能提升與Project Tungsten(鎢絲項目)

      1.5這個開發周期內最大的變化就是Tungsten項目的第一階段已經完成,并且在Spark1.5版本中正式加入了主要功能。該功能是由Spark自己來管理內存而不是使用JVM,這樣可以避免JVM GC帶來的性能損失。內存中的Java對象被存儲成Spark自己的二進制格式,計算直接發生在二進制格式上,省去了序列化和反序列化時間。同時這種格式也更加緊湊,節省內存空間,而且能更好的估計數據量大小和內存使用情況。

      以下圖表給出了性能提升直觀的印象,在默認配置情況下,對比測試了spark1.4Spark1.5在處理小規模和大規模數據量性能表現:
      clip_image002

      External Data Source方面,Parquet的支持有了很大的加強。Parquet的版本升級到1.7;更快的metadata discoveryschema merging;同時能夠讀取其他工具或者庫生成的非標準合法的parquet文件;以及更快更魯棒的動態分區插入。

       

      可用性和互操作性

      Spark1.5增加了在UI界面中查看SQLDataFrame查詢計劃,能夠根據不同的操作和運行時的內存使用顯示不同的查詢計劃,以下圖為通過UI界面顯示查詢計劃:

      clip_image004

      另外Spark1.5加入了其他的易用組件,在Hive模塊最大的變化是支持連接Hive 1.2版本的metastore,同時支持metastore partition pruning(通過spark.sql.hive.metastorePartitionPruning=true開啟,默認為false)。因為很多公司的Hive集群都升級到了1.2以上,那么這個改進對于需要訪問Hive元數據的Spark集群來說非常重要。Spark 1.5支持可以連接Hive 0.13, 0.14, 1.0/0.14.1, 1.1, 1.2metastore

      機器學習MLlib

      MLlib最大的變化就是從一個機器學習的library開始轉向構建一個機器學習工作流的系統,這些變化發生在ML包里面。MLlib模塊下現在有兩個包:MLlibMLML把整個機器學習的過程抽象成Pipeline,一個Pipeline是由多個Stage組成,每個StageTransformer或者Estimator

      以前機器學習工程師要花費大量時間在training model之前的feature的抽取、轉換等準備工作。ML提供了多個Transformer,極大提高了這些工作的效率。在1.5版本之后,已經有了25+feature transformer,其中CountVectorizer, Discrete Cosine Transformation, MinMaxScaler, NGram, PCA, RFormula, StopWordsRemover, and VectorSlicer這些feature transformer都是1.5版本新添加的,做機器學習的朋友可以看看哪些滿足你的需求。

      這里面的一個亮點就是RFormula的支持,目標是使用戶可以把原來用R寫的機器學習程序(目前只支持GLM算法)不用修改直接搬到Spark平臺上來執行。不過目前只支持集中簡單的R公式(包括'.', '~', '+' '-'),社區在接下來的版本中會增強這項功能。

      另外越來越多的算法也作為Estimator搬到了ML下面,在1.5版本中新搬過來的有Naive Bayes, K-means, Isotonic Regression等。大家不要以為只是簡單的在ML下面提供一個調用相應算法的API,這里面變換還是挺多的。例如Naive Bayes原來的模型分別用Array[Double>Array[Array[Double]]來存儲pitheta,而在ML下面新的API里面使用的是VectorMatrix來存儲。從這也可以看出,新的ML框架下所有的數據源都是基于DataFrame,所有的模型也盡量都基于Spark的數據類型表示。在ML里面的public API下基本上看不到對RDD的直接操作了,這也與Tungsten項目的設計目標是一致的。

      除了這些既有的算法在ML API下的實現,ML里面也增加了幾個新算法:

      lMultilayerPerceptronClassifier(MLPC) 這是一個基于前饋神經網絡的分類器,它是一種在輸入層與輸出層之間含有一層或多層隱含結點的具有正向傳播機制的神經網絡模型,中間的節點使用sigmoid (logistic)函數,輸出層的節點使用softmax函數。輸出層的節點的數目表示分類器有幾類。MLPC學習過程中使用BP算法,優化問題抽象成logistic loss function并使用L-BFGS進行優化。

      lMLlib包里面增加了一個頻繁項挖掘算法PrefixSpanAssociationRules能夠把FreqItemset生成關聯式規則。

      lMLlib的統計包里面實現了KolmogorovSmirnov檢驗,用以檢驗兩個經驗分布是否不同或一個經驗分布與另一個理想分布是否不同。

      l另外還有一些現有算法的增強:LDA算法,決策樹和ensemble算法,GMM算法。

      lML里面的多個分類模型現在都支持預測結果的概率而不像過去只支持預測結果,像LogisticRegressionModel, NaiveBayesModel, DecisionTreeClassificationModel, RandomForestClassificationModel, GBTClassificationModel等,分別使用predictRaw, predictProbability, predict分別可以得到原始預測、概率預測和最后的分類預測。同時這些分類模型也支持通過設置thresholds指定各個類的閾值。

      lRandomForestClassificationModelRandomForestRegressionModel模型都支持輸出feature importance

      lGMM EM算法實現了當feature維度或者cluster數目比較大的時候的分布式矩陣求逆計算。實驗表明當feature維度>30cluster數目>10的時候,這個優化性能提升明顯。

      l對于LinearRegressionModelLogisticRegressionModel實現了LinearRegressionTrainingSummaryLogisticRegressionTrainingSummary用來記錄模型訓練過程中的一些統計指標。

      1.5版本的Python API也在不斷加強,越來越多的算法和功能的Python API基本上與Scala API對等了。此外在tuningevaluator上也有增強。

      其它

      1.5開始,Standalone, YARNMesos三種部署方式全部支持了動態資源分配。

      SparkR支持運行在YARN集群上,同時DataFrame的函數也提供了一些R風格的別名,可以降低熟悉R的用戶的遷移成本。

      posted @ 2015-09-15 16:58  shishanyuan  閱讀(3203)  評論(3)    收藏  舉報
      主站蜘蛛池模板: 国产精品中文字幕第一区| 暖暖影院日本高清...免费| 欧美不卡无线在线一二三区观| 午夜福利偷拍国语对白| av午夜福利亚洲精品福利| 中文字幕波多野不卡一区| 久久午夜无码鲁丝片直播午夜精品| 精品国产中文字幕av| 97人妻精品一区二区三区| 亚洲AV无码破坏版在线观看| 亚洲熟妇乱色一区二区三区| 久久亚洲国产成人亚| 亚洲精品国产自在现线最新| 亚洲一区二区av免费| 国产精品久久久国产盗摄| 人人爽亚洲aⅴ人人爽av人人片 | 亚洲中文字幕无码爆乳| 99re6这里有精品热视频| 亚洲性一交一乱一伦视频| 天堂网国产| 欧美成人午夜在线观看视频| 久青草精品视频在线观看| 精品欧美一区二区三区久久久| 国内精品久久久久影院网站| 高级艳妇交换俱乐部小说| 高潮videossex潮喷| 久久一区二区中文字幕| 青草热在线观看精品视频| 在线A级毛片无码免费真人| 国产明星精品无码AV换脸| 国产裸体永久免费无遮挡| 欧美熟妇乱子伦XX视频| 午夜毛片不卡免费观看视频| 国产肥妇一区二区熟女精品| 精品国产成人a在线观看 | 欧洲免费一区二区三区视频| 国产国拍亚洲精品永久软件| 老师破女学生处特级毛ooo片| 亚洲中文字幕伊人久久无码| 久久影院午夜伦手机不四虎卡| 人妻中文字幕不卡精品|