<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Apache Spark 2.2.0新特性介紹(轉載)

      這個版本是 Structured Streaming 的一個重要里程碑,因為其終于可以正式在生產環境中使用,實驗標簽(experimental tag)已經被移除。在流系統中支持對任意狀態進行操作;Apache Kafka 0.10 的 streaming 和 batch API支持讀和寫操作。除了在 SparkR, MLlib 和 GraphX 里面添加新功能外,該版本更多的工作在系統的可用性(usability)、穩定性(stability)以及代碼的潤色(polish)并解決了超過 1100 個tickets。

      這篇文章中將詳細介紹這些新特性,包括:

      • Structured Streaming的生產環境支持已經就緒;
      • 擴展 SQL 的功能;
      • R 中引入了新的分布式機器學習算法;
      • MLlib 和 GraphX 中添加了新的算法

      Structured Streaming

      Structured Streaming 是從 Spark 2.0 開始引入的,其提供了高層次的API來構建流應用程序;目的是提供一種簡單的方式來構建端到端的流應用程序(end-to-end streaming applications),提供了一致性保證和容錯方式。

      從 Spark 2.2.0 開始,Structured Streaming 已經為生產環境的支持準備就緒,除了移除了實驗性標簽,還包括了一些高層次的變化,比如:

      • Kafka Source and Sink: Apache Kafka 0.10 的 streaming 和 batch API支持讀和寫操作;
      • Kafka Improvements: Kafka 到 Kafka 流操作中的producer 支持緩存以實現低延遲;
      • Additional Stateful APIs: [flat]MapGroupsWithState 操作支持復雜的狀態處理以及超時處理;
      • Run Once Triggers:詳情:Running Streaming Jobs Once a Day For 10x Cost Savings

      SQL 和 Core APIs

      自從 Spark 2.0 發布,Spark 已經成為大數據領域中功能最豐富并且符合標準的SQL查詢引擎之一。它可以連接各種數據源,并且可以在這些數據上執行 SQL-2003 標準語句,包括分析函數以及子查詢。Spark 2.2 還添加了許多 SQL 新功能,包括:

      • API 更新: 統一了數據源和hive serde表的 CREATE TABLE 語法;SQL查詢支持廣播提示(broadcast hints )比如BROADCAST, BROADCASTJOIN, 以及 MAPJOIN;
      • 總體性能和穩定性:
        • filter、join、aggregate、project 以及 limit/sample 操作支持基于成本優化器的基數統計(Cost-based optimizer cardinality estimation);
        • 使用星型啟發式(star-schema heuristics)來提升 TPC-DS 性能;
        • CSV 和 JSON 文件 listing/IO 性能提升;
        • HiveUDAFFunction 支持部分集合;
        • 引入基于JVM對象的聚合運算符
      • 其他值得關注的改變:
        • 支持解析多行的JSON 和 CSV 文件
        • 分析分區表的命令

      MLlib 和 SparkR

      Spark 2.2.0 的最后一大變化主要集中在高級分析,MLlib 和 GraphX 添加了以下的新算法:

      • 局部敏感哈希(Locality Sensitive Hashing)
      • 多級邏輯回歸(Multiclass Logistic Regression)
      • 個性化PageRank(Personalized PageRank)

      Spark 2.2.0還在 SparkR 中添加了以下分布式算法:

      • 交替最小二乘(ALS,Alternating Least Squares )
      • 保序回歸(Isotonic Regression)
      • 多層感知分類器(Multilayer Perceptron Classifier)
      • 隨機森林(Random Forest)
      • 高斯混合模型(Gaussian Mixture Model)
      • 線性判別式分析(Linear Discriminant Analysis, LDA)
      • 多級邏輯回歸(Multiclass Logistic Regression)
      • 梯度提升樹(Gradient Boosted Trees)
      • Structured Streaming API 支持 R 語言
      • R 中支持 to_jsonfrom_json
      • 支持Multi-column approxQuantile

      隨著這些算法的增加,SparkR已經成為 R 中最全面的分布式機器學習庫。

       

      該文轉載自 https://www.iteblog.com/archives/2194.html

      英文原文參考 https://databricks.com/blog/2017/07/11/introducing-apache-spark-2-2.html

      posted @ 2018-02-22 10:29  shishanyuan  閱讀(1077)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 黄男女激情一区二区三区| 成人无码精品1区2区3区免费看| 18成禁人视频免费| 亚洲欧洲日产国码久在线| 国产最新精品系列第三页| 狠狠色噜噜狠狠狠狠av不卡| 日韩毛片在线视频x| 国产91久久精品成人看| 色吊丝一区二区中文字幕| 年辖:市辖区| 一区天堂中文最新版在线| 久久日韩在线观看视频| 亚洲AV成人片在线观看| 亚洲国产高清第一第二区| 麻豆国产AV剧情偷闻女邻居内裤| 国产精品免费无遮挡无码永久视频| 亚洲精品一区二区动漫| 成人福利国产午夜AV免费不卡在线 | 精品人妻二区中文字幕| 成人看的污污超级黄网站免费 | 2021精品亚洲中文字幕| 99麻豆久久精品一区二区| 亚洲欧洲精品日韩av| 熟妇人妻系列aⅴ无码专区友真希 亚洲精品喷潮一区二区三区 | 吉川爱美一区二区三区视频| 日韩有码中文在线观看| 日韩精品亚洲专区在线播放| 永久无码天堂网小说区| 国产成人精品1024免费下载| 久久国产精品亚洲精品99| 成人午夜av在线播放| 一卡二卡三卡四卡视频区| 特黄 做受又硬又粗又大视频| 日本精品成人一区二区三区视频 | 亚洲综合天堂一区二区三区| 女女互揉吃奶揉到高潮视频| 国产四虎永久免费观看| 毛片内射久久久一区| 亚洲国产日韩A在线亚洲| 无码激情亚洲一区| 久久青草国产精品一区|