之前Mahout或者自己寫的MR來解決復雜的機器學習,導致效率低,Spark特別適合迭代式的計算,這正是機器學習算法訓練所需要的,MLlib是基于spark之上算法組件,基于spark平臺來實現。
主要的機器學習的算法目前在MLlib中都已經提供了,分類回歸、聚類、關聯規則、推薦、降維、優化、特征抽取篩選、用于特征預處理的數理統計方法、以及算法的評測。
以上是目前spark1.3支持的算法包,相比較之前的版本增加了新的算法,主題模型LDA,高斯混合模型GMM,FP-Growth關聯規則等,當然還有其他一些算法性能方面的提升等等。
浙公網安備 33010602011771號