如何看待mahout和milib之間的關係,mahout真的死了么?

一方面mahout裡面的庫我感覺還是比較成熟的,雖然mapreduce已經逐漸顯現出頹勢,可是我感覺spark也不是能夠完全取代它呀,那為什麼apache宣布不支持用mr提交演算法了呢。。。。。在網上查了很久都沒有答案,只能求助於萬能的知乎了。。。


謝邀,其實我沒有資格回答這個問題,因為到目前為止,我沒有用過Mahout,只用過Spark Mllib和R裡面的模型。為了回答這個問題,我找到了Quora裡面類似的討論, 挺有意思的,可以和大家分享一下。

首先,傳統的Mahout是提供的是Java的API,用戶應用會編譯成MapReduce的job,運行在MapReduce的框架上。從現在看來,這種方式開發效率低,運行速度慢,已經過時了。

那麼是不是可以說Mahout肯定會被Spark取代呢?非也。Mahout社區也在憋大招。

著眼於計算平台

在Mahout的開發者看來,Mllib各種演算法像一個黑盒子,只有少量參數可以調整,也許用起來很簡單,但是很多時候並不能滿足不同用戶的需要。未來的Mahout的目標是機器學習平台,它將提供類似R和Scala的DSL,支持類似分散式向量計算,大數據統計等基本功能,讓用戶可以很方便的將演算法轉化為代碼。

支持多種後端

另外,未來的Mahout將支持多種後端,spark是一種,也許還有Flink。

具體可以參考這幾篇文章

1. Weathering Thru Tech Days: Mahout 0.10.x: first Mahout release as a programming environment

2. What are the differences between Apache Mahout and Spark MLlib?

下面是未來Mahout的架構圖。


mahout數學家整出來就是做機器學習的,spark要弄的話只能說是完善,怎麼可能取代Hadoop呢,你不要想太多,習得原理即可啊


推薦閱讀:

天池大數據競賽和Kaggle、DataCastle的比較,哪個比較好?
用R語言的公司多嗎?
SVD 降維體現在什麼地方?
随机梯度下降是坐标下降的一种?
國內真正的大數據分析產品有哪些呢?只求乾貨爆料,不要廣告商!

TAG:數據挖掘 | 機器學習 | Hadoop | Apache | Spark |