評價一下h2o.ai 的開源機器學習平台?

有沒有哪位大神在用過?性能,擴展性及後期發展?


聲明:本人比較技術小白,也還在學習ing。大牛們輕拍~ 本人是H2O.ai員工~

-----------------

據我了解,h2o.ai的主要優勢是:

  • @Luckison Sun 提到的:易上手。不管是用R,Python,Java, Scala, REST都可以直接上手,開始使用,不需要太多的setup。還有一個非代碼界面叫Flow,甚至可以讓不會寫代碼的人很快的開始做模型。
  • @Djvu 提到的:演算法多樣性。H2O有很多明星演算法,Gradient Boosting Machine (GBM),Deep Learning等等。也得利於是開源的,所以可以集眾家所長。(比如,最近H2O已經在集合 mxnet, Google的Tensorflow等)
  • 非常快的大數據平行計算。h2o使用的是in-memory distributed computing。從 training 到 scoring 都是非常快的。像 @Djvu 說的,已有很多benchmark啦。H2O有好多工程師大牛。比如,創始人之一 Cliff Click 是編譯器大牛,是JVM的主要架構師之一。坊間傳言,經常一個周末回來,他就把某個東西從頭到尾重新寫了一遍,然後就又快了一點兒。。。
  • 可以和多種數據介面:HDFS, S3, SQL and NoSQL
  • 可以導出格式統一的POJO,減少把模型重新寫成應用格式的時間

擴展性和長期維護方面,H2O也是很棒棒噠。Open Tour的時候,會有很多大客戶來分享他們的Use Case。如果有興趣,大家可以移步以下,看看其他用戶的大數據實時分析案例:

  • https://www.youtube.com/watch?v=6FPbtd4iLDwlist=PLNtMya54qvOHiqbwvBAFML74HsVyTqsnWindex=14

  • https://www.youtube.com/watch?v=OYThnlcVD9glist=PLNtMya54qvOHiqbwvBAFML74HsVyTqsnWindex=27

在其他同事努力在把h2o變的更快、更快的時候,我們的設計團隊在致力於做數據可視化,希望能把這些複雜的演算法變得更容易理解,更容易使用。:)

如果大家有具體問題,歡迎小窗我~ 就算我回答不了,也可以找坐在旁邊的大牛同事回答。:D

也歡迎大家去h2o的用戶交流群提問/討論: h2oai/h2o-3 - Gitter

Stack Overflow也是好地方, 請用h2o標籤:Newest h2o Questions


github上有一份spark, h2o等系統的benchmark。你可以搜一下看看。

benchmark給出的性能上比spark高一點,內存使用量少不少。

使用介面上仿照dataframe,比spark容易一些。但是發現文檔有些地方有錯誤。當然社區也沒有那麼活躍。

內置的機器學習演算法但是不少,據說比mllib快不少,還有深度學習的演算法。

長期維護性沒有經驗。


做過機器學習的人都知道mahout,mhout的前身是taste,古老而常青的機器學習框架,hadoop生態系統中的一部分,但是taste也就是mahout的創始人,從某一天起,宣布mhout不再接受mapreduce程序,轉而支持spark,現在本人活躍在spark mllib社區。

機器學習目前成立大數據領域的巔峰,但是spark這麼久以來,重心一直放在哪裡?是號稱killer Application的spark sql,spark sql的出現讓其他的資料庫產商感到害怕,有了spark sql,或許目前的mysql、oracle、hbase、mongodb什麼的,都將不復存在。哪怕是設計十分精妙的impala、flink,都因為spark sql的存在,感嘆既生瑜何生亮。

但是大數據時代,最重要的不是互動式查詢的spark sql而是機器學習,spark這麼久了,機器學習上面演算法一直有不足,不說演算法設計上面的缺陷,最基本最經典的推薦演算法的協同過濾演算法都沒有實現,不知道各位有沒有著急???反正我很急。

所以 h2o,結合spark 的產物,sparkling water,提供諸多演算法,彌補spark的不足,當然應該給好評啊。

請spark社區的人,加快機器學習的 進度吧


我覺得界面比較簡單明了啊 比pig hive什麼的簡單多了


H2O.ai提供了一站式自動建模平台DAI(Driverless AI),可以在其官網下載。

官網:https://www.h2o.ai/driverless-ai/

下載地址:https://www.h2o.ai/driverless-ai-download/

由於是商業版軟體,需要購買。目前h2o.ai提供試用期。可以發郵件申請註冊碼,大概一個月左右的試用時間,申請試用,嘗試一下自動建模。

在文檔頁提供了安裝說明:http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/installing.html

在windows環境下要求至少8G內存,其他環境可參照幫助文檔。

其架構在官網描述如下:

實際上DAI平台集成了三部分內容:

1、jupter notebook:適用於對建模熟悉,編程熟悉的人;

2、H2Oflow:適用於熟悉建模的人,快速數據分析;

3、Driverless:適用自動建模。

同時還提供了部分模型的解釋,即圖形化展示模型。

DAI提供的安裝方式是docker鏡像。對其部分代碼的分析,採用的是通過Tornado web架構。關鍵代碼編譯為.so文件。這是對python語言項目常用的一種安全保護。關於如何將python代碼轉換為.so文件,可以參見 python編譯及打包。


現在鏈接不敢隨便點啊


不就是mllib 做了個好看的圖形化wrapper 嗎……

下圖來自你們自己家官網,圖都沒畫對有沒有,深度學習怎麼和隨機森林在一個stack裡面的呢?你要能做出來已經開live收智商稅了好不好?

不要再出來騙投資人錢了好嗎?


推薦閱讀:

TAG:分散式計算 | 數據挖掘 | 機器學習 | 大數據 |