如何評價亞馬遜新推出的 Amazon Machine Learning?

前幾天 Amazon 推出了 AWS | Amazon Machine Learning


這是個很火的創業方向。
基本的想法是"Machine Learning (AI) for everyone".
目標就是讓不是專門搞機器學習的公司也能在他們的數據上用到機器學習技術。

我個人很看好這個方向。市場潛力巨大,盈利模式清晰,門檻也高。
以我的消息閉塞程度就聽說了兩家灣區的start up在做這個。幾個人的規模剛開始就拿了A輪級別的風投。

但是現在AWS來了... 感覺那些start up要好好想想如何競爭了...
前一陣子看到的時候和朋友討論了下,AWS這幾個優勢讓其他競爭對手要很重視:
1,ML功能服務的對象和AWS服務的對象非常吻合。雲端的數據存儲,雲端的service平台,再加上雲端的數據分析。這個生態系統非常完整。而AI start up只有雲端數據分析的樣子。而AWS已經非常成功了,去年的營收相當於大約1/10個Google The Economist Global Business Review 。現在這些已經選擇AWS的企業可以直接無縫對接到AWS machine learning上。

2,亞馬遜本身服務帶來的AWS成本優勢。亞馬遜的服務是典型的高峰期與平時差距巨大的類型。為了黑色星期五準備的巨量計算資源在低峰期對於AWS來說成本幾乎可以忽略。機器閑著也是閑著。對於其他公司來說,就不是這麼回事了。這也是我個人認為AWS和其他雲端服務(包括其他大公司)相比最獨特的優勢。

3,亞馬遜的人力優勢... 大公司畢竟人力成本低,招人容易... 創業公司很難有這麼多質量不錯價格便宜(大霧)的碼農工時... 而做系統,做服務,知道怎麼做是演算法,模型這些事情,有那麼多工時把各個部分做好則是軟體工程了... 後者大公司比小公司還是有一些優勢的.


總之,我很看好這個方向,也覺得亞馬遜來做這個很適合。


唱唱反調。


聽了無數機器學習的故事,好生羨慕那些準確的推薦。似乎有數據就是大數據,只要餵給這個神奇的黑盒子,就指望吃的是草,擠出來是奶。

但事實是,99%的machine learning as a service,吃的是沒清理乾淨的草,拉出來的就只是屎。陸陸續續在公司內部外部見過很多類似的項目,真心好用,有些設計得好的,一行代碼完成機器學習,一個json call就得到一個模型。但最後結果幾乎不外是:


興沖衝去用,哇,真簡單,真好用,

擦,這是什麼鳥結果!

機器學習,渣,一點用也沒有。


機器學習和編程其實一樣。很多人說希望可以一個自動寫程序的程序,這樣普通人只要把需求定義好,這樣就每個人都會編程了。但編程的核心不是用編程語言那段,碼農們這麼多年接受的訓練是如何寫出清晰的邏輯或者偽代碼。這一步其實比大部分人想像中要難。同樣,機器學習的問題在於如何把問題定義清楚,想要什麼結果,從哪些數據裡面看到統計趨勢。我了解的研究裡面,幾乎把問題定義清楚了,基本研究也就做出來了。

機器的技術成熟度也還沒達到web hosting的水平,用aws的使用方法來複制machine learning還太早。machine learning as a service所能處理的項目難度基本都是已經定義得非常完善的問題,而這些問題因為定義完善,所以也不是非機器學習不可,很多規則機制也能跑得很好。過早得把一個不成熟得技術推向市場,反而給市場留下這個技術缺陷的印象。就像AI每隔幾年來一次媒體宣傳,再被人罵幾年,歷史循環。


個人覺得這個項目是以PR為主要目的的,相反真心要做machine learning as a service的startup都是踏踏實實以一個特定的問題切入。


- 有專門跟蹤廣告郵件發送,判斷是否該發廣告郵件。

- 有研究超市庫存問題,是否該進貨了。

- 還有幾個似乎是把machine learning當外包來做,自己開發一整套架構,然後來一個項目套一個項目。想起來這其實和早年專門搞網站模板開發沒什麼區別。

最後Democratizing machine learning是一項非常讓人激動的技術, 但和這個項目沒什麼關係。


看到這個之後,我馬上就登陸我的亞馬遜賬號去體驗了一番,說一下總體的感覺:

1,我用的官方默認的例子;
2,操作非常傻瓜化,只要按照提示點下一步就行;
3,他是按照應用場景劃分的功能,其實參考這篇FAQ:Amazon Machine Learning可以看出目前這個服務僅有標準的回歸模型(可能還有分類),功能還是比較單一的,如果業務正好是它覆蓋的範圍,一定會非常方便的。相信這只是第一步,以後還會有更多的模型加入進來;
4,價格有點小貴,因為他是按照API調用次數計費的,適合小量的業務;

我覺得平台化,服務化是趨勢,亞馬遜走在了世界人民的前面,我很喜歡AWS的服務。


那些專業做這行的就要更細分了,如果它的平台化順利的話


操作很簡單,把預處理過的 training data 按要求組成 csv,直接 upload,然後等 training 結果就好了,使用方法有 batch prediction 和 real time prediction 兩種,按 API call 次數收費。。。
目前只支持 logistic regression 一種 model,上周拿一些 data 玩了下,效果一般,應該是我的 data 的 imbalance 造成的,然後也不能自己設置 cross validation 的參數(可能可以,我還沒仔細看過)。。。
我平時跑 svm 都是開一個 medium computing instance 算兩天的,要是這個能好用的話還是相當好的,不過目前 mode 單一,參數不能自主設置還是表明了這只是一個試水性質的 service。。。


老實說不是特別看好。大家還記得10來年前滿地都是的個人網站製作平台(例如http://jianwangzhan.net,大概是叫這個)的話,就會發現這類操作傻瓜,輸出單一化的東西難以持久生存。10來年前那批個人網站站長後來分化成了兩撥人,一撥人在博客出現後專心寫博,另一撥人學了技術後自己寫了自己的網站。亞馬遜的這個服務也可能吸引到一批不會編程又想試試弄機器學習模型的人,過幾年出現類似的分化是可以預見的。


好像很厲害的東西,不過我怎麼感覺像matlab里的各種工具箱呢=_=,也是直接拿樣本調介面訓練,甚至有gui界面。不必高清演算法原理,也能得到結果。

但這價格只適合來用,不適合放到產品中吧。


個人感覺amazon這次在賣的並不是ML的什麼東西,只是在賣它的計算能力,只不過在目前階段這樣的賣「計算能力」是以運行ML程序為載體的,這也好理解,目前民用範圍內大範圍使用的並需要極大量計算能力的程序多為ML相關的程序。接下來分析這項服務,或者說商品的意義。

首先,對於amazon來說,這個服務的成本並不會太高,API應該是公司內部使用的現有程序修改而來的,而amazon本身應該就是有過剩的計算能力的。所以營收不論多少,都幾乎是純利潤。不過說明一下,目前這項服務只提供logistic regression一個演算法,如果以後amazon自己設計更多演算法,特別是可以按照用戶需求更加個性化的演算法,那麼還是需要一定成本的。

其次,對於一般的個人用戶來說,應該是完全用不到這樣的服務的,就算自己需要跑一些ML程序,個人電腦也就夠了,大不了慢一點,跑個幾天唄(這樣的情況已經很罕見了),況且個人使用的話更多的時候不是數據量特別大,而是演算法上有些創新,那麼購買amazon的服務就會出現靈活度不夠的問題。

對於企業,目前的服務就更加有靈活度不夠的問題,就算只是做一些超大數據的簡單分析,只有一個logistic regression也往往不能滿足需求。但是如果amazon設計出更多演算法,特別是如果能提供很多用於個性化的API,那麼對於部分企業,例如大型連鎖超市,金融機構等,還是有一定實用價值的。


Azure很早之前就開始了。其實問題就像另一位答主提的那樣,統一輸出的ML當應用到大企業上時需要調整,所以訓練staff很重要。對於UX design的人提出了新的要求

註:我沒在Azure工作過,認識那個團隊的人


這個就類似與face++,讓每個想用的人通過付費的方式使用,未來的商業模式啊,厲害


我擦我還以為亞馬遜來做機械和我搶飯碗了呢(╯‵□′)╯︵┻━┻


請問除了在雲端 這東西跟weka有什麼區別呢


這是個無比正確的方向
只是基於我之前使用亞馬遜雲服務的經歷
亞馬遜的東西體驗並不好 而且貴
很可能還會有很多別的software as a service的提供商冒出來


收錢的話不如自己做吶,github上有很多不錯的源碼啊可以參考學習,個人覺得沒啥意思,還是自己動手有成就感。


忒特么貴了!
用scikit吧,免費!


推薦閱讀:

數據科學家 (Data Scientist) 的核心技能是什麼?
機器學習的演算法和普通《演算法導論》里的演算法有什麼本質上的異同?
大數據在電力行業的應用前景有哪些?
大數據一體機的實質是什麼?大數據分析領域這種一體機真的有市場嗎?
如何成為一名數據科學家?

TAG:亞馬遜 (Amazon.com) | Amazon Web Services (AWS) | 機器學習 | 大數據 | 如何看待/評價 X |