如何評價谷歌剛推出的Cloud AutoML?

http://mp.weixin.qq.com/s/dIpPNvsOpXL4JKOtxmFZrA

圖片來源:量子位


這件事再一次說明:轉行人工智慧的門檻在升高,切忌對崗位需求估計盲目樂觀。

和很多答主提到的一樣,不少巨頭早就有了類似的服務/平台,微軟亞麻無一例外。這個過程我是深有體會的,講講我看到故事。

第一次聽說微軟的cognitive service是16年6月,我們公司因為是有合作關係所以可以搶先試用(preview)一些服務。那個時候,我們公司對計算機一知半解的諮詢師已經可以調用API做一些簡單的工作了。後來和其他部門的同事閑聊中才發現,越來越多的軟體都開始集成學習模塊,比如財務工作者常用的Alteryx。

回到15年的時候,我們學校有一門課程「機器學習在醫療領域的應用」,面向的學生是醫學院和公共衛生學員的學員,都沒有受過專業的編程訓練。課程的結課項目是利用機器學習來對一個極端不平衡的醫療數據集進行預測,最終老師根據大家測試集上的ROC評分。而課堂指定使用平台就是微軟的Azure Machine Learning Studio,一個免費的一站式拖拽式機器學習平台。使用這個平台,不需要任何代碼,只要上傳數據,選擇模型和評估方法即可。不僅能做分類,聚類、文本分析、異常檢測都可以做。16年底我再看這個平台時,甚至都支持了自定義python工具庫並結合自己的代碼。就像下圖一樣,鏈接數據和模塊即可,無需任何代碼。

圖片來源:https://www.youtube.com/watch?v=knFLC4CKajM

時間再回到17年,越來越多的「傻瓜式機器學習平台」四處開花,大幅度的降低了機器學習的使用門檻。我們公司開始和一個叫做DataRobot的公司合作,他們免費替我們培訓機器學習諮詢師,我們使用他們的平台為客戶做機器學習項目。

這一切都說明了,機器學習平台化最終其實降低了行業的准入門檻,但提高了對於個人職業門檻。隨著大公司在AI上的加大投入,平台只會越來越厲害和智能,調參效果也更好。我的觀點是:調參大師(專業人士)&> 自動調參(軟體平台)= 調參俠 &> 調包俠。一個厲害的平台可以約等於中流的調參師,雖然無法做到最好,但遠好於機器學習小白的碰運氣調參。不僅如此,這樣的平台往往免費或者價格很低,這進一步壓縮了基礎調參的需求。

因此,請把這件事當做一個警鐘,時刻保持對別人忽悠你轉行機器學習的警惕。尤其要提防的是承諾包分配、速成機器學習、不需要數學只教調包、立馬高薪走上人生巔峰的培訓班。雖然整個行業的需求是在上升的,但並不需要那麼多一知半解被高薪願景忽悠進來的人,因為我們的水平連機器都比不上。而機器學習平台只會越來越智能,操作也會越來越簡單,我們的能力成長速度還不一定可以超過平台模型的提高速度。

因此請捂好自己的錢包,謹防各種不靠譜的智商稅。如果可以,用省下來的錢給自己的煎餅果子多加一根火腿腸,這不失為嚴嚴冬日中最後一絲溫暖 :)


拓展閱讀:「轉行人工智慧」是否前景一片光明?

阿薩姆:機器學習如何才能避免「只是調參數」?


沒什麼好評價的。微軟一樣的服務(不用寫代碼,不用調參數,會拖控制項就能幫你訓練深度學習模型)已經發布快一年了。

網站:https://www.customvision.ai/

新聞報道:https://thenextweb.com/dd/2017/05/10/microsofts-custom-vision-lets-build-computer-vision-ai-models-minutes/

真是心疼微軟pr部門。我作為一個軟狗到今天才知道custom vision這個東西。。google那邊發布會都沒開,就發了倆twitter媒體就轟動了。高下立判,高下立判啊!


超一流的廣告公司。


微軟挺早發布Custom Vision。

功能可以做到:新建project,上傳圖片,手動加標籤,大於兩個標籤且每個標籤下面大於五張圖,訓練,(出模型),就能對測試集Quick Test。

免費。

現在可用。

不用一行代碼。

圖片不是很複雜時準確率還是很樂觀的。

emmmmmm...

可惜沒人關注...


P.S. 兩個都像是提供ML服務順便騙數據來的,想想全世界的人每個人都上傳10張圖,然後手動加label...手握著海量數據還不是想怎麼玩怎麼玩...


不是一個特別新穎的玩意(比如樓上grapeot和匿名兄的回答,不是只有谷歌有這個技術),但是有創新的地方。

關於這個東東還是要看其技術原理,發布說的很清楚,基於兩個技術:

1、遷移學習(transfer learning)運用一種神經網路,處理其他相似任務,比如一個訓練的差不多的CNN,可以識別貓也可以稍加再次訓練識別紅綠燈,這個需要模型+數據都很強大的大公司來玩轉,百度和騰訊之類的AI平台應該都有用。

2、神經架構搜索,這個就比較有趣了。之前的AutoML用的是增強學習(迭代)+RNN生成的方法,實際上針對的是CNN的網路結構,用深度學習調參來訓練確定網路構架:

如何看待Google的AutoML 已經學會自己編寫機器學習代碼?大家可以參見這個圖

使用循環神經網路生成模型描述

使用控制器生成神經網路架構的超參數,為了靈活性,控制器選擇為循環神經網路。下圖為預測只具有卷積層的前饋神經網路,控制器將生成的超參數看作一系列符號。

在實驗中,如果網路的層數超過一定值,則生成架構會停止。該值遵循一定的策略,並隨著訓練過程增加。一旦控制器RNN完成了架構的生成,就開始構建並訓練具有該架構的神經網路。在網路收斂之後,記錄網路在驗證集中的準確率,並對控制器RNN的參數進行優化,以使控制器所提出的架構的預期驗證準確率最大化。

使用強化學習進行訓練

控制器預測的模型描述可以被看作設計子網路的一系列action。在訓練子網路收斂之後,該子網路會在保留數據集上得到一個準確度R。使用準確度R作為reward信號,並使用強化學習訓練控制器。

還為構建神經網路發愁?谷歌大腦的自動架構搜索簡直如虎添翼 | ICLR 2017www.leiphone.com圖標

原論文:Neural Architecture Search with Reinforcement Learning,簡單的說,把結構參數(n,w,h,s,n,w,s,h,.....)排成一列,用RNN來訓練真的很有創意,無怪乎獲得各位專家一致通過O(∩_∩)O

而這次的AutoML用的是神經網路搜索,(論文也是出自李飛飛老師學生之手),簡要的說有點類似於決策樹,從簡單單元開始,逐步堆疊網路結構——實際上用的是蒙特卡洛搜索的思想

我們的方法類似於 A* 演算法(也被稱為分支限界法),其中我們從簡單到複雜搜索模型空間,並在前進過程中剪枝處理掉沒有前途的模型。這些模型(單元)按照它們所包含的模塊的數量進行排序。我們從考量帶有一個模塊的單元開始。我們評估這些單元(通過訓練它們並在一個驗證集上計算它們的損失),然後使用觀察得到的獎勵來訓練一個基於 RNN 的啟發式函數(也被稱為代理函數),其可以預測任何模型的獎勵。我們可以使用這個學習到的啟發式函數來決定應該評估哪些帶有 2 個模塊的單元。在對它們進行了評估之後,我們再對這個啟發式函數進行更新。重複這一過程,直到我們找到帶有所想要的模塊數量的優良單元。

我們的漸進式(從簡單到複雜)方法有一些優點。首先,簡單模型的訓練速度更快,所以我們可以快速得到一些用於訓練該代理函數的初始結果。第二,我們僅要求該代理函數預測模型的質量,而這些模型與它之前已經見過的模型僅有少許不同(參考信賴域方法(trust-region method))。第三,我們將搜索空間分解成了更小的搜索空間的積。

學界| 谷歌雲提出漸進式神經架構搜索:高效搜索高質量CNN結構baijiahao.baidu.com圖標

原論文:Progressive Neural Architecture Search,原理上簡單粗暴,雖沒有舊版本那樣構思巧妙效果更好。

OK,這樣我們就可以看出,實質上這兩種方法,都是針對某一種神經網路的超參調整(如果我們把CNN的結構(例如卷積長寬,步數)看做一列超參的話),但是方法非常巧妙,這種由簡單到複雜的堆疊生成方式當然也適用於RNN結構的網路,CNN的這一特徵尤為顯著,這也就是為什麼一開始發布的是AutoML Vision版本,專門生成圖像識別網路。至於語音識別,增強學習之類的任務,還需要拭目以待。

從原理上來說,AutoML仍然需重度依賴人類先驗知識。暫時還必須由人類指定某類任務,進行特定結構的網路優化,離那種天馬行空變出一個Dota機器人的程度尚有一定距離。

從商業模式來說,泛用性更強。可以根據企業需求定製模型,比如鑽石分揀,特定標識及行為識別相對百度AI,騰訊AI之類的現有AI平台,實際上提供的是一個API介面,功能局限大(比如識別身份證和識別車牌就是兩套服務)。Google搞好了模型賣給你,用的放心舒心(大概),對於有特別需求的行業客戶吸引力更大。至於只需要做做數字識別,人臉辨認,語音識別等共性大,針對性低任務的中小型企業,用成本較低的介面式平台足夠。


準備以後加入微軟pr部門,前有川普推特治國,今有XX推特拯救微軟。


這個並不是啥新東西,微軟和別的公司早就有產品了。Google的pr真是強大!

再說一句:為了獲取標定數據,也是拼了啊!


這樣做出來的模型能實用就見鬼了


貼一下我們諮詢了幾位專家的看法,全文鏈接在此。

歡迎關注InfoQ旗下的AI領域垂直公眾號AI前線(ID:ai-front),歡迎與我們交流你的看法!

---

AI 前線也就「谷歌的 Cloud AutoML 到底有多厲害?」等一系列問題諮詢了幾位業界技術專家,得到的答覆頗有點耐人尋味。

來自 IBM 的專家告訴 AI 前線,這還是個新興的領域,他不認為短期內會真正產生落地的影響力和實際效果。神經網路來訓練神經網路發展時間不長,所以 Cloud AutoML 的效果還需要通過實踐來進一步檢驗。

另一位不具名技術專家認為,Cloud AutoML 目前推出的第一項服務是針對 Vision 的,ImageNet 數據集夠好夠大,所以大多情況下確實能夠遷移出不錯的效果,而且視覺現在屬於比較好做的領域了,如果是 NLP、CTR 這些領域,則要難很多。大家現在有點「谷歌爸爸做的肯定都是好的」的心理,不得不說谷歌 PR 能力確實厲害。 當然,通過遷移學習實現 AutoML 這件事情本身確實給了從業者很大的想像空間,可以打破數據孤島,更低成本地解決更多問題,比如用電商的數據去做傳統行業的推薦,或者一個新公司沒有數據但可以用其他公司或行業數據來做事情。

谷歌介紹稱 AutoML Vision 提供了簡潔的圖形化用戶界面,只需導入數據和拖拽組件就能打造全新模型,更有媒體報道直接突出「無需寫一行代碼」,那麼真的可以不用寫代碼嗎?這位專家諱莫如深地告訴 AI 前線:「不寫代碼容易做,不寫代碼能做出好結果難呀。

第四範式是一家致力於利用機器學習、遷移學習等人工智慧技術進行大數據價值提取的公司,而第四範式的聯合創始人、首席科學家楊強教授更是遷移學習領域的奠基人和開拓者,他發表論文 400 余篇,論文被引用超過三萬次。

這次 Cloud AutoML 推出後,很多讀者也對第四範式怎麼看錶示強烈關切。 因此,AI 前線也將問題拋給了第四範式先知平台架構師陳迪豪,他對與我們的問題做了十分詳盡的解答,整理如下:

AI 前線:你覺得谷歌 Cloud AutoML 最大的亮點有哪些?

陳迪豪: Cloud AutoML 最大的亮點是把完整的機器學習工作流做成雲端易用的產品,用戶只需要在界面上拖拽樣本數據就可以完成數據處理、特徵抽取、模型訓練等全流程,針對圖像分類這個場景在易用性上做到了極致。

AI 前線:谷歌開發 Cloud AutoML 系統的技術難度有多大?

陳迪豪: 目前根據 Cloud AutoML 的介紹,開發一個針對圖像分類的 Cloud AutoML 難度並不大,通過對已經訓練好的 Inception 模型在新數據集上進行 finetune,可以得到一個效果不錯的新模型,這部分在 TensorFlow 官方文檔就有介紹,開發者甚至可以在本地開發出一個「命令行版本的 Cloud AutoML Vision」。當然 Google 在過往的論文也介紹過 Learning to learn 和自動構建神經網路等演算法,這些演算法對於樣本規模和計算能力有更高的要求,目前在業界仍處於研究階段。

AI 前線:Cloud AutoML 使用了遷移學習等技術,用戶只要上傳很少的標註數據就能生成自己的模型,倒是很方便,但新模型的效果能有多好?能不能從技術角度解釋一下呢?

陳迪豪: 前面已經提到,CloudML AutoML 並沒有公開生成模型的演算法細節,可能是基於 finetune 對模型參數進行調優,或者是用 AutoML 論文的方法重新構建神經網路模型。目前看使用 finetune 可能性較大,以使用 TensorFlow 對 Inception 模型進行 finetune 為例,用戶只需要提供非常少量的標註數據即可,首先載入官方在 ImageNet 數據集上訓練完成後得到的模型參數,然後在新數據集上訓練神經網路的最後一層,根據 Label 和預測值更新部分的參數,很快就可以得到一個準確率超過 90% 的圖像分類模型。當然也不排除 Google 已經使用或者未來將使用 AutoML 論文的演算法,使用用戶提供的數據集和 ImageNet 等已經標記好的數據集進行重新訓練模型,模型的參數就是構建神經網路結構的參數,模型的目標就是找到圖像分類正確率最高的神經網路結構,從論文的結果看在數據量和計算能力足夠的情況下,機器訓練得到的模型與人類設計最頂尖的模型效果接近,如果應用到 Cloud AutoML 場景下效果也不會太差。

AI 前線:你認為 Cloud AutoML 會給人工智慧未來的發展帶來什麼樣的影響?

陳迪豪: Google 的 Cloud AutoML 只是 AutoML 的一種使用場景,在此之前包括微軟、亞馬遜、國內的第四範式等公司都已經有 AutoML 的實際場景了,Cloud AutoML Vision 只是解決了在圖像分類領域更低門檻的建模場景而已,在其他 State of the art 的機器學習領域並沒有大家預期的革新式影響。當然 Google Cloud AutoML 的推出迅速引起了國外內對於自動機器學習模型構建的關注,為 AutoML 的研究和落地提供了強力的背書,相信能推動這個領域在未來有更好的發展。

AI 前線:在你看來,Cloud AutoML 會不會幫谷歌在一眾雲端機器學習服務廠商(微軟 Azure、AWS、IBM 等)中脫穎而出?

陳迪豪: 在我看來目前 Google Cloud AutoML 還不是一個通用場景的機器學習解決方案,並不能可能直接淘汰微軟、亞馬遜等雲機器學習平台。當然我們非常期待 Google Cloud 和 Google Brain 部門在 AutoML 後續的工作。隨著 AutoML 演算法的成熟和通用化,未來會有更多低門檻、貼近用戶的機器學習建模範式出來,對人工智慧行業也是很大的利好。

AI 前線:你所在公司推出的機器學習工具目前推廣情況如何?未來是否也會計劃推出類似 Cloud AutoML 這樣的服務?或者還有別的比較重要的發展方向?

陳迪豪: 我目前在第四範式擔任先知平台架構師,在去年烏鎮互聯網大會上發布的先知 3.0 就已經集成了 AutoML 功能,通過自研的 FeatureGo 自動特徵組合演算法和開源的自動調參演算法等可以實現從特徵抽取、特徵組合、模型訓練、超參數調優到模型上線等全機器學習工作流。目前我們在推薦系統提供給用戶的模型全部以 AutoML 演算法生成的。在 TensorFlow 上訓練模型實現 Learning to learn 也是我們的關注重點,除此之外像大規模的數據拼接、時序特徵抽取、模型灰度發布、工作流可視化以及自學習閉環都是切實的業務痛點,我們從演算法和產品維度致力於打造一個比 Google Cloud AutoML 更低門檻、並且更落地的機器學習平台,也歡迎與同行們多多交流。


哎...谷歌就是這樣啊...別人做的東西 他再說一遍就是自己的啦..畢竟人家聲音大啊....

控制信息渠道的人同時參與制造信息,挺危險的。某種程度上也算濫用壟斷競爭優勢吧。All reality is information, and all information create reality.~ 雖然狗家的reality可能是alternative的哈哈


為我司硬廣強答一波。

今天凌晨,谷歌發布Cloud AutoML,可實現全自動訓練,無需寫代碼即可讓缺乏AI人才及研發技術的企業完成AI模型的研發。這其實是與我們智易科技「讓人工智慧觸手可及」的公司願景不謀而合的。

智易科技的核心產品理念是把降低AI的技術門檻做到極致。為了檢驗這一目標,我們做了一次極限測試 — 邀請一位美團外賣小哥體驗智易AI平台。在經過我們不到半小時的demo演示和簡單培訓後,美團小哥獨自訓練出了一個包含10000+個樣本數據量20+個複雜特徵的蘑菇識別AI模型,整個模型訓練時間不到15分鐘,並達到了99%以上的準確率,這其中還包含了數據處理和模型訓練的等待時間

正如李飛飛老師所說的:「在降低AI門檻的道路上,我們只是剛剛開始。」我們也希望通過智易AI平台的發布,幫助更多企業通過AI激活無限可能。

在智易AI平台上,用戶只需要專註於數據本身和商業目標,將複雜的訓練搭建和系統部署統統交給平台,無需編寫一行代碼,就可以快速研發出可應用於生產實踐中的AI模型,真正實現了「讓AI觸手可及」。

作為一款一站式AI研發與應用平台,智易AI平台具有以下四大優勢:

超低的應用門檻:純可視化的交互界面,用戶通過所見即所得的操作方式,無須編寫任何代碼,即可完成全流程的AI研發與應用。

高度自動化的工具鏈:兼具數據整理分析、模型訓練、模型自動調參(AutoML)、模型託管服務等全鏈路服務。

多場景模型訓練支持:同時支持面向計算機視覺和結構化數據的模型訓練,在未來的版本中還將增加對語音識別、自然語言處理等應用場景的支持。

超大規模的分散式系統管理:具有數千節點的集群管理能力,支持大規模分散式訓練。

目前世界上只有極少數企業能擁有足夠的人才和資源來享受人工智慧發展帶來的益處。為了縮小差距,讓更多企業都能用上AI,我們希望以更加本土化的產品體驗和更優質的AI服務把這款AI工具帶給每個企業。


謝邀,沒有用過,強答一波。

AI的大多數任務,其解決方法既有通用性,又有特殊性。

通用性在於使用的演算法和流程大部分都是重合的。流程從數據清洗,特徵工程,模型選取,參數優化。

特殊性在於不同的任務,由於目標不同,數據特徵不同,導致在細節處理上各有不同。比如:缺失值怎麼處理,連續值是否需要離散化, 是否需要剔除停用詞...

谷歌推出的 Cloud AutoML 的意義在於給出了通用性的框架,讓你從重複性的工作中解放出來。現在你只需要集中於你的任務的特殊性。用戶只需要專註於數據本身和商業目標,將複雜的訓練搭建和系統部署統統交給平台,無需編寫一行代碼,就可以快速研發出可應用於生產實踐中的AI模型。

這方面國內公司像智易科技、第四範式也在做相同的事情,題主感興趣可以了解一下。

相關鏈接:https://zhuanlan.zhihu.com/p/33077144


很強的水平,前一陣老闆還在和組裡的師兄討論這個,還沒開始做,Google都做出來了......

個人感覺這些ML、DL的能力越來越壟斷於大公司手中,AI民主化我就越不信啊,你要是開源我就信了,不知道會不會開源emmmm


AutoML其實就是用機器來調參,技術難度當然蠻大,但是我覺得瓶頸還是機器調參特別耗計算力,這服務應該不會便宜。

如果服務費比雇兩個調參俠都貴,就沒啥人用,如果比雇調參俠便宜,那調參俠就要失業了,不過短期應該不會發生。


這不就是一個MFC么,學校里微軟多年前的惡夢重新浮上心頭


谷歌越來越像一個二流的ai公司了,調參這種民工活也好意思拿出來宣傳!

另外,這個技術並不能保證找到最好的模型參數!神經網路已經是玄學了!自動調參就是玄學上的玄學!谷歌的技術品味太low了!


分頁阅读: 1 2