如何看待 Kaggle 被 Google 收購?
在昨晚的 Google Cloud Next 谷歌雲計算開發者大會上,華人 AI 學界的驕傲、谷歌雲首席科學家李飛飛宣布了一則重大消息:谷歌收購 Kaggle。
其實,關於這事兒,近兩天陸續有風聲傳出。但谷歌和 Kaggle 對各路媒體總是一副 「無可奉告」 的態度,導致大家各自猜測,但無從證實。即便是李飛飛在 Next 大會上對全世界進行宣布,也僅僅停留在 「沒錯,我們是收購了 Kaggle,這事兒對雙方都有好處」 的層面;對收購細節、未來計劃等信息一概無涉,更不要提收購協議和價格。
但是,Google+Kaggle,即便不進行任何發酵,也是震動數據科學、AI、機器學習三界(好吧,在很多方面 「三界」 本是一體)的大事件。其衍生出來的潛藏信息:對開發者社區的意義、行業走向,以及谷歌的機器學習布局等——雖然當事者惜字如金,卻為嗅覺敏銳的觀察者帶來巨大的想像空間。這隱約使人聯想起 2014 年穀歌對 DeepMind 的收購:雖則後者與 Kaggle 不管在業務、還是運營方式上都完全不同,但 Kaggle 所掌握的行業資源,只在 DeepMind 之上;兩次收購對於谷歌的意義,同樣位於極高的戰略層面。
下面我們來整理一遍,關於此次收購迄今為止披露的所有信息。
Kaggle 簡介
凡是玩數據科學和機器學習的老司機,有兩個網站一定不會錯過:GitHub 和 Kaggle。前者用來分享,後者進行實戰練習。對於不熟悉 Kaggle 的童鞋,我們先來進行一段簡介。
簡而言之,Kaggle 是玩數據、ML 的開發者們展示功力、揚名立萬的江湖。
它在 2010 創立,專註於舉辦數據科學周邊的線上競賽。它吸引了大量數據科學家、機器學習開發者的參與,為各類現實中的商業難題開發基於數據的演算法解決方案。競賽的獲勝者、領先者,在收穫對方公司提供的優厚報酬之外,還將引起業內科技巨頭的注意,獲得各路 HR 青睞,為自己的職業道路鋪上紅地毯。
因此,與 GitHub 不同的地方在於,Kaggle 為其社區提供了一整套服務。其中最有名的是它的招聘服務以及名為 Kaggle Kernels 的代碼分享工具。
或許因為如此,Kaggle 社區在圈內極受歡迎:用戶基數大、粘性強。通常認為 Kaggle 平台有幾十萬數據科學家。至於具體多少,有媒體認為是五十萬,有人說八十萬(李飛飛),還有人說超過一百萬。
總而言之,Kaggle 是當今最大的數據科學家、機器學習開發者社區,其行業地位獨一無二。
而大約一年前,Kaggle 開始全力在 AI、機器學習領域發力,相關競賽項目紛紛上馬。李飛飛評論道:
「Kaggle 是搜尋、分析公共數據集,開發機器學習模型,和提高數據科學專業水平的最佳場所。」
「AI 民主化」 的使命
在大會上,李飛飛發表了主題為 「讓 AI 民主化」 的演講。在此次演講和之後撰寫的博文里,她對谷歌收購 Kaggle 的意圖給出了官方版本的解釋:
「我強調 AI 民主化的重要性——我們必須降低進入 AI 領域的門檻,讓 AI 技術能為儘可能多的開發者社群、用戶和企業所用,讓 AI 被用於解決他們各自的問題和需求。Kaggle 加入谷歌,能加速這一進程。」
冠冕一些來講,推動 AI 技術的分享和推廣,是谷歌收購 Kaggle 背後的 「mission」,即使命。
加入谷歌之後的 Kaggle
雖然谷歌對收購協議的內容進行保密,我們仍能從雙方已透露的信息看出一些端倪。比如,有一件事是確定無疑的:Kaggle 將保留獨立品牌和團隊。
Kaggle 創始人 Anthony Goldbloom 也在昨晚發表博文,回顧 Kaggle 創立以來取得的成績,對支持 Kaggle 社區的開發者表示感謝,並透露了一些將來的計劃:
「 Kaggle 團隊仍會是一個整體,並將作為谷歌雲旗下的獨立品牌運營。我們會繼續擴展 Kaggle 上的競賽和開源數據平台;並且我們會繼續對所有的數據科學家、公司、和技術敞開懷抱。Kaggle Kernels 會繼續對各類機器學習庫和工具包組成的多樣生態進行支持,不管其是否來自谷歌。
加入谷歌能讓我們實現更多。此次收購,把世界上最大的數據科學社區與最先進的機器學習雲結合到了一起。
加入谷歌后,我們能夠向社區提供谷歌雲技術。這將使大家能利用更強大的基礎設施和部署服務(deployment services),進行可擴展的訓練,並且幫助 Kaggle 擁有存儲、獲取大型數據集的能力。」
Anthony Goldbloom(圖片與本新聞無關)
李飛飛在大會和博客上的表態,雖沒有 Anthony Goldbloom 詳細,但也印證了一些 Anthony Goldbloom 提到的要點。比如,飛飛老師說谷歌雲將為 Kaggle 社區成員提供雲機器學習開發環境,Kaggle 和谷歌雲將繼續支持訓練和部署服務,並幫助社區存儲、獲取大型數據集。
結合飛飛老師對 「AI 民主化」 的表態,以及在大會上回溯她親手創建的 ImageNet、對資料庫重要性進行的強調;雷鋒網認為,我們應當可以期待谷歌雲在數據上為 Kaggle 提供強力支持,幫助 Kaggle 社區的開發者獲取更多、更有價值的數據集。而這確實擊中了數據科學家和機器學習開發者的一大痛點。這無疑也將直接提升谷歌對數據科學、機器學習社區的影響力,以及在其中的口碑和品牌認同。
收購 Kaggle 之後的谷歌
谷歌的核心業務與 AI 緊密相關,也已經成為推動這一輪 AI 技術浪潮的主要玩家之一。AI、數據科學和機器學習對於谷歌的戰略意義,已毋庸贅言。自從去年 AlphaGo 與李世石的世紀之戰,谷歌的江湖聲望更是如日中天。
但是,在 AI 應用和技術的各個垂直領域,如自動駕駛、語音識別、深度學習等,谷歌很可能已經感覺到壓力。眾所周知,谷歌 Waymo 自動駕駛業務並不是一帆風順。在語音識別領域,微軟和 IBM 屢創紀錄。深度學習領域,Facebook AI 實驗室 FAIR,以及 OpenAI 都在生成對抗網路 「GAN」 這一前沿技術上投入巨大,產出豐厚研究成果。業內人士對於谷歌在 AI 技術上 「領先」 於其它對手的印象,已經不再那麼牢固(如果此前稱得上 「牢固」 的話)。
想要維持 「老大哥」 地位,就要進一步投入。而有一個領域是谷歌遠遠甩開對手的:沒錯,我說的是 Tensorflow。在深度學習開源工具上,Tensorflow 的市場佔有率遠遠超出其他任何框架、平台。因此,對於開發者這一群體,谷歌的影響力具有天然優勢。而收購 Kaggle 則將這一優勢無限擴大。
當然,我們不要忘記,Kaggle 加入的部門是谷歌雲。與競爭對手亞馬遜 AWS、微軟 Asure 相比,谷歌雲的地位一直十分尷尬,市場佔有率遠遠落後於前兩者。此次的 Google Cloud Next 大會,重點其實是宣傳谷歌在雲計算上的巨大投入和決心。而細看谷歌對於此次收購的官方表態,也不乏對谷歌雲將來能為 Kaggle 所提供的各種支持的強調。谷歌或許希望 Kaggle 能成為谷歌雲業務的一項突破口,比如借 Kaggle 平台讓開發者體驗谷歌雲、為後者做宣傳。至於其它玩法,現在不得而知,尚待將來觀察。
另外,外媒紛紛猜測,收購 Kaggle 可使谷歌在僱傭尖端開發人才上獲得便利。這是一個十分合情合理的推測。
周邊
谷歌與 Kaggle 的合作已經開始
雷鋒網消息,上個月(2 月 16 日),Kaggle 與谷歌聯合舉辦了 Google Cloud YouTube-8M Video Understanding Challenge。這是迄今為止世界最大規模的視頻理解挑戰賽。該挑戰要求機器學習開發者,尋找出自動標記 Youtube 視頻的方法。詳情請戳這裡。
澳大利亞媒體的哀嘆:「谷歌買走了我們的 Kaggle!」
雷鋒網 (公眾號:雷鋒網) 了解到,Anthony Goldbloom 是墨爾本大學畢業生。他於 2010 年在悉尼創辦 Kaggle ,但在 2011 年將公司總部遷去了舊金山,這次更是直接被美國企業收購。不出意料,對這次谷歌收購 Kaggle 報道最積極的當屬澳大利亞媒體。這再次讓小編聯想起 DeepMind——以及它被收購後英國 AI 圈的反應。
_____________________________________________________________
本文首發於雷鋒網微信:leiphone-sz。
作者:三川
原文鏈接:谷歌收購 Kaggle 為什麼會震動三界(AI、機器學習、數據科學界)?
我這邊有個 Data Scientist Manager 和他們的 founder 很熟,兩個人互相挖了很久誰都不願意動地方的那種。
幾個月前去 Kaggle 做了個 talk,跟他們的團隊講了講我們公司的實踐。 主要是他們想了解下工業界形形色色的公司都是什麼樣的 stack和 workflow,然後我們公司又有個挺有意思的詭異需求。
正經 talk 做完私下聊了聊,當時的感覺是他們早期融資太快太成功,之後又一直沒找到合適的發展方向。 做了 kernel 這個場景想突圍,但是手裡的用戶都是些 junior 的人, 對實際的工業界滲透也不怎麼好。
現在被 google 收購算是個各方都滿意的結果了,替他們高興。感想就是我的點子又被瞬間乾死了。最近一直在想一個有雲平台或者集群後台並且對用戶友好的數據科學平台,比如說AWS的服務很齊全,但用戶又得考慮數據是存s3還是本地,開多大的機器,分散式怎麼連等等,想做個實驗有一大部分時間都用在準備環境上了。
先入坑的有Stanford和微軟Azure的CodaLab,但那只是在學術圈裡試試水,這下Google Cloud加上Kaggle,想像力是可以很豐富的。把面向比賽的平台修改一下變成企業內的開發工具也未嘗不可。
================================
以下是吐槽和反省:
高中的時候我想要是手機上有軟體能提供伴奏然後錄歌分享的app就好了,然後沒過幾年唱吧就火了;2010年大一的時候我跟著班裡大神做跨平台的雲剪貼板,然後現在我天天都在用蘋果設備之間共享的剪貼板;一年前我為了趕緊畢業和 @竹韻 在lab課上水了一個預測論文引用來幫助literature review的項目,課通過了以後既懶的修改又懶的投稿,然後前幾天發現了這個Machine Assisted Literature Review;再就是開頭提到的了,如果Google不糟蹋Kaggle,那做出我設想的產品基本上是順水推舟。所以說啊,光說不練假把式……
傻逼谷歌,沒事xjb收購你女馬啊,現在下個數據還得搭梯子,干
我最擔心的是被牆……
推薦閱讀:
※機器學習如何在小樣本高維特徵問題下獲得良好表現?
※Kaggle 的比賽在 Machine Learning 領域中屬於什麼地位?