Datalab來了:Google Cloud NEXT 17

最近情況比較多,專欄更新的順序都被打亂:三八婦女節 Google 在舊金山開了Cloud Next,花樣很多,除了去年一年的成果總結,也宣布了Google Cloud Platfom新的合作夥伴和上線的各項雲服務。新夥伴包括 Verizon 電信,SAP(ERP 大廠)、滙豐銀行和 ebay。支持的雲服務及升級大一堆(雲安全,數據分析,資料庫、機器學習等),移動端布署,基礎設施(全球各區的數據中心),以及開發者社區和工具。

飯碗所系,主要關心數據分析和機器學習。數據分析的新工具是 Cloud Datalab,就是在Google Cloud上架了一個 jupyter server,用來互動式數據分析和模型迭代。支持標準SQL、Python 和 Javascript,一些Google 自己的 API 也可以混用,比如說 Google Earth Engine,以及 Google Charts,Google Cloud Storage,Google Compute Engine,BigQuery。恍然覺得四海一統,萬里同風。

Jupyter 是個很好的交互性數據分析工具,徹底地改善了原來工作環境配置難、迭代慢、細節多不易隱藏等問題。有人把它稱作REPL(Read-Eval-Print Loop),有人稱作Reproducible Research。總之,數據分析中展示(present)和迭代的份量尤其重要。Jupyter 上生態豐富,支持 Python 和 R 的庫,又支持自身的擴展(Extension)。現在被 Google 整個納入,後端又接入了 Google 的計算資源和服務,整個的開發者社區、工具和方法必將有較大的發展。從另一方面來說,我覺得這對於仍舊以工具庫和 IDE為主要賣點,技術門檻又居高不下的另一些軟體廠商很有些不妙,比如 SAS 和 RStudio.....

Cloud Datalab向你展示的是:你乾的這些活,都可以在這裡幹得更好,我們還負責解決你的 scale 問題。在本地調好了模型,組織完了代碼,然後想要在超大的數據集上耍一耍。就為了這點事,原來就夠你喝一壺的,現在呢,就到 Datalab 里來吧!我們還有機器學習的新寵TensorFlow。

Cloud Datalab是一個開源方法的工業實現,你用了它,還是可以保持一定的獨立性,只不過到了I/O、並行的階段,你可以付費要些機時。關鍵就是它上手容易,我在 USGS 或 NASA,就得自己解決I/O和並行的問題,真是費勁。我現在的打算是用Datalab 做些探索性分析,然後回到 NASA 去處理大數據,但是如果同樣的一圈在 Google走下來所費的我能承受,我也就打算移情別戀了,畢竟時間成本居高不下,是最需要控制的支出。

機器學習(Cloud ML Engine)實際上只是幾個更具體的數據分析框架:主要突出 TensorFlow,可以從 Youtube、 Google Photo 和語音接入數據。簡言之,就是從若干的數據分析例子中挑選一些有賣點的,在Google 雲服務的支持下做了實現,然後打算買給付費能力更強的工業用戶。這個在消費者建模、視頻圖像語音識別方面都有實用,但與地數據目前的交集還較少。另外,Google 還搞了一些社區建設,比如買了 Kaggle,把自己的機器學習訓練集共享,從合作者那些弄一些 Challenges 來懸賞,等等。

總的來說,這屆 Cloud NEXT 是在「做事」與「布局」,技術上的亮點創新並不是很多,主要是在推各種各樣的 solution,期待開發者做出反應。對於一線指戰員,這些工具是些「重武器」,理論上會很強大,但實際效果如何,還需要集中安排時間來搞一搞。


推薦閱讀:

理解強化學習知識之基礎知識及MDP
BAT面試題精選 | 一個完整機器學習項目的流程(視頻)
神經網路NN演算法(應用篇)
(一)深度學習基礎(基本概念、優化演算法、初始化、正則化等)

TAG:谷歌Google | 机器学习 |