如何評價 Google 在機器學習領域取得的成效?

在 Google I/O 2015 上,Google Now 的負責人 Aparna Chennapragada 和 SVP Sundar Pinchai 都著重介紹了 Google 在機器學習領域取得成就。

You can see where Google is heading. "We have built up a natural language processing engine, but we have also built up this powerful context engine, and we understand more than 100 million places," said Aparna Chennapragada, director of Google Now.

"We have the best investment in machine learning over the past many years," said Sundar Pinchai, senior vice president at Google. Machine learning and deep neural nets aren"t exactly new, but Pinchai made the case that Google has spent its time training.

"What looked like a simple query, we understood voice, we"re doing natural language processing," he said. "The reason we are able to do all of this is because of the investments we"ve made in machine learning."

新聞來源:Google bets machine learning can create an edge with Android, apps, cloud


謝邀。 看到一篇文章講的是谷歌在深度學習的進展,有點離題,忍不住轉了:

「Andrew Ng 是 Michale Jordan( Berkeley 教授,圖模型的泰斗)的明星弟子,Andrew 獨立後,在Stanford,、Google 和 Baidu 做的反而是deep learning (有點武當弟子學了少林,或者少林弟子學了武當的意味)。後來做了網路公開課程Coursera後名聲大噪,意義大大超越了其學術界的地位和範疇。

歷史究竟發生了什麼? 深度學習為什麼突然火了?


標誌性事件是,2012年底,Geoff Hinton的博士生Alex Krizhevsky、Ilya Sutskever(他們研究深度學習時間並不長)在圖片分類的競賽ImageNet上,識別結果拿了第一名。其實類似的比賽每年很多,但意義在於,Google團隊也在這個數據集上做了測試(非公開的,Google沒有顯式參加學術界的「競賽」),用的也是深度學習,但識別精度比Geoff Hinton的團隊差了很多,這下工業界振奮了。


這個「Google團隊」的特殊意義在於,不同於其他Google團隊,這個項目受到Google足夠的戰略級重視,有著世界級的明星領導者,包括 Andrew Ng,還有 Google 神人 Jeff Dean(他們在深度學習領域已投入很多,併到處宣講他們的戰果),以及業界無法企及的硬體和數據資源支持。我想,如果沒有這樣巨大反差,深度學習還不會得到這麼快的傳播和認可(當時的學術界還不知道Google內部的測試成績,只知道Geoff Hinton得了第一,擊敗了另一個學術界頂級的Oxford團隊;甚至今天,很多人還不知道這段歷史)。兩個「小毛孩」打敗了業界神話。到這裡,Google投入產出並不有說服力,甚至是可恥的。


工業界似乎不需要、也不該關心面子。緊接著,巨頭的壟斷遊戲開始了。在機器學習方面頂級年度會議(NIPS),Google競價超過了微軟等其他公司,收購了Alex Krizhevsky、Ilya Sutskever 和 Geoff Hinton 剛剛註冊幾個月的公司,好像是5000萬美元買了三個人的部分時間。現在,Google 做不好的人可以正式拉著 Geoff Hinton 聊天了;Facebook作為回應,挖了Yann Lecun,讓他在紐約領導成立了 Facebook AI lab;Andrew Ng則離開Google去了百度。


從「硬」結果來說,其實此時的百度做得不會比過去的 Google 差,但「軟」名聲還是因此提高很多:相比於Google X, Facebook AI lab, Google Brain等,「深度學習研究院」這個用演算法命名部門的主意得要「魄力」的。後來Yann Lecun組的學生出來了一半,陸續開了幾家深度學習的創業公司,其中一家早被 Twitter 收購。另外一些,加入了 Facebook 和 Google 。估計深度學習給 Geoff Hinton和 Yann Lecun 的組帶來了近十個千萬富翁。

但更有意思的是(很有啟發性並值得思考),Alex Krizhevsky 和 Geoff Hinton的競賽用的正是 Yann Lecun 發明的卷積神經網,但結果剛出來時(實現細節還沒有公布),Yann Lecun和他的NYU實驗室成員甚至沒法重複Geoff Hinton的結果。自己發明的演算法,使用結果不如另外一個組。這下炸了鍋,Yann Lecun開了組會,反思的主題是「為什麼過去兩年我們沒有得到這樣的成績」 。

高手過招,Idea is cheap; The devil is in the details (有想法很廉價;魔鬼在細節處)。想法其實很重要,但只能區分高手和普通人。高手都有想法,但誰才能創造歷史呢?Yann Lecun 這樣的實驗室需要反思什麼呢?先看看他們有些什麼吧。我經歷過巔峰時期的微軟亞洲研究院(十五年前,這裡的實習生只能是名校的各系第一名)、UCLA (排名10名左右)、MIT AI lab (計算機專業第一名),實驗室的茶歇時間 Tea Time, 過道擠滿了頂級會議的最佳論文獲得者—NIPS, CVPR等 。基於以上經驗,我先介紹一下 Yann Lecun 實驗室的過人之處。


Yann Lecun上課教授和使用的是他自己寫的語言Lush,用來替代 matlab(很方便描述矩陣運算、圖像處理等)、python在科學研究的功能;他的團隊三十年如一日的專註於神經網路的研究,從不隨波逐流,課題覆蓋卷積神經網的方方面面。有的博士生聰明數學好,非常敏感於卷積神經網模型的深刻理解;有的博士生專註於結構參數的行為分析(多少層啊之類);有的博士生研究在不同數據分布(應用場景下)的表現,比如字母識別、圖像分類、物體檢測、場景分類等。


這樣的學術堅持,是在怎樣的艱難背景下呢?人工智慧領域,神經網路思想在80年代末開始衰落,之後分別經歷了幾個劃時代的圖靈獎級工作的興起,統計學習理論(帶來支持向量機 SVM 演算法),可學習理論(帶來 Boosting 演算法),概率推斷(圖模型,graphical model)幾乎壟斷了過去的三十年。在之前提到2012年的 Geoff Hinton 團隊的深度學習打敗Google的標示性事件前,圖模型的思想橫掃計算機視覺領域(超越了boosting,SVM等)。這使得深度學習生存艱難,沒有多少同行在研究中使用深度學習,更多年輕學生願意去「時髦」的機器學習研究組。


2006年,Yann Lecun的文章還在闡述深度學習如何能跟當年流行的圖模型(比如條件隨機場模型)等價,證明自己的工作在不同數據集上也能和圖模型做到相當的識別精度。儘管在2012年末,Alex Krizhevsky、Ilya Sutskever 兩個「小毛孩」在競賽中用深度學習打敗了Google團隊,工業界炸鍋。但是,工業界對深度學習的追捧傳遞迴學術界發生在一年以後 ,原因是, 除了頂級教授因為私人關係能知道工業界最前沿進展,大部分學術界教授並沒有公開渠道及時獲取信息,但這些教授卻是學術工作評審的主力。因此,直到2013年,Yann Lecun 的文章在計算機視覺的頂級會議上(CVPR)依然很難發表(這時的深度學習在多項數據集上相比其他「傳統」方法並不排他性的出色)。


Yann Lecun 像戰士一下對抗著學術界的「庸俗」和「傳統」,在不同場合討伐從業人員的態度、標準和品味,公開發文抵制計算機視覺頂級會議CVPR,並於2013年創辦了新的學術文章發布體系(ICLR)。可笑的是,僅僅不到兩年的時間,現在,視覺的文章沒用上深度學習很難發表。主流(不見得創造歷史)的和最需要獨立思想和自由批判精神的年輕學者,卻似乎沒有節操的要和深度學習沾上邊(當上「千」個博士生都在研究深度學習的時候,應該不需要什麼獨立見解和勇氣)。今天,反而是三十年後捲土重來的Yann Lecun(還有Bengio,Geoff Hinton)願意站在先鋒,批判性的談論深度學習的泡沫繁榮,呼籲學術界、資金擁有者冷靜。反差很是讓人感慨。


到底當時,Yann Lecun 和 Geoff Hinton的團隊細微差別在哪呢?高手也可能錯過什麼呢?或許我們很難有接近事實的答案,原因可能很複雜;但技術上的分解(下次我會撰文就這個問題專門討論一下,期待有興趣的朋友和我共同交流,郵箱:leo@yitu-inc.com)。以及對於歷史的真實解讀才有助於我們拋開浮華,啟發一樣追求創新的我們,無論是學術研究還是創業

----原文摘自《八一八深度學習的這三十年歷程》


謝邀

非常厲害。據我了解,在自然語言處理,搜索,以及最新的知識圖譜等,都是學術界的第一梯隊。在有些方向上實際的效果和理念甚至是學術界的領導者...

拿Knowledge Graph舉例,在能夠公開看到的一些指標上,例如自動挖掘新知識的準確程度;文本,尤其是短文本(Query)中命名實體的識別(entity linking/annotation);純文本搜索詞條(query)到在知識圖譜上的結構化搜索詞條(query)的轉換;效果上都領先學術界和其他公司非常非常多。而且據我所知這些都已經產品化了...

單純從理論上可能Google並沒有那麼大的優勢,但是他們做應用,做系統,提效果的能力太強了。
比如說在知識圖譜這邊,Google公布的他們實際使用的自動抽取知識方法,通過知識圖譜對抽取的知識進行推理的模型,都是學術界已有的,但是效果就是好...可以說真正達到了實用級別。仔細一看,裡面好幾個演算法的發明人現在就在Google Research里干這個。

Google把這些人招進去,要他們把他們自己研究出來的模型更注重細節的給工程化。要錢有錢,要數據有數據,要機器有機器,要系統有系統,可能還有不少牛逼工程師幫忙,效果能不好么...


我作為學術界的小朋友,做的東西居然和這樣的地方有一定的競爭關係,真是不知道說什麼好T T


Whoever dominates the data will rule.


謝邀。不敢評價,實力不夠。
google現在在deep learning和knowledge graph這兩塊持續發力,有理論研究,也有實際產品落地。
google大量使用machine learning和它的業務特點以及風格有關。業務上,ml在搜索、廣告等上都大有用武之地,不過據說在google,ml在廣告上用的更多;風格,聽說google甚至用ml來輔助招聘。

恩,實力不夠,就簡單八卦這幾句。不多說了,喝排骨湯去。


唱個反調
百度商搜的同學告訴我,用了deep learning後準確率上去了但bad case更多了,搜出來的關鍵詞各種有問題,都得用規則擦屁股。我不信Google的科學家們就能幫助企業解決這個問題,設計出一個準確率高bad case還少的演算法。一個東西做成一定是大量的臟活累活配上一個美麗的外衣。科學家和paper就是這個美麗外衣

作為企業,做出可用的東西,成熟的管理者應該慎重地使用新技術來降低風險,採用已經有經驗的解決方案。Google雖然做的是創新,但給數十億人提供高質量的服務,肯定不可能隨意採用現在的這些為了在理論上「有所創新」而設計的演算法而罔顧可實現性,投資回報比。就像MSRA更多精力集中在發paper設計演算法,但bing在蘇州有獨立的工程師團隊做一樣,Google的搜索和知識圖譜效果做的好高可用一定是大量的人工規則,清理數據,所以投資非常大。Google重實踐,所以在技術上本身很難想像那些新paper里的演算法能被100%地使用,或者就是發表一些技術上創新程度有限的論文(比如Dremel的論文給我感覺,我們有這個需求,於是就用了很多成熟的技術做了很多組合在了一起做了個輪子,然後寫了一份工作總結)。企業發paper到了今天公關作用更明顯,為了在圈子裡吸引人才和忽悠投資人。

另一方面,理論工作在科學家一個人的大腦中就可以任意地思考,而做出一個真實可用的機器學習應用系統需要眾多工程人員將從理論到實踐中間的幾層轉化一步步實現。在少數有這個實力做這件事的組織中,Google投入了大量的人力物力資本做出來的搜索引擎極大地提升了互聯網的使用體驗。這一點是非常非常了不起的,而且在工業界的組織里是做的規模最大,效果最好的。

作為個人我覺得,少膜拜別人,多去吸收吸收別人的思想,什麼時候遇到問題能用上就用上。Deep learning再如何如何,還不是你看個ppt十分鐘就敢坐而論道了?不要去膜拜誰誰誰,誰沒點黑暗面呢。


這篇文章也許會幫助你~
Machine Learning: The High Interest Credit Card of Technical Debt


謝邀,只談一些個人的看法。Google一直能夠非常好地將機器學習技術應用在自己的產品中,從早期的分析用戶行為投遞廣告、垃圾郵件篩選,到近幾年紅得發紫的基於Deep Learning的分類識別任務。僅談Deep Learning,個人認為其一大成就在於Deep Learning方興未艾之時吃准了方向,迅速地將其引入工業界。Deep Learning的本質是神經網路,這個東西很有意思,神經元的計算極其簡單,卻能通過大量的組合實現任意非線性分類。Deep Learning告訴我們把海量的數據應用到神經網路中。它好實現,而Google可能擁有世界上最大的資料庫。二者一拍即合,再加上Google本身的研究能力,對神經網路演算法本身的改進又使得它能一直在這個領域領跑。


好像沒有看到任何理論上的突破,只是用老技術做了一個新產品,然後巴拉巴拉這個產品有更準確的響應,更友好的交互。

我更關心谷歌什麼時候能給自己收購的波士頓動力公司的機器人裝上一個智能的大腦上,目前它和現在這些所謂神經演算法深度學習完全是兩個世界的東西。


謝邀,水平有限,試著回答一下。
題主列舉的文章裡面,主題是機器學習,在機器學習這個大概念下,谷歌突出了自然語言處理(natural language processing )和神經網路(neural networks),前者是功能期望,後者是實現演算法。

而谷歌對自然語言處理方面的成就是最為著重的,因為自然語言處理是人工智慧領域最重要的一個問題,包括自然語言識別,轉譯和理解三大過程,在人工智慧發展的早期,前兩個問題就是人工智慧專家們的夢魘,直接導致了二十世紀七十年代人工智慧研究的停滯(因為當時以美帝為首的西方國家對機器翻譯抱有極大興趣,而專家們又拍胸脯保證可以輕鬆搞定,但事實上,隨著研究的深入,自然語言的模糊性和隨機性使得專家們望而卻步)自然語言是人類交流的基礎,也將是人機(高級機器智能)交流的基礎,而自然語言並不是一個設定好的系統,有著極大的冗餘性和模糊性,這是結構化邏輯化的計算機系統很難處理的,也是必須要處理的,我們現在所知道的自然語言處理系統包括Siri,Google Now,Cotana可以較好地處理前兩個問題,但是語義始終是個很大的問題,曾經的圖靈測試和中文屋子就是關於語義問題的兩個經典的討論案例。


谷歌作為一個以搜索為核心的公司,對自然語言處理系統的重視更是遠遠超過其它巨頭,而谷歌所擁有的巨量數據又極大地提高了谷歌自然語言處理系統的功能,這張圖片展示了谷歌自然語言處理系統的運行原理:

1.背景系統:以資料庫為核心,並通過特定的規則將數據合理地壓縮和整理(標籤)儲存以便檢索,顯而易見的是,谷歌具有世界上最龐大的資料庫,編碼和檢索系統也是極為出色的。

2.求解(匹配)系統:求解系統包括人類語音的識別(和翻譯),轉化為文本,並按特定的規則提取關鍵字元並匹配定義好的標籤,當然答案可能不止一個,這個時候就需要利用相關度來排序結果。

3.執行系統:得到結果之後,執行系統將根據標籤定義好的答案類型做出相關操作(例如為標籤「睏倦」關聯播放音樂「搖籃曲」)

「You can see where Google is heading. "We have built up a natural language processing engine, but we have also built up this powerful context engine, and we understand more than 100 million places," said Aparna Chennapragada, director of Google Now.」
這是谷歌自己的解釋,100m places大概就是已經定義好的標籤數量吧。
值得一提的是,微軟一直也很重視人工語言識別系統的開發,而且在執行演算法方面(結果呈現)有著最大的優勢,但是因為在數據量上被谷歌碾壓,所以總體精確度並不佔優勢。

「All of this is possible because Google has improved its speech recognition accuracy from a 23 percent word error in 2013 rate to 8 percent today.」
而識別錯誤率的大幅降低則是谷歌自從2013到現在的最突出的成果,得以支撐Google Now的精準的結果呈現。

"We have the best investment in machine learning over the past many years," said Sundar Pinchai, senior vice president at Google. Machine learning and deep neural nets aren"t exactly new, but Pinchai made the case that Google has spent its time training.
谷歌近年來在機器學習領域有著最好的投資,雖然機器學習和深度神經網路並十分不新穎,谷歌花了充分的時練習這些演算法。

事實上,早在1943年,美國生理學家麥克卡洛和美國邏輯學家沃爾特·匹茨就提出了最早的神經網路系統,M-P腦模型,1958年,羅森博拉特推廣了MP模型,提出了感知器模型(單層),不過單層感知器模型只用於線性可分的分類模式,無法完成非線性的分類模式,被明斯基於1969年的《感知器》判了死刑,直到1986被重新定義的多層神經網路BP(Back-Propagation)網路提出,1988年被證明「具有兩個隱層的BP網路可以實現任意函數,單隱層的BP網路也可以實現任何有界連續函數」。自此,被普遍認可的深度神經網路模型被確定。而谷歌在成立以來的十多年裡,收購了數百家大小公司,重點從一開始的內容越來越偏向基礎技術和硬體:
那些年被Google收購的硬體公司
至於人工智慧的商用前景,可以說無比寬廣,從理論上來說,如果自然語言處理系統足夠好,所有人都可以躺著過完這一生了。。。
實際點來說,基於大量數據和自然語言處理的精準營銷大概是人類歷史上商業時代里商業信息不對稱最小的時代了(然而掌握信息工具的人將統治這個世界)


Google發布機器學習開源可視化工具Facets - SDK.CN - 中國領先的開發者服務平台


@勃失敗


了不起


謝邀。
對這個領域不熟悉. 簡單發表自己的看法吧. 原諒我無知還敢說. - -||

商業公司, 做的任何一項技術當然目的都是為了更多的盈利. 機器學習也是, 最初的目的就是根據用戶習慣精準投送廣告來提升業績 .

重要的是, 不管是機器學習還是人工智慧以及其他的時髦大數據方面的技術.


基礎都是建立在數據之上的. 得數據者得天下. 畢竟, 你連數據都無法完整的獲取, "學習"的再好, 也沒法準確, 然無卵用.

現在, Google 通過 Android 來佔領移動市場, 通過運行在其之上的 APP 以及自身龐大的產品線(尤其是 Google Search)來獲取海量用戶數據.

當今世界上, 除了一些政府機構, 商業公司里, 在對數據的獲取和處理方面, Google 的優勢很明顯.

所以......我也不知道怎麼說了.

當然, 大陸公司不必太過擔心, 畢竟米帝國主義的 Google 並沒有多少中國賬戶. 有機會做地頭蛇. 23333333

參考:
1. Why is machine learning used heavily for Google"s ad ranking and less for their search ranking?
2. Qix/dl.md at master · ty4z2008/Qix · GitHub


謝邀。第一次被邀請,心情十分激動。雖然不太懂,但看到 @阿爾吉儂 這樣熱情啊,一句話不說也不好。
谷歌這次發布會並沒有十分眼前一亮的創新,介紹的還是之前的自然語言處理、deep learning那些東西。具體評價我就不獻醜了,技藝不精,只能仰視,不敢評價。


推薦閱讀:

Google 開源項目 word2vec 的分析?
如何評價Google 的 Project Tango ?
目前 Google 的創新精神是否超過了蘋果?
假如 Android 突然不開源了,整個智能設備格局會發生什麼變化?
搜索引擎的價值確是在降低嗎?

TAG:機器學習 | 谷歌 (Google) | 神經網路 | Google I/O 2015 |