Yoshua Bengio為什麼能跟Hinton、LeCun相提並論??

Hinton的幾種演算法讓深度神經網路work,帶活了整個領域。
Lecun發明(改進?)了CNN,是目前計算機視覺最有用的模型。
Bengio的成就很高。但是,Bengio做出了什麼開創性的貢獻,讓他足以與前兩位相提並論?
如果沒有Hinton或者LeCun,就不會有今天的deep learning。但是如果沒有Bengio呢?

類似「深度學習三巨頭」的說法是誰先提出的?是否就是Bengio自己炒出來的呢?
我聽過多次Bengio的報告,每次Bengio的slides都會有一頁把他和另外兩位的照片放在一起,似乎暗示著他們三人就是當今深度學習領域的領軍人物。
「三巨頭」的意思是,如果圖靈獎給deep learning,而且可以給三個人的話,那麼就應該是這三人獲獎。可是如果給Bengio,恐怕會一片嘩然吧?

深度學習領域有多個貢獻巨大的學者,那麼把Bengio和前兩人並稱「深度學習三巨頭」是否合適?
此外,發明LSTM、RNN、autoencoder等各種網路的人是否還健在?如果他們在世,把Bengio稱為三巨頭之一是否合適?


2016年底更:
在過去兩年yoshua最重要的兩個工作應該是attention以及GAN了。可以看看現在用神經網路做nlp的,基本離不開attention,比如google上線的neural machine translation system(而實際上最早關於的neural machine translation文章也來自yoshua)。做generative model的基本離不開GAN,今年GAN在nips還開了個tutorial。

更新,關於bound:
題主應該是個數理基礎很好的人,否則也不會糾結bound這個事。我個人很喜歡帶bound的paper,前提是這個bound可以給人啟發。我覺得對於證bound這個事見人見智,bound本身是個優美而嚴格的東西,但是為了證bound而最後給出一個丑的不行的下界從中得不到任何啟發,我覺得並沒有什麼卵用,每年icml這麼多bound paper,不少都是在做數學遊戲,照著凸問題狂搞,較少人敢碰非凸問題的bound,大家一邊噴神經網路沒理論沒bound,一邊又都不敢碰,這就有點慫了。不過最近越來越多的人開始重新進軍NN的bound問題,jordan組最近出了幾篇不錯基於pac learning 關於nn的可學習性的paper,那裡面的bound還是挺精彩的。題主可以一睹。

再補充一點,我曾經當面問過他為什麼不證bound,其實他早年搞過svm的時候也搞過bound,只是這事到神經網路的上面的時候太難了,能給出的bound都沒有意義,有意義的bound又很難證。這不是他數學不好的問題,而是在之前一段時間整個機器學習界都很少有人碰這個問題,因為給不出有意義的bound。

所以不是「他數學太弱,連個像樣的bound都證不出來。」(題主某評論,貌似已經刪掉),其實他早年玩bound的玩的不知道高到哪裡去了。而是他認為「有些bound即使證明出來了,因為跟實際差的太遠,也沒有任何價值」。


==========原答案===============
這幾位教授在國際上對他們的評價基本都是「深度學習的活躍研究者」,「三巨頭」這個說法是中國特色,基本類似於「四大金剛」,「十八羅漢」或者「葫蘆娃七兄弟」的感覺,國人發現他們幾個總是搞在一起謀劃大事,而最新的成果又很多來源於他們三個,所以乾脆一拍腦門起個狂霸酷炫的組合名字「深度學習三巨頭」好了,這個稱呼看看就好,認真你就輸了。
若論資排輩,自然是hinton&>lecun&>bengio
首先年齡上bengio最小。
hinton不用多說,經典工作堆成山,門下徒子徒孫遍地,lecun是hinton的postdoc,當年micheal jordan想去hinton門下讀postdoc都被婉拒,而bengio又是jordan的postdoc。
雖說lecun不是cnn的發明人,但是他是第一個把bp用在cnn上並且完善cnn使得它可以在real application上work的人,也是自98年之後近20年的cnn第一推動者。
說回bengio,bengio當年在att lab工作時,組長就是lecun,lecun的經典文章bengio是三作,那片文章的4個作者如今都是大牛。(題外話,當時vapnik也在att lab,可想當時有多熱鬧)
所以資歷上看,bengio資歷淺。

但是這不妨礙bengio成為dl的幾大貢獻者,bengio的主要貢獻在於:1.他對rnn的一系列推動包括經典的neural language model,gradient vanishing 的細緻討論,word2vec的雛形,以及現在的machine translation;2.他是神經網路復興的主要的三個發起人之一(這一點他們三個人都承認,之前他們一直在謀劃大事,正是他們三個人的堅持才有了現在的神經網路復興,這點最高票答案說的很對)包括了pre-training的問題,如何initialize參數的問題,以denoising atuencoder為代表的各種各樣的autoencoder結構,generative model等等。
3.symbolic computional graph思想的theano。這個庫啟發了後來的多個庫的開發(直接基於它的庫就不提了比如keras),包括國內很火的MXnet,google的tensorflow以及berkeley的cgt等等,可以說這個工具以及所涵蓋的思想可以算同類型庫的鼻祖。4.ICLR的推動者,個人認為ICLR是一種嶄新的會議形式,包容開放,也正符合bengio本人的思想。5.其他paper。

說到除了bengio之外的人,不得不提的一個名字是:Jürgen Schmidhuber。
他是LSTM的共同發明人之一,gradient vanishing的貢獻人,也是reccurent 結構的狂熱推動者,手下得意門生比如alex grave等。Schmidhuber本人由於地處歐洲,和北美學術圈交流較少,而他本人脾氣稍顯不羈,所以跟另外三位交集沒那麼大,喜歡自己搞,此外他個人也是AGI的fans。但不得不說他對dl的貢獻也是非常大。如果要我說dl貢獻最大的幾個人,我會把Schmidhuber也算進去。
他的主頁:Juergen Schmidhuber"s home page -Universal Artificial Intelligence

綜上,bengio的貢獻足以讓他進入最新一次神經網路復興的前四名研究者了。

P.S. 個人比較喜歡數學理論清晰的工作,個人認為就數學嚴謹性而言,lecun &>= bengio &> hinton. 而三人的insight和intuition都是極好的。


Bengio 的 "A neural probabilistic language model" 這篇論文開創了神經網路做 language model 的先河。裡面的思路影響、啟發了之後的很多基於神經網路做 NLP 的文章,並且這些文章的方法在工業界也被廣泛使用,如 word2vec,又及最近的一些機器翻譯模型。這篇文章的貢獻並不比 Yann Lecun 在 CNN 上的工作遜色。再說最近又火起來的 RNN 吧,Bengio 在 94 年就對 RNN 為什麼難以學到 long-term dependencies 做過深刻的研究(IEEE Xplore Abstract)。另外,他的 "Greedy Layer-Wise Training of Deep Networks" 對 Hinton 提出的 layer-wise 方法訓練深度神經網路做了更系統的擴展和研究,讓大家又重燃對深度神經網路的興趣和信心。Bengio 的工作還拓展到神經網路的工具上,大名鼎鼎的 Theano (Welcome — Theano 0.7 documentation) 就是他們 group 的工作。

「三巨頭」說法的另一個原因是他們三人在神經網路不被看好的年頭還一直堅持研究神經網路,這就超出了學術能力而到達了學術品位和信仰的境界。他們三人活躍在 CIFAR (Meet the Man Google Hired to Make AI a Reality),這個對神經網路的命運啊有很大的關係 (How a Toronto professor』s research revolutionized artificial intelligence):

CIFAR 「had a huge impact in forming a community around deep learning,」 adds LeCun, the CIFAR program』s other co-director. 「We were outcast a little bit in the broader machine learning community: we couldn』t get our papers published. This gave us a place where we could exchange ideas.」

個人很喜歡讀 Bengio 的文章,讀的時候有一種渾然天成的感覺,讀完覺得「這個問題就該這麼解決啊」。另外三巨頭的文章、演講都很有個性,基本不人云亦云。


卧槽,不帶這麼黑的吧,要黑去黑吳恩達撒。


其實跟Yoshua做research一年多了, 我覺得Yoshua最擅長的是long term scope和far-reaching goal, 他對於deep learning和AI的將來發展有深刻的洞見, 是我輩所不能及的.

他難能可貴之處,就是在百忙之中(他現在的日程據說已經排滿到12月了), 抽出大量時間思考deep learning的hardcore problem,這是我最為欣賞他的原因. 當然他的idea也許在當下都不怎麼work, 但只要深入思考就可以看出, 確實是未來AI和DL的發展方向.

Yoshua和MILA對deep learning 最重要的貢獻都不是那些簡單但很work的微觀trick(比如resnet, BN, relu這種), 而都是對模型本身的宏觀創造, 比如Word vector, GAN, attention, DAE, GSN.

雖然大家都需要empirical的貢獻發文章,但大家也應該清楚, empirical的工作是無法真正幫助我們處理人工智慧中的硬核問題的. 目前的硬核問題,包括 exploration, consciousness, curriculum learning, continual learning, causality, reasoning, disentangled representation, semantics representation 等等 本質上還是毫無進展.

Theano結束說明AI和DL的奠基性時代已經結束. 即將開啟的下一個時代, 我們MILA將會完全聚焦到真正的AI硬核問題. Yoshua 和我們都是這麼想的.

Anyway, 無論怎麼困難的路,總是需要人走下去的.


Yoshua Bengio在深度學習的多個領域都有造詣,比如LSTM和GAN,對深度學習有著持續而深遠的影響。Bengio在之前發過一些講AI和deep learning的方向性的文章,比如Deep Learning of Representations: Looking Forward,這個是很有意義的前瞻性指導。

我覺得,不如問問,為什麼吳恩達突然變成了跟神一樣的人?吳老師最大的貢獻:聽他講課的人多。


hinton是教主,負責挖坑,挖完坑就跑
lecun是獨行俠,負責東搞西搞
bengio是金牌打手,負責理論和實驗支持。

bengio的很多論文還是很有想法的,開創性的是語言模型,還有他寫的那幾個思想性質的長文。bengio還貢獻了一大批高水平學生,開發theano,直接影響了後期的很多深度學習框架。還有很多tiny開創性的,就不列舉了。


這三位最強的都是直覺好。最值得敬佩的都是堅持不懈地做自己堅信的東西,熬過了神經網路的凄風冷雨,才打造出了深度學習的今天。不過說到理論高度,三位應該都與圖靈獎無緣吧。


看到圖靈獎頒給deep learning我就知道樓主問問題不帶深入思考的。


Learning Deep Architectures for AI???不是bengio的嗎。。。


Bengio, Y., Ducharme, R., Vincent, P., Janvin, C. (2003). A neural probabilistic language model. The Journal of Machine Learning Research, 3, 1137-1155.


Yoshua Bengio 他在詞向量上也何有造詣,不僅僅是深度學習


Hinton、Bengio、LeCun都是深度學習領域的先行者,看看谷歌學術他們仨的引用,Hinton遙遙領先,但是Bengio是LeCun是一個量級的。

蒙特利爾AI人才集中度高於世界上任何其他地方,這有Bengio不小的功勞。微軟、谷歌和facebook相繼在蒙特利爾建立人工智慧實驗室,更是證實了蒙特利爾AI人才充足的事實。

谷歌招徠了Hinton、Facebook引入了LeCun、微軟今年終於邀請Bengio過來做戰略顧問,這三大AI巨頭的行為不也從側面證實Hinton、LeCun和Bengio三人在深度學習領域的頂尖地位。

現在火熱的tf、pytorch等機器學習框架的先行者Theano也是Bengio所負責的MILA實驗室的產物,這多少能說明Bengio的遠見卓識。

Hinton像是深度學習領域的哲學家,為大家指引前行的方向。Bengio像是深度學習領域的思想家,想著怎麼推動深度學習這個領域更好更快地發展。比如研發Theano,方便科研人員更快地驗證自己的想法;比如早在09年寫的《Learning Deep Architectures for AI》,討論深度結構動機和準則的;比如17的皇皇巨著《Deep learning》,這本書給大家講述了深度學習的前世今生,以及深度學習需要的數學基礎和當前深度學習的現狀,它完全免費,方便更多人才進入深度學習這個領域,這對深度學習這個領域的推動作用該有多大;比如Bengio為了防止人工智慧被大公司壟斷,至今沒全職加入某一家公司。


這問題?
人家可是做理論的牛人,非常紮實的工作,說實話我最佩服的就是他了,那麼多人去工業界轉錢了,他還在學術界堅持,真的難得,真喜歡搞學術的人!


NLP現在還在用LSTM其實是很悲劇的。這是神經網路非同步發展的結果,LSTM還是90年代的水平,而DNN,GAN已經達到2010年代水平了。所以,Bengio排在LSTM發明人之前當然是可以的。對神經網路做出過貢獻的研究者來自各個領域,綜合起來Bengio水平應該算很高的。M.I.Jordan在Variational method方面的貢獻很大,對DNN似乎不大。但是他進入Bayesian領域之前的NN研究在當時也很不錯。


在以後大家就會明白深度學習現在普遍利用GPU暴力計算是一個錯誤的方向。


推薦閱讀:

寒武紀神經網路處理器效能如何 ?
word2vec算出的詞向量怎麼衡量好壞?
梯度下降法是萬能的模型訓練演算法嗎?
人腦有海量的神經元(參數),那麼人腦有沒有「過擬合」行為?

TAG:人工智慧 | 機器學習 | 神經網路 | 深度學習(Deep Learning) |