《機器智能的未來》系列二：Yoshua Bengio--會做夢的機器 | 將門推薦

05-03

讓機器具備人一樣的智能，賦予機器思考和推理的能力，是人類最偉大的夢想之一。60年前誕生的人工智慧幾經沉浮，今天乘著移動互聯網、雲計算、大數據的浪潮，終於進入到了全面爆發的前夜。機器智能將成為計算技術的下一次重要革命已經成為行業共識。
在將門看來，我們應該關注這場革新的關鍵要素---影響機器智能未來的核心技術、以及它們的開拓者們對於「知識和思想本質」問題的深入思考。於是我們向您推薦OREILLY對10位機器智能領域全球領先的研究者和實踐者的訪談集：《機器智能的未來》，希望在接下來的兩周，持續與您分享是什麼樣的創意和挑戰激發了這些成就，以及他們對機器智能未來的構想。
——將門聯合創始人兼CTO 沈強
本文選自《機器智能的未來》（The Future of Machine Intelligence）官方中文版第二章。報告中、英文版版權屬於OReilly出版社。轉載已獲中文譯者認可。

英文版本下載：關注微信公眾號「將門創業」(thejiangmen)，留言回復「719」，獲取鏈接。

Yoshua Bengio是蒙特利爾大學計算機科學與運籌學專業的教授，他在此擔任機器學習實驗室（MILA）負責人與加拿大統計演算法研究學會主席。他的研究目標是理解那些能產生『智力』的機器學習原理。

核心結論

自然語言處理，從創生到現在已經走了相當長的路。通過類似『向量表達』以及『定製化深度神經網路』的演算法技巧，這個領域已經向真實語言的理解邁出了有意義的步伐。
深度學習加持下的語言模型與喬姆斯基語言生成學派分道揚鑣，它使人聯想起1980年流行的『連接主義學派』。
『神經科學』和『機器學習』是彼此激發靈感、照亮對方研究空白的關係。
無監督學習在追尋『真正的人工智慧』之路上仍然是一個關鍵的未解之謎。衡量通向該目標進展的依據可以在看似最不可能的地方——機器的夢中找到。

問：讓我們先聊聊您的研究背景吧！

答：我從80年代開始研究神經網路，在麥吉爾大學獲得了博士學位，其後在麻省理工學院追隨導師Michael Jordan 完成了博士後。後來，我和Yann LeCun，Patrice Simard，Leon Bottou, Vladimir Vapnik等各位貝爾實驗室的同仁一起工作，最後回到了我這一生所處最久的地方——蒙特利爾。

也許是命運吧，神經網路在90年代中期沒落，在上一個年代重新崛起。儘管如此，在那個難熬的年代中，我們的實驗室和其他一些研究組仍然在推進這個領域。在那之後的2005、2006年前後，我們在否定了一系列嘗試之後，首先成功實現了深度神經網路的訓練。

從那時開始，我的實驗室就開始成長壯大為一個擁有5到6名教授，共65名研究者的學院。在無監督學習領域以外，我們組在多年的工作中為眾多領域帶來了貢獻，比如，其中就包括自然語言問題中,我們為了處理文本序列設計出循環神經網路（Recurrent Neural Network, RNN）。

同時，我也敏銳地關注『神經科學』與『深度學習』之間的橋樑，它們之間的關係是雙向的。一方面，從50年代開始的人工智慧研究潮流實際上是從研究人腦獲得靈感的；另一方面，自從神經網路復興成為主流之後，我們可以把這種觀點反轉過來，從觀察機器學習的角度，為研究大腦帶來一些高階理論解釋的靈感。

問：那我們接下來聊聊自然語言處理。這個領域是如何發展的？

答：我在NIPS會議雜誌上發表了第一篇自然語言處理領域的重要論文。一般人會認為，現階段最高水平的自然語言處理方法仍然遠遠不到傳達智能的水平——坦率的說，它們太傻了。基本的流行方法還在統計一個詞在另一個詞後面出現了多少次，或者是統計『三元片語』（使用三個單詞構造的片語）一起出現了多少次，然後基於此來預測下一個出現的單詞，或者據此翻譯詞和片語。

這種方法，缺乏任何『語義』的概念，不僅無法應用於高度複雜的抽象概念上，也不能正確的推廣到統計上從未見過的單詞序列上。始終牢記著這一點的我使用了神經網路方法。我相信它們能克服『維數詛咒』（也稱為『維數災難』）問題，並創造了一套處於深度學習理論分析核心的方法與論點。

這個所謂的『詛咒』也就是指機器學習中一個最基本的挑戰。在嘗試使用大量過度冗餘的變數對某個指標進行預測時，大量數值的可能組合讓整個問題的困難程度呈現指數級別的上升。打個比方，如果你考慮『三元片語』，其中每一個詞都來自一個包含10萬單詞的詞典，有多少種可能？10萬的三次方，比任何人類能閱讀的單詞序列都要多得多。更糟糕的是，如果你考慮包含10個單詞的序列，也就是『一個短句』的水平，你會看到的可能性就是就是10萬的10次方——一個大得不可思議的數字。

幸好，我們可以將單詞替換為『表達』，也就是為人所知的『詞向量』，然後訓練、學習這些詞向量就好了。每個詞都被映射為一組數值形成的向量，在訓練中，向量的元素作為單詞的『屬性』出現；而整個機器學習系統可以同時從每一個單詞的向量中學習，從而進行『預測下一個出現的單詞』或者『生成整句翻譯』的工作。想像一下把詞向量視作一個巨大的方表（單詞數量乘以每個單詞擁有的屬性數量），每一個單詞僅僅擁有幾百個屬性。機器可以讀取這些屬性，並且將它們餵給神經網路。這種神經網路跟傳統的神經網路幾乎毫無二致——除了它可以針對單詞表中的每一個詞都給出一個概率輸出，也就是說能給出『多個輸出』的結果。在準確預測『下一個出現的詞是什麼』或者『決定正確的翻譯是什麼』時，這個網路可能為你準備好了10萬個輸出概率。

我們發現，這種方法工作得很好。我們一開始在一個相當小的數據量上驗證，在隨後的十多年裡，研究者們在訓練越發巨大的網路模型以及使用越發巨大的數據集上取得了長足的進步。這個技術已經取代了不少成熟的自然語言處理方法了，不斷的刷新當前最佳準確率。更寬泛點說，我相信我們正處於自然語言處理模式遷移的中心，尤其是考慮『語義』的時候。換言之，我們正在走向『自然語言理解』，尤其是循環神經網路演算法最新的發展已經包含了『推理』。

在神經網路對於自然語言處理產生直接的影響以外，這個工作也接觸到了人工智慧領域另外一個接近的議題，也就是『機器如何回答問題，如何對話』。就是幾周前發生的事情，DeepMind在《自然》科技期刊上發表了一篇與『用於對話的深度學習』高度相關的論文。他們的論文描述了一種能夠擊敗歐洲圍棋冠軍的深度強化學習系統。從各種意義上來說，圍棋都是一種複雜的對弈遊戲，它讓人類以為機器還需要再發展幾十年才能擊敗專業的人類選手。從另一種角度去看，圍棋這種遊戲相當類似於『人類玩家與機器之間的對話』。我非常激動於看到這些研究往何處去。

問：相較於 Noam Chomsky的語言學觀點，如何評價深度學習？

答：它們走了完全相反的路。深度學習幾乎完全依賴於『通過數據來學習』。當然，是我們設計了深度學習的框架，但是它更多的依賴數據。在Chomky關心內在語法與邏輯時，深度學習更關心『涵義』。語法被漸漸認識到只是『蛋糕上的糖衣』，相反的，真正重要的是我們的『目的』：往往是我們選擇出來的辭彙表徵了我們要表達的涵義，因而這種『涵義』是可以被『學習』出來的。這些思想完全與Chomsky學派背道而馳。

問：還有哪些備選的語言學學派給出了更好的方案？

答：在80年代，一部分心理學家、計算機科學家和語言學家在認知心理學領域發展了『連接主義』。通過使用神經網路，這個群體基於神經科學的基礎研究，照亮了研究人類思想和人類學習的空白。實際上，『反向傳播演算法』與其他一些沿用至今的演算法可以追溯到他們的工作上去。

問：這是否意味著早期兒童語言能力進化，或者其他人類大腦功能可能在結構上與『反向傳播』或者類似的演算法是接近的？

答：我們這群研究者有時會從自然和人類的智能中獲得一些啟示。比如『按課程學習』。這種方法被發現有助於深度學習，尤其是在推理任務方面。與之相反的是，傳統機器學習把所有的樣本塞在一個大口袋裡，使得樣本點的順序是隨機的。人類不是這麼學習的。我們往往是跟隨著老師的指導，從最簡單的基礎概念開始學習，然後逐漸搞懂越發困難和複雜的概念，我們始終基於之前的學習進度建立新知識框架。

從優化的角度來看，訓練神經網路是件困難的事。儘管如此，從一個小的神經網路開始訓練，通過增加網路層數逐漸提高訓練難度，我們就可以求解那些之前被認為幾乎無法訓練的困難模型。

問：你的工作包含了圍繞深度學習框架的研究。你能圍繞『框架如何發展』談談嗎？

答：我們並無必要使用1980年代到2000年代所使用的非線性函數。比如說，之前我們依賴一種被稱為雙曲正切的單調增函數，使得特別大和特別小的值帶來的影響達到飽和（譯者註：飽和，意即導數為0），主要關心中間的取值帶來的影響。在我們的工作中，我們發現另外一種非線性函數——整流函數（神經網路中的斜坡函數）。它就隱藏在簡單的觀點中，這種函數允許我們訓練更深層的神經網路。這個模型是從人腦中獲得靈感的，人腦的工作機制比起雙曲正切函數更接近整流函數。有趣的是，這個模型為何能工作的如此好仍然需要更清楚的闡釋，相關理論往往是在機器學習實驗中構建起來的。

問：在未來的幾年裡你希望從事哪些其他的挑戰？

答：在理解自然語言以外，我們把視角投向『推理』這件事本身。操作符號、數據結構和圖曾經是經典人工智慧的領域，但就在幾年以前，神經網路已經把努力轉到這方面來。我們已經見到一些模型能夠操作諸如棧或者圖的數據結構，使用內存去存儲以及獲取類對象，以及按照一種固定的流程去工作。這將潛在地支撐一些需要整合離散信息的任務，比如對話等等。

在『推理』以外，我也對無監督學習非常感興趣。得益於能夠在人類標註的數據集上做百萬數量級數據的大規模訓練，機器學習的進展已經被推動到一個更大的尺度上了—— 但這種方法不具備擴張能力：我們不可能在現實中真的去標註世界上所有的東西，繁文縟節地向電腦解釋所有最小的細節。更重要的是，這也不是人類最常見的學習方式。

當然了，作為能夠思考的生物，我們向周遭環境以及其他人類提供反饋，也依賴於它們給我們的反饋；但是其中的信息相對於你的『典型標註數據集』是稀疏的。簡單來說，一個孩子通過尋找規律的方式觀察她的周圍環境，以期理解這些事以及導致這些事情發生的潛在原因。在她追求知識的過程中，她會以進行實驗或者提問的方式來持續優化她心中對周遭環境建立的模型。

對於以類似方式學習的機器，我們需要在無監督學習上下更大的功夫。在追求這一點的過程中，一個最激動人心的領域就在『演算法產生圖像』上。一種衡量機器無監督學習容量的方式是，給它提供大量同類圖像，比如說車的照片，然後要求機器『夢想』出一種全新的車型——這種方法已經在汽車、人臉等等類別的圖像上被證實有效。儘管如此，現在這種『夢幻圖像』的質量跟計算機圖形學（CG）能夠達到的程度相比，還相當粗劣。

如果這樣一種機器能夠按照要求反饋出可信的、非抄襲性質的圖像輸出，生成全新的、靠譜的圖像，這就暗示這他能夠在更深層次上理解圖中的物體。在某種意義上，這個機器已經建立起能夠解釋這些物體潛在意義的機制了。

問：你說你要求機器去『做夢』。同時，接下來這個問題也許是很『正式』的提問：真的會像Philip K.Dick提到的那樣，機器人做夢會夢到電子羊嗎？

答：是的。我們的機器已經開始做夢了，以一種模糊的形式。它們還不像人類的夢境、想像那樣，是一種我們每天都在使用、能在不具備實際切身體驗時即可發揮功能的機制，不能做到清晰並富含細節。我能夠想像因為錯誤的轉向碰見迎面而來的車流所導致的一系列後果。我很慶幸我不需要切身體驗它才能認知到這種事情的危險性。如果我們人類只能從有監督學習中獲取經驗，那麼我們需要顯式地體驗那種情境，以及由此產生的無窮無盡的結果序列。無監督學習的目標，就是幫助機器從現有世界的知識出發，推理和預測未來將會發生什麼。這顯示了人工智慧的關鍵能力。

如我們所知，這也是引發科學進步的因素。這是一種給定觀測數據後，釐清因果解釋的方法。換句話說，我們希望機器能成為小小科學家，或者成為小孩。為了達到這種真正自發的無監督學習，我們可能要花上幾十年，但這就是我們現在努力的軌道。

-END-

閱讀更多>>《機器智能的未來》系列一：高維數據的機器學習 | 將門推薦

將門CTO沈強邀請您同看《機器智能的未來》中文版

【譯者介紹】王威揚，清華工學/經濟學學位入手後轉專業，芝加哥大學統計學畢業，誤入Machine Learning大坑，一線數據碼工。先後就職於芝大計算機系、文思海輝、京東、e代駕，混跡於數個Pre-A/天使輪項目，熟悉金融、電商、地理數據、文本數據的數據挖掘理論與實踐。