Yann LeCun：學習世界模型，通向AI的下一步

07-27

來自專欄機器之心118 人贊了文章

機器之心整理。

人工智慧頂會 IJCAI 2018 的主要議程於昨日在瑞典首都斯德哥爾摩開始。昨天上午，Facebook 首席人工智慧科學家、紐約大學教授 Yann LeCun 在會上發表了近一個小時，以《Learning World Models: the Next Step towards AI》為主題的演講，引起了人們的廣泛關注。本文將對 LeCun 的演講進行簡要介紹。

完整演講視頻：

Yann LeCun IJCAI 2018演講_騰訊視頻?

v.qq.com

Yann LeCun 開場介紹說，當前幾乎所有的機器學習從業者在實踐中使用的都是監督式學習：向機器展示大量的樣本，然後告訴機器正確的答案與內部參數，然後就能做圖像識別之類的任務。而過去幾年，監督式學習有了極大的成功，應用也非常廣泛。下圖對比了傳統機器學習與深度學習各自的特點。

深度學習的演講回溯到 20 世紀 50 年代，當時 AI 社區嘗試構建神經網路。建立這樣略為複雜的系統，你需要兩個基礎的運算：線性的加權和與非線性的激活函數。這裡，Yann LeCun 回顧了他們在 80 年代末期提出的用來識別數字的卷積神經網路 LeNet5，從最初的識別單個目標發展到了識別多個目標。

很快，他們就建立了一個識別手寫文件的系統。在 1995 年，他們在 AT&T 完成了一個商業系統來讀取支票賬號。經歷了如下圖展示的過程。Yann LeCun 介紹了，這是上一波人工智慧浪潮下的極大成功示例。之後，人們就對神經網路的研究失去了興趣。一方面是準確率的原因，還因為很多領域當時沒有足夠多的數據來訓練學習系統。

接著，Yann LeCun 介紹說，實際上在 1996-2001 年這段時間內，他並沒有研究機器學習，而是在研究其它東西，尤其是圖像壓縮。

下圖是在 21 世紀初加入 NYU 之後用模仿學習做的研究。這個研究激發了 DARPA 的 LAGR 項目。

Yann LeCun 隨後回顧了卷積神經網路在不同任務中的應用，包括用於自動駕駛汽車的目標檢測與語義分割等。這些基於視覺的任務絕大部分都需要卷積神經網路的支持，當然也離不開並行計算設備的支持。

第一個得到廣泛關注與應用的卷積神經網路是 2012 年提出來的 AlexNet，它相比於 LeNet-5 最大的特點是使用更深的卷積網路和 GPU 進行並行運算。AlexNet 還應用了非常多的方法來提升模型性能，包括第一次使用 ReLU 非線性激活函數、第一次使用 Dropout 以及大量數據增強而實現網路的正則化。除此之外，AlexNet 還使用了帶動量的隨機梯度下降、L2 權重衰減以及 CNN 的集成方法，這些方法現在都成為了卷積網路不可或缺的模塊。

隨後在 ImageNet 挑戰賽中，卷積網路的深度與性能都逐年提升。從 12 年到 16 年，參賽者使用的卷積神經網路不斷加深，錯誤率也逐年下降。

如下所示，牛津大學 2014 年提出了另一種深度卷積網路 VGG-Net，與 AlexNet 相比，它的卷積核更小，層級更深。谷歌同年提出了 GoogLeNet（或 Inception-v1），該網路共有 22 層，且包含了非常高效的 Inception 模塊。後來到了 15 年，何愷明等人提出的深度殘差網路驟然將網路深度由十幾二十層提升到 152 層，且性能大幅提高。

此外，去年提出的 DenseNet 進一步解決了 ResNet 遺留下的梯度問題，並獲得了 CVPR 2017 的最佳論文。DenseNet 的目標是提升網路層級間信息流與梯度流的效率，並提高參數效率。它也如同 ResNet 那樣連接前層特徵圖與後層特徵圖，但 DenseNet 並不會像 ResNet 那樣對兩個特徵圖求和，而是直接將特徵圖按深度相互拼接在一起。

那麼為什麼卷積神經網路在計算機視覺任務上如此高效？Yann LeCun 隨後就對深度卷積網路的表徵方式做了介紹。他表明對於圖像數據來說，數據的信息與結構在語義層面上都是組合性的，整體圖像的語義是由局部抽象特徵組合而成。因此深度網路這種層級表徵結構能依次從簡單特徵組合成複雜的抽象特徵，如下我們可以用線段等簡單特徵組合成簡單形狀，再進一步組合成圖像各部位的特徵。

卷積神經網路在目標識別、目標檢測、語義分割和圖像描述等領域都有非常多的應用，而這些實現很多都依賴於深度學習框架。LeCun 隨後重點介紹了 PyTorch 與 Detectron，其中 PyTorch 因為採用了動態計算圖而受到了廣泛的關注，它也是當前發展最快的框架之一。

如下所示，Facebook AI 研究院開源的 Detectron 基本上是業內最佳水平的目標檢測平台。據 LeCun 介紹，該項目自 2016 年 7 月啟動，構建於 Caffe2 之上，目前支持目標檢測與語義分割演算法，其中包括 Mask R-CNN（何愷明的研究，ICCV 2017 最佳論文）和 Focal Loss for Dense Object Detection（ICCV 2017 最佳學生論文）等優秀的模型。

最後，作為對卷積神經網路的總結，LeCun 帶我們回顧了卷積神經網路的應用，包括醫療影像分析、自動駕駛、機器翻譯、文本理解、視頻遊戲和其它學科研究。

Yann LeCun 談到當前深度學習缺乏推理能力，因此未來的一個重點發展方向就是深度學習和推理的結合。

人們已經在多個方向上進行嘗試。例如，在網路中增加記憶增強模塊，典型的工作在下圖中列出，這是實現推理的第一步。在對話模型中，由於對話的輪換和非連續的特點，通過增強記憶，有助於預測能力的提高，進而能實現長期而有效的對話。

為什麼要強調記憶建模的重要性呢？在強化學習中，無模型的強化學習訓練需要大量的嘗試才能學會一項任務。

因此此類方法在遊戲中表現良好，如 FAIR、DeepMind、OpenAI 等之前都已在許多遊戲上實現接近甚至超越人類的 AI 系統，但這些系統並沒有達到現實應用的水平。

因為現實環境遠遠比遊戲中的環境要複雜得多，無論是變數複雜度還是不確定性方面，對此，無模型的強化學習系統面對的探索空間是相當巨大的。而且，不像 AlphaGo 那樣可以在計算機上模擬成千上萬次比賽，現實世界環境是無法被「加速」的，有些試驗還涉及很大的風險，這也大大限制了系統的訓練資源。

那麼目前來看，人工智慧到底缺少了什麼？監督學習需要太多的樣本，強化學習需要太多的嘗試，AI 系統缺乏常識。

Yann LeCun 總結了一下這兩類系統的缺點：缺乏獨立於任務的背景知識；缺乏常識；缺乏預測行為後果的能力；缺乏長期規劃和推理的能力。簡言之就是：沒有世界模型；沒有關於世界運行的通用背景知識。用更一般的語言來講就是，目前的機器無法在心裡想像（表徵）世界，而只是像殭屍一樣被氣味驅使著（無意識地）行動。記憶建模只是一方面，建立完整的世界表徵才是我們真正需要的。

在現實應用層面，Yann LeCun 總結道，利用現有的監督學習和強化學習技術，我們可以在自駕汽車、醫療圖像分析、個性化醫療、語言翻譯、聊天機器人（有用但還很蠢）、信息搜索、信息檢索、信息過濾以及其它領域中取得不錯的進展，但仍然無法實現常識推理、智能個人助理、智能聊天機器人、家庭機器人以及通用人工智慧等。

然後，Yann LeCun 指出我們可以從嬰兒的學習方式上獲得啟發。嬰兒對外部世界的概念學習大部分是通過觀察，僅有小部分是通過交互，而視覺比觸覺、體感等能捕獲更多、更完整的外部信息。那麼機器如何做到這一點？其實，這種情況不止發生在人身上，動物也是如此。LeCun 隨後展示了一幅嬰兒和大猩猩觀看魔術的圖，並解釋說，當違反世界模型，也就是當我們觀察到一些不尋常、與世界模型不匹配的東西時，我們的注意力就會被調動（如嬰兒和大猩猩看到魔術表演會大笑就是因為世界模型被違反了）。

接下來，LeCun 解釋了突破強化學習現狀的解決方法：自監督學習，它能通過輸入的某一部分預測其它部分。在空間層面上包括圖像補全、圖像變換等，在時間層面上包括時序數據預測、視頻幀預測等。

Yann LeCun 總結了三類學習範式，分別是強化學習、監督學習和自監督學習，相比於強化學習和監督學習，自監督學習將輸入和輸出當成完整的整體。它們的區別和聯繫在於反饋信息的逐漸增多，模型表徵複雜度、適用任務類型也大幅增加，同時任務中涉及的人類工程比重也大大減少，意味著自動化程度的增加。

LeCun 還用之前經常使用的蛋糕比喻來說明三者的關係，之前蛋糕胚代表的是無監督學習，現在則被換成自監督學習。

Hinton 在自監督學習領域探索了多年，LeCun 之前一直持懷疑態度，現在終於認可了這個方向。

機器學習的未來不會是監督學習，當然也不會純粹是強化學習，它應該是包含了深度模塊的自監督學習。

那麼下一個問題是，自監督學習能夠產生一般的背景知識嗎？這裡重點是模型需要推斷出背景知識，它需要從真實世界收集的背景知識推理出當前它希望預測的任務。如下 LeCun 舉了一個例子，如果接收到一個自然語句，模型應該推斷出當前場景的各種背景知識。

對於基於模型的經典最優控制，我們可能需要初始化一個序列來模擬世界，並通過梯度下降調整控制序列來最優化目標函數。而目前我們可以通過強化學習的方式模擬世界，這些模型不僅需要預測下一個可能的動作，同時還需要預測一系列可能的未來。

接下來 Yann LeCun 介紹了使用對抗訓練的視頻預測。他首先展示了預測無監督學習。人類是很擅長預測的，然而機器很難預測未來會發生什麼。近年來的研究中出現了一些使用「對抗訓練」的成功案例，但是仍有很長的路要走。Yann LeCun 用一個紐約公寓的視頻示例進行舉例說明。

語義分割空間的視頻預測

這部分 Yann LeCun 介紹了當前語義分割預測的現狀。

Latent-Variable Forward Models for Planning and Learning Policies

下圖展示了用於推斷動作和潛在變數的模型架構。

然後 Yann Lecun 展示了一個現實世界的真實案例。

最後，Yann Lecun 總結了技術和科學之間的互相驅動和促進，如望遠鏡和光學、蒸汽機和熱力學、計算機和計算機科學等。並提出了疑問：什麼相當於智能的「熱力學」？

人工智慧和自然智能背後是否存在底層原則？
學習背後是否存在簡單的準則？
大腦是否是進化產生的大量「hack」的集合？

視頻鏈接：https://www.facebook.com/ijcaiecai18/videos/2184672041673770/