AI寒冬將至?「人工智慧衰退論」再起,卻遭LeCun怒斥

AI寒冬將至?「人工智慧衰退論」再起,卻遭LeCun怒斥

來自專欄機器之心

作者:Filip Piekniewski,機器之心編譯。

《AI Winter is Well on its Way》是計算機視覺和 AI 領域專家 Filip Piekniewski 所寫的一篇文章,文中提到了很多深度學習頂級研究者的觀點,如 Geoff Hinton、吳恩達、Yan LeCun、李飛飛、Gary Marcus 等,並以「谷歌、Facebook 等公司對 AI 的研究興趣正在衰退」作為論據。本文主要涉及「深度學習蒙塵」、對深度學習擴展能力和自動駕駛的討論、對該領域炒作的批判,最終結論是 AI 寒冬必將到來。對此,Yann LeCun 認為這篇文章「very uninformed」,並列出了幾點理由。

近日,一篇名為《AI Winter is Well on its Way》的文章刷屏了(嗯哼,即將刷屏,微笑),對此 Yan Lecun 的評價是:

這篇文章非常無知。Facebook、谷歌、微軟等企業近期增加了他們在 AI 方面的努力。

Facebook 現在擁有一個專註於 AI 研究的大型組織,還有人工智慧副總裁。微軟事業部的名稱里就有「AI」(而沒有提到「Windows」或「Office」)。谷歌將其整個研究組織重命名為「Google AI」。

這三家公司在僱傭 AI 科學家和工程師方面一直在加速。目前來看並沒有平台期或者減速現象。

《AI Winter is Well on its Way》究竟在講什麼呢?機器之心對該文章進行了編譯介紹:

近幾年來,深度學習一直處於所謂「人工智慧革命」的前沿,許多人認為,正是這顆銀色的子彈將把我們帶到技術奇點的神奇世界(通用人工智慧)。很多企業在 2014、2015 和 2016 年進行了多次押注,當時人工智慧還有一些新的進展,如 AlphaGo 等。特斯拉等公司宣布,人類距離全自動駕駛汽車已近在咫尺,特斯拉甚至已經開始向客戶推銷這一概念,以便未來的軟體更新能夠將其實現。

現在已到 2018 年中,情況已經發生了變化,雖然表面上還看不出來。NIPS 會議仍被過度炒作,企業公關的新聞稿中仍然充斥著人工智慧,馬斯克依然承諾製造自動駕駛汽車,谷歌 CEO 不斷重複吳恩達的口號——「人工智慧的影響大於電力」(AI is bigger than electricity)。但這種表述開始出現漏洞。正如我在之前的文章(blog.piekniewski.info/2)中所預測的那樣,最明顯的漏洞是自動駕駛這一技術在現實世界中的實際應用。

深度學習蒙塵

當 ImageNet 問題得到有效解決(注意,這並不意味著視覺問題得到解決),該領域的許多著名研究人員(甚至包括一貫低調的 Geoff Hinton)都在積極地接受新聞採訪,在社交媒體上發表文章(如 Yann LeCun、吳恩達、李飛飛)。總的來說,我們正面臨著一場巨大的革命,從現在開始,一切只能加速。幾年過去,這些人的 Twitter feeds 變得不那麼活躍了,以吳恩達的 Twtter 為例:

2013 年:每天 0.413 條推文

2014 年:每天 0.605 條推文

2015 年:每天 0.320 條推文

2016 年:每天 0.802 條推文

2017 年:每天 0.668 條推文

2018 年:每天 0.263 條推文(截至 5 月 24 日)

或許這是因為吳恩達駭人的主張現在受到了社區更多的審視,如以下推文所示:

很明顯,人氣已經大幅下滑,稱讚深度學習是終極演算法的推特少之又少,論文不再那麼具有顛覆性,而是被視為一種發展演變。自從發布 AlphaGo Zero 以後,DeepMind 再也沒有什麼突破性進展,即使是 AlphaGo Zero 也沒有那麼令人興奮,因為只需要大量的計算,而且只適用於遊戲(參見莫拉維克悖論)。OpenAI 相當安靜,他們最後一篇爆款文章是《Dota 2》(我想這一突破應該會像 AlphaGo 一樣引起轟動,但卻很快就銷聲匿跡了)。實際上,有文章甚至稱谷歌也不知道該如何處理 DeepMind,因為它們的結果顯然不像原來預期的那樣實際……著名的研究人員一般都是去加拿大或法國與政府官員會面,以爭取未來的資助,Yann LeCun 甚至從 Facebook 研究負責人的位置退了下來,成為首席人工智慧科學家(頗具象徵意義)。從有錢的大公司到政府資助機構的逐漸轉變讓我覺得,其實這些公司(我想到了谷歌和 Facebook)對這類研究的興趣正在慢慢消退。這些都是早期的跡象,他們沒有大聲說出來,只給出了肢體語言。

深度學習(並沒有)擴展

其中一個關鍵口號是不停重複說「深度學習幾乎可以毫不費力地實現擴展」。2012 年 AlexNet 出現,擁有大約 6 千萬參數,那麼現在我們的模型或許具備至少 1000 倍的參數吧?或許是的,但是問題在於:性能也是之前的 1000 倍嗎?或者 100 倍?OpenAI 的一項研究顯示:

在視覺應用領域,我們可以看到 VGG 和 ResNet 在計算資源到達一定數量級之後逐漸飽和(參數數量實際上減少了)。Xception 是谷歌 Inception 架構的變體,事實上它在 ImageNet 數據集上的性能僅比 Inception 好一點點,也只是稍微優於其他模型,因為 AlexNet 本質上解決了 ImageNet 問題。那麼即使我們使用的計算量是 AlexNet 的 100 倍,我們得到的也是飽和的架構,不論是視覺模型還是圖像分類。神經機器翻譯是所有網路搜索公司都參與的一次大型「戰役」,也無怪乎它使用了能使用的所有計算資源(儘管 Google Translate 效果比之前好了一些,但仍然不夠優秀)。上圖的最後三個點非常有趣地展示了強化學習相關項目,它們被應用於 DeepMind 和 OpenAI 的遊戲中。尤其是 AlphaGo Zero 和更通用的 AlphaZero 耗費的計算量大到荒謬,而且無法在現實應用中使用,因為相當一部分計算量用在了模擬和生成數據上,此類模型需要大量數據。那麼我們現在可以在幾分鐘內訓練 AlexNet,而不用花費數天時間,但是我們可以在幾天時間內訓練出 1000 倍大的 AlexNet,並取得更好的性能嗎?明顯不能……

事實上,上圖原本旨在展示深度學習擴展的優異性,但是卻達到了相反的效果。我們無法擴展 AlexNet,並得到更好的結果,我們必須使用特定的架構,且高效額外的計算量在缺乏數量級增長的數據樣本的情況下無法帶來較大的性能改進,而這麼多數據只有在模擬遊戲環境中才能獲得。

自動駕駛車禍

目前對深度學習最大力的鼓吹在自駕汽車領域(我曾在很長時間內對此有所期待)。起初,人們認為端到端深度學習可以在某種程度上解決這個問題,這也是英偉達曾大肆宣揚的假設。雖然不敢保證,但我不認為這個世界上還有人會相信這個說法。看看去年的加州 DMV 脫離報告中,英偉達的汽車無法在沒有脫離的情況下駕駛十公里。2016 年以來發生了好幾起特斯拉自動導航引起的事故,有些甚至是致命的。可以認為特斯拉的自動導航不應該和自駕混淆,但至少在核心上它們是依賴於相同的技術。在今天,除了偶爾的特大失誤,它仍然無法在十字路口停車、識別交通燈或通過交通環島。這還是在 2018 年 5 月,在承諾穿越美國東西海岸(coast to coast)的特斯拉自動駕駛旅程(並沒有發生,雖然謠言稱他們曾儘力嘗試,但並不能在沒有約 30 次脫離的條件下成功)的幾個月之後的狀況。在幾個月前(2018 年 2 月),馬斯克在一次電話會議中被問及 coast to coast 自駕時重複道:

「我們本來應該完成穿越東西海岸的自動駕駛行程,但它需要太多的專用代碼才能有效地執行,這令其變得脆弱,才能在特定的路徑中工作,而不能得到通用的解決方案。因此我認為我們可以在相同的路徑下重複使用一個方案,但卻不適用於任何其它路徑,這根本不是真正的解決方案...」

「神經網路領域的進展令我感到興奮。它和那些呈指數級增長的技術發展趨勢類似,起初並沒有什麼進展、並沒有什麼進展... 然後突然間就 Wow~。自駕汽車可能也是這樣。」

看看上面那張來自 OpenAI 的圖,似乎並沒有出現指數級的增長趨勢。本質上,以上馬斯克的聲明應該這樣解釋:「我們目前並沒有能安全實現可以橫跨美國的自動駕駛技術,雖然我們可以假裝有,如果想的話(可能是這樣)。我們非常希望神經網路的能力的指數級增長能很快出現,並把我們從恥辱和大量訴訟中解救出來。」

但目前為止,對 AI 泡沫的最重一擊是 Uber 自駕汽車在亞利桑那州撞死行人的事故。從 NTSB 的初步報告中,我們可以看到驚人的論述:

在這份報告中,除了通常的系統設計失敗之外,令人驚訝的是它們的系統用了很長的時間來確定它在前面到底看到了什麼(那是行人、自行車、汽車,還是別的什麼),而不是在這樣的場景中做出唯一符合邏輯的決策,即確保不會撞到前面的事物。有這麼幾個原因:首先,人們通常使用言語表達來傳遞事實。因此人類通常會這樣說:「我看到了一個騎自行車的人,因此我必須左轉來避開他。」而大量的心理物理學文獻提出相當不同的解釋:人類看到的事物在其神經系統的快速感知迴路中被很快地理解為障礙,因此他做出了快速回應來避開障礙,在很長時間後他才意識到發生了什麼,並提供言語解釋。

我們每天都做出了大量未被言語化的決策,在駕駛過程中就包含很多這樣的決策。言語化是很費時費力的,現實中通常沒有這樣的時間。這些經歷了十億年進化而出現的機制讓我們保持安全,而駕駛場景(雖然是現代的)使用了很多這樣的反射。由於這些反射不是特定為駕駛而演化的,它們可能導致錯誤。在汽車裡由於被胡蜂蟄而導致的膝跳反射可能導致很多事故和死傷。但我們對三維空間、速度的一般理解,預測智能體行為和出現在我們路徑上的物理對象行為的能力是一種本能,在一億年前也發揮著和當前一樣的作用,並在進化過程中得到了充分的磨礪。

但是由於這些能力大部分很難用言辭表達,因此我們很難去衡量它們,也無法基於它們優化機器學習系統。現在這隻在英偉達的端到端方法上是可行的:學習圖像 → 動作映射,該方法跳過了任何言語表達,某種程度上這是正確的做法,但……問題在於輸入空間的維度非常高,而動作空間的維度非常低。因此「標籤」的「數量」與輸入信息量相比非常小。在這種情況下,很容易學到虛假關係,正如深度學習對抗樣本中那樣。我們需要一種不同的方法,我假設整個感知輸入的預測和動作是使系統抽象出世界語義的第一步,而非虛假關係。

事實上,如果我們從深度學習爆發中學到了什麼的話,那就是(10k+ 維度的)圖像空間中有足夠多的虛假模式,以至於它們能夠泛化至很多圖像,且給人一種印象,即我們的分類器實際上理解它們所看到的事物。這就是事實,甚至 AI 領域頂級研究者也這麼認為(參見論文《Measuring the tendency of CNNs to Learn Surface Statistical Regularities》)。根據我的觀察,實際上很多頂級研究者不應該那麼憤怒,Yann Lecun 曾經提醒過人們對 AI 的過度興奮以及 AI 寒冬,即使 Geoffrey Hinton 在一次採訪中也承認這可能是個死胡同,我們需要重新再來。現在的炒作太厲害了,甚至沒有人聽該領域創始人的看法。

Gary Marcus 和他對炒作的反對

我應該提一下意識到這種狂妄並敢於公開發表反對意見的人。其中一個活躍人物就是 Gary Marcus。儘管我並不完全認同他在 AI 方面的觀點,但是我們有一點共識,即深度學習現狀並不如炒作宣傳所描繪的圖景那樣強大。事實上還差得遠。參見《Deep Learning: A Critical Appraisal》和《In defense of skepticism about deep learning》,在文章中他非常細緻地解構了深度學習炒作。我非常尊重 Gary,他的行為是一個真正的科學家應該做的,而所謂的「深度學習明星」的行為則是廉價的。

結論

預測 AI 寒冬就像預測股市崩盤一樣——你不可能知道它什麼時候發生,但這是一個必然事件。就像股市崩盤之前一樣,大多數人被宣傳沖昏了頭腦,忽略了熊市的先兆,即使事實就擺在眼前。在我看來,已經有跡象表明深度學習的衰退已經臨近(可能在 AI 方面,現在這個名詞已經被公司的宣傳濫用了),事實是如此的明顯,但由於越來越多的宣傳報道,大部分人還毫無預料。這樣的寒冬會有多「冷」?我不知道。下一個熱點是什麼?我也不知道。但我非常清楚變革即將來臨,而且很快就會發生。

原文鏈接:blog.piekniewski.info/2


推薦閱讀:

吳恩達專訪LeCun:即便在神經網路的寒冬,我也堅信它終會重回公眾視野

TAG:人工智慧 | lecun |