如何才能實現「通用」型人工智慧？科學家：從人腦尋找靈感

06-19

編者按：深度學習在單個領域已經取得了可喜的突破。但是若論綜合實力，現在的AI根本無法跟人相比。人是通用學習機器，但AI不是。腦科學家Jeff Hawkins 稱科學家需要不斷從人腦那裡尋找靈感來開發一般人工智慧。為此，他認為自己團隊的最近發現也許為AGI的實現描繪了一幅清晰的路線圖。

諸如「深度學習」和「卷積神經網路」等人工智慧技術在圖像識別、自動駕駛汽車等其他困難任務方面已經取得了驚人的進步。隨著融資和收購行為的加速，眾多的人工智慧公司看上去已經站在了風口的位置。

然而，主要的人工智慧研究人員卻意識到事情有點不對勁。儘管取得了令人印象深刻的進展，但目前的人工智慧技術其實是很局限的。例如，深度學習網路在開始能夠正確工作之前通常需要數百萬個訓練樣例，而人類只需要看幾次就可以學習新的東西。這限制了深度學習網路的應用類型。雖然這些網路的平均準確度很高，但還是會錯得非常離譜。比方說，圖像中的一點微小的變化也會導致AI系統將牙刷誤認為是棒球棒。在一些應用中，這類錯誤可能會導致災難性的失敗，造成致死和受傷。由於這樣那樣的限制，人工智慧的領導者認為應該換種思路去做。最著名的人工智慧科學家之一Geoff Hinton最近在解釋他對當前的AI技術感到「非常懷疑」時表示，我們需要另起爐灶。「我的看法是要把它全部扔掉，重新開始。」深度學習網路領先的實踐者Francois Chollet下結論說：「你沒法靠擴展如今的深度學習技術實現一般人工智慧。」

Chollet認為，從根本上來說深度學習是有限的，但人類智能不是。的確，人腦極其靈活。人類不僅會駕駛汽車，我們還可以建造摩天大樓，管理農場和對計算機編程。甚至我們拿起簡單物體，比如拿起咖啡杯然後用手指熟練操縱的能力，也遠遠超出了任何AI系統之所及。我們每個人都已經學會了數以百計的複雜技能，並且能夠連續不斷的混合運用。反過來，深度學習系統只能處理相對較少的任務，而且一次只能做一件事。每一項新任務它們都需要進行重新訓練。人類是通用學習機器；但AI系統不是。人工智慧要想繼續取得成功有賴于于突破當前的局限性，使AI更通用。

最近人工智慧科學家已經開始在大腦上面尋找靈感。 Google DeepMind聯合創始人Demis Hassibis表示：「我們試圖開發的那種一般智能是否存在？對於這個問題人類大腦是我們現在唯一的證據，所以我們認為理解大腦是如何實現這些能力的努力是值得的。」

我同意。我一直在研究大腦，至今已有三十多年。 2004年，我寫了《關於智能》，這本書提出了AI對大腦理論有何種需要的建議。 2005年，我跟人一起創立了Numenta公司，該公司專註於對新大腦皮層，也就是人腦最重要的、與智能關係最密切部分進行逆向工程。我們試圖通過研究大腦細胞如何共同建立知覺和行為來理解什麼是智能。大腦的工作機制和目前的AI技術有相似之處，這說明AI正走在正確的軌道上。但是兩者之間也有著顯著差異。大腦的能力不僅比現有的AI系統強得多，而且大腦的具體結構也遠比AI所使用的人工神經網路的結構複雜得多。大腦正在做的事情目前的AI系統做不了。

Numenta的研究揭示了大腦使用的幾個重要原則，那種我們相信AI最終必須將其納入的原則。比如說，大腦的每個神經元都有成千上萬個個突觸（神經元之間的連接）。這些突觸大部分是做什麼用的至今還是個謎。我們還發現神經元利用了大部分的突觸來做出預測。這些預測發生在細胞內部，並在我們如何預測未來中扮演著必不可少的角色。 AI裡面使用的人工神經元沒有這個特性，也不能像大腦那樣做出豐富多樣的預測。我們還發現為什麼在大腦中的學習主要是通過形成新的突觸來實現的。這是一種比深度學習修改現有連接的做法更強大的學習形式。它解釋了我們是如何快速學習新事物同時又不會影響到以前的學習的。

雖然我們還有好幾個其他對智能至關重要的發現，但是這裡我還是想說一下我們最近的一個也許是最重要的發現。我們正在研究如何通過觸摸來識別物體。由此我們推斷出新大腦皮層的一個新特性，它不僅適用於觸摸，而且也適用於視覺，以及新皮層所做的一切。我有時把它稱為「缺失的要素」，或者正如本文的標題所說，是「強AI的秘密」。我們最近發表了一篇科學論文詳細介紹了這一發現；我會在這裡概括介紹一下。

看看這張圖。這顯然是個杯子。但是，當然，它其實並不是杯子，而是一個平面上的線條集合。令人驚訝的是，你很難把這個圖像看成是一個平面上的線條集合而不是一個三維的杯子。腦科學家普遍認為，新大腦皮層從人眼中提取圖像，然後通過一系列步驟老析取出越來越複雜的特徵，直到它識別出圖像。深度學習的工作機制也是這樣的。這個過程被稱為模式識別，深度學習網路很擅長這個。在用許多圖像進行訓練之後，拿一張新的圖像出來它就能告訴你是什麼。但是除了標籤以外，它們並不理解這個對象還是什麼。與之相反相反，當你看到一幅圖像時，你馬上技能感覺到它的三維形狀。你可以想像從不同的角度來看它會是什麼樣的，你會知道它可能可以裝液體，甚至知道它摸起來會是什麼感覺。深度學習網路擅長給圖像貼標籤但不理解它是什麼，而新皮層理解對象的結構以及它的行為。

直到最近，還沒有人理解新大腦皮層是如何將平面圖像轉化為真實物體的心理表徵的。我們弄明白了大腦是如何做到這一點的。我們推斷所有到新皮層的輸入都是跟表示「位置」的信號相配對的。當你看著杯子的圖像時，圖像的每個部分，每條線段都會分配給三維杯子的相應位置。這與計算機創建對象的CAD模型相似。我們的理論解釋了為什麼你從三維角度來感知杯子，為什麼你會想像旋轉杯子會是什麼樣子，以及如果你觸摸它的話會是什麼感覺。這也解釋了為什麼你對杯子的感覺是穩定的，即便你的眼睛移動並凝視圖像上的不同位置也是如此。只要輸入特徵被分配到杯子相應的正確位置，圖像出現在視網膜的任何地方都沒有關係。

我們一直在探索這個發現的意義，並相信它可以解決大腦如何工作的許多奧秘。儘管我們先是通過研究觸覺然後視覺來推斷出這個屬性的，但是確定位置信號的神經結構存在於新皮質的每個部分。這令人振奮地表明，新皮層中的所有處理都與位置有關，即使這些位置與世界的物理位置並不一一對應。這也表明我們利用了操縱物理實體的相同神經機制來操縱抽象概念。當然了，操縱概念是一般智能的核心特徵。

數十年來人們一直在討論AI需要模仿大腦的多少東西的問題。最近僅跟大腦鬆散相關的深度學習的成功，給無需大腦理論AI也能取得進展的說法提供了支持。但是，這種成功了突出了深度學習的局限性，使得對新方法的需求更加明顯。大腦顯然是是尋找新想法的好地方。Amazon CEO 貝索斯最近表示：「人類所做的事情跟目前我們做機器學習和機器智能的方式有著根本的不同。」

說到構建通用AI，我們不需要模仿大腦所做的一切。但是大腦所運用的一些原則不容忽視，它們對於任何展現出一般人工智慧的系統都是必不可少的。我們通過研究發現了其中的幾個基本原理。我相信，我們最近的發現將被證明是最重要的。它完全改變了我們對大腦處理感官輸入的認知，以及大腦如何表示對世界的認識的思考。

我們希望，隨著越來越多的人工智慧從業人員認識到現有人工智慧技術的局限性，他們也能認識到一般人工智慧的路線圖正在腦理論界迅速形成。大腦理論的發現可能還需要幾年的時間才能完全整合進人工智慧，但對於我來說，如何實現目標的路線圖已經非常清晰。

（36氪編譯組出品，未經允許嚴禁轉載。編輯：郝鵬程）