學界 | DeepMind用IQ題測試AI的抽象思維能力

學界 | DeepMind用IQ題測試AI的抽象思維能力

來自專欄數據汪4 人贊了文章

大數據文摘編輯組出品

抽象理解能力一直是人類引以為豪的智慧來源。

阿基米德基於對物體體積的抽象理解,悟到了物體的體積與物體浮力之間的關係。這就是抽象推理的魔力。

基於神經網路的機器學習模型取得了驚人的成績,但是測量其推理抽象概念的能力卻是非常困難的。

雖然人工智慧已經可以在策略遊戲的對戰中戰勝人類,但是卻在一些簡單任務方面「無能為力」,特別是需要在新環境中發現並重新構建抽象概念。

舉個例子,如果你只訓練AI計算三角形的屬性,那麼,你訓練的AI系統永遠無法計算正方形或者其他沒有訓練過的形狀的屬性。

又比如下邊這道簡單的IQ測試題。

IQ測試給了DeepMind靈感,是不是也能用其測量AI的推理能力呢?

在以往解決通用學習系統努力的基礎上,DeepMind最新論文提出了一種如何測量機器模型認知能力的方法,並表達了關於泛化的一些重要見解。

大數據文摘微信公眾號後台回復「IQ測試」獲得本論文。

要構建更好、更智能的系統,使得神經網路能夠處理抽象概念,需要對其進行改進。

此方法的靈感來源於IQ測試。

創建抽象推理數據集

標準的人類智商測試中,通常要求測試者通過應用他們日常經驗學習的原則來解釋感知上簡單的視覺場景。

例如,人類測試者可能已經通過觀察植物或建築物的增長,通過在數學課上學習加法,或通過跟蹤銀行餘額獲取利息增長的情況來了解「漸進」(一些屬性能夠增加的概念)。

然後把這些感性認識上升到理性認識,從而對測試題進行推斷預測,例如圖形的數量、大小,甚至沿著序列增加顏色強度。

現在機器學習仍然無法理解一些看似簡單的「日常體驗」,這意味著,人類無法輕易地衡量AI將知識從現實世界轉移到視覺推理測試的能力。

基於此認知,DeepMind設計一個實驗,希望使人類視覺推理測試得到很好的利用。這一研究不是從日常生活到視覺推理問題(如人類測試)的知識轉移,而是研究知識從一組受控的視覺推理問題轉移到另一組問題。

為實現這一目標,DeepMind構建了一個用於創建矩陣問題的生成器,涉及一組抽象因子,包括「漸進」之類的關係以及「顏色」和「大小」等屬性。 雖然問題生成器使用了一小組潛在因子,但它仍然會產生大量獨特的問題。

接下來,DeepMind約束生成器可用的因子或組合,以便創建用於訓練和測試模型的不同問題集,以度量模型可以推廣到留存的測試集的程度。

例如,創建了一組謎題訓練集,其中只有在應用於線條顏色時才會遇到漸進關係,而在應用於形狀大小時會遇到測試集。如果模型在該測試集上表現良好,它將提供推斷和應用抽象概念的能力的證據,即使在之前從未見過進展的情況下也是如此。

有希望的抽象推理證據

在機器學習評估中應用的典型的泛化機制中,訓練和測試數據來自於相同的基礎分布,測試的所有網路都表現出良好的泛化誤差,其中一些在略高於75%的情況下實現了令人印象深刻的絕對性能。性能最佳的網路明確地計算了不同圖像面板之間的關係,並且並行地評估了每個潛在答案的適用性。DeepMind將此架構稱為Wild RelationNetwork(WReN)。

當需要在先前看到的屬性值之間使用屬性值「插值」來推理,以及在不熟悉的組合中應用已知的抽象關係時,模型的泛化效果顯著。然而,在「外推」機制中,同樣的網路表現得糟糕得多,在這種情況下,測試集中的屬性值並不與訓練中看到的值處於相同的範圍內。

這種事情發生在當訓練集中有深顏色的物體而測試集中是淺顏色的物體的謎題中。當模型被訓練來應用以前所見的關係(比如形狀的數量)到一個新的屬性(如大小)時,泛化性能也會更糟。

最後,當訓練模型不僅預測正確的答案,而且還預測答案的「原因」(即應該考慮解決這個難題的特定關係和屬性)時,DeepMind稱觀察到了改進的泛化性能。

有趣的是,在中性分割中(the neutral split),模型的準確性與它推斷矩陣下正確關係的能力密切相關:當解釋正確時,模型會選擇當時正確的答案的概率為87%,但當它的解釋錯誤時,性能下降到只有32%。這表明,當模型正確地推斷出任務背後的抽象概念時,能夠獲得更好的性能。

更微妙的泛化方法

目前的文獻關注於基於神經網路的機器學習方法的優缺點,通常是基於它們的能力或泛化的失敗。DeepMind的結果表明,得出關於泛化的普遍結論可能是沒有幫助的:測試的神經網路在某些泛化狀態下表現得很好,而在其他狀態下表現得很差。

它們的成功是由一系列因素決定的,包括所使用的模型的架構,以及模型是否被訓練為其選擇的答案提供可解釋的「原因」。在幾乎所有的情況下,當需要推斷出超出其經驗的輸入或處理完全陌生的屬性時,系統表現很差;在這個至關重要的研究領域為未來的工作創造一個清晰的重點。

相關報道:

deepmind.com/blog/measu

推薦閱讀:

【CNN已老,GNN來了】DeepMind、谷歌大腦、MIT等27位作者重磅論文,圖網路讓深度學習也能因果推理
深度學習與求導鏈式法則
softmax
為什麼ReLU比Sigmoid在很多場合都要結果好

TAG:神經網路 | 機器學習 | 人工智慧 |