給神經網路集體測智商!DeepMind提出抽象推理新方法

給神經網路集體測智商!DeepMind提出抽象推理新方法

來自專欄 AI前沿研究4 人贊了文章

DeepMind提出了一種讓神經網路進行抽象推理的新方法,類似人類的IQ測試。結果發現經典模型如ResNet得分極低,數據稍有改動就變「白痴」,而他們關注推理的架構得分高很多,如果能給出結果的符號解釋,模型的預測性能和泛化性能還會顯著提高。

在許多長期存在的機器學習問題中,基於神經網路的模型持續取得了令人振奮的結果,但是,開發它們推理抽象概念的能力被證明是很困難的。已有的研究解決了通用學習系統的重要特性,基於此,DeepMind的最新研究提出了一種在學習機器中測量抽象推理的方法,並解釋了關於泛化(generalisation)本質的一些重要見解。

要理解為什麼抽象推理對於一般智力(general intelligence)至關重要,可以思考阿基米德的名言「尤里卡!」(希臘語Eureka,意即「我發現了!」):他注意到物體的體積相當於物體溢出的水的體積,他在概念層面理解了「體積」,並因此推理出如何計算不規則物體的體積。

我們希望AI具有類似的能力。雖然目前的AI系統可以在複雜的戰略遊戲中擊敗世界冠軍,但它們經常對其他看似簡單的任務束手無策,特別是當需要在新環境中發現並重新應用抽象概念時。例如,如果一個AI專門訓練來計算三角形的數量,那麼即使是最好的AI系統也無法計算方塊或任何其他先前未遇到過的對象。

因此,要構建更好、更智能的系統,理解神經網路目前處理抽象概念的方式以及它們需要改進的地方,這非常重要。為此,我們從人類智商測試(IQ測試)中測量抽象推理的方法中獲得了靈感。

人類IQ測試中的推理

標準的人類IQ測試通常要求測試者運用他們從日常經驗中學到的原理來解釋感知上簡單的視覺場景。例如,人類測試者可能已經通過觀察植物生長或建築物的搭建,在數學課上學習加法,或跟蹤利息累計的銀行餘額等了解了「進展」這個概念(即事物某些屬性可能增加的概念)。然後,他們可以在IQ題中應用這個概念來推斷隨著序列增加,形狀的數量、大小,甚至顏色的深淺等屬性。

IQ測試題1:右下角應該選哪個?

答案是A,為什麼?

因為在每一排中,方框里黑點的數目有一種「漸增」的關係,因此右下角黑點的數量應該是4。

IQ測試題2:右下角應該選哪個?

答案是A,為什麼?

首先,每一列的三角形狀的數目分別是1個、5個和7個,因此,右下角三角形狀的數量應該是1,因此我們排除了B、F、G這三個答案,剩下A、C、D、E、H。

這道題中還需要觀察「線」的關係,我們觀察到每一排最右方的線是AND的關係,即同時出現在左邊兩個格的線才會出現在第三個格。

因此,我們得到了右下角格的線,進一步排除C、D、E、H,正確答案就是A。

IQ測試題3:右下角應該選哪個?

答案仍然是A,為什麼?

首先,每一列的形狀的數量有一種「漸增」的關係,因此右下角形狀的數量應該是5個,排除D、G。

跟前一題類似,線同樣是AND的關係,我們得到右下角的線,符合的只有A、D、E、H,D已經在前一步排除,因此剩下A、E、H三個選項。

再看形狀顏色,每一列都分別有淺灰、深灰和黑色,因此右下角應該是黑色,得到正確答案A。

我們還沒有辦法讓機器學習智能體接觸到類似的「日常體驗」,這意味著我們無法輕易地衡量它們將知識從現實世界遷移到視覺推理測試的能力。儘管如此,我們仍然可以創建一個實驗設置,充分利用人類視覺推理測試。我們不是研究從日常生活到視覺推理問題的知識遷移(人類的IQ測試是如此),而是研究從一組受控的視覺推理問題到另一組視覺推理問題的知識遷移

為實現這一目標,我們構建了一個用於創建矩陣問題的生成器,它涉及一組抽象因素,包括「進展」(progression)之類的關係以及「顏色」、「大小」之類的屬性。雖然問題生成器使用了少量的潛在因素,但它仍然可以創建大量獨特的問題。

接下來,我們限制了生成器可用的因素或組合,以便為訓練和測試模型創建不同的問題集,從而測量我們的模型能夠多大程度上推廣到已配置的測試集。例如,我們創建了一組測試題的訓練集,其中只有在應用於線條顏色時才會遇到「漸進關係」,而在測試集中應用於形狀大小時會遇到「漸進關係」。如果模型在該測試集上表現良好,它將為推斷和應用「漸進關係」這個抽象概念的能力提供證據,即使它以前從未遇見過「漸進關係」。

抽象推理的證據

在機器學習評估中應用的典型的泛化機制中,訓練和測試數據來自相同的底層分布,我們測試的所有網路都表現出良好的泛化誤差( generalisation error),其中一些網路實現了令人印象深刻的絕對性能。表現最好的網路顯式地計算了不同圖像方塊之間的關係,並且並行地評估每個潛在答案的適用性。我們稱這種架構為Wild Relation Network(WReN)

WReN模型

CNN會獨立處理每個內容panel並且一個單獨的回答會選擇一個panel來產生9個矢量embedding。然後將這組embedding傳遞給RN(其輸出是單個sigmoid單元),為相關答案選擇panel的「得分」進行編程。 通過該網路進行8次這樣的傳遞(為簡便起見,我們僅描繪2次),每次答案選擇一次,就會通過softmax函數得分以確定模型的預測答案。

當需要使用屬性值在先前看到的屬性值之間「內推」(interpolated),以及在不熟悉的組合中應用已知的抽象關係時,模型的泛化效果非常好。但是,同樣的網路在「外推」(extrapolation)機制中表現糟糕得多,在這種情況下,測試集中的屬性值與訓練期間的屬性值不在同一範圍內。對於在訓練中包含深色物體,但測試中包含淺色物體的謎題中就會出現這種情況。當模型被訓練來將以前見到的關係(比如形狀的數量)應用到一個新的屬性(比如形狀的大小)時,泛化性能也會更差。

實驗結果

PGM數據集

我們將數據集稱為程序生成矩陣(Procedurally Generated Matrices,PGM)數據集。為了生成PGM,受Carpenter,Wang&Su等人的啟發,通過從以下原始集中隨機抽樣來完成的:

  • 關係類型(R,元素是r):包括progression,XOR, OR, AND, consistent union;
  • 目標類型(O,元素是o):包括shape,line;
  • 屬性類型(A,元素是a):包括,type,color,position,number

PGM問題—模型比較

我們首先比較了中性分裂(訓練/測試)的所有模型,這與傳統的監督學習制度最為接近。 也許令人驚訝的是,雖然它們是強大的圖像處理器的方法,CNN模型幾乎完全失敗了PGM推理問題(表1),性能略微優於我們的基線 - context-blind的ResNet模型,該模型對內容視而不見並僅在八個候選答案受過訓練。 LSTM按順序考慮各個候選小組的能力,相對於CNN產生了小的改進。 性能最佳的ResNet變體是ResNet-50,其性能優於LSTM。 ResNet-50具有比我們的簡單CNN模型更多的卷積層,因此具有更強的推理其輸入特徵的能力。

所有模型在中性分裂(左圖)上的的性能,以及根據β= 0的泛化誤差排序的泛化機制WReN模型(右圖)的泛化性能。

性能最佳的模型是WReN模型。 這種強大的性能可能部分歸因於Relation Network模塊,它是為了推理對象之間的關係而明確設計的,部分是由於評分結構。 請注意,評分結構不足以解釋改進的性能,因為WReN模型基本上優於最佳Wild-ResNet模型,該模型也具有評分結構。

不同問題類型的表現

涉及單個[r,o,a]三元組的問題比涉及多個三元組的問題更容易。 有趣的是,有三個三元組的PGM比四個三元組更難。 雖然有四個三元組的問題顯得更為複雜,但是還有更多好的方法可以解決問題。在涉及單個三元組的PGM中,OR(64.7%)被證明是一種比XOR更容易的關係(53.2%)。具有結構涉及線(78.3%)的PGM比涉及形狀的那些(46.2%)更容易,涉及形狀數(80.1%)比那些涉及形狀大小(26.4%)。這表明模型難以辨別細粒度的大小差異,而不是更顯著的變化,如線條的缺少或出現,或形狀的數量。

干擾物的影響

到目前為止報告的結果是包含干擾物屬性值的問題(見圖4)。 當這些干擾物被移除時,WReN模型的表現明顯更好(驗證組的干擾物為79.3%,測試組的干擾物為78.3%,並與干擾者為63.0%和62.6%時的情況做比較)。

離心(distraction)的影響。在兩個PGM中,底層結構S 是[形狀,顏色,連續單元],但是(b)包括形狀數、形狀類型,線顏色和線型的離心。

輔助訓練的效果

然後,我們通過使用符號元目標訓練我們的模型來探索輔助訓練對抽象推理和概括的影響。在中立狀態下,我們發現輔助訓練使測試精度提高了13.9%。重要的是,模型捕獲數據的整體能力的改進也適用於其他泛化機制。在將模型的三元組重新組合成新組合的情況下,差異最為明顯。因此,代表抽象語義原則的壓力使得它們可以簡單地解碼成離散的符號解釋,似乎提高了模型有效地組成其知識的能力。這一發現與先前關於離散通道(discrete channel)對知識表示的優勢的觀察結果一致。

輔助訓練分析

除了提高性能之外,使用元標記(meta-targets)進行培訓還可以提供一種方法來衡量模型在給定PGM的情況下存在哪些形狀,屬性和關係,從而深入了解模型的策略。 使用這些預測,WReN模型在其元目標預測正確時達到了87.4%的測試準確率,而在預測不正確時僅達到34.8%。

元目標預測可以分解為對象,屬性和關係類型的預測。 我們利用這些細粒度預測來詢問WReN模型的準確性如何隨其對每個屬性的預測而獨立變化。當形狀元目標預測正確(79.5%)時,相比預測不正確(78.2%)時模型的精度有所提高;同樣,當屬性元目標預測正確(49%)時,相比預測不正確(62.2%)時模型的精度有所提高。然而,對於關係屬性,正確和不正確的元目標預測之間的差異很大(86.8%對32.1%)。 這個結果表明正確預測關係屬性對任務成功至關重要。

最後,當模型被訓練於不僅預測正確的答案,而且預測答案的「原因」(即考慮解決這個難題的特定關係和屬性)時,我們觀察到了更好的泛化性能。有趣的是,在neutral split中,模型的準確性與它推斷矩陣背後的關係的能力密切相關:當解釋正確時,模型在87%的時候能選擇到正確的答案;但當它的解釋錯誤時,準確性下降到只有32%。這表明,當模型正確地推斷出任務背後的抽象概念時,它們能夠獲得更好的性能。

結論

最近有一些研究關注基於神經網路的解決機器學習問題的方法的優點和缺點,通常基於它們的泛化能力。我們的研究結果表明,尋找關於泛化的普遍結論可能是無益的:我們測試的神經網路在某些泛化方案中表現良好,而在其他時候表現很差。它們是否成功取決於一系列因素,包括所用模型的架構,以及模型是否被訓練來為其答案選擇提供可解釋的「理由」。在幾乎所有情況下,當需要推斷超出其經驗的輸入或處理完全陌生的屬性時,系統的表現很差;這是一個關鍵且極為重要的研究領域,未來的工作可以集中於這個焦點。

參考鏈接:

博客:deepmind.com/blog/measu

論文:proceedings.mlr.press/v

(本文首發於新智元微信公眾號:AI_era,歡迎關注!)


【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_3 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

推薦閱讀:

TAG:神經網路 | DeepMind | 人工智慧 |