給神經網路集體測智商!DeepMind提出抽象推理新方法
來自專欄 AI前沿研究4 人贊了文章
DeepMind提出了一種讓神經網路進行抽象推理的新方法,類似人類的IQ測試。結果發現經典模型如ResNet得分極低,數據稍有改動就變「白痴」,而他們關注推理的架構得分高很多,如果能給出結果的符號解釋,模型的預測性能和泛化性能還會顯著提高。
因此,要構建更好、更智能的系統,理解神經網路目前處理抽象概念的方式以及它們需要改進的地方,這非常重要。為此,我們從人類智商測試(IQ測試)中測量抽象推理的方法中獲得了靈感。
人類IQ測試中的推理
標準的人類IQ測試通常要求測試者運用他們從日常經驗中學到的原理來解釋感知上簡單的視覺場景。例如,人類測試者可能已經通過觀察植物生長或建築物的搭建,在數學課上學習加法,或跟蹤利息累計的銀行餘額等了解了「進展」這個概念(即事物某些屬性可能增加的概念)。然後,他們可以在IQ題中應用這個概念來推斷隨著序列增加,形狀的數量、大小,甚至顏色的深淺等屬性。
IQ測試題1:右下角應該選哪個?答案是A,為什麼?因為在每一排中,方框里黑點的數目有一種「漸增」的關係,因此右下角黑點的數量應該是4。
IQ測試題2:右下角應該選哪個?首先,每一列的三角形狀的數目分別是1個、5個和7個,因此,右下角三角形狀的數量應該是1,因此我們排除了B、F、G這三個答案,剩下A、C、D、E、H。
這道題中還需要觀察「線」的關係,我們觀察到每一排最右方的線是AND的關係,即同時出現在左邊兩個格的線才會出現在第三個格。因此,我們得到了右下角格的線,進一步排除C、D、E、H,正確答案就是A。IQ測試題3:右下角應該選哪個?首先,每一列的形狀的數量有一種「漸增」的關係,因此右下角形狀的數量應該是5個,排除D、G。
跟前一題類似,線同樣是AND的關係,我們得到右下角的線,符合的只有A、D、E、H,D已經在前一步排除,因此剩下A、E、H三個選項。再看形狀顏色,每一列都分別有淺灰、深灰和黑色,因此右下角應該是黑色,得到正確答案A。
我們還沒有辦法讓機器學習智能體接觸到類似的「日常體驗」,這意味著我們無法輕易地衡量它們將知識從現實世界遷移到視覺推理測試的能力。儘管如此,我們仍然可以創建一個實驗設置,充分利用人類視覺推理測試。我們不是研究從日常生活到視覺推理問題的知識遷移(人類的IQ測試是如此),而是研究從一組受控的視覺推理問題到另一組視覺推理問題的知識遷移。為實現這一目標,我們構建了一個用於創建矩陣問題的生成器,它涉及一組抽象因素,包括「進展」(progression)之類的關係以及「顏色」、「大小」之類的屬性。雖然問題生成器使用了少量的潛在因素,但它仍然可以創建大量獨特的問題。接下來,我們限制了生成器可用的因素或組合,以便為訓練和測試模型創建不同的問題集,從而測量我們的模型能夠多大程度上推廣到已配置的測試集。例如,我們創建了一組測試題的訓練集,其中只有在應用於線條顏色時才會遇到「漸進關係」,而在測試集中應用於形狀大小時會遇到「漸進關係」。如果模型在該測試集上表現良好,它將為推斷和應用「漸進關係」這個抽象概念的能力提供證據,即使它以前從未遇見過「漸進關係」。抽象推理的證據
在機器學習評估中應用的典型的泛化機制中,訓練和測試數據來自相同的底層分布,我們測試的所有網路都表現出良好的泛化誤差( generalisation error),其中一些網路實現了令人印象深刻的絕對性能。表現最好的網路顯式地計算了不同圖像方塊之間的關係,並且並行地評估每個潛在答案的適用性。我們稱這種架構為Wild Relation Network(WReN)。
實驗結果
PGM數據集
我們將數據集稱為程序生成矩陣(Procedurally Generated Matrices,PGM)數據集。為了生成PGM,受Carpenter,Wang&Su等人的啟發,通過從以下原始集中隨機抽樣來完成的:
- 關係類型(R,元素是r):包括progression,XOR, OR, AND, consistent union;
- 目標類型(O,元素是o):包括shape,line;
- 屬性類型(A,元素是a):包括,type,color,position,number
干擾物的影響
到目前為止報告的結果是包含干擾物屬性值的問題(見圖4)。 當這些干擾物被移除時,WReN模型的表現明顯更好(驗證組的干擾物為79.3%,測試組的干擾物為78.3%,並與干擾者為63.0%和62.6%時的情況做比較)。離心(distraction)的影響。在兩個PGM中,底層結構S 是[形狀,顏色,連續單元],但是(b)包括形狀數、形狀類型,線顏色和線型的離心。輔助訓練的效果然後,我們通過使用符號元目標訓練我們的模型來探索輔助訓練對抽象推理和概括的影響。在中立狀態下,我們發現輔助訓練使測試精度提高了13.9%。重要的是,模型捕獲數據的整體能力的改進也適用於其他泛化機制。在將模型的三元組重新組合成新組合的情況下,差異最為明顯。因此,代表抽象語義原則的壓力使得它們可以簡單地解碼成離散的符號解釋,似乎提高了模型有效地組成其知識的能力。這一發現與先前關於離散通道(discrete channel)對知識表示的優勢的觀察結果一致。輔助訓練分析除了提高性能之外,使用元標記(meta-targets)進行培訓還可以提供一種方法來衡量模型在給定PGM的情況下存在哪些形狀,屬性和關係,從而深入了解模型的策略。 使用這些預測,WReN模型在其元目標預測正確時達到了87.4%的測試準確率,而在預測不正確時僅達到34.8%。元目標預測可以分解為對象,屬性和關係類型的預測。 我們利用這些細粒度預測來詢問WReN模型的準確性如何隨其對每個屬性的預測而獨立變化。當形狀元目標預測正確(79.5%)時,相比預測不正確(78.2%)時模型的精度有所提高;同樣,當屬性元目標預測正確(49%)時,相比預測不正確(62.2%)時模型的精度有所提高。然而,對於關係屬性,正確和不正確的元目標預測之間的差異很大(86.8%對32.1%)。 這個結果表明正確預測關係屬性對任務成功至關重要。最後,當模型被訓練於不僅預測正確的答案,而且預測答案的「原因」(即考慮解決這個難題的特定關係和屬性)時,我們觀察到了更好的泛化性能。有趣的是,在neutral split中,模型的準確性與它推斷矩陣背後的關係的能力密切相關:當解釋正確時,模型在87%的時候能選擇到正確的答案;但當它的解釋錯誤時,準確性下降到只有32%。這表明,當模型正確地推斷出任務背後的抽象概念時,它們能夠獲得更好的性能。
結論
最近有一些研究關注基於神經網路的解決機器學習問題的方法的優點和缺點,通常基於它們的泛化能力。我們的研究結果表明,尋找關於泛化的普遍結論可能是無益的:我們測試的神經網路在某些泛化方案中表現良好,而在其他時候表現很差。它們是否成功取決於一系列因素,包括所用模型的架構,以及模型是否被訓練來為其答案選擇提供可解釋的「理由」。在幾乎所有情況下,當需要推斷超出其經驗的輸入或處理完全陌生的屬性時,系統的表現很差;這是一個關鍵且極為重要的研究領域,未來的工作可以集中於這個焦點。
參考鏈接:博客:https://deepmind.com/blog/measuring-abstract-reasoning論文:http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf(本文首發於新智元微信公眾號:AI_era,歡迎關注!)
【加入社群】
新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_3 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。推薦閱讀: