計算與認知 | 枝蔚的論文庫0326-更新完

寫在前面:

我和在princeton同讀PhD二年級的小夥伴 @宋宋 準備開始每周更新我們在一周內讀的paper,並附上簡短的從我們的研究視角對paper的評論。我會在每周一之前列出計劃,歡迎你和我們一起讀並交流。

0326 - 0401

機器學習:無監督學習

問題:1)它們能幹什麼任務?機制是什麼,和前輩們有何不同?2)對相應的任務,人類是怎麼做的?

  1. Rezende et al. - 2016 - One-Shot Generalization in Deep Generative Models

評論:這是Lake et al 2015 字母識別論文的deep neural net版本(推薦沒看過原作的務必看一眼。很有趣的任務設計,尖銳挑戰了機器學習弱點:缺乏組件性compositionality和因果性causality)。Google的一眾人表示Brenden Lake等人過早地判定了深網在one-shot generalization上的無能,這裡要扳回一局!

  • 使用了這麼deep的東西,它有什麼更厲害的能力(能幹什麼)?

的確能幹更多,比如對面孔圖像的generalization。這種東西很難說是否有像筆畫這樣的基本組件primitive,但人又確實有從一個視角的臉去推測其它視角的能力。

  • 核心機制是什麼?

sequential variational encoder. Sequential這部分使用了LSTM和注意力機制。

  • 其機制是否與人類做這個任務的方式有所類似?

Variational encoder部分:個人感覺完全不像。這是一個過分通用的generative model(生成模型?),相當於一大堆指數函數(exponential function)的疊加,和人的認知相比過於低層。

Sequential 部分:作者給出的視頻中直觀地展示了生成概念的時間序列,與人寫字的順序相差很大,就像是帷幕緩緩揭開,簾幕背後是已經寫好的字……

所以,總結而言,很不像人的寫字過程,但似乎能做不限於字母的更多1-shot-generalization。

機器學習:物理學習(intuitive physics)

問題:1)它們能幹什麼任務?機制是什麼,和前輩們有何不同?2)能學到接近人類的物理知識嗎?

1. Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning

任務1:看一個物理過程的視頻(一個物體從斜坡滑下,可能坡下與另一個物體碰撞),預測運動的結果

任務2:根據視頻中物理過程和結果,反推物體的參數(質量、摩擦係數……)

機制:這個工作緊密結合了強大而無知的深度網路,以及各種先驗知識。先驗知識的核心是物理模擬引擎(physics engine, 很多遊戲製作中會用到,也是Tenebaum系列的物理學習研究中常用工具)。物理引擎同時和一個生成模型generative model匹配起來,把視覺信息翻譯成物體(包括顏色、形狀以及物理性質如質量、摩擦係數等)。兩相結合完成上述任務1、2.

2. RELATIONAL NEURAL EXPECTATION MAXIMIZATION: UNSUPERVISED DISCOVERY OF OBJECTS AND THEIR INTERACTIONS

任務:看一個極其簡單的物理過程視頻(黑白小球碰撞),預測下一幀的運動結果。不涉及任何物理變數的解讀、只能推廣一幀。

輸入的圖像,從左至右時間發展

模型對圖像的解讀

機制:和Galileo相反,這個工作盡量減少任何先驗知識,完全無監督的E-M方法,也就是題目中的relaitonal neural E-M(RNN-EM)。這其中有兩個關鍵機制:一是Neural EM(N-EM),把像素空間轉化到物體空間,也就是判斷哪些像素可以被認為是同一個物體,相對應的心理學機制是比如「視覺分組」(visual grouping);二是在此基礎上加上一個關係函數interaction function,預測下一時刻物體會到哪裡。

如果說Galileo模型是在模擬一個成人看世界的方式,RNN-EM模型更像模擬一張白紙般的嬰兒如何開始理解世界。

認知科學:概念/分類 (concept / categorization)

問題:如何操作化定義概念一致性coherence?這個理論有什麼現實意義?

Murphy, Medin - 1985 - The role of theories in conceptual coherence

  • 什麼是「概念一致性」(conceptual coherence)?

為什麼我們要把所有「有翅膀、能飛」的東西合併成一個概念叫做「鳥」?為什麼「所有蘋果和質數」這樣的概念看起來就很不合理?為什麼聖經舊約利未記Leviticus中會把「瞪羚、大部分魚、青蛙、蚱蜢」等動物合併,定義成「乾淨的動物」,而「鴕鳥、鱷魚、老鼠、鱔魚、鯊」則都是不幹凈的動物?

  • 解釋

傳統理論:「相似的屬性構成了一致的概念」。

本文論點:「整體不等於部分之和」。我們理解一個概念並不是僅僅從它的各方面屬性來看(」similarity-based」),還包括它和其它概念的聯繫、怎麼在現實生活中使用(」theory-based」)……

比如和蘋果相聯繫的動作,吃、洗、切……這些概念很少和質數聯繫起來。白話說,它們通常出現在不同語境。「蘋果香蕉」就要好得多。

有人曾提出,我們把「有翅膀、能飛」這兩屬性聯繫起來是因為它們總是同時出現。統計上的相關使得這兩個性質傾向於整合成一個概念。但本文作者認為,相關在數學上太過複雜(N個屬性有O(N^2)的相關可以去算)。不如說,因果關係作為「理論」更幫助我們化簡認知。比如對於鳥,「有翅膀」可能是「會飛」的原因,所以這兩個概念總會聯繫在一起。#然而下一步問題是,因果關係怎麼建立的?不是通過相關嗎?

比如乾淨的動物,本文作者認為最好的一個解釋是Mary Douglas 1966年書中提出的:「不幹凈」的動物在其屬類里算是怪胎,比如鴕鳥雖然是鳥卻不能飛、鱷魚雖然有爪子(前後肢結構很不同)卻還是四肢行進……也就是,這個分類是基於人們已有的對動物的「理論框架」,而不是每個動物自己的某種屬性。

  • 這個理論有什麼現實意義?

一個相關領域是機器語言理解和推理,本文提出了一些新的挑戰(雖然寫於將近40年前)。著名的例子包括:如果一個人穿著衣服跳進游泳池,他可能___。你怎麼回答?

人可能會回答「喝高了」,雖然「喝高」的定義中肯定不會包括游泳池。如何讓機器也作出正確回答?現有的機器推理系統依靠統計模型可以做到嗎?


推薦閱讀:

關於「人工智慧」在金融領域應用的思考
反欺詐行業首份《無監督機器學習引擎》白皮書發布 | 詳解網路欺詐原理
乾貨|淺談強化學習的方法及學習路線
2018,誰會成為中國的「現象級語音交互產品」?
吳甘沙的四次轉身

TAG:認知科學 | 人工智慧 | 機器學習 |