計算與認知 | 枝蔚的論文庫0326-更新完

05-02

寫在前面：

我和在princeton同讀PhD二年級的小夥伴 @宋宋準備開始每周更新我們在一周內讀的paper，並附上簡短的從我們的研究視角對paper的評論。我會在每周一之前列出計劃，歡迎你和我們一起讀並交流。

0326 - 0401

機器學習：無監督學習

問題：1）它們能幹什麼任務？機制是什麼，和前輩們有何不同？2）對相應的任務，人類是怎麼做的？

Rezende et al. - 2016 - One-Shot Generalization in Deep Generative Models

評論：這是Lake et al 2015 字母識別論文的deep neural net版本（推薦沒看過原作的務必看一眼。很有趣的任務設計，尖銳挑戰了機器學習弱點：缺乏組件性compositionality和因果性causality）。Google的一眾人表示Brenden Lake等人過早地判定了深網在one-shot generalization上的無能，這裡要扳回一局！

使用了這麼deep的東西，它有什麼更厲害的能力（能幹什麼）？

的確能幹更多，比如對面孔圖像的generalization。這種東西很難說是否有像筆畫這樣的基本組件primitive，但人又確實有從一個視角的臉去推測其它視角的能力。

核心機制是什麼？

sequential variational encoder. Sequential這部分使用了LSTM和注意力機制。

其機制是否與人類做這個任務的方式有所類似？

Variational encoder部分：個人感覺完全不像。這是一個過分通用的generative model（生成模型？），相當於一大堆指數函數（exponential function）的疊加，和人的認知相比過於低層。

Sequential 部分：作者給出的視頻中直觀地展示了生成概念的時間序列，與人寫字的順序相差很大，就像是帷幕緩緩揭開，簾幕背後是已經寫好的字……

所以，總結而言，很不像人的寫字過程，但似乎能做不限於字母的更多1-shot-generalization。

機器學習：物理學習(intuitive physics)

問題：1）它們能幹什麼任務？機制是什麼，和前輩們有何不同？2）能學到接近人類的物理知識嗎？

1. Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning

任務1：看一個物理過程的視頻（一個物體從斜坡滑下，可能坡下與另一個物體碰撞），預測運動的結果

任務2：根據視頻中物理過程和結果，反推物體的參數（質量、摩擦係數……）

機制：這個工作緊密結合了強大而無知的深度網路，以及各種先驗知識。先驗知識的核心是物理模擬引擎（physics engine, 很多遊戲製作中會用到，也是Tenebaum系列的物理學習研究中常用工具）。物理引擎同時和一個生成模型generative model匹配起來，把視覺信息翻譯成物體（包括顏色、形狀以及物理性質如質量、摩擦係數等）。兩相結合完成上述任務1、2.

2. RELATIONAL NEURAL EXPECTATION MAXIMIZATION: UNSUPERVISED DISCOVERY OF OBJECTS AND THEIR INTERACTIONS

任務：看一個極其簡單的物理過程視頻（黑白小球碰撞），預測下一幀的運動結果。不涉及任何物理變數的解讀、只能推廣一幀。

輸入的圖像，從左至右時間發展

模型對圖像的解讀

機制：和Galileo相反，這個工作盡量減少任何先驗知識，完全無監督的E-M方法，也就是題目中的relaitonal neural E-M（RNN-EM)。這其中有兩個關鍵機制：一是Neural EM（N-EM），把像素空間轉化到物體空間，也就是判斷哪些像素可以被認為是同一個物體，相對應的心理學機制是比如「視覺分組」（visual grouping）；二是在此基礎上加上一個關係函數interaction function，預測下一時刻物體會到哪裡。

如果說Galileo模型是在模擬一個成人看世界的方式，RNN-EM模型更像模擬一張白紙般的嬰兒如何開始理解世界。

認知科學：概念/分類 (concept / categorization)

問題：如何操作化定義概念一致性coherence？這個理論有什麼現實意義？

Murphy, Medin - 1985 - The role of theories in conceptual coherence

什麼是「概念一致性」（conceptual coherence）？

為什麼我們要把所有「有翅膀、能飛」的東西合併成一個概念叫做「鳥」？為什麼「所有蘋果和質數」這樣的概念看起來就很不合理？為什麼聖經舊約利未記Leviticus中會把「瞪羚、大部分魚、青蛙、蚱蜢」等動物合併，定義成「乾淨的動物」，而「鴕鳥、鱷魚、老鼠、鱔魚、鯊」則都是不幹凈的動物？

解釋

傳統理論：「相似的屬性構成了一致的概念」。

本文論點：「整體不等於部分之和」。我們理解一個概念並不是僅僅從它的各方面屬性來看（」similarity-based」），還包括它和其它概念的聯繫、怎麼在現實生活中使用（」theory-based」）……

比如和蘋果相聯繫的動作，吃、洗、切……這些概念很少和質數聯繫起來。白話說，它們通常出現在不同語境。「蘋果香蕉」就要好得多。

有人曾提出，我們把「有翅膀、能飛」這兩屬性聯繫起來是因為它們總是同時出現。統計上的相關使得這兩個性質傾向於整合成一個概念。但本文作者認為，相關在數學上太過複雜（N個屬性有O(N^2)的相關可以去算）。不如說，因果關係作為「理論」更幫助我們化簡認知。比如對於鳥，「有翅膀」可能是「會飛」的原因，所以這兩個概念總會聯繫在一起。#然而下一步問題是，因果關係怎麼建立的？不是通過相關嗎？

比如乾淨的動物，本文作者認為最好的一個解釋是Mary Douglas 1966年書中提出的：「不幹凈」的動物在其屬類里算是怪胎，比如鴕鳥雖然是鳥卻不能飛、鱷魚雖然有爪子（前後肢結構很不同）卻還是四肢行進……也就是，這個分類是基於人們已有的對動物的「理論框架」，而不是每個動物自己的某種屬性。

這個理論有什麼現實意義？

一個相關領域是機器語言理解和推理，本文提出了一些新的挑戰（雖然寫於將近40年前）。著名的例子包括：如果一個人穿著衣服跳進游泳池，他可能___。你怎麼回答？

人可能會回答「喝高了」，雖然「喝高」的定義中肯定不會包括游泳池。如何讓機器也作出正確回答？現有的機器推理系統依靠統計模型可以做到嗎？