深度學習（DNN）是逆向模擬了人類視覺皮層結構嗎？還是訓練過程中自然演變成類似視覺皮層的結構？

01-09

http://www.zhihu.com/question/31300014/answer/51413963
而另外一個嘉賓，來自UCB的人腦圖像區域研究專家Jack L. Gallant, Reverse Engineering the Human Visual System 講的真的非常非常好，
他本人是做大腦視覺神經研究的，也因為深度學習的興起於是探索了很多DNN訓練出來的模型和人類大腦的相似和區別，於是有個非常非常驚人的觀點：在圖片分類任務中訓練出來的深度神經網路模型與人類視覺神經的結構相似，並且，DNN的每一層也與人類大腦某個視覺神經區域某對應，這意味著，通過訓練出來的DNN模型來研究人腦視覺神經是可行的。
但是要知道，我們在訓練DNN的時候，並沒有指定每一層應該是什麼樣的Feature，而是自動學習出來的。但如果科研指出DNN每一層所代表的Feature和人腦各個區域有對應的話，這意味著我們訓練模型的方法可能符合了某種大自然的真理，這其中可以探索的意義絕對重大……

雖然對於這樣的結論早有遇見，但是真正看到從研究腦部的研究人員口中說出還是非常非常震驚的，不論大家對於超級人工智慧是樂觀還是悲觀，歷史還是在無法阻擋地前進……

是寬泛意義上的逆向模擬。特徵的重現 (例如@王較真的回答中提到的Olshausen, 1996) 是對逆向模擬合理性的支持。（也可以說是一個巧合，類似於@十方的回答中說的，人類視覺和機器視覺同樣找出了圖像本身的結構。）

寬泛，因為 HCNN (Hierarchical convolutional neural nets) 的基本原則是受到神經系統啟發的，但人工網路發展的目標不是逆向模擬，模型也不受生物系統的很多限制。

有點悲傷地說，HCNN 可能是上一個神經科學真正啟發了人工智慧的例子，而這已經過去半個世紀了 (Hubel Wiesel, 1960s)。

現在的情況是我們知道人腦中埋藏著智能的秘密。但是像 HCNN 一樣清晰而有成效的啟發，還沒有出現。

DNN的每一層也與人類大腦某個視覺神經區域某對應

這個說法可能過於強了。謹慎地說仍然有許多深度網路與人類視覺的相似處，可以參考近期的一個綜述 [1]。很有啟發，也很有前景，但現在還遠沒有一一對應那麼神奇。另一方面，人類視覺不僅是自下而上的，這裡不展開。推薦一篇文章，題目很有意思，叫做《純粹視覺批判》[2]。

[1] Yamins, D. L. K., DiCarlo, J. J. (2016). Using goal-driven deep learning models to understand sensory cortex. Nature Neuroscience, 19(3), 356–365.

[2] Churchland, Patricia S., V. S. Ramachandran, and Terrence J. Sejnowski. "A critique of pure vision." Large-scale neuronal theories of the brain. MIT press, 1994.

謝邀。

我不是特別清楚提問中「逆向模擬」和「自然演變」的具體區別。似乎更好的說法是，在訓練中的自然演變達到了一種逆向模擬的效果。很多訓練出來的神經網路都模擬了人視覺的一些性質。伯克利有個redwood theoretical neuroscience center就有一大部分人在專門做這樣的努力。redwood的 Bruno Olshausen 1996 年發表在nature的文章就已經在訓練簡單的神經網路中找到了類似視覺系統鍾簡單細胞(simple cell)的對應。類似的，不同層次的對應已經發現了非常多了，感興趣的話可以深挖這方面的論文：Publications。

甚至不只是在視覺上，在對人類注意力機制的研究，也有類似的成果。Gregor et al 在訓練了一個深度遞歸神經網路中找到了人類注意力機制的對應。

論文鏈接：http://arxiv.org/abs/1502.04623

DRAW: A Recurrent Neural Network For Image Generation
Karol Gregor, Ivo Danihelka, Alex Graves, Daan Wierstra

(Submitted on 16 Feb 2015)
This paper introduces the Deep RecurrentAttentive Writer (DRAW) neural network architecture for image generation. DRAW networks combine a novel spatial attention mechanism that mimics the foveation of the human eye, with a sequential variational auto-encoding framework that allows for the iterative construction of complex images. The system substantially improves on the state of the art for generative models on MNIST, and, when trained on the Street View House Numbers dataset, it generates images that cannot be distinguished from real data with the naked eye.

還有個很酷的視頻： https://www.youtube.com/watch?v=Zt-7MI9eKEo

附：Olshausen 1996的paper：http://redwood.berkeley.edu/bruno/papers/nature-paper.pdf

我覺得兩方面都有。分層連接，非線性處理，卷積這些結構都跟皮層的結構相似。有了這個基礎還要靠數據訓練才能學習到合適的權值。

簡單說，結構靠仿生模擬，權值靠訓練演化。

其實我們每天看到的圖像內部本身就有內在的結構（線條，端點，規則圖形），結構本身就有層次（線段組成簡單圖形，簡單圖形組成複雜圖形），用這些結構去編碼表征圖像效率最高。我覺得視覺系統也好，deep learning也好，只是把這些結構找出來了而已。

早期是模擬人腦的C1 C2 V4等等的遞進結構，模板模仿人眼的gabor響應。後期保持了卷積和池化結構，權重是自動學習的。

層級結構確實與視覺皮層的「宏觀結構」相似，就是腦區之間的連接，但微觀上沒有什麼相似性可言，就是神經元之間連接。

兩個今天深度學習的核心概念LSTM 和卷積神經網路其實是受神經科學啟發很深的，這兩個演算法都被應用在視覺上面。

因此可能在這兩種演算法的應用和發展過程中，跟神經系統出現了「趨同進化」

從另外一個角度來說就是把3000*3000（一幅圖片）的輸入組合變為大概1萬個輸出分類，有指導的學習，嗯就是有人類歸納的樣本。自然學習，嗯，自然降維，需要符合一個自然原則，這個原則是啥呢？我猜想是.....，我也不知道。我只知道他們用某個固定的訓練方法訓練的神經網路會把輸入信號自動降維，結果和人類的類似。

輸入信號組成一個信號空間的話，通過某個轉換轉換到一個低維的信號空間，我們加個維度進去，自然數序，看看這種轉換符合啥原則呢？瞎猜了一下，能量最低？轉換過程複雜度最低？

因為深度學習只是類腦計算的一個支流。而類腦計算實際上存在兩個技術層面：第1層面是「走出諾依曼框架」，主要屬於人工神經網路的大範疇；第2層面是「基於神經科學的計算機演算法」，試圖超越人工神經網路框架和擺脫權值計算模型，實現對生物腦的高逼真性模擬。所以歐盟都已經聯合開始研究人腦，都成立一個叫「人類腦計劃」，美國也開始關注類腦。

大多數現有的「類腦計算」項目屬於第1技術層面，無論是軟體或硬體，無論其技術路徑怎樣不同，仍然沒有脫離出ANN的大範疇。而第2技術層面「基於神經科學的計算機演算法」是一個很高的技術理想，實質上是在試圖超越ANN框架和擺脫權值計算模型。目前國內外只有少數幾個在做的研究項目，其共同點是試圖實現對生物腦的高逼真性模擬，研究方法可以劃分為兩大類。

第一類主要有歐盟的「人類腦計劃」和美國的「BRAINs」計劃，雖然技術路徑不同，但都是從生物腦的微觀層面的實驗數據和知識入手，通過逐漸整合，向上尋找中觀和宏觀層面上的數量關係規律，最終建立起整體的腦理論模型。

該類方法的特點是「自下而上」，一場大規模的微觀海量的數據和碎片化的實驗知識的「拼圖工程」。首先發展高尖端技術工具，以實現對腦的微觀的結構和功能的全面測量和記錄；然後建立起全腦微觀資料庫；在此基礎上，逐漸向大規模的腦計算模型上發展，並試圖形成對腦活動、腦病變和腦智能的機制性解讀的整體理論；最後形成比較成熟的類腦計算技術和類腦人工智慧。這種研究屬於長周期的大科學或大工程，需要動員大量人力物力和財力。

第2類研究方法的特點是「自上而下」。直接將研究重心放在一個「好的」腦理論的建造上，然後向下導出神經元模型和神經元群體網路模型；之後測試和檢驗模型與微觀神經知識和數據之間的契合度。這種研究的關鍵在於怎樣找到正確的理論入手點，這一步不是單純的建模方法問題，也不是一般的學科性理論問題，而是若干個重要學科的理論進程中的匯合點上的再綜合，屬於科學大周期性的結晶過程。這種研究屬於長周期和「形而上」的小科學。目前，採用第2類方法的主要有美國Numenta公司和中國的神經深構造運算與腦計算機實驗室（Neural Deep Structure Computing MindComputer Lab，Mindputer Lab），兩個實驗室技術路徑雖異，但總體方法都是先從全腦角度來建立理論框架，然後將理論逐漸地向下細化，導出中觀和微觀的計算模型，之後再檢驗與微觀層面的實驗數據和知識的互恰性。

各有利弊：

兩類研究方法各有利弊，第1類方法就像在萬米懸崖峭壁貼身攀岩，向上的每一步很費時且充滿未知。因為，從海量的數據中去試圖進行全腦網路的微觀拼圖，是一個大隨機性的事件，即使有超級計算機或其他先進微觀技術的幫助，歐美兩個腦項目的10年計劃時間是遠遠不夠的。而第2類方法更像是空中傘降，難點在降落傘上，只要降落傘做得好，則向下定點降落的時間和複雜度比攀岩小的多。科學史已經證明，一個好的理論是大大削減科學探險隨機性風險的銳利刀具。

沒有真的逆向模擬，只能說是在一定程度上暗合而已。

深度學習（DNN）是逆向模擬了人類視覺皮層結構嗎？ 還是訓練過程中自然演變成類似視覺皮層的結構？

深度學習（DNN）是逆向模擬了人類視覺皮層結構嗎？還是訓練過程中自然演變成類似視覺皮層的結構？