人的大腦是如何識別某一物體並檢測到運動的？

11-25

如果用電腦進行模擬，思路又是什麼呢？

人腦對運動的識別是一個很大的問題，目前來說沒有完整解決。僅僅探究認知上人腦的運動檢測功能，或許並不能完整的解釋人腦對運動識別的高可靠性。還需要知道人眼的凝視(gaze)能力和該能力的實現的神經基礎。而這一點，正是目前我們在計算機的運動追蹤中很少被考慮到的。

1.視覺通路(Visual Pathway)與視網膜拓撲映射(Retinotopy)

上圖是橫斷面的人腦視覺通路[1]示意圖。人眼的所有眼各有鼻側和顳側視野，在視網膜(Retina)感知光信號之後，左右兩側的視神經將信號向後傳遞，在視交叉(Optic Chiasma)將各自的鼻側和顳側信號分流並繼續向後傳遞，分流之後左側神經只傳遞右側視覺信號(左眼鼻側視野和右眼顳側視野)，右側神經質傳遞左側視覺信號(左眼顳側視野和右眼鼻側視野)，分別通過兩側的外側膝狀體(LGN, Lateral Geniculate Nucleus)，繼續傳遞到枕葉的初級視皮層(V1, Primary Visual Cortex)和更高級的視皮層. 易於理解的，視網膜感知的物體，通過該通路，會以一定空間關係映射視皮層上[2], 該關係被稱為視網膜拓撲映射(Retinotopy)[3].

基於該拓撲關係，人們甚至可以通過搜集視皮層的fMRI信號來重建人眼看到的文字/圖象，即所謂Mind Reading[4-7].

2.視覺皮層的分級結構和並行結構
視覺信號傳遞到V1之後，會繼續向更高級的視覺皮層傳遞，最早在根據獼猴(Macaque Monkey)視皮層的解剖結果，人們重建了其各個視皮層之間的分級結構[7]：

以此為基礎，逐漸理解了人的視皮層分級結構：

從初級到更高級的視覺皮層，視覺信息逐級傳遞。人腦理解的內容越來越複雜化、抽象化，由「模式」變成具體的"物"，再到物的特性和物與物之間的關係。在逐級傳到過程中，人們也注意到，其在皮層的傳到可以大體分成兩個通路，腹側通路(Ventral Pathway/Stream)和背側通路(Dorsal Pathway/Stream)[8]。

分別又按照功能，被稱作「What」和「Where」通路：

其中「Where」跟物體的位置和運動處理有關，「When」跟物體的識別有關[9]。但是該模型仍廣受批評。

3.識別與跟蹤
通過以上對分級結構的了解可以理解，在分級結構中任何一個區域的功能受損，都會影響人腦對運動的識別和跟蹤，各種研究也證實了這一點[10-14]。人對運動的感知和理解，並不是局限在某一個腦區或者幾個腦區，而是全腦參與的活動[15]。人腦在運動處理上，除了有被動的運動感知，還有主動的運動追蹤，即凝視（共軛凝視，conjugate gaze）能力。

人有四個系統處理共軛凝視：
掃視系統(saccadic system)，最常調用的系統，在人主動的調整凝視方向時使用[16]；
追蹤系統(pursuit system)，追蹤運動物體；
視動反射系統(Optokinetic reflex system)，物體出現在視野，眼睛會追蹤，當物體消失，人眼會反射性的回到凝視物體首次出現的位置；
前庭-眼反射系統(Vestibulo–ocular reflex system)，協調頭部的運動以獲得穩定的圖像，是眼睛的「三軸穩定平台」。

因而人眼就像一台高靈敏度、快速聚焦、快速響應、三軸穩定的攝像機，目前人類還造不出在對焦能力上足以和人眼比肩的攝像機，更別說做到跟眼睛同等體積了。人腦在運動識別及追蹤處理上，目前區別於計算機運動識別追蹤的重要一點是，人腦的識別追蹤是實時的，並能反饋控制眼睛的主動追逐。在該機制下，通過「where」和「what」通路處理的信息，會傳遞到額葉眼領域(FEF, Frontal eye fields)等眼動控制中心，作出眼球運動響應。該機制因此有如下優點：

能永遠讓目標處在清晰度最高的視野中間和聚焦點
一次識別和追蹤失敗，可以回來再看
根據物體之間的相對運動區分物體
能跟記憶關聯，幫助物體識別和追蹤
運動預判

在目前沒有能力如此強大的攝像機機的背景下，目前做的計算機運動識別追蹤主要是基於被動影像的處理，即不會根據處理結果調整聚焦和鏡頭方向。在該條件下，對追逐演算法引入學習能力，仍然可以大幅提高追蹤速度和準確性，如Tracking-Learning-Detection (TLD) [17]方法：

在圖象理解方面，人腦的圖像理解既有 bottom-up機制，又有top-down機制，兩種相互助益。
在圖象模態方面，可以多模態結合，彌補攝像頭沒有回看能力的缺陷。
在計算方面，分散式計算以提高實時性。
如果能將計算結果反饋給攝像頭控制，可能大有幫助。以上
--------
[1] Standring, Susan. "Gray』s anatomy." The anatomical basis of clinical practice39 (2008).
[2] Tootell R B H, Hadjikhani N K, Vanduffel W, et al. Functional analysis of primary visual cortex (V1) in humans[J]. Proceedings of the National Academy of Sciences, 1998, 95(3): 811-817.
[3] Engel S A, Glover G H, Wandell B A. Retinotopic organization in human visual cortex and the spatial precision of functional MRI[J]. Cerebral cortex, 1997, 7(2): 181-192.
[4] Miyawaki, Yoichi, et al. "Visual image reconstruction from human brain activity using a combination of multiscale local image decoders." Neuron 60.5 (2008): 915-929.
[5] Kay, Kendrick N., and Jack L. Gallant. "I can see what you see." Nature neuroscience 12.3 (2009): 245-245.
[6] Stanley, Garrett B. "Reading and writing the neural code." Nature neuroscience16.3 (2013): 259-263.
[7] Van Essen, David C., and John HR Maunsell. "Hierarchical organization and functional streams in the visual cortex." Trends in neurosciences 6 (1983): 370-375.
[8] Kandel, Eric R., James H. Schwartz, and Thomas M. Jessell, eds. Principles of neural science. Vol. 4. New York: McGraw-Hill, 2000.
[9] Ungerleider, Leslie G., and James V. Haxby. "『What』and 『where』in the human brain." Current opinion in neurobiology 4.2 (1994): 157-165.
[10] Grossman, Emily, et al. "Brain areas involved in perception of biological motion." Journal of cognitive neuroscience 12.5 (2000): 711-720.
[11] Vaina, Lucia M., et al. "Functional neuroanatomy of biological motion perception in humans." Proceedings of the National Academy of Sciences 98.20 (2001): 11656-11661.
[12] Grossman, Emily D., and Randolph Blake. "Brain areas active during visual perception of biological motion." Neuron 35.6 (2002): 1167-1175.
[13] Grezes, Julie, et al. "Does perception of biological motion rely on specific brain regions?." Neuroimage 13.5 (2001): 775-785.
[14] Saygin, Ayse Pinar. "Superior temporal and premotor brain areas necessary for biological motion perception." Brain 130.9 (2007): 2452-2461.
[15] Rokszin, Alice, et al. "Visual pathways serving motion detection in the mammalian brain." Sensors 10.4 (2010): 3218-3242.
[16] Robinson, D. A. "The mechanics of human saccadic eye movement." The Journal of physiology174.2 (1964): 245-264.
[17] Kalal, Zdenek, Krystian Mikolajczyk, and Jiri Matas. "Tracking-learning-detection." Pattern Analysis and Machine Intelligence, IEEE Transactions on34.7 (2012): 1409-1422.

題主問的是，「如果用電腦進行模擬，思路又是什麼呢？」，所以我從更computational的角度試著回答一下。

我覺得要回答這個問題首先要弄清楚的是，人識別物體運動為什麼會遭遇困難？因為視覺系統的temporal resolution是存在上限的，那麼當面對一個具有運動物體的視覺場景時，簡單化來想，就好像一個camera以固定頻率對這個場景進行拍攝。那麼這時候，就會遇到一個corresponding的問題（圖1）：

圖1

t時刻index兩個目標物體1和2，所有物體開始運動，t+1時刻獲得了個所有物體的坐標值，這時候要解決的問題判斷哪個是1，哪個是2？

Srivastava Vul (2015)提出了一個計算模型去預測觀測者如何完成我在上圖中描述的這個追蹤任務：多個視覺特徵完全相同的物體同時運動，當其中的某一些被指定為target時，我們如何通過實時地監控target的運動。這個模型分為兩個層級（圖2）,來模型視覺系統的bottom-up和top-down：

圖2

1.low-level: 模型的第一個層次是多個low-level controllers來最優估計某個時刻每一個target的位置，並且假設每個controller都是一個ideal Bayesian observer.

2.high-level:模型的第二層次是一個分配注意資源的controller，這個controller根據每個target當前的位置不確定性來動態分配資源，也就是說當某個target的空間不確定性變大，很可能與其他distractor混淆的時候，這個controller就會多分配一下資源給這個target，來提高空間解析度，以減小空間不確定性。

模型的細節我還在學習，有興趣的同學可以看這篇文獻：Srivastava, N., Vul, E. (2016). Attention Modulates Spatial Precision in Multiple-Object Tracking.. Topics in Cognitive Science, 8(1), 335-348. 歡迎交流～

希望有幫助，謝謝。

不請自答，哈哈！
人對物體移動的判斷與自動門的開關，有極其相似的地方。我曾經無聊的玩過自動門，我嘗試在門的各個位置移動，來使紅外感測器敏感我的移動。我發現（也必定會有），紅外有死角。然後，我又緩慢的移動，不停的嘗試緩慢的程度，終於讓我發現了，這感測器的敏感速度是有閾值，也就是極限的意思。
～～～～～～晚點繼續
午飯歸來繼續答題，感謝@郁非的評論。
我大膽的猜測，如果我以光速（雖然根本不需要這麼快），在那個自動門下游來游去，我堅信，那門也不會敏感到我的移動。
同樣的道理，人的大腦，簡單的看也有各種感覺器官，最直接感知物體移動的是眼睛，類似於自動門的紅外感測器。通過敏感物體相對於周圍的位置變化來得出物體移動的結論。所以眼睛同樣也看不見光的移動，和植物的緩慢長大的細節！
第一次認真答題，不對的地方可以一起討論，望多多支持鼓勵！

匿名。。。。

我居然看成人的大腿。。。

摺疊我吧。。。