現代讀心術:基於fMRI的視覺圖像重建/鑒別

fMRI可以通過某一小塊組織(voxel,體素)內血紅蛋白濃度的水平(通過BOLD信號)來側面反映該區域腦部神經元活動情況,在近年來在神經科學的研究中發揮了越來越重要的作用。

我們知道,視覺信號會在V1(初級視覺皮層)內按照視網膜拓撲方式呈現,並按一定規律激活其神經元(特定的方向等),V1皮層會將處理過的信號與中繼的信號繼續向上傳遞到高級一些的視覺皮層(v2/v3/v4/v5/IT等)。那麼我們是否可以通過檢測V1等皮層的神經元信號實現對人眼看到的視覺圖像的還原(reconstruction)或者鑒別(identifying)、分類(clasifying)呢?

答案是肯定的。

Yoichi Miyawaki和他的同事在這方面做了不少工作。 他們試圖通過對V1、V2圖層的fmri信號還原出被試看到的圖像。他們製作出了大量的12*12方格,每個格子包含黑或白兩種呈現方式。在數據分析中,他們捨棄了邊緣兩格,分析2^10*10的情況。

他們遇到的挑戰性的問題在於:前任的研究大多集中在鑒別(identifying)、分類(clasifying)特定的圖形上。從腦活動直接重建被試看到的圖像是更有挑戰性的工作。

Yoichi Miyawaki和他的同事的工作亮點在於:他們在他們的重建模型中同時引入了多尺度(multi-scale)圖片表徵、多體素(multi-voxel)解碼與多次平均等方法。

他們的模型是這樣的

圖1 視覺重建模型

利用機器學習模型各自對重建圖案的每個小部分進行不同尺度的方塊(1x1;1x2;2x1;2x2)的訓練,最後再優化四個參數,疊加不同尺度的模型得到最終的表示結果。

引入了多尺度(multi-scale)圖片表徵的目的在於:根據當前的視覺研究,越靠近視覺邊緣的感受野越大;同時,神經科學家們也相信:人腦更高(低)的視覺頻率有更小(大)的感受野。通過多尺度的表徵,靠近外圍的圖案的大尺度權值更大,顯著降低了模型的噪音,靠近圖案中心小尺度權值更大,顯著提高了準確度(圖2)。的根據這些綜合的理論導致:引入了多尺度(multi-scale)圖片表徵可以顯著提高重建模型的準確性。

圖2 不同尺度在視野不同離心率下重建錯誤率不同,相應的訓練出的權值頁不同,更好的互補提高了整體模型重建的性能

為什麼多體素(multi-voxel)解碼也能提高重建模型的性能呢?當前對於視知覺的研究還表明:V1皮層表徵視覺信息並不是嚴格基於視網膜拓撲學的原理的;側抑制理論(圖3);對相近方向敏感的神經元提高了firing rate,但是人們還不是完全清楚為什麼在V1中離視網膜拓撲較遠的位置仍能表示一定信息。

圖3 側抑制模型

不同於上述研究,Kendrick N. Kay和他的同事在鑒別(identifying)方面也取得了令人鼓舞的進展。

現階段還原特定圖案可以用不太複雜的機器學習演算法完成。但是具體到自然圖片,其複雜的特徵組合、數據結構以及人腦非線性的視覺處理。傳統方法會失效。

Kendrick N. Kay和他的同事的方法是:

  1. 建立先驗模型,利用Gabor wavelet pyramid對每一個voxel(體素),利用簡單的線性回歸和梯度下降法訓練大量局部方向、空間頻率的量化的感受野模型。
  2. 圖片鑒別1)測量特定圖案的腦部活動;2)對一串圖片的腦部活動進行預測;3)根據預測的腦部活動選擇最相近的相應圖片。

圖4 Kendrick N. Kay和他的同事的方法

Kendrick N. Kay和他的同事測量了大量的fmri數據(給被試呈現了逾1700張圖片)。最終得到了不錯的鑒別準確率。Kendrick N. Kay和他的同事還證明了Gabor wavelet pyramid模型相比視網膜拓撲的模型有更好的表現。

在分類(clasifying)方向上,Nikolaus Kriegeskorte和他的同事也完成了出色的工作,這不在筆者學術筆記的討論範圍內,因此不再詳細敘述。

Reference:

[1]Kandel, Eric R., James H. Schwartz, and Thomas M. Jessell. "25." Principles of Neural Science. 5th ed. New York: McGraw-Hill, Health Professions Division, 2013. 556-76. Print.

[2]Miyawaki, Yoichi, et al. "Visual image reconstruction from human brain activity using a combination of multiscale local image decoders.." Neuron60.5(2008):915-29.

[3]Priebe, Nicholas J,, and F. David. "Inhibition, spike threshold, and stimulus selectivity in primary visual cortex.." Neuron 57.4(2008):482-497.

[4]Kay, Kendrick N., et al. "Identifying natural images from human brain activity.." Nature 452.7185(2008):352-355.

[5]Nikolaus, Kriegeskorte, et al. "Matching categorical object representations in inferior temporal cortex of man and monkey." Journal of Clinical Rehabilitative Tissue Engineering Research 60.11(2010):2085-2085.


推薦閱讀:

邊界效應與VOT2015
網路結構中節點嵌入向量表達(network embedding)方法介紹
《Image-to-Image Translation with Conditional Adversarial Networks》閱讀筆記
CAMA-LAB 機器學習暑期研討班(2017)

TAG:计算神经科学 | 脑科学 | 机器学习 |