多巴胺神經元驅動學習
「Schultz等人從電生理和計算神經科學的角度,證明了多巴胺神經元可以編碼獎賞預測誤差信號(即時差分信號),並且認為該信號可以導致動物的學習。因為電生理只是相關性研究,所以後面的因果關係仍然缺少足夠的證據。在我看來,最好的證據來自於最近才發表的兩個光遺傳學實驗(分別發表於2013年和2016年)。
什麼是光遺傳學呢?光遺傳學是一種用光來激活或者抑制特定類型神經元的方法。比如,為了激活多巴胺細胞,利用遺傳學的方法,把ChR2這種對光敏感的陽離子通道表達在多巴胺細胞裡面。然後用一束藍光(通過200微米直徑的光纖)照射,這群細胞就會被興奮。如果表達的不是ChR2,而是eNpHR,並且用黃綠光刺激,那麼細胞會被抑制。於是,利用這種方法就可以模擬出多巴胺神經元興奮和抑制的信號(正向和負向獎賞預測誤差)。
接下來的兩個實驗都不難理解,只需要一點邏輯就可以想明白。
第一個實驗:
在介紹Rescorla-Wagner模型的時候曾經提到過「阻礙實驗(blocking)」。阻礙實驗是這樣的:(1)動物聽到聲音CS的時候,可以喝到水(US),反覆訓練直至動物熟練掌握CS-US的聯繫,以至於一聽到CS就趕緊跑過去喝水;(2)複合CS訓練階段:和第一步相同,只不過把單純的聲音CS換成「聲音+燈光」的複合CS來訓練動物;(3)測試階段:在沒有任何獎賞的情況下,給動物燈光CS,觀察動物去喝水區的時間。實驗結果是:動物無法學會燈光CS和US的聯繫。Rescorla-Wagner模型很好的解釋了這個現象:在複合CS訓練階段,動物從聲音CS那裡完全能夠預測出US。那麼,這裡的預測誤差就是零。如果誤差是零的話,就不會有新的學習產生(動物學不會燈光CS和US的聯繫)。如果我們在複合CS訓練的時候,給動物兩倍的US,動物就能學會燈光CS和獎賞的聯繫,也就是發生了「去阻礙(unblocking)」現象。這是因為更多US的出現,導致了預測誤差的出現,就可以出現新的學習。
根據多巴胺神經元編碼獎賞預測誤差信號的理論進行推測,在正常的阻礙實驗中,多巴胺神經元在複合CS訓練階段是不會被US激活的(有實驗證據)。那麼,如果我們故意在動物得到US的時候激活多巴胺,就能人為製造出一個正向多巴胺預測誤差信號。如果該信號能夠導致學習,那我們將看到類似於給動物更多US而產生的「去阻礙」現象。Janak實驗室在大鼠上做了這個實驗,並且發現結果確實是這樣的。他們的結果有力的證明了激活多巴胺神經元產生的正向獎賞預測誤差能夠導致學習。
第二個實驗:
多巴胺神經元不僅可以興奮,而且還會抑制。興奮意味著得到的比預測的更好,而抑制意味著得到的比預測的更差。興奮多巴胺神經元能夠導致學習,那抑制多巴胺神經元呢?
「過分期望(overexpectation)」也在介紹Rescorla-Wagner模型的時候提到過。具體是這樣的:(1)訓練動物把「聲音CS「和US建立Pavlovian條件反射;(2)訓練動物把「燈光CS」和相同的US建立Pavlovian條件反射;(3)把複合的「聲音+燈光」同時給動物,並且還用相同大小的US進行Pavlovian配對;(4)測試動物對聲音CS的反應強度(聽到聲音後在喝水區的時間)。結果是:經過一系列訓練之後,動物對CS的反應強度下降了。學習理論對此的解釋是這樣的:在複合CS訓練階段,兩個不同的CS(聲音和燈光)預測了相同的US,當他們同時出現的時候,動物就會預測自己能夠得到兩份US,但是實際上動物只得到了一份,所以就有了預測誤差(實際得到減去預測值)。根據Rescorla-Wagner模型,動物對兩種CS-US配對聯繫就會減弱(可以從動物的行為測量得到)。這就是所謂的「過分期待」效應。
那麼,如果我們稍微改變一下實驗設計:在第二階段的複合CS訓練的時候,給動物兩份的US,那麼預測誤差就等於0(預測2份,得到2份)。那麼我們就看不到「過分期待」效應了。實際也是如此。
那麼關鍵的實驗來了:在第二階段的時候給動物兩份US,但是同時也用光抑制多巴胺神經元。就像上面說的,給了兩份US,如果沒有光抑制多巴胺神經元的時候是不存在預測誤差的。但是,用光抑制多巴胺的時候就可以模擬出負的獎賞誤差信號了。如果負的獎賞預測誤差信號同樣能夠導致學習,那麼我們就會再次看到「過分期待」效應!Schoenbaum實驗室的數據證實了這一結果。
上面兩個實驗分別利用了學習理論裡面經常使用到的「阻礙」和「過分期待」實驗,證明了多巴胺神經元正向和負向獎賞預測誤差信號都能夠導致學習。學習理論出身於心理學。這兩個實驗證明了學習理論也可以作為非常有力的理論工具,用來驅動神經科學的研究。
Chang, C. Y., Esber, G. R., Marrero-Garcia, Y., Yau, H. J., Bonci, A., & Schoenbaum, G. (2016). Brief optogenetic inhibition of dopamine neurons mimics endogenous negative reward prediction errors. Nature neuroscience, 19(1), 111-116.
推薦閱讀:
※模式動物能夠回答為什麼唱歌跑調嗎 (一)
※四月刊| 實驗動物萌萌的瞬間
※理解上癮:獎賞通路強化行為
※空間半側忽略症患者、邦納綜合症患者、正常人,看現實世界所激發的腦區有何異同?
※CS231n課程筆記翻譯:神經網路筆記1(上)