小鳥如何學會唱歌? 神經系統中的強化學習 或 大腦利用隨機數產生器探索運動空間
我們是如何學會各種技能的呢?一種可能是通過強化學習(reinforcement learning)。本文介紹兩個支持這一理論的實驗。
1. 運動學習的動物模型
打球,彈琴,說話。這些都是需要運動系統(從大腦中各區的神經元,到身體上的各種肌肉)精密控制的行為。我們不是天生就會這些複雜的動作,而是經過多年練習才能學會的。雖然對很多人來說這些技能感覺上並不是十分困難,但是事實上,運動控制一直是人工智慧中最為難解的問題之一*。那麼我們的運動系統是如何學會各種技能的呢?
為了研究運動學習的神經基礎,科學家注意到不僅是人類,許多動物的行為,例如鳴禽的歌聲,也不是天生就會的:
2. 強化學習 (reinforcement learning)
在運動學習的理論中,一種理論認為我們在一開始先嘗試各種不同的動作:比如打網球時,儘管新手想要把球發到外角,落點都會在不同的地方。在不斷練習的過程中,每當一個動作達到了目的(球成功落到外角),那個動作就會得到強化;而那些糟糕的動作(比如打飛出場)就會被放棄。這一理論被稱為強化學習。雖然簡單,但它的應用十分廣泛。例如,谷歌的DQN就是一個基於強化學習的深度網路。(《自然》518期,2015年2月26日的封面:人工智慧自學實現電腦遊戲中人類級別的控制。)那麼動物是否也使用了類似的演算法呢?在動物的學習過程中,是否也有探索-強化的過程?
3. CAF=有條件的聽覺反饋 (conditional auditory feedback)
Tumer和Brainard發明了一個極聰明的方法來測試鳴禽是否採用強化學習[1]。
在成年鳴禽**唱歌時,儘管已經非常熟練,每次唱歌都有極為相似的句法(syntax)和音節特徵(acoustic feature),仍有細微的隨機性:如下圖,每次唱音節a時,a的音高(pitch)會有微小的不同。
圖1a,同一首歌三次不同的表現(rendition),第一行到第三行音節a的音高逐漸降低。
圖1c,音節a在不同頻率的概率分布圖。作者利用這一變化性(variability),有選擇地篡改(distort)一部分音節:在音節a的基本頻率(下面用音調錶示。二者不完全相同)高於或低於一個闕值時,即時播放一個白噪音:
圖1b,左邊a的音調低於闕值(上面圖1c的紅色虛線),右邊a的音調高於闕值,從而被白噪音覆蓋了。這一試驗方法被稱為有條件的聽覺反饋(conditional auditory feedback, CAF): 只有在表現出的音節特徵符合一定條件(音調高/低於一定闕值)時,才會進行聽覺反饋(白雜訊),來干涉鳥對自己歌聲的判斷。他們發現,在經歷了一段時間的CAF之後,音節a的音調降低了:
圖1d,灰色是三天前a音調的分布,紅色是進行CAF三天後。
圖2a,每一個點代表一個音高,可以看到始終是變化的,但在CAF開始後音調分布迅速升高到了闕值之上。(這是另一隻鳥的數據,CAF的標準是篡改音調低於闕值的音節。)由此可見,鳥通過改變音調來避免了白噪音。這符合強化學習的理論:減少導致白噪音的動作(闕值以上/下的音調),增加不導致白噪音的音調。
4. 隨機數產生器LMAN向運動皮層提供選擇性偏差以避免錯誤
(如果不熟悉LMAN是什麼請先點上面的鏈接閱讀對LMAN的簡單介紹)
Andalman 和 Fee 重複了這一實驗,並且揭示了CAF中鳴禽的神經系統是如何學習以避免白雜訊的[2]。
上圖1A中黑色箭頭(HVC->RA->nXIIts)被稱為發聲運動通路(vocal motor pathway, VMP),藍色箭頭(LMAN->X->DLM->LMAN)則被稱為前腦通路(anterior forebrain pathway, AFP)。VMP類似於哺乳動物中運動皮層->運動神經核->運動細胞的連接,而AFP的連接模式(皮層->基底核->丘腦->皮層)同樣是進化中高度保守的。圖1B展示了CAF:第一行是鳥唱的兩個音節,第二行綠色線是音調分布(和上面的圖1a[1]一樣),第三行是播放噪音是鳥聽到的兩個音節。
與前面的實驗不同的是,本實驗中增加了對LMAN神經元活動的抑制:
這是一個微透析探針(microdialysis probe),內含藥劑,可以在需要時注入大腦來實現藥理學控制。本實驗中作者使用的是TTX(河豚毒素,鈉離子通道阻斷劑,阻止神經元的放電活動)。作者在草雀已經經過CAF改變了音調分布後在LMAN注入TTX。結果如上圖:灰色部分是在CAF開始後音調逐漸降低(高於闕值的音節都被噪音篡改了);當LMAN被抑制時(紅色部分),音調分布又回到了CAF開始前的水平!這就意味著LMAN不僅給運動系統注入隨機性,同時還承擔著提供偏差(bias)的任務:當較高音調的音節由於CAF被認為是糟糕的時候,LMAN通過改變其注入的隨機性,使得運動系統的輸出向低音調偏移。這就使得草雀得以避免高音調的音節。
本文還發現LMAN引起的偏差在一天內就被鞏固到了VMP中:
紅色點是每隔一天的下午進行LMAN抑制所獲得的音調,和前一天的音調大致相同——這意味著LMAN提供的偏差在一天內就得到了鞏固:如果沒有得到鞏固的話,當LMAN被抑制時音調應該會回到最開始的水平。(這裡是一個總結兩篇文章重要性的段落。但是我該去睡覺了。再見!)
* 運動控制最前沿的成果之一就是波士頓動力的各種機器人。如果你看過他們的視頻就可以知道,1 相對於其他機器人他們的確很厲害 2 他們的機器人絕對沒法像費德勒一樣打網球。
** Tumer & Brainard 用的是孟加拉雀,Andalman & Fee 用的是斑胸草雀。
[1] Tumer, E. C., & Brainard, M. S. (2007). Performance variability enables adaptive plasticity of 「crystallized」 adult birdsong. Nature, 450(7173), 1240–4.
[2] Andalman, A. S., & Fee, M. S. (2009). A basal ganglia-forebrain circuit in the songbird biases motor output to avoid vocal errors. Proceedings of the National Academy of Sciences of the United States of America, 106(30), 12518–12523.
推薦閱讀:
※飲光止渴的老鼠——舌尖上的水滴
※你的眼睛能追上小丑手中的球嗎?——談談注意追蹤
※Owl of Minerva 的 Live -- 解構親密關係
※成年大腦中的神經元再生會導致記憶丟失
TAG:强化学习ReinforcementLearning | 神经科学 | 计算神经科学 |