小鳥如何學會唱歌？神經系統中的強化學習或大腦利用隨機數產生器探索運動空間

01-29

我們是如何學會各種技能的呢？一種可能是通過強化學習(reinforcement learning)。本文介紹兩個支持這一理論的實驗。

1. 運動學習的動物模型

打球，彈琴，說話。這些都是需要運動系統（從大腦中各區的神經元，到身體上的各種肌肉）精密控制的行為。我們不是天生就會這些複雜的動作，而是經過多年練習才能學會的。雖然對很多人來說這些技能感覺上並不是十分困難，但是事實上，運動控制一直是人工智慧中最為難解的問題之一*。那麼我們的運動系統是如何學會各種技能的呢？

為了研究運動學習的神經基礎，科學家注意到不僅是人類，許多動物的行為，例如鳴禽的歌聲，也不是天生就會的：

如上圖所示，當幼年的斑胸草雀剛剛開始練習唱歌時(第一行)，他的歌聲毫無規律可言，並且完全不像他父親的歌聲（最後一行）。與之相反，成年草雀的歌聲既有規律，又和父親的歌很相像（第三行和第四行）。這些特徵使得鳴禽成為了研究動物技能學習的最佳模型（手動劃掉之一）。

2. 強化學習 (reinforcement learning)

在運動學習的理論中，一種理論認為我們在一開始先嘗試各種不同的動作：比如打網球時，儘管新手想要把球發到外角，落點都會在不同的地方。在不斷練習的過程中，每當一個動作達到了目的（球成功落到外角），那個動作就會得到強化；而那些糟糕的動作（比如打飛出場）就會被放棄。

這一理論被稱為強化學習。雖然簡單，但它的應用十分廣泛。例如，谷歌的DQN就是一個基於強化學習的深度網路。

(《自然》518期，2015年2月26日的封面：人工智慧自學實現電腦遊戲中人類級別的控制。）

那麼動物是否也使用了類似的演算法呢？在動物的學習過程中，是否也有探索-強化的過程？

3. CAF=有條件的聽覺反饋 (conditional auditory feedback)

Tumer和Brainard發明了一個極聰明的方法來測試鳴禽是否採用強化學習[1]。

在成年鳴禽**唱歌時，儘管已經非常熟練，每次唱歌都有極為相似的句法(syntax)和音節特徵(acoustic feature)，仍有細微的隨機性：如下圖，每次唱音節a時，a的音高(pitch)會有微小的不同。

圖1a，同一首歌三次不同的表現(rendition)，第一行到第三行音節a的音高逐漸降低。

圖1c，音節a在不同頻率的概率分布圖。

作者利用這一變化性(variability)，有選擇地篡改(distort)一部分音節：在音節a的基本頻率（下面用音調錶示。二者不完全相同）高於或低於一個闕值時，即時播放一個白噪音：

圖1b，左邊a的音調低於闕值（上面圖1c的紅色虛線），右邊a的音調高於闕值，從而被白噪音覆蓋了。這一試驗方法被稱為有條件的聽覺反饋(conditional auditory feedback, CAF): 只有在表現出的音節特徵符合一定條件（音調高/低於一定闕值）時，才會進行聽覺反饋（白雜訊），來干涉鳥對自己歌聲的判斷。

他們發現，在經歷了一段時間的CAF之後，音節a的音調降低了：

圖1d，灰色是三天前a音調的分布，紅色是進行CAF三天後。

圖2a，每一個點代表一個音高，可以看到始終是變化的，但在CAF開始後音調分布迅速升高到了闕值之上。（這是另一隻鳥的數據，CAF的標準是篡改音調低於闕值的音節。）

由此可見，鳥通過改變音調來避免了白噪音。這符合強化學習的理論：減少導致白噪音的動作（闕值以上/下的音調），增加不導致白噪音的音調。

4. 隨機數產生器LMAN向運動皮層提供選擇性偏差以避免錯誤

（如果不熟悉LMAN是什麼請先點上面的鏈接閱讀對LMAN的簡單介紹）

Andalman 和 Fee 重複了這一實驗，並且揭示了CAF中鳴禽的神經系統是如何學習以避免白雜訊的[2]。

上圖1A中黑色箭頭(HVC->RA->nXIIts)被稱為發聲運動通路(vocal motor pathway, VMP)，藍色箭頭(LMAN->X->DLM->LMAN)則被稱為前腦通路(anterior forebrain pathway, AFP)。VMP類似於哺乳動物中運動皮層->運動神經核->運動細胞的連接，而AFP的連接模式（皮層->基底核->丘腦->皮層）同樣是進化中高度保守的。

圖1B展示了CAF：第一行是鳥唱的兩個音節，第二行綠色線是音調分布（和上面的圖1a[1]一樣），第三行是播放噪音是鳥聽到的兩個音節。

與前面的實驗不同的是，本實驗中增加了對LMAN神經元活動的抑制：

這是一個微透析探針(microdialysis probe)，內含藥劑，可以在需要時注入大腦來實現藥理學控制。本實驗中作者使用的是TTX（河豚毒素，鈉離子通道阻斷劑，阻止神經元的放電活動）。

作者在草雀已經經過CAF改變了音調分布後在LMAN注入TTX。結果如上圖：灰色部分是在CAF開始後音調逐漸降低（高於闕值的音節都被噪音篡改了）；當LMAN被抑制時（紅色部分），音調分布又回到了CAF開始前的水平！

這就意味著LMAN不僅給運動系統注入隨機性，同時還承擔著提供偏差(bias)的任務：當較高音調的音節由於CAF被認為是糟糕的時候，LMAN通過改變其注入的隨機性，使得運動系統的輸出向低音調偏移。這就使得草雀得以避免高音調的音節。

本文還發現LMAN引起的偏差在一天內就被鞏固到了VMP中：

紅色點是每隔一天的下午進行LMAN抑制所獲得的音調，和前一天的音調大致相同——這意味著LMAN提供的偏差在一天內就得到了鞏固：如果沒有得到鞏固的話，當LMAN被抑制時音調應該會回到最開始的水平。

（這裡是一個總結兩篇文章重要性的段落。但是我該去睡覺了。再見！）

* 運動控制最前沿的成果之一就是波士頓動力的各種機器人。如果你看過他們的視頻就可以知道，1 相對於其他機器人他們的確很厲害 2 他們的機器人絕對沒法像費德勒一樣打網球。

** Tumer & Brainard 用的是孟加拉雀，Andalman & Fee 用的是斑胸草雀。

[1] Tumer, E. C., & Brainard, M. S. (2007). Performance variability enables adaptive plasticity of 「crystallized」 adult birdsong. Nature, 450(7173), 1240–4.

[2] Andalman, A. S., & Fee, M. S. (2009). A basal ganglia-forebrain circuit in the songbird biases motor output to avoid vocal errors. Proceedings of the National Academy of Sciences of the United States of America, 106(30), 12518–12523.

小鳥如何學會唱歌？ 神經系統中的強化學習 或 大腦利用隨機數產生器探索運動空間

小鳥如何學會唱歌？神經系統中的強化學習或大腦利用隨機數產生器探索運動空間