我們要聽到個聲音有多難？ ——聽覺場景分析

03-03

大爺三連：「馬冬什麼？什麼冬梅啊？馬什麼梅啊？」圖片來源：夏洛特煩惱

在每天的聊天交談中，我們都聽著別人說這各種各樣有意義的話語；在聽歌曲時，我們聽到了歌手的歌聲，同時也不會落下背景不同的樂器伴奏；走到街道上，路上一片嘈雜，你左邊的馬路上是汽車行駛的聲音，右邊是商店叫賣的聲音，後面不遠處的小廣場，大媽們的廣場舞音樂也都被你一一感知到。這些每天都在經歷的對於我們來說似乎是太簡單，太平常不過的事情了，但正是我們能夠將不同的聲音區別分開來知覺的能力，才讓我們能夠順利地聽見我們關注的聲音，使得我們的聽覺功能有了意義。

在我們自然而然做到這樣一件事情時，其實完成了一件偉大的，想想就極為複雜的工作。

我們每個人都只有一對耳朵，而聲音全都從空氣傳入雙側的耳朵，振動鼓膜，帶動聽小骨，繼續進行聽覺信息的傳導。大家需要意識到的是，因為我們只有一對耳朵，而這些信息又是同時傳過來的。所以，聲音傳入耳朵的過程中，所有來自四面八方，各種各樣的信息，全都匯聚成為了一條信息進入了耳朵。但是我們感知到的可不是單一的一條信息，我們感知到了四面八方，各種各樣的物體的聲音信息。也就是說，我們的聽覺系統又將混合在一起的不同的聲音又分離開來了。從一條複雜的信息分離出各個成分的信息，這一個一個同時感知到的成分被稱之為「stream」。比如我們在聽交響樂中，我們明確地聽到了右前側的小提琴，左前側的大提琴，更側邊的貝斯，後面的管樂器，以及最後方的鼓聲這些不同的streams。不管是不同的樂器的音色，還是方位都辨別的十分清楚，而不是各種樂器聲音亂作一團的聲音。

圖片來源：網路

而這個將不同的聲音成分分離的過程在學術上就叫做聽覺場景分析了。

我們的聽覺系統是如何將不同的聲音分離開來的呢？現在主要有兩種觀點，第一種被稱為「群體分離假說」（population separation hypothesis），與人的主動注意關係不大；第二種則根據時間一致性（temporal coherence）的原則進行分離的，並且人的注意也參與其中。

「群體分離假說」是Fishman等人基於他們的電生理實驗結果所提出的，如下圖，如果兩個不同頻率的純音交替呈現時，在初級聽皮層的一個神經元群體中的大部分始終是由其中之一（不管是哪個）所激活的話，感知到的是單一的stream，也就是說，我們同時只能聽到其中一個純音；如果一個純音引起一個神經元群體的反應，而另一個純音引起了另一個不同的神經元群體反應（或是重疊區域很小），這樣，同時有兩個群體開始反應，我們感知到的就是兩條streams，即，同時聽到了這兩個不同頻率的純音。

另外，補充一個小知識點，我們的初級聽覺皮層有一個很有趣的性質，它的不同部分是會對不同的頻率進行反應，所以，很容易理解，如果兩個純音的頻率差距越大，越可能同時感知到2條streams，反之亦然。

筆者手繪，湊和著看吧

第二種觀點認為，我們的聽覺系統是根據時間一致性的原則將不同的特徵捆綁起來形成一個stream的，作者建立了我們的聽覺系統形成不同streams的假設模型。如下圖，來自聲源1和聲源2的聲音傳入耳朵，我們得到了兩個聲音各自的不同聲音特徵的混合。首先，我們對其進行了特徵分析（feature-analysis），分別從音色（timbre），音高（pitch）及其位置（location）通道得到了其各自的信息。然後進行一致性分析（coherence-analysis），我們得到了不同特徵在不同時間上的變化，因為來自同一來源的聲音的不同特徵的變化在時間上最為相關，所以聽覺系統通過對時間一致性的分析，將在時間上一致性最高的特徵結合在一起形成一個stream。

另外，我們主動的選擇性注意會選擇哪些是我們感興趣的，想聽的聲音，並且會強化我們它，成為了突出聲（foreground），而剩下的則成為背景聲音（background），強化的途徑包括在強化一致性分析和特徵分析階段對於感興趣的聲音的處理，從而讓我們更好地聽到我們感興趣的那個聲音。

圖片來源： Figure 2 of Shamma et al. (2011)

通過比較兩種觀點，雖然前者成功解釋了我們對於純音的感知，但顯然，後者能夠解釋清楚更多的東西，並且也關注到了我們的選擇性注意這一因素的不可或缺的作用。但後者終究是一個理論模型，相對於前者直接的生理實驗結果的支持，還缺乏足夠的證據。兩者的觀點其實並沒有特別大的相悖之處，無論是前者的生理實驗結果，還是後者的完整的模型，對於我們聽覺功能的最終理解，都會起到重要的啟示作用。

最後，大爺在日常的噪音環境下要聽到你的話可不是一件容易的事情，並且老年人隨著年齡的增大，外周聽力以及認知能力的衰退，言語感知能力也隨之開始下降，所以，「大爺三連」可能是他真的沒聽清呢（笑）。

圖片來源：夏洛特煩惱

參考文獻：

1. Schnupp, J., Nelken, I., & King, A.(2011). Auditory neuroscience: Making sense of sound. MIT press.

2. Fishman, Y. I., Reser, D. H., Arezzo, J.C., & Steinschneider, M. (2001). Neural correlates of auditory stream segregation in primary auditory cortex of the awake monkey. Hearing research, 151(1), 167-187.

3. Shamma, S. A., Elhilali, M., &Micheyl, C. (2011). Temporal coherence and attention in auditory scene analysis. Trends in neurosciences, 34(3), 114-123.

也歡迎大家關注我們的其他平台：

微信公眾號：腦人言（ibrain-talk）

新浪微博：腦人言