yanny/laurel問題在語音學和心理學上的啟示

yanny/laurel問題在語音學和心理學上的啟示

有關yanny還是laurel的爭論看起來已經接近尾聲,但是顯然,我們依然沒有獲得一個足夠令人信服的解釋。這段語音,按照Brad Story所說,應當是把一段(可能也經過處理的)低頻人聲「laurel」與高頻低質量(共振峰有問題)的「yanny」合成的結果,網路上將低頻與高頻分別去掉也得到了類似的結果(bilibili.com/video/av23)。如果去掉高頻或低頻依然難以聽清,那麼可能是你對高頻或低頻的處理有問題或不敏感,也有可能是你信號處理的策略轉換不夠靈活。

正如中學物理課本所言,人聽覺的頻率範圍是20-20000Hz。但這當然並不是絕對的,對於不同個體一定有著個體差異。更何況這段音頻的頻率分布也相當廣:我用praat(fon.hum.uva.nl/praat/)提取,這段音頻的頻率範圍大概是0-5000Hz【20180517更正:praat提取的上限就是5000Hz,應該還有5000Hz以上的成分】,基頻大概在75-500Hz。我的經驗平常人聲的語音提取基頻最高也就200Hz多一點,樂音C的頻率也才440Hz【20180517更正:中央C是261Hz,標準音中央C同組A是440Hz】。因此這段音頻處理上有問題的人並不一定在日常生活中也表現出語音處理的問題。

這個問題其實有點像語音學、聲學、計算機語音處理中的一個經典問題,雞尾酒會問題(cocktail party problem),也就是人是如何在混雜的聲音中辨認出某人的聲音,以及計算機如何模擬這一過程。計算機的語音處理演算法一直在進步中,比如fastICA演算法,在網路上面有很多的博主分享介紹。但是這些演算法的進步似乎並不意味著我們對這個問題的理解,比如fastICA演算法是一種迭代演算法,但似乎很難說這種迭代有某種生理上的基礎。核心還是在於無論語音學、聲學還是語言處理的研究者,都將人的語音處理看作一種信號處理過程,但在解剖學以外,這種信號處理過程都很難與人聽覺的生理基礎連接。

如果您在去掉高低頻部分之後能分別聽到laurel和yanny兩個詞,那麼您就可以做這樣的實驗,對於您在合成語音中沒能聽到的那個詞:(1)一邊聽語音一邊默念那個詞,或者(2)一邊聽語音一邊看那個詞。

您又有了什麼新感覺?至少對於我,我達到了兩個詞能同時聽出的程度,也有同學達到了聽出「yanrel」一類詞的程度,也有網友報告只能聽到之前沒聽到的那個詞。

首先我們要知道,人的認知中有自上而下和自下而上的加工。自上而下的加工簡單來說就是概念驅動的加工,也就是說我們會根據以往的經驗去處理知覺對象。比如您聽到的這段音頻,無非就是各種聲學物理量的一種組合。人把一段音頻處理成噪音、樂音還是人聲,甚至於是人聲中的哪個詞,都是基於經驗。在第一次聽到這段音頻時,根據不同人過往經驗的不同(比如對這兩個詞的熟悉程度、對高頻/低頻刺激分析的熟練程度等等)自然會聽到不同的結果。那麼為什麼訓練之後會發生變化呢?雖然不能說現有知識完全能夠解釋清楚,但是我們可以從一些研究中獲得啟發。

Tian et al.(2018)發現自上而下的聲音想像會激發類似於感知應答的神經模式,這種內在的激活會調節對聲音音量的感受。他們在響度判斷的實驗之前

先給被試呈現「loud」或「soft」,對於同樣分貝的聲音刺激,loud組的被試認為的「聲音大小」要更大一些。簡單來說就是心裡對於音量的想像會影響對音量的感受。對簡單刺激音量的感受或許不同於對yanny/laurel這樣複雜音頻的處理,但這無疑為我們提供了一個很好的思路:這或許是一種自上而下與自下而上加工的互相作用,那麼對簡單刺激和複雜音頻音量感受不同的認知階段是否一樣呢?它們的生理基礎有什麼不同呢?

在雞尾酒會中,我們的注意也會影響對音量的感知。這似乎是十分自然的事情。假設在一場婚禮上,你的兩個朋友A和B站在不同的地方,你自然可以分別選擇聽A的或聽B的。同時聽懂他們的話對大部分人來說一定是很難的。在中學的校會上,選擇聽校長的講話或者背後同學的竊竊私語也是同理。這段音頻完全可以看作這種情況的簡化版。

而在實驗(2)中,這就變成了一個顯然涉及多模態(多通道)的問題了。視聽覺互相影響的一個很有名的例子,就是McGurk效應(比如bilibili.com/video/av64)。關於這部分的問題,已經有很多人研究了,在這裡就不贅述了(其實是因為我在做不方便多說,逃)。

論文引用:Tian, X., Ding, N., Teng, X., Bai, F. & Poeppel D. (2018). Imagined speech influences perceived loudness of sound. Nature Human Behavior.

推薦閱讀:

讀書無用論是怎樣的一種理論?崇揚讀書無用論的人的心理是怎樣的?
《愛情公寓4》損人不帶髒字?
該不該放下怨恨,與父母和解?
在崩潰的邊緣,榮格用畫畫拯救了自己
開放數據 | 心理學與神經成像開放數據集合

TAG:語音學 | 語言學 | 心理學 |