Laurel還是Yanny?三個角度剖析你聽到的為什麼和別人不一樣

Laurel還是Yanny?三個角度剖析你聽到的為什麼和別人不一樣

前段時間,有一段音頻火了。

繼藍黑VS白金,與甜豆腐腦VS咸豆腐腦的大戰之後,Laurel和Yanny又掀起了一場新的鬥爭。

https://www.zhihu.com/video/981511602020945920

你聽到的Laurel還是Yanny?身邊好多同事和盆友都是Yanny黨,而我是孤獨的Laurel黨~

同一段音頻,為什麼你我聽到的會不一樣?

要回答聽到「Yanny」還是聽到「Laurel」的問題,首先,我們可以把它拆成兩個子問題:

Q1:客觀上,Laurel 和 Yanny 為什麼會不同?導致不同的關鍵點在哪裡?

Q2:主觀上,為什麼不同的人面對同一段音頻,會聽出不一樣的結果?

先來說說我對上面兩個問題的回答:

A1:Laurel 和 Yanny 在聲學上的不同,取決於二者共振峰(Formant Frequencies)的不同。

A2:對模稜兩可的一段音頻做出不同的感知,其實反映了人們在感知和處理音頻信息時的一種方法:Categorical Perception(範疇感知)

這裡,就涉及到兩個概念:共振峰,範疇感知。

首先來看共振峰。

一、共振峰——區分兩個語音音色的最關鍵因素

任何聲音的音色如何,都取決於這段聲音的波形特徵。波形有兩種,要麼簡單,要麼複雜。一個簡單波(Simple Wave)只有一個頻率,就像一個正弦函數;一個複雜波(Complex Wave)由許多簡單波疊加和共振而成,其中,每一種頻率的簡單聲波都有不同的振動幅度(強度)。比如下圖中的複雜波,就是由三個振幅不同的簡單波(1000Hz,1100Hz,900Hz)構成的。

而我們說話的語音就是一種複雜波,它也由很多個簡單波共振而成,這些簡單波各有各的頻率,也各有各的振動強度。當某一些頻率上的簡單波的振動強度,就整個複雜波的平均水平而言達到了峰值,就構成一個共振峰。

共振峰出現的位置(即頻率)的不同,決定了兩個音音色的不同。比如下圖中,/a/的第一個、第二個共振峰分別出現在約500Hz和1500Hz的位置,而/i/的共振峰出現在大約250Hz和2500Hz的位置,這就導致了/a/和/i/無論是發出來還是聽起來,音色都是不同的。其中,我們把頻率最低的共振峰稱為F1,第二低的稱為F2,以此類推。

一般對於語音中的母音和輔音來說,兩個音的不同,除了F0(音調)的不同,關鍵看F1,F2和F3的不同。

所以回到Laurel 和 Yanny的問題:它們為什麼不同?原因還是共振峰。下面給出Laurel 和 Yanny的語譜圖(Spectrogram):

(圖片來源:nytimes.com/interactive

由於輔音相比於母音,其區別特徵更加明顯,因此我們重點來對比兩個詞輔音的共振峰的不同。Laurel 和Yanny中含有的輔音有,/l/,/j/,/r/,/n/。這裡,我們採用Peter Ladeforged 「A Course in Phonetics」書中列舉的輔音共振峰常見頻率,列表如下(單位:Hz):

由此,我們可以發現,「Laurel」相比於「Yanny」,輔音上最大的區別在於前者(/l/和/r/)F3的頻率遠低於後者,這就說明,/l/和/r/的能量集中在更低的頻率上。而且,語音學研究發現,/l/和/r/在更高頻率(比如在/j/的2890Hz與/n/的3250Hz)上,振動強度會遠遠低於在F1-F3的振動強度。所以,綜上可知,「Lauren」在較低頻率的強度更大,能量更集中;而「Yanny」在較高頻率的強度更大,能量更集中。

而我們之所以會模稜兩可,也許是因為製作這段音頻的人,故意把這個詞整體的F1, F2和F3等的位置混合了,調整了這個詞在高頻和低頻區域的振動強度,從而混淆了「Laurel」和「Yanny」兩個詞的音色特徵。

下面說說第二個問題,為什麼不同的人面對同一段音頻,會聽出不一樣的結果?我自己的解釋是,因為人們在範疇感知(Categorical Perception)中的表現不同,具體表現在,每個人感知各個音素的範圍界限不同。

==============================

(分割線,今天我又回來碼字啦~)

==============================

二、範疇感知(Categorical Perception)

人們能聽到什麼語音、如何理解這些語音,把這些聲音信號變成有意義的字詞句,在語言學上被稱為Speech Perception(中文譯作言語感知或者語言知覺)。Speech Perception中有一個重要概念,叫做範疇感知(Categorical Perception)。簡單來說,範疇感知認為,人們之所以能把兩個不同的音素(比如「/ɑ?/」和「/u?/」)區分開來,是因為人們根據一定的依據,本能地把這些音素劃歸為了不同的類別(Category),即,人們是按一個音所歸屬的「類別」來理解語音的。而劃分類別的依據,被稱為「Acoustic cue」(聽覺線索)。共振峰就是一個非常重要的聽覺線索。其他的聽覺線索比如VOT(Voice Onset Time,輔音從除阻的一刻到聲帶開始振動,所經歷的時間。是區分清、濁輔音和送氣/不送氣輔音的重要線索)。

這裡需要指出的是,既然人們是按照自己聽到的聽覺線索來劃分類別的,那麼人們對這些聽覺線索的敏感程度決定了這個類別的界限的位置以及容量的大小。舉個例子,比如人們常常說某某人很「富有」,又說另一個人很「貧窮」,「富有」和「貧窮」就是兩個類別,但它們之間的界限往往是因人而異的,比如已經把一個億當成小目標的王健林,可能覺得1000萬都不是區分貧窮與富有的界限,但相比之下,四線城市出生的我,可能覺得坐擁500萬的人已經可以稱得上富有了。

所以,回到Laurel和Yanny的問題,我覺得,人們之所以會面對同一段音頻,會聽出不一樣的結果,其實只是因為他們對這個詞里,不同的Acoustic cues的敏感程度不同,從而導致了不同的人按照不同的界限和標準,主觀地把同一個詞歸入了不同類別而已。

有點繞?其實寫下剛才那段文字的時候我也有點暈,那麼我們來上個圖吧~

如下圖,我們把Laurel和Yanny這兩個詞放在一個線段的兩端。它們分別代表兩個不同的類別。

現在指針所指的位置,就是這個問題的萬惡之源——讓我們傻傻分不清楚的Laurel/Yanny的原音頻。

現在,讓我們把指針向右慢慢移動,直到你第一次非常明確清晰地聽到Yanny而不是Laurel為止。我的指針是在這兒:

現在,這個指針的位置,就是我的「Laurel」類別的界限。(好吧,這再次證明了我是徹底的Laurel黨)

而當我讓一個朋友做同樣的實驗,發現其類別界限是在這兒:

(以上三張圖的圖片來源:nytimes.com/interactive

順便啰嗦一句,關於這個「界限」有一個言簡意賅的術語,叫做「Just Noticeable Difference」(JND,最小可覺差)。在這個例子里,JND就是圖2或圖3的指針位置,相比於圖1的指針原始位置之間的距離長短。它一定程度上反映出了你對這兩個詞發音差別的敏感度。

那麼第三個問題來了,不同的人為什麼會有不同的「界限」呢?或者說,不同的人為什麼會對同樣的聽覺線索表現出不同的敏感度?以及,為什麼有人能同時聽到「Laurel」和「Yanny」?

我覺得,這裡又要用一個概念來解釋了:Critical Band。

和發音系統類似,我們的聽覺系統也可以看做一個共鳴器。這個共鳴器(以及所有的共鳴器)和進入共鳴器的聲音產生共振(Resonance),共振的結果是,這個聲音(複雜波)的波形特徵會變得和共鳴器的波形特徵相同。一個簡單的比方,共振器好比杯子,從外面進來的聲音好比水,水進了杯子,就變成了杯子的形狀。

而一個外來的聲音在一個共鳴器中,總有一些頻率(比如500Hz - 700Hz)的簡單波受到共鳴器的影響最大,這個頻率段就被稱為Critical Band。

Critical Band對於人們對聲音的感知有什麼用呢?直接說結論吧:

假如同時播放兩個音,A和B。

如果A或B的頻率在Critical Band里,A和B會被人們認為是同一個音。

如果A或B的頻率在Critical Band外,A和B會被人們認為是兩個不同的音。

所以,聽出Laurel還是Yanny,本質上是因為耳朵這個共鳴器把這個聲音做了處理,有的耳朵強調了高頻段的響度,削弱了低頻段的響度,就聽到了Yanny;反之,就聽到了Laurel。

那些同時能聽到Laurel和Yanny的人,有可能因為這兩個音中的一個或兩個,它們當中有些簡單波的頻率在你的Critical Band之外。

總結一下,我個人覺得,Laurel與Yanny之別,一定程度上反映出我們如何感知和處理聽到的語音:

  1. 我們傾向於把聽到的聲音歸入事先劃分好的不同類別中,劃分的標準是聽覺線索。
  2. 共振峰是重要的聽覺線索。
  3. 對聽覺線索的敏感程度,會受到耳朵自帶的Critical Band的影響。
  4. 除了以上三點之外,肯定還有其他的原因。在此就不贅述了。

推薦閱讀:

高效計算穿孔板的聲學轉移阻抗
103年前的三月,中國聲學之父誕生
大牛講堂|語音專題第三講,聲學模型
Actran 在汽車工業的應用
挖掘西瓜的聲學屬性

TAG:語言學 | 英語 | 聲學 |