什麼是共振峰？

01-11

「母音的音高是多變的，但是不同母音之間是通過兩種跟它們陪音相關的典型音高彼此區別開來。heedhidheadhadhodhawedhoodwho"d中的母音，大部分都是高頻向低頻遞減，這種情況大致與前後母音間的區別相對應。母音音高高、舌位就低；母音音高低、舌位就高。這跟我們在發音術語中所說的母音高度一致。這些典型的陪音就是母音的共振峰（formants）。音高比較低的共振峰是第一共振峰，另一個就是第二共振峰。」
--《語音學教程》Peter·Ladefoged,page21
這個圖要怎麼看，怎麼知道該頻段表示共振峰？

用這個圖給 @曹世木先生和 @鍾覺辰先生的答案做註解，就一目了然了。

———————————————————補充作答————————————————————

針對題主給出的圖再多說兩句，一般只有母音（一些介於母音輔音中間分類不明的音，如glides, liquids暫不討論）才會有共振峰，而母音的音質由聲道的形狀決定，而聲道的形狀又通過發音的動作來塑造（articulatory movements）。在音系學上，我們通過母音舌位的高低和前後來對其進行區別以及圓唇/不圓唇來對其進行區別（distinctive features）。

相應的，聲譜圖上的F1跟舌位的高低相對應，F2跟舌位的前後相對應，圓唇不圓唇則與F2和F3都有關係。題主所示圖中的三個原因分別是：

[i] 前高不圓唇

[u] 後高圓唇

[ɑ] 後低不圓唇

有這樣的對應規律：舌位高的F1低，舌位低的F1高；舌位前的F2高，舌位後的F2低。我們看看圖中是不是這樣？

至於這個圖為什麼這麼不清晰，我認為是參數設定的問題。在聲譜圖裡面，計算機是按照用戶設定的頻率範圍，用聲學過濾器acoustic filters 來檢測特定範圍中的能量大小，就像篩子，眼兒大眼兒小的問題，眼兒大濾得多而不精，眼兒小濾得精而不多。眼兒小的篩子就相當於wide-band

spectrograms, 特點就是圖裡面的共振峰很粗，共振峰和共振峰之間的界限模糊，這樣的篩子適合我們在小的time window（時間窗口）看局部的頻率，frequency resolution高；眼兒大的篩子就相當於narrow-band spectrograms, 特點就是圖裡面的共振峰相對較細，共振峰和共振峰之間的界限明晰，這樣的篩子適合我們在相對大的time window（時間窗口）看整體的趨勢，time resolution高。通過以上的解釋我們就不難看出，這裡的聲譜圖用的是wide-band，把spectrogram的設置恢復成如下（也就是standard）會好很多：

希望對題主有幫助，有問題可以繼續題，我酌情添加。

語圖縱坐標是Frequency (Hz) ，橫坐標是Time (s) 。

語圖上還有第三個維度，我們也看得出來，就是顏色的深淺。

輸入的聲波，經過一組濾波器，按低頻到高頻的順序掃描。

波的振幅大小在電路里轉變成電壓的強弱，通過電灼針依次燒灼在電感紙上。電壓高的，也就是振幅大的，紙上燒灼的痕迹就濃。

所以這個第三維，顏色的深淺，就是表示振幅的大小，即音強（sound intensity）。

某段頻率相對於周圍較黑，就是說這裡振幅較大，音強較大。我們把這一段稱為「共振峰」。

相對周圍較黑的有幾處，就有幾個共振峰。

一般以一段較黑的條紋的中間位置作為共振峰的頻率值。

我們在嘈雜的地方為什麼還能聽懂別人在說什麼？因為音強最大的部分還是能為我們感知到。這就說明這是一個聲音區別於其他聲音的主要特徵。也就是說，共振峰是聲音的主要特徵。

所以我們要測量共振峰的頻率值，從物理上把握一個聲音的性質。

共振峰就是在這個頻率上能量比較強，語圖上看就是顏色比較深的。

如果你用Praat，可以自動提取出共振峰。

簡單來說，口腔或發音器作出不同形狀時，會有不同的駐波頻率，於是會不同的preferred frequency，也就是共振頻率。

更簡單的說，是對應不同障礙的波動解

我也來答一波試試看，有錯誤的歡迎指出，因為寫得比較急沒過分斟酌。

要說明共振峰，先從幾個基本概念說明入手一下，稍微科普一下，有點嘮叨，哈哈哈哈……我切入的角度會偏向於語音識別，所以……

濁音與清音

當聲帶處於收緊狀態，流經的氣流使聲帶振動，這時產生的音是濁音 voiced sound；

當聲帶處於放鬆狀態，不伴有聲帶振動的音，稱為清音 unvoiced sound；

濁音是有具體意義的音，例如母音

清音是無具體意義的音，例如摩擦音，爆破音等

激勵源與濾波器

氣流與聲門，等效為激勵源；對應的是激勵頻率；也就是基音頻率F0；

聲道，等效為濾波器；對應的是諧振頻率

共振峰formants

聲門的質量決定著基音頻率，基頻的高低也與性別和年齡相關；

男性大約在：60~200Hz

女性和兒童大約在：200~450Hz

人的發聲器官（聲道和口腔）肌肉較軟，阻尼較大，會對較多的頻率產生共鳴；把聲道當作一個發音的諧振腔體來看，當發音的激勵頻率等於聲道的諧振頻率時，即兩個頻率相等，聲道就會以最大的振幅來回振蕩，也就是所謂的共鳴；共鳴起振了諧振腔體振動，接著聲道會放大了某些頻率成分和衰減了其他頻率成分，從而產生某些諧振頻率，在頻率特性上被放大的諧振頻率就會陸續峰起，一般把這些諧振頻率稱之為共振頻率，這些峰稱為共振峰formant；

其次，口腔和聲道可以組合成各種形狀和尺寸，這也意味著聲道有不同的共振頻率；

然後，由於濁音是聲帶振動產生，所以濁音是與共振峰密切相關的，可以認為共振峰處就是母音；

如果把聲道截面看作是一個理想的均勻諧振腔體，舌頭唇的運動會改變聲道的形狀尺寸，也就會改變諧振腔體，繼而改變對應的諧振頻率：

L是聲道長度，n是諧振頻率序號(n=1, 2, 3,...)，c是空氣中聲速=340m/s

理想聲道模型：

這裡就是把L=17cm=0.17m看待，那諧振頻率Fn=(2n-1)×500，是500的奇數倍

繼而有F1=500Hz, F2=1500Hz, F3=2500Hz

以上分別就是第一共振頻率，第二共振頻率，第三共振頻率，依次對應就是第一二三共振峰；

實際上聲道是比較複雜的，會產生較多個共振頻率：

化曲為直，每一個圓柱腔體都可以看作產生數個諧振頻率，每個小腔體都有多組諧振頻率；

而一個母音，會同時受舌頭的位置和嘴唇形狀的複合影響，發音器官由於振動產生多個共振頻率，所以一個音會有3~5個共振峰；

實驗研究到，一個母音用三個共振峰表示，複雜的輔音或鼻音，要用五個共振峰；

有多少個共振峰，就代表有多少個共振頻率；

共振峰與母音vowel

舌位分前中後，高中低；還加以嘴唇的圓唇不圓唇加以區別；

由於一個母音可用三個共振峰來表示，其中前兩個共振又是與舌頭位置有顯著關係的：

舌頭高與低，和第一共振頻率F1有關；

舌頭前front與後rear，和第二共振頻率F2有關；

下圖是主要母音對應著第一二共振頻率圖

以母音 a 為例，對應的就是第一頻率900~1100Hz，第二頻率1200~1600Hz，舌頭位置是靠低且開嘴唇；

然後下圖是三個主要母音各自對應的頻譜特性圖（短時平穩），縱軸是幅值，單位dB，橫軸是頻率：

從上圖看，母音a 有三個共振峰，頭兩個共振峰對應的共振頻率大概是900Hz和1100Hz，所以這兩個圖是可以對應上。

*****************************************我的揣測（不負責的）*******************************

其次，我們可以再深入一點思考，一個濁音用三個共振峰來表示，一個共振峰的頻譜特性其實可以用一個GMM來建模擬合的，也就是說一個濁音是需要三個GMM來建模擬合，所以HMM需要三個狀態也是這樣來的；而非文本音素要用五個HMM狀態，也是因為清音比較複雜，需要五個共振峰才能較好表示。

但是，上面只是基於monophone的角度和短時平穩上來考慮，當考慮時變時，這是不夠嚴謹的。當成一個字詞時，母音是會跟前後音素相關聯，這裡就存在協同發音的效應在裡面；由於協同發音，前後兩個音素的共振峰可能會重疊或者靠近，或者互相作用，此時就不能單純認為三個共振峰當且僅當表示一個孤立的母音，這三個共振峰可能會帶有別的前後音素頻譜特性在裡面；所以HMM的三個狀態如果只單純表徵一個母音是不夠充分的，就需要引入三音素做法。

***************************************分割線完，以下是題目所需*****************************

語譜圖spectrogram

語譜圖，又可以叫做頻譜瀑布spectral waterfalls或聲紋圖voice-print；以前Bell實驗室就目視語譜圖來進行說話人識別，所以就提取出了「聲紋」概念。

語譜圖是三維的，第一維橫軸是時間，第二維縱軸是頻率，第三維顏色是幅值；頻率範圍是該語音的採樣頻率的一半；

頻譜圖是二維的，第一維橫軸是頻率，第二維縱軸是幅值；

所以語譜圖和頻譜圖的區別，就在於頻譜圖是把語譜圖中的時間維度去掉了，而頻譜圖只能表示某一時刻的頻譜，只保留了頻率和幅值信息；不過鑒於語音信號具有短時平穩特性，所以可以把很短時間內（10ms~30ms）所有時刻的頻譜都當作這短時內其中某一個時刻的頻譜來看待。

從這個經典的立體圖上來看：

以往頻譜圖是從右往左看，而語譜圖就是從上往下看；某一頻率的波形峰值對應語譜圖就是深顏色的，低谷就是對應淺顏色的；同時，語譜圖的每個像素點的灰度值，還具有相應時刻和相應頻率的幅值大小三重信息，所以有人把語譜圖作為聲紋識別的材料也是有一定道理的。

而語譜圖有分為寬頻語譜圖和窄帶語譜圖，常見的是窄帶語譜圖，例如下圖，從下圖可以識別出語譜圖上的共振峰：

深顏色的較粗帶，稱為「橫杠」，就是共振峰，也是濁音部分；顏色較為淺，而且豎條上不具有深色「橫杠」的，就是清音，因為沒有引起聲道諧振，就自然沒有共振頻率了；

在帶有「橫杠」的豎條，最底部的「橫杠」是基頻F0，因為濁音都需要基頻起振，所以濁音的豎條帶有基頻是正常的；

各個諧波表現為橫向的波紋，是因為母音的持續時間較長和協同效應較強；

橫杠之間的距離是基音頻率；

再看下圖，下圖就較為清晰顯示了一個基頻和三個共振峰「橫杠」，前兩個共振峰F1和F2較為突出，作用最為明顯：

關於寬頻語譜圖和窄帶語譜圖：

語譜圖根據帶通濾波器的寬窄，可分為寬頻語譜圖和窄帶語譜圖；

左圖是寬頻語譜圖，可以清晰看到很多豎條，很細，這些細條之間的距離就是基音周期；

右圖是窄帶語譜圖，可以看到很多「橫杠」，「橫杠」之間的距離就是基音頻率；

從上面看出，

左圖對於時間解析度能提供更多細節，時間解析度為2~5ms，頻率解析度為300~400Hz；

右圖對於頻率解析度能提供更多細節，頻率解析度為50~100Hz，時間解析度為5~10ms；

實體操作如下圖分析：

小圖是右邊點到虛線那時刻藍色框里的某一點的頻譜圖，採用了漢明窗，FFT-512，頭四個峰對應的頻率是F0, F1, F2, F3；

大圖是數字串語音的語譜圖，數字串是7835340872，可以看到兩個數字3或7具有相似的聲紋；

而7看似是由兩個豎條組成，前面豎條是聲母q，在頻率高的地方能約莫能看到3~5個共振峰，頻率高但幅值低；

7的後面豎條是發出韻母 i，有明顯的幾條橫杠

說母音的時候，喉部的聲帶是會振動的，摸摸自己的嗓子說a就可以清楚感覺到。聲帶振動就會產生聲波，聲波經過了從喉至唇的聲道，才傳送到我們的耳朵里。就好像一個塑料瓶兒，你打開瓶口，敲瓶子底部，瓶底振動產生了聲波，聲波經過瓶身才被我們聽到。如果把塑料瓶兒捏扁一點兒，再敲瓶子底部，你聽到的聲音就不一樣了。這是瓶子的形狀影響著原本的聲波，有些部分被放大了（共鳴），有些部分被壓制住了，所以瓶身形狀不同，我們聽到的音也就不同。同理，我們的聲道形狀也會改變聲帶振動產生的聲源波。你張大嘴時，發出的是a，張小嘴，舌頭往前，發出的就是i了。這些音的差別就在於，聲道形狀不同，其放大和壓抑住的部分音（陪音）也都不同。那些被放大的部分音，它們就是共振峰。其中頻率最低、強度（振幅）也最大的就是第一共振峰。隨著頻率升高，還有第二共振峰、第三共振峰、第四共振峰……

關於所貼的圖，題主知道縱坐標表示頻率，顏色深淺表示振幅，就能看懂了。由於共振峰是被放大的音，那麼顏色深的部分就是共振峰了。如紅色小標籤，F1即formant1，第一共振峰。