聲音的掩蔽效應

05-16

人耳能夠在寂靜的環境中分辨出輕微的聲音，但是在嘈雜的環境里，這些輕微的聲音就會被雜音所淹沒。這種由於第一個聲音的存在而使得第二個聲音聽閾提高的現象就稱為掩蔽效應。第一個聲音稱為掩蔽聲，第二個聲音稱為被掩蔽聲，第二個聲音聽閾提高的數量稱為掩蔽效應。

掩蔽效應發生時，一般以不同性質的聲音作為掩蔽聲，比如純音、複音、雜訊等。研究還發現，當掩蔽聲和被掩蔽聲不同時到達時，也會發生掩蔽，這種掩蔽現象稱為非同時掩蔽。掩蔽聲作用在被掩蔽聲之前所發生的掩蔽，稱為前掩蔽；掩蔽聲作用在被掩蔽聲之後所發生的掩蔽，稱為後掩蔽。

聽覺的掩蔽效應一般是用掩蔽聲存在時的新的聽閾曲線來表示，因此這裡涉及的被掩蔽聲一般是指純音。掩蔽聲存在的聽閾稱為掩蔽閾。

1、純音的掩蔽

純音是最簡單的一種聲音，下圖反映的是1KHz，80dB純音為掩蔽聲時，測得的純音的聽閾隨頻率變化的特性。圖中，虛線為聽閾的曲線，實線為掩蔽閾曲線，文字表示了在不同區域所能聽到的聲音。

在700Hz以下，和9KHz以上的頻率範圍，純音的聽閾幾乎不受掩蔽聲的影響。

在700Hz到9KHz之間，純音的聽閾明顯提高，越接近掩蔽聲的頻率，掩蔽量就越大。

純音的掩蔽基本符合以下幾個規律：低音容易掩蔽高音，高音較難掩蔽低音；頻率相近的純音容易互相掩蔽；提高掩蔽聲的聲壓級時，掩蔽閾會提高，而且被掩蔽的頻率範圍會擴展。

2、複音的掩蔽

大多數聲音是以複音的形式存在的。樂音一般是由一個基頻和多個諧頻組成的，音色主要取決於其諧頻結構。複音的掩蔽範圍主要是由複音所包含的頻率成分決定，在每個所包含的頻率附近都有產生一個最大的掩蔽量，當頻率小於複音所包含的最小頻率或大於其所包含的最大頻率時，掩蔽效應逐漸減弱，並且掩蔽閾趨近於無掩蔽聲時的聽閾。

3、窄帶雜訊的掩蔽

窄帶雜訊通常是指帶寬等於或者小於聽覺臨界頻帶的雜訊。用純音做為掩蔽聲時，由於存在拍音和差音，掩蔽閾的測量比較困難。如果用窄帶白雜訊作為掩蔽聲，測量較為容易，結果比較可靠。窄帶雜訊的掩蔽特性和純音的掩蔽特性十分相似，只是曲線的左右不對稱特性沒有那麼強。下圖顯示的是，以不同中心頻率的窄帶雜訊作為掩蔽聲時的聽閾曲線，窄帶雜訊的中心頻率分別為0.25KHz，1KHz，4KHz。

3、非同時掩蔽效應

聲音信號大多數時候時非穩態的瞬時信號，聲壓級隨著時間變化很快，即強音後面跟著弱音，弱音後面又可能跟著強音。比較強的聲音往往會掩蔽隨後到來的較弱音。

一般來說，同時掩蔽效應最強，掩蔽量最大；前掩蔽效應要大於後掩蔽效應，前掩蔽發生作用的時間遠大於後掩蔽的時間。掩蔽聲發生在測試信號之前的掩蔽現象容易理解，因為聽覺具有記憶功能。而由於聽覺對聲音的感覺需要一個建立過程，所以就會有一定的延遲，而聽覺對於較強聲音感覺的建立要快於對較弱聲音感覺的建立，所以存在後掩蔽的現象。

根據掩蔽效應的原理，才衍生出電聲技術指標中的SNR（信號雜訊比），以及THD（諧波失真）等。當雜訊或者失真保持在一定範圍內的時候，對聽覺效果沒有影響。

研究結果表明：對於純音，人耳能分辨出280個聲壓層次和1400個頻率層次；對於複音，人耳只能分辨7種不同的響度層次和7種不同的音調，共49種響度和音調的組合。掩蔽效應是指同一環境中的其它聲音會使聆聽者降低對某一聲音的聽力，或者說一個聲音的聽閾因為另一個較強聲音的存在而上升的現象稱為掩蔽。

人耳的聽覺靈敏度是指人耳對聲壓、頻率及方位的微小變化的判斷能力。

當聲壓發生變化時，人們聽到的響度會有變化。例如聲壓級在50dB以上時，人耳能分辨出的最小聲壓級差約為1dB；而聲壓級小於40dB時，要變化1~3dB才能覺察出來。當頻率發生變化時，人們聽到的音調會有變化。例如頻率為1000Hz、聲壓級為40dB的聲音，變化3Hz就能察覺出來；當頻率超過1000Hz、聲壓級超過40dB時，人耳能察覺到的相對頻率變化範圍(Δf/f)約為0.003。另外聽覺靈敏度還與年齡有關，因人而有所差異。

人耳掩蔽效應中聲強與頻率的關係圖

研究結果表明：對於純音，人耳能分辨出280個聲壓層次和1400個頻率層次；對於複音，人耳只能分辨7種不同的響度層次和7種不同的音調，共49種響度和音調的組合。

聽覺的掩蔽效應

掩蔽效應是指同一環境中的其它聲音會使聆聽者降低對某一聲音的聽力，或者說一個聲音的聽閾因為另一個較強聲音的存在而上升的現象稱為掩蔽。當一個複合聲音信號作用到人耳時，如果其中有響度較高的頻率分量，則人耳不易覺察到那些低響度的頻率分量，這種生理現象稱為「掩蔽效應」。一個聲音對另一個聲音的掩蔽值，被規定為由於掩蔽聲的存在，被掩蔽聲的聽閾必須提高的分貝數，提高後的聽閾稱為掩蔽閾。

實驗證明：對於純音，一般低音容易掩蔽高音，而高音較難掩蔽低音。當兩個信號的頻率比較接近的時候，有差拍現象存在，這時聽到的不再是這兩種頻率的信號，而是被低頻調製的單頻聲音。調製頻率等於原來兩種頻率的差。當信號很弱時，完全聽不出差拍現象，信號較強時，差拍現象就出現了。

當掩蔽聲消除後，掩蔽效應並不是立即消除的，聽閾的復原即回落到原來沒有掩蔽聲時的值需要一段時間。我們把這個現象稱為聽覺暫時損失，其量值可代表聽覺疲勞程度。掩蔽聲刺激的時間越長，強度越強，疲勞程度也就越厲害。

在背景和雜訊中，雙耳識別信號的靈敏度一般比單耳強，也就是說對雙耳聽閾的掩蔽作用小於對單耳的掩蔽作用。尤其當掩蔽聲和信號從不同方向傳到人耳時，對雙耳聽閾的掩蔽作用就更小一些。

掩蔽效應有利有弊，如一些降噪系統就是利用掩蔽效應的原理設計的；信噪比的概念及其指標要求也是根據掩蔽效應提出來的。在數字音源中，可利用掩蔽效應進行壓縮編碼。

（1）發聲方式：

　在人的頸部內有一種產生聲音的結構，叫做喉。它的內部有一個空腔，我們叫它喉腔，喉腔中部連著兩塊能夠振動發聲的肌肉聲帶。它們緊密地並列在一起，而且像橡皮筋一樣，拉得越緊，反彈的聲音越大。在兩根聲帶中間有一條裂縫，叫做聲門裂。隨著聲帶的一緊一松，聲門裂也忽長忽短，忽大忽小。平時你在呼吸時，聲門裂是半開的，這時，兩根聲帶互相分離，處於鬆弛的狀態，於是空氣從兩塊肌肉間較大的空隙中通過，所以，呼吸的聲音非常輕。而當你準備發出聲音時，總要先吸一口氣然後暫時停止呼吸。這時，鬆弛的聲帶被喉部的肌肉上下拉緊，相互靠攏，聲門裂變得又細又長，只留下一道窄小的縫隙。因為屏氣的時候，氣流都積在氣管里，氣管內的壓力一時之間大大增加，等到你放掉這口氣時，聲帶發出聲音。被久壓的氣流會迅速地沖向聲帶並試圖從這條細縫中穿過，這就像給氣球放氣一樣。空氣使得聲帶發生振動，而且這種振動還會使喉腔里的空氣也一起動起來，因而發出了嗓音。嗓音的高低、粗細是由聲帶的緊張程度、呼出的氣體多少決定的。青少年聲帶比較嬌嫩，如果說話時間過久，它會發生充血現象，聲音會變得嘶啞。所以，為了使自己有一副美妙的歌喉，一定要注意保護嗓子。

（2）獼猴和狒狒這兩種遠親的靈長類動物可以發出的聲音範圍接近，同時也與人類的聲音範圍一致。

事實上，許多動物用聲音傳達基本信息，但它們並不能像人類一樣表現出全部的發聲能力，這些能力使得我們的聲音能夠被廣泛地應用於交流和娛樂。

這表明，人類聲音的獨特性，小部分取決於身體結構上產生聲音的能力，更多則在於能夠精確地協調肢體運動，並把聲音處理成有意義的語言。

人類的聲音如何多樣呢？

要想了解我們聲音的多樣性，可以思考一下在一種語言中，我們能使用多少種可以理解的聲音。

由於英語的拼寫是一團糟，把普通話拼音羅馬化可以更清楚地說明這個問題。

使用拼音，普通話中的漢字可以由下列24個音節之一開頭。

b, p, m, f, d, t, n, l, g, k, h, j, q, x, zh, ch, sh, r, z, c, s, w, y or nothing

這些可以與下列35個韻母組合使用。

a, ai, an, ang, ao

e, ei, en, eng, er

i, ia, iao, ian, iang, ie, in, ing, iong, iu

o, ong, ou

u, ua, uai, uan, uang, ui, un, uo

u?, u?an, u?e, u?n

這可以提供24×35 = 840個可區分的聲音，而每一個組合有多達5個聲調（音高模式），這就提供了840×5 =4200個獨特的漢字。事實上，在語言中實際只用到不到一半的漢字。但是現代漢語中大多數詞都是由其中的兩個漢字組成的，所以可能有2000×2000 =4百萬個獨特的詞使用該發音系統，然後再把詞串成句子。然而這只是一種語言。每種語言都有一套自己的音節，可能（或不可能）與其他語言重疊。

聲音是如何產生的

聲音的產生可以看作是一個聲源-濾波器模型。聲音由振動源和聲學濾波器組成，其中振動源控制了聲音的振幅和音高（如上例中提到的五聲調），聲學濾波器控制其如何發聲，這和在音響系統中利用均衡器調整聲音非常相似。

振動源是喉部聲帶的振動。濾波器是從聲帶到嘴唇或鼻孔的氣道，我們稱之為聲道。

聲音的解剖學特徵。（攝影：Noel Hanna，插圖：Olivia Cox，作者提供）

如上圖所示，喉嚨（喉頭）包括會厭到環狀軟骨的部分。男人的甲狀軟骨從頸部突出，叫做喉結。

聲源：控制聲音的振幅和音高

聲帶由兩瓣肉組成，說話的時候，其振動頻率約為100-300次每秒（Hz）。

廣泛使用的名稱「聲帶」來源於法國解剖學家Antoine Ferrein的比喻，空氣像弓一樣撥弄古大提琴的琴弦（在法語中叫cordes），也像羽毛拔動大鍵琴的琴弦。

然而這些比喻並不十分準確，聲帶振動的物理學研究仍然是一個熱門的研究領域，因為實驗是非常困難的。觀察聲帶是可行的，但並不總是實用的。我們只能在上方觀察他們——即使這很不舒服。

在這個例子中，由於攝像機幀率的限制不能顯示出聲帶的振動，但是高速攝像機可以顯示出振動。

聲帶的振動不是由連續抽搐的肌肉形成的，它是由來自肺部的空氣經過聲帶時引起的。振動的頻率和幅值由以下三個因素決定：肺部提供的氣壓、褶皺之間間隙的形狀（即聲門）以及喉頭肌肉的張力。

詢問任何一個青少年男孩可以知道學習使用所有的這些控制聲音的方法並不容易。即使歌手也需要幾年時間才能熟練掌握獨立控制音高和音量的方法，實際中考察的方法名為「弱強弱」。

濾波器：控制發音

語音，如母音和輔音，由聲道決定，通過發音器官（如舌頭、嘴唇、軟齶等）的運動改變聲道的形狀來過濾聲帶產生的聲音。

核磁共振技術可以讓我們看到聲道移動範圍更加詳細的圖片（如上面視頻所示），但是要獲得三維信息仍然很困難，並且它仍不能幫助我們觀察聲帶是如何運動的。

對於一個物理學家來說，這顯然是更加難懂的，聲道就像是一個圓柱體一樣。這是一個共振系統，在聲帶處關閉（或者說幾乎是關閉的），在嘴巴處敞開。

呼吸道簡化模型可以幫助我們理解其共振特性。（圖片來源：Noel Hanna）

共振系統可以形成駐波。當聲帶處氣壓高、嘴巴處氣壓低的時候，在聲道中就會形成駐波或共振。

當聲帶產生的聲音的頻率接近這些共振頻率的時候，聲音會更加顯著。這些顯著的頻率叫做共振峰，它們能區別出不同的母音。

對於一個17厘米長的圓柱（大約是人聲道的長度），前兩個共振峰在500Hz和1500Hz附近，接近單詞「heard」中所能分辨出的母音。

如果把聲道的形狀從圓柱變為更切合實際的幾何形狀（模仿發音器官運動的效果），就會改變共振峰的位置，因此母音也會隨之改變。

（3）聽聲方式

耳朵結構介紹:

聽覺系統由聽覺器官各級聽覺中樞及其連接網路組成。聽覺器官通稱為耳，其結構中有特殊分化的細胞，能感受聲波的機械振動並把聲能轉換為神經衝動，叫做聲感受器。高等動物的耳可分為外耳、中耳和內耳。外耳包括耳廓和外耳道，主要起集聲作用；有些動物的耳廓能自由轉動，便於「捕捉」聲音。

中耳包括鼓膜、聽骨鏈、鼓室、中耳肌、咽鼓管等結構，主要起傳聲作用。鼓膜是封閉外耳道內端的一層薄膜結構。聲波從外耳道進入，作用於鼓膜，後者隨之產生相應的振動。哺乳動物的聽骨鏈是由3塊小骨（錘骨、砧骨、鐙骨）組成的槓桿系統，一端為錘骨柄，附著於鼓膜內面，另一端為鐙骨底板，封蓋在內耳的卵圓窗膜上，鼓膜的振動通過這一槓桿系統可以有效地傳至內耳，鼓膜內為鼓室，聽骨鏈及中耳肌都在其中。中耳肌又名耳內肌，有兩塊：鼓膜張肌的收縮通過牽拉錘骨而使鼓膜緊張，鐙骨肌的收縮使鐙骨固定，其作用都是限制聲音向內耳的傳導。咽鼓管（耳咽管）由鼓室通至咽部，平時關閉，吞咽和某些口部動作時開放，可使鼓室內的空氣壓力經常與大氣壓力保持平衡。

內耳的一部分，司平衡，稱前庭器官，另一部分能感受聲音刺激叫耳蝸，是骨質外殼包著的管狀結構，捲曲數圈（人類為兩圈半）呈蝸牛狀，故名。這一管狀結構靠近鐙骨底板的一端較粗，叫基部，另一端較細，叫蝸頂。耳蝸骨殼內有膜性結構分隔的3條平行管道，從基部伸到蝸頂，分別叫做前庭階、鼓階和蝸管（或中階）。前庭階和鼓階在基部各有一窗，分別叫做卵圓窗（前庭窗）和圓窗，兩窗都有膜。圓窗外為鼓室，卵圓窗則為鐙骨底板所封蓋。前庭階和鼓階在蝸頂處（蝸孔）通連，此兩階內充滿淋巴液，叫外淋巴。蝸管夾在前庭階與鼓階之間，亦充滿淋巴液，叫內淋巴。分隔蝸管與鼓階的膜狀結構叫基底膜。由感受細胞（聲感受器），神經末梢及其他結構組成的聲音感受裝置就排列在基底膜上，叫螺旋器或柯蒂氏器。若把捲曲的耳蝸拉直，從其橫切面看，基底膜、螺旋器以及相鄰結構。聲音感受細胞是排列整齊的3行外毛細胞和1行內毛細胞，由支持細胞支撐，安置在基底膜上。毛細胞上端有許多很細的纖毛，其毛梢與螺旋器上方的蓋膜相連。支配毛細胞的神經由位於耳蝸縱軸（蝸軸）處的螺旋神經節發出。螺旋神經節的神經細胞的另一軸索構成聽神經，沿蝸軸走出，穿過顱骨入腦幹。

聽覺各級中樞間的傳導通路頗為複雜。哺乳動物的第1級聽中樞是延髓的耳蝸核，它接受同側的聽神經纖維。從耳蝸核發出的神經纖維大部分交叉到對側，小部分在同側，在上橄欖核改換神經元或直接上行，組成外側丘系，到達中腦四疊體的下丘，從下丘發出的上行纖維及小部分直接從上橄欖核來的纖維終止在丘腦的內側膝狀體。內側膝狀體發出的纖維束上行散開成放射狀，叫聽放線，終止於大腦聽皮層，是聽覺最高級的中樞。

（4）