從音頻工程師的角度看心理聲學

Perception Is Reality: Psyc hoacoustics From An Audio Engineer』s Perspective

感知即現實:從音頻工程師的角度看心理聲學

我們都曾經歷過音量過大而令人不安、刺耳、甚至已經無法理解的演出。大音量的混音會強行塞滿我們的耳朵,讓我們痛苦難堪。經過幾分鐘的聆聽後,耳朵就開始疲勞了。你想要離開,但是那數百塊的演唱會門票迫使你想留下來。如果是完全相反,一場很好的表演並且是出色的混音,那將是兩全其美。

然而筆者經歷過很多上述第一類的演出,第二類兩全其美的演出卻不多,也未曾深究聲音過大的演出與主擴調音師年齡、經驗或職業成功之間是否有關聯之處。無論是聽力損傷、缺乏實踐、樂隊施加的壓力,亦或其中的某些組合,有一點是肯定的——觀眾會為此付出代價。

音頻專業人員責任在於不影響演出質量的前提下為觀眾提供演出。然而問題是,很多工程師和技術人員如果被問到相關這方面的問題,他們也不確定做這些是為了什麼,更不必說要如何做到這一點了。所以,讓我們將在實踐中所經歷的與我們所知道的重點聯繫起來,希望可以奠定一些基礎知識。

聽覺的非線性響應

為了理解在混音手段和系統均衡中應該避免什麼,首先要知道為什麼我們聽音樂的方式是這樣的。

1933 年。Bell Labs(貝爾實驗室)的兩位物理學家,Harvey Fletcher(哈維弗萊徹)和 Wilden A. Munson(威爾登 A.蒙森)發表了一篇題目為《響度及其定義、測量和計算》的論文,他們揭示了一個突破性的發現:人類耳朵的響應並不是線性的——也就是說,它不能平均地聽到所有頻率的聲音。

這一發現是一系列測試的結果,實驗對象通過耳機聆聽 1 kHz的音調,接著是 2 kHz 的音調,然後要求判定第二種音調是否比第一個音調更響或更輕。這個過程都是在音頻頻譜內不斷地上下移動,每次以 1 kHz 作為參考電平。從該響應中取平均得到的曲線,被稱為 Fletcher-Munson(弗萊徹-蒙森)曲線。

測試的結果並不是沒有瑕疵,除了在 20 世紀 30 年代早期測試設備的限制(如低頻段難以重現),許多參與者都是乘火車過來的,所以在測試前幾分鐘,他們還是暴露在不同程度的環境噪音中。近年,ISO 重造了測試並提高了準確性,公布了修訂版本,即現在被稱為「等響(度)曲線」。

這個實驗得出了另一個重要的發現:隨著聆聽音量的增加,曲線也會發生變化。在聽覺閾(大約 10 方響度)附近,我們對 1 kHz 頻率的敏感度是 100 Hz 附近的 8 倍。然而在 100 dB SPL 的情況下,曲線變得平緩,而敏感度差異僅僅是兩倍。這意味著我們聽到的頻率在更高的聲壓電平上表現得最均勻,因此,音樂聽起來更「飽滿」。

這個時候,你可能會問,為什麼在這個世界上我們的聽覺響應會如此的怪狀,更不必說在高聆聽聲壓的動態下壓效應了。答案就在於耳朵的構造,它本身就像是一座輝煌的建築。我們大多數人都上過高中的健康課,在那裡我們學習了耳朵的基本部件和劃分——耳道、耳膜、錘骨/砧骨、耳蝸,但如果我們從音頻工程師的角度來看,這些會變得更有意義。

紅色線為等響(度)曲線(ISO 226:2003)

藍色線為 Fletcher-Munson 曲線

外耳

聲波通過耳道進入,這實際上是一個管式諧振器。這種極短的混響以至於被視為是均衡,在我們的聽覺響應中,會在 2 kHz 到 6 kHz 的範圍產生大幅度的提升 (高達 20 dB)。

當聲音向耳道末端傳播時,它會刺激鼓膜(耳膜)。這種自然地發生的換能器將聲壓轉換成機械能。耳咽管作為防止耳膜後面反向壓力積聚的口子。

在這一點上,我們還發現了第一級的壓縮/限制——鼓膜張肌,一種連接於鼓膜的肌肉,當它處於強振動時會抑制耳膜的換能作用。這個初級壓縮階段組成了聽覺學家所稱的聲學反射,後面將會簡述它。

外耳結構截面圖

(圖片來源:wikipedia.org

中耳

當聲波(現以機械壓力的形式)從耳膜出來時,它們穿過了錘骨和砧骨,也被稱為錘和砧。這些小骨骼,即我們所說的聽小骨,主要目的是將機械能轉化為耳蝸內液體的壓力變化。這是一項艱巨的任務,因為我們知道液體產生的阻抗作用比空氣高得多。

為了完成必要的「阻抗」匹配,這些聽小骨充當了一系列複雜的槓桿作用,聽小骨連接到耳蝸,將跨越大範圍的(耳膜)從低壓變化轉換為跨越小範圍的高壓變化。這樣下來會產生大約 30 dB 的增益補償,確保傳遞到內耳的聲音可以是在可用的電平上。

在我們的「聲學反射系統」中,第二級的壓縮/限制是由鐙骨肌組成的,這是一種在高聲壓級運動中穩定聽小骨的小肌肉。由於鐙骨肌的勁化作用只會限制較大(較低頻率)的位移,故只對 2 kHz 以下的頻率有效。

同樣要注意的重點是,第二級的限制是本能地觸發的,而第一級(鼓膜張肌)是自願的。這兩級壓縮的聲壓級「閾值」可以在 70 到 105 dB 之間,啟動或反應時間會在 10 到 100 ms 之間。綜合起來,我們的聲學反射系統有能力承受高達 140 dB 的聲壓級,相當於 100 萬億:1 的壓縮。

耳蝸橫截面中的基底膜和聽覺螺旋器

(圖片來源:michaelsoud.wikispaces.com)

內耳

在聽小骨鏈的末端還有鐙骨,通常被稱為耳蝸的「踏板」或「馬鐙」,它相當於活塞,驅使液體在它的兩個外腔內前後流動。聲波沿著上腔向其頂點移動,然後轉過來,沿著下腔向底部移動。振動將能量傳遞給充滿流體的階介質(中腔),實際上它包含了信號鏈的「A/D 轉換器」。

靜止在該腔底部的是螺旋器,它包含大約 25000 個毛細胞,和蓋膜一樣皮瓣般覆蓋著毛細胞。蓋膜的長度會根據不同頻率被特定地「調諧」共振,頂部寬且柔韌,用於低頻段;底部窄且硬,用於高頻段。毛細胞的大小和硬度也會根據用於不同頻率而產生差異。

這就是有趣的地方了。當流體中的振動使(耳蝸)蓋膜形成運動時,外毛細胞(通常是三個)對振動作出反應,並將信息傳遞給聽覺神經。然而,內毛細胞有著完全不同的作用:它們向上伸展並在高電平時抑制蓋膜。因為毛細胞被分成 32 個特定的頻段,內毛細胞實際上是一個 32 頻段的壓縮器(我們的第三級),可以在高電平下特定範圍內保護外層細胞。

聽覺螺旋器官中的蓋膜和毛細胞。

(圖片來源: ssc.education.ed.ac.uk

重點

讀到這裡,你會發現在我們的聽力系統中存有多級的 EQ 和壓縮,這些都導致了非線性的頻率響應。

其實也很簡單:人類的耳朵是專門為口頭交流的清晰度而設計出的聰穎作品。如果你觀察人聲的攝譜密度,你會注意到,人們說話的輔音(2 kHz 到6 kHz)附近的提升是最強的,在更高或更低的頻段範圍需要得並不多——這也解釋了為什麼我們在這些頻段的響應不好。

我們作為音頻工程師和技術人員來說也是相當明確:為了使我們能夠均勻地聽到音樂,必須對一些頻段範圍進行補償。假設一個系統的 EQ(或者是混音)類似於我們的聽覺曲線相反的形狀,看起來是一個簡單而且符合邏輯的解決方案,實際上一個聆聽測試很快讓你改變你的想法。

在處理任何複雜問題時都會如此,我們總對任何簡單的、全面的解決方案產生懷疑。然而,我們可以根據所學到的東西,合理地得出一些結論。首先,重要的是要認識到「平直」的系統響應可能並不會很好聽。因為我們的聽覺響應曲線是非線性的,我們沒有注意到它們,而是將它們解釋為「標準」。然而,一個響應調整為真正平直的系統將會迅速地揭示我們聽力曲線的峰值,並導致覺得音樂內容粗糙、缺乏溫暖。

其次我們必須要認識到,由於我們的聽覺中的高頻段響應差,大多數試圖在這個範圍內進行補償,聽起來太多的「染色」 「空氣感」 或「嘶聲」 。然而許多樂器在 8 kHz 到 12 kHz 範圍內都包含了高次諧波,我們會通過聽覺的非線性響應,自然地能在低電平上聽到這些頻率,因此說該頻段範圍電平高是不自然的。

還有由於電吉他、鋼琴、B3 管風琴和鑔片中許多的上中諧波都位於 2 kHz 至 5 kHz 的範圍內(我們對此範圍高度敏感),我們應該警惕這一範圍過度飽和。當我們結合這個事實,很多人都會在人聲話筒的這個範圍內都有很大的提升,它將會很快變成混音的一個危險粗糙刺耳的區域。通常,單個通道、系統均衡或兩者中都可能需要少量的 EQ 來防止這種現象的累積。

圖解聽覺曲線在 80 dB(以上)和 100 dB的平直程度。

筆者的個人經驗

筆者在多年來的音頻系統調試中,筆者總是傾向於從低頻向後下傾的頻譜響應,這種響應可以使超低音符合我們的聽覺曲線,然後從 100 Hz 到 400 Hz 或更高逐漸變平。中頻範圍大部分保持平直,而高頻部分可能會輕微的下降,這取決於筆者與 PA團隊的合作。我通常會參考一些在 2 kHz 到 5 kHz 內有很好內容的音軌,以確保這些範圍內不會變得令人感到不愉快。

在混音時筆者發現,運行著一個長平均(7 到 10 秒)的實時頻譜分析是非常有用的工具。當樂隊在全力演奏一首歌,且混音的攝譜密度的斜率較為穩定,平均大約是-3 分貝的時候,此時觀察到混音的感覺是最平衡的,感覺像是被包圍著。當我混音進行了幾個小時後,耳朵也覺得累了,或者當混音的位置是在一個不太能聽得到 PA 聲音的地方時,它也可以幫助「在兩者之間」取捨。

雖然理解如何建立一個有能量而且平衡度很好的混音並不是一件簡單的任務,紮實的心理聲學基礎知識得以應用是一個奠基石。在某種程度上,這就好像是一個人偷看他人的劇本一樣,了解觀眾所需,可以幫助我們避免在現場混音中的一些常見錯誤。

EQ 處理後的系統響應(綠色)的響應相比完成混音後的長時間平均頻率響應(紅色),可在低頻範圍內得到足夠的權重。


推薦閱讀:

TAG:音頻處理 | 心理聲學 |