我們談論音調、響度、音色的時候,我們到底在談論什麼?(上)

聲信號的主觀參數(音調、響度、音色),與客觀參數(頻率、相位、振幅)到底有什麼關係。

0、背景知識

聲信號有兩種表示方法,一種叫做時域表示,一種叫做頻域表示。

時域表示就是我們正常理解的表示方法,即聲音的強度(一般是聲壓)隨著時間的變化函數。如果表現到圖像上,就是橫坐標為時間,縱坐標為聲音強度的圖像。

很多常見的表示聲音的圖片,就是採用這種表示方法,比如說這樣:

圖一:聲音的時域表示

對這個聲強隨著時間變化的函數 f(t) 做傅里葉變換,可以得到一個新的函數 g(omega )=|g(omega )|e^{ivarphi (omega )} ,其中omega =2pi f 。這裡的 f 就是我們平時常說的頻率|g(omega )| 稱為振幅(也可以稱為幅度),varphi (omega ) 稱為相位。一般取 |g(omega )| 為縱軸,頻率 f (或者角頻率 omega )為橫軸做出圖像,就是我們常說的頻譜。這是聲音的頻域表示。

傅里葉變換所得到的頻譜圖表示了所處理的信號中各個頻率部分所佔的比重。單頻率的聲音(純音)就是時域上的正餘弦曲線。如圖:

圖二:純音的時域表示和頻域表示

特別的,對於常見的比如人說話的聲音、演奏的音樂、歌聲等隨時間變化的、非周期聲信號,我們一般不會直接對整段信號做傅里葉變換,而是依次截取一小段時間間隔,分別做傅里葉變換,這種方法稱為短時傅里葉變換,也叫做時頻分析。以時間為橫坐標,頻率為縱坐標,顏色表示幅度,做出的圖像稱為時頻圖,也叫做語譜圖。比如圖一的時頻圖就長這樣:

圖三:時頻圖

有了頻譜的概念,接下來我們可以討論,這些客觀參數到底和主觀感受(音調、響度、音色)有什麼關係呢?

一、響度

響度是人耳對於聲音大小的主觀感受。

首先顯而易見的是,聲音的幅度越大,聲音所蘊含的能量越大,人聽起來就越響。

然而人耳對聲壓或者聲能的感受並不是線性的,比如說,人並不會覺得1kHz、2kPa的純音信號是1kHz、1kPa純音信號的2倍響。

為了描述人耳對聲壓的實際感受,科學家定義了聲壓級(SPL)的概念:

SPL=20logfrac{P}{P_{ref}} ,單位為分貝(dB)。

其中 P 為實際聲壓的有效值(其大小和幅度有關), P_{ref} 為參考聲壓,討論空氣中的聲音時 P_{ref}=2	imes 10^{-5}Pa ,它代表的含義為:對於1kHz的純音信號,人耳恰好聽不到它時的聲壓。

可以認為,聲壓級改變10dB時,響度感覺增大一倍或者減半。然而由於「響度增大一倍」的主觀性太強,這個結論的有效性也存在爭議。

不同聲壓級所對應的生活場景如下:

圖四:日常生活中常見聲源的聲壓級

雖然聲音的聲壓級直接影響聲音的響度,但是兩者並非簡單的一一對應的關係。

大量的聽音實驗表明,人耳對於響度的感知不僅僅與聲信號的聲壓級有關,也跟聲音的頻率有關,人耳對於不同頻率聲音的敏感度並不相同。對於純音信號,科學家通過等響度曲線來表明這種關係:

圖五:等響曲線

圖中橫軸為頻率,縱軸為聲壓級,每條曲線表示上面各個點人們聽起來是一樣響的。我們可以發現,100Hz和1000Hz比,需要更大的聲壓才能聽到一樣響的聲音。

表示響度的物理量為宋(Sone)和方(Phon),定義1dB的1kHz純音信號響度為1方。方和宋的關係類似於聲壓和聲壓級的關係(即對數關係)。

響度除了和聲壓級、頻率有關外,和信號的持續時間也有關係。對於持續時間少於200ms的純音信號,人們會覺得聲音越來越響,持續時間超過200ms後響度趨於穩定。

然而實際生活中,我們聽到的聲音通常含有多個頻率成分而非單一頻率的純音。那麼對於複音信號,它的響度是如何確定的呢?

答案是,非常複雜。

首先我們要知道,人耳對於不同頻率的聲音的分辨是有極限的。如果兩個純音信號的頻率過於接近,人耳就無法清晰的分辨這兩個信號了,這個頻率範圍稱為臨界頻帶。

處於臨界頻帶內的混合信號,人耳對其響度的感知正比於這些信號的聲能之和。

而對於不在一個臨界頻帶內的混合信號,實驗可知,保證總聲壓級不變的情況下,聲源帶寬越寬,聲源所包含的頻率越廣,其響度越大。

圖六:聲源帶寬對響度的影響

那麼,具體如何計算一段混合信號的響度呢?

沒有一個簡潔的公式,我們通常使用Zwicker響度計算模型(1975年確立為國際標準)或者Moore響度計算模型(2005年確立為美國標準)來進行近似計算。

參考資料:霍華德. 音樂聲學與心理聲學[M]. 北京:人民郵電出版社, 2010.


推薦閱讀:

挖掘西瓜的聲學屬性
大牛講堂|語音專題第三講,聲學模型
單位「分貝」的來歷
103年前的三月,中國聲學之父誕生

TAG:聲學 | 物理學 | 音調 |