當我們在說音高的時候,我們在說什麼?

理論上說,一個音如果不衰減,就是一個周期性的信號,這就對應了一個傅里葉級數.如果這個級數是一個純的正弦波,那"音高"自然是良定義的.然而大部分時候並不如此,簡單如鋼琴中央C,頻譜成分其實也非常複雜,所以如何科學地判斷一個樂音的音高?

這個問題我尤其想提給有絕對音感的人,因為我並不知道你們是先腦內傅里葉變換然後找主頻,還是身經百戰聽得多了,直接聽時域信號就能出答案.

下面舉幾個例子,來體現這個問題的複雜性

2HZ+440HZ的兩個音,無論音量比例怎麼樣,都會被識別成A4在上下震.

220hz+330hz+440hz+550hz+660hz+770hz+880hz...會被識別成一個110hz的A2,然而這裡沒有110hz的成分,所有成分都被腦補成了泛音列.

但是550+660+880+1100+1320+...就會被識別成三和弦.

這還是只考慮純音疊加的,事實上樂器彈出來的音不只是泛音列,各個頻率成分都有,比如438+439+440+441+442被識別成A4,那就是更奇怪的問題了


這個問題真是很多人問過的。舉例解釋下吧:

什麼是頻率?頻率就是單位時間內波形重複多少次。

上面這句沒有疑問吧?那麼我們看圖

假定這就是單位時間的波形圖。第一張圖的頻率是2,第二張圖的頻率是4,這都沒什麼疑問。第三張圖的頻率?根據定義,波形重複了兩次,所以頻率是2。

這個例子告訴我們,2和4的兩個波,合成之後頻率是最大公約數2。

來個更複雜的例子:

4和6的波合成頻率為2。

這個例子告訴我們,即使沒有2的波,合成規律依然要取最大公約數。

當然,這個例子是有問題的,1。自然界沒有這種聲音,一定是2, 4, 6, 8, …一定帶基頻。2. 即使自然界真的製造了這個聲音,也會被人耳判定成兩個聲音。

自然界的 2,4,6合成,應該是這樣的:

不管怎麼說,我們基本上可以得到一個結論,2, 4, 6, 8, 10,..這樣的波合成,最終波的頻率是2,即使原本頻率2的那個波振幅很小。

==========================

還有一個更明顯的例子:方波。波形是這樣的:

怎麼看都是一個很基本的波吧?頻率也是一目了然吧?

但其實不是,方波分解之後,也是由多個正弦波合併而成的:

下面一幫正弦波可以合成最上面一個接近於方波的波。如果繼續添加高頻的波,合成結果就能無限趨近於方波。

耳朵也是一樣,總是會把有關聯的若干正弦波理解成一個聲音。

基頻決定音高,泛音決定音色。這句話是所有聲音相關的理論中最根本的理論。

==============================

至於題主提出的更複雜的情況,大概可以這麼說:能很自然的構成泛音列的頻率就會被耳朵判定成一個聲音。如果不能,則會被判定成不同的聲音。

逐條回答下:

2HZ+440HZ的兩個音,無論音量比例怎麼樣,都會被識別成A4在上下震.

解釋:這兩個音差的太遠了,無論如何不會被判定成一個聲音。另外從現實意義上說,2HZ的聲音是聽不到的。

220hz+330hz+440hz+550hz+660hz+770hz+880hz...會被識別成一個110hz的A2,然而這裡沒有110hz的成分,所有成分都被腦補成了泛音列.

解釋:上面貼的內容已經解答你的疑問了。

但是550+660+880+1100+1320+...就會被識別成三和弦.

解釋:強行理解成110基頻太勉強了,畢竟第一泛音,第二泛音,第三泛音都缺失了。

這還是只考慮純音疊加的,事實上樂器彈出來的音不只是泛音列,各個頻率成分都有,比如438+439+440+441+442被識別成A4,那就是更奇怪的問題了

解釋:這麼接近的頻率,必然被判定成一個聲音,只是比較「糙」。這屬於聲音的「糙度」問題。詳情見這裡:http://bideyuanli.com/p/863,摘錄一些有關的:

當兩個振幅差不多,頻率接近的聲音出現時,人耳會無法區分這兩個聲音。進而判定他們是一個聲音,只不過比較「糙」。

上面一句其實包含了兩個要素:

1. 振幅差不多。如果振幅差的比較多,那一個會掩蓋另一個(掩蔽效應)。

2. 頻率差不多。多少算是差不多?這是一個複雜的問題,取決於頻率,也取決于振幅差。一般來說1/10頻率是大概估測。也就是說,1000hz 和1100hz的聲音是差不多的。小於這個值也是可以的,當然糙度會下降,比如1000hz 和1020hz合成之後的糙度就不如前面那個合成。

視頻中的例子:用兩個振幅一樣,頻率接近的聲音去製造糙度。(這個是聲譜/頻譜圖,不是波形圖)

現實生活中,能體現糙度的,比如嘶吼,怒音,這些都會感覺比正常唱歌更「糙」,就是因為出現了很多頻率接近的聲音。見http://bideyuanli.com/p/3238

我還可以給出一個極端的例子:呼麥。詳情見此:http://bideyuanli.com/p/3839

視頻什麼的就不貼了,就貼一圖:

左側的聲音會被耳朵正確的判定成一個聲音。而右側的就會被判定成兩個。為何?就是因為右側的聲音中,低頻(基頻和第一泛音)和高頻(高階泛音)的距離太遠了,所以被判定成了兩個聲音。


這是個非常有意思的議題!強烈關注。

提供幾個思考方向:

1 參考聽域和響度曲線。個人覺得聽域外的部分或有影響,但不會起到決定性作用,正如題主說的2Hz影響440Hz那樣。響度曲線或許會讓雖然聲能相同,但處於不同頻率其響度感受不同,而會有主次的選擇,類似雞尾酒會效應。

2 與泛音列的相關性。如果越符合泛音列,或許越容易將信號聽成一個音高的泛音組合信號。越不符合越容易分辨成多個音。當然這中間或也有響度比例關係的問題。

3 這中間會有一個衍生問題:兩個或多個頻率在什麼情況下會被分辨成兩個音?臨界值區間是如何的?比如差頻在百分之幾以後能聽到,但是若一個頻率達到另一個頻率的倍頻程便會讓人感覺像一個音?還有兩個音的音量差在多少以後,可以分辨為一個音?

這個議題能行成一篇很好的論文。但是一定要仰賴大量實驗。願有大咖解答!


這確實是個挺有意思的問題,也是個很複雜的問題。

有不少人關注但回答者寥寥。我試著答一下吧,希望能拋磚引玉,引出更專業的答案。

我覺得,音高是一個非常主觀的概念。

例如,當我們說標準A是440Hz的時候,其實我們指的是「以440Hz為基頻,與其泛音列(諧波)以一定比例的強度混合後的那列聲波」。至於這個「一定比例的強度是和發聲樂器(或人)有關的。也就是說,標準A並不是一個脫離了音色的對音高的規定,只是為了在演奏中定調而作的一個相對的規定而已。

否則的話,如果我們把標準A認定為440Hz的單頻聲,那只有Mathematica中「Play[Sin[440 2 Pi t], {t, 0, 1}]」發出的那個音才是一個比較標準的標準A,任何樂器都發不出這個音了。

這是我個人的理解。

因此,我認為,音高絕對不是用單一的頻率就能描述的。

我傾向於把音高理解為「某列確定頻率組合的聲波帶給聽者的主觀感覺」。

既然是「感覺」,那就是主觀的。

例如題主自己提出的那個例子,439Hz+441Hz等強度混合,會發出一個440Hz的Beat。沒有人會覺得這個音在音高上與440Hz有什麼區別,我們只會聽到一個標準A音高的拍而已。

我不是絕對音感者。但我相信沒有人會在大腦里做傅立葉變換來判斷音高。所謂的絕對音感者,其實只是在辨識能力上更敏銳一些而已。例如,一般人聽450Hz和440Hz覺得沒啥區別,他們能聽出是兩個不同的音。以及,他們能記住440Hz的音高,不需要給他標準音高他就能判斷聽到的某個音是什麼調。但肯定沒有人能做到準確給出聽到的任何一個音的頻率組合。

所以說,我在一定程度上同意@夜還長的回答。判斷音高和判斷顏色是類似的。只不過,這個「顏色」也不是指某確定波長的單色光,而是「某確定頻率分布的單色光組合帶給人的主觀感受」。

當我們說血紅色、絳紅色、桃紅色、磚紅色、酒紅色的時候,真的有人會去分析這些不同色光的頻譜嗎?但我們還是能區分它們的,對不對?(雖然我自己從來都分不清哪種紅叫什麼名字)

我覺得題主這問題問得非常好,這種提問的方式也很對我胃口。給這好問題點個贊。

另外,我自己用Mathematica試了一下,220Hz+330Hz+440Hz......那個例子,其實還是不會被認成110Hz的。至於最後一個例子,就是一個標準的拍了。

有興趣的讀者可以自己試幾種情況,真的挺好玩的(也可以評價一下自己對音高的感覺)。

樓上 @莫若銘 說,這問題是要依賴實驗的,我完全同意。

希望看到更專業的回答。


這個問題我之前回答過類似的。

聲信號的客觀參數(頻率、相位、幅度)與主觀參數(音調、響度、音色)有什麼關係?

作者:秉雨

鏈接:音頻信號的表示? - 秉雨的回答

來源:知乎

著作權歸作者所有,轉載請聯繫作者獲得授權。

1,響度

響度是人耳對於聲音大小的主觀感受,大量的聽音實驗表明,人耳對於聲音大小的主觀感知不僅僅與聲信號的強度(聲壓)有關,也跟聲音的頻率甚至波形有關。人耳對於不同頻率聲音的敏感度並不相同,對於純音信號,科學家做出等響度曲線來表明這種關係:

圖中橫軸為頻率,縱軸為聲壓級,每條實線表示上面各個點人們聽起來是一樣響的。我們可以發現,50Hz和1000Hz比,需要更大的聲壓才能聽到一樣響的聲音。表示響度的物理量為宋(Sone)和方(Phon),宋和方的關係類似於聲壓和聲壓級的關係。

2,音調

音調是人對聲調或者說音高的主觀感受。很多人直接把他等同於頻率,實際並非如此。音調的衡量單位為美(Mel),而非赫茲。通常定義響度為40方的1000赫茲純音信號的音調為1000美。主觀上調子高一倍為2000美,低一倍為500美,以此類推。

對於純音信號,音調主要由頻率決定,也和其他因素相關。

音調與頻率的關係如圖:

在500Hz以下,音調和頻率基本成線性,但是對於中高頻則並非如此。

聲壓對於音調的影響如圖:

縱坐標為音調偏移百分比,一般不會超過3%,可見影響並不大。

純音音調還和聲音的持續時間有關,對於ms量級甚至更短的聲音,人無法分辨其音調。對於10-50ms的聲音,人會覺得音調在不斷變大,超過50ms的聲音,音調才會趨於穩定。

對於複音,情況就更複雜了。一段複音的音調不能分解為各個純音的音調組合,而是表現為一個主音調,這個主音調一般由複音中頻率最低的聲音,即基音決定。聲壓對於複音信號音調的影響比純音還要小的多,基本可以忽略。

複音中有一種特殊情況,即該複音是由一個基頻信號與該信號頻率整數倍的諧波信號組成,這種複音表現單一音調,即其基頻決定的音調。比較詭異的是,如果去除這段複音信號的基頻,只保留它的諧波信號,該信號的音調並不會改變,仍然保持其基頻的音調,這種現象叫做「基頻缺失效應」。根據這種效應逆向開發出了虛擬低音技術,以期於突破微型揚聲器的截止頻率,當然這是後話。

3,音色

音色是這三種中最複雜的。影響音色的要素非常多,頻譜中的大部分要素都會影響到音色,除此之外,聲音的瞬態狀況(如音頭和音尾),與音源的距離不同導致不同成分的衰減不同,都會影響音色。在這些因素里,對音色影響最大也是最直觀的要素就是諧波的包絡,基本可以理解為頻譜的樣子。兩段音調相同,響度相同的聲音,如果其頻譜看起來差距很大,基本就可以說兩者有著不同的音色。

另外,人耳對於頻率是有解析度的,相差5%左右的頻率一般難以分辨其中的差別。

對於這道題

1,2Hz+440Hz,2Hz根本聽不見

2,基頻缺失效應

3,基頻缺失+解析度

4,解析度


首先,物理上不可能發出單一頻率的聲音,而一定是分布在各個頻率上的一個波包。對於純音來說,是一個集中分布在某一頻率值處的波峰,因此我們把這個頻譜波峰的中心頻率叫做純音的頻率。如果是樂器發出的樂音,除了基頻成分之外還包含各個高頻泛音成分,各個泛音的相對強度決定了樂器的音色(當然還有隨時間的衰減行為)。因此,我們把基頻和它的一組泛音組成的集合識別為樂器的一個音符。如果奏出的是多個音符組成的和弦,那麼我們能夠識別出它是由若干個基頻對應的音符疊加而成的。

至於人的聽覺機制,猜測是對頻率直接感知的,而不是對時域振幅作解碼(廢話)。比如,假設我們有一組長度從小到大的聽覺感受細胞,每個特定長度的細胞能夠和對應的特定頻率的聲波發生共振,從而感知這種頻率的振幅。聽覺範圍是20-20000Hz。類似地,聲帶發聲的方式也是通過肌肉調節聲帶的形狀和張力大小,從而發出特定頻率的聲音。顯然發聲的頻率範圍也是有限的。


音高指人耳對聲音調高低的主觀感覺。主要取決於頻率的高低與響度的大小。簡單來說,音高就是物理概念的基頻和幅值的組合給人產生的主觀感受,而音色則主要對應物理概念的諧頻,也就說常說的泛音,泛音決定了其不同的音色,使人能辨別出是不同的樂器甚至不同的人發出的聲音。聲學方面的問題可以關注公眾號「聲學在線」。


2HZ人耳又聽不到。

跟不能光看成分還要看強度和人耳的響應特性。

考慮到這兩點以後,最大的那個分量肯定是聽得到的,其他的就看聽覺掩蔽了。沒被掩蔽掉的肯定聽得到的。


可能跟眼睛識別不同頻率光的顏色類似吧。


占坑,可能一二月能答。。

這個問題很棒!!我也想問但是找不到措辭(中文越來越差(/ω\)。

我有打算在學校science fair的時候搞這個project,但是課程還沒有學過傅立葉變換和別的要求的知識,所以project還沒正式開始,我還在補這些(也不知道趕不趕得上今年science fairπ_π哭哭哭)

我當時給琴調音的時候也發現了,有空我讓那個有絕對音感鋼琴小夥伴聽聽看能不能辨認出來。

要是做出來了我就取匿發上來

(做不出來就算了(逃


我想知道兩個問題,題主你說的「識別」到底是什麼,是找人來聽嘛?還有就是2HZ+440HZ裡面那個2HZ是怎麼被聽見的


推薦閱讀:

這個賭局的漏洞在哪裡?
如何定義δ函數的導數?
三角函數的值如何計算得出的?
定義在Rn上的非負多元多項式一定可以表示為多個多項式的平方和嗎?

TAG:音樂 | 數學 | 物理學 | 聲學 |