當我們在說音高的時候，我們在說什麼？

01-07

理論上說,一個音如果不衰減,就是一個周期性的信號,這就對應了一個傅里葉級數.如果這個級數是一個純的正弦波,那"音高"自然是良定義的.然而大部分時候並不如此,簡單如鋼琴中央C,頻譜成分其實也非常複雜,所以如何科學地判斷一個樂音的音高?
這個問題我尤其想提給有絕對音感的人,因為我並不知道你們是先腦內傅里葉變換然後找主頻,還是身經百戰聽得多了,直接聽時域信號就能出答案.
下面舉幾個例子,來體現這個問題的複雜性
2HZ+440HZ的兩個音,無論音量比例怎麼樣,都會被識別成A4在上下震.
220hz+330hz+440hz+550hz+660hz+770hz+880hz...會被識別成一個110hz的A2,然而這裡沒有110hz的成分,所有成分都被腦補成了泛音列.

但是550+660+880+1100+1320+...就會被識別成三和弦.
這還是只考慮純音疊加的,事實上樂器彈出來的音不只是泛音列,各個頻率成分都有,比如438+439+440+441+442被識別成A4,那就是更奇怪的問題了

這個問題真是很多人問過的。舉例解釋下吧：

什麼是頻率？頻率就是單位時間內波形重複多少次。

上面這句沒有疑問吧？那麼我們看圖

假定這就是單位時間的波形圖。第一張圖的頻率是2，第二張圖的頻率是4，這都沒什麼疑問。第三張圖的頻率？根據定義，波形重複了兩次，所以頻率是2。

這個例子告訴我們，2和4的兩個波，合成之後頻率是最大公約數2。

來個更複雜的例子：

4和6的波合成頻率為2。

這個例子告訴我們，即使沒有2的波，合成規律依然要取最大公約數。

當然，這個例子是有問題的，1。自然界沒有這種聲音，一定是2, 4, 6, 8, …一定帶基頻。2. 即使自然界真的製造了這個聲音，也會被人耳判定成兩個聲音。

自然界的 2，4，6合成，應該是這樣的：

不管怎麼說，我們基本上可以得到一個結論，2, 4, 6, 8, 10,..這樣的波合成，最終波的頻率是2，即使原本頻率2的那個波振幅很小。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

還有一個更明顯的例子：方波。波形是這樣的：

怎麼看都是一個很基本的波吧？頻率也是一目了然吧？

但其實不是，方波分解之後，也是由多個正弦波合併而成的：

下面一幫正弦波可以合成最上面一個接近於方波的波。如果繼續添加高頻的波，合成結果就能無限趨近於方波。

耳朵也是一樣，總是會把有關聯的若干正弦波理解成一個聲音。

基頻決定音高，泛音決定音色。這句話是所有聲音相關的理論中最根本的理論。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

至於題主提出的更複雜的情況，大概可以這麼說：能很自然的構成泛音列的頻率就會被耳朵判定成一個聲音。如果不能，則會被判定成不同的聲音。

逐條回答下：

2HZ+440HZ的兩個音,無論音量比例怎麼樣,都會被識別成A4在上下震.

解釋：這兩個音差的太遠了，無論如何不會被判定成一個聲音。另外從現實意義上說，2HZ的聲音是聽不到的。

220hz+330hz+440hz+550hz+660hz+770hz+880hz...會被識別成一個110hz的A2,然而這裡沒有110hz的成分,所有成分都被腦補成了泛音列.

解釋：上面貼的內容已經解答你的疑問了。

但是550+660+880+1100+1320+...就會被識別成三和弦.

解釋：強行理解成110基頻太勉強了，畢竟第一泛音，第二泛音，第三泛音都缺失了。

這還是只考慮純音疊加的,事實上樂器彈出來的音不只是泛音列,各個頻率成分都有,比如438+439+440+441+442被識別成A4,那就是更奇怪的問題了

解釋：這麼接近的頻率，必然被判定成一個聲音，只是比較「糙」。這屬於聲音的「糙度」問題。詳情見這裡：http://bideyuanli.com/p/863，摘錄一些有關的：

當兩個振幅差不多，頻率接近的聲音出現時，人耳會無法區分這兩個聲音。進而判定他們是一個聲音，只不過比較「糙」。
上面一句其實包含了兩個要素：
1. 振幅差不多。如果振幅差的比較多，那一個會掩蓋另一個（掩蔽效應）。
2. 頻率差不多。多少算是差不多？這是一個複雜的問題，取決於頻率，也取決于振幅差。一般來說1/10頻率是大概估測。也就是說，1000hz 和1100hz的聲音是差不多的。小於這個值也是可以的，當然糙度會下降，比如1000hz 和1020hz合成之後的糙度就不如前面那個合成。

視頻中的例子：用兩個振幅一樣，頻率接近的聲音去製造糙度。（這個是聲譜/頻譜圖，不是波形圖）
現實生活中，能體現糙度的，比如嘶吼，怒音，這些都會感覺比正常唱歌更「糙」，就是因為出現了很多頻率接近的聲音。見http://bideyuanli.com/p/3238

我還可以給出一個極端的例子：呼麥。詳情見此：http://bideyuanli.com/p/3839

視頻什麼的就不貼了，就貼一圖：

左側的聲音會被耳朵正確的判定成一個聲音。而右側的就會被判定成兩個。為何？就是因為右側的聲音中，低頻（基頻和第一泛音）和高頻（高階泛音）的距離太遠了，所以被判定成了兩個聲音。

這是個非常有意思的議題！強烈關注。

提供幾個思考方向：

1 參考聽域和響度曲線。個人覺得聽域外的部分或有影響，但不會起到決定性作用，正如題主說的2Hz影響440Hz那樣。響度曲線或許會讓雖然聲能相同，但處於不同頻率其響度感受不同，而會有主次的選擇，類似雞尾酒會效應。

2 與泛音列的相關性。如果越符合泛音列，或許越容易將信號聽成一個音高的泛音組合信號。越不符合越容易分辨成多個音。當然這中間或也有響度比例關係的問題。

3 這中間會有一個衍生問題：兩個或多個頻率在什麼情況下會被分辨成兩個音？臨界值區間是如何的？比如差頻在百分之幾以後能聽到，但是若一個頻率達到另一個頻率的倍頻程便會讓人感覺像一個音？還有兩個音的音量差在多少以後，可以分辨為一個音？

這個議題能行成一篇很好的論文。但是一定要仰賴大量實驗。願有大咖解答！

這確實是個挺有意思的問題，也是個很複雜的問題。

有不少人關注但回答者寥寥。我試著答一下吧，希望能拋磚引玉，引出更專業的答案。

我覺得，音高是一個非常主觀的概念。

例如，當我們說標準A是440Hz的時候，其實我們指的是「以440Hz為基頻，與其泛音列（諧波）以一定比例的強度混合後的那列聲波」。至於這個「一定比例的強度」是和發聲樂器（或人）有關的。也就是說，標準A並不是一個脫離了音色的對音高的規定，只是為了在演奏中定調而作的一個相對的規定而已。

否則的話，如果我們把標準A認定為440Hz的單頻聲，那只有Mathematica中「Play[Sin[440 2 Pi t], {t, 0, 1}]」發出的那個音才是一個比較標準的標準A，任何樂器都發不出這個音了。

這是我個人的理解。

因此，我認為，音高絕對不是用單一的頻率就能描述的。

我傾向於把音高理解為「某列確定頻率組合的聲波帶給聽者的主觀感覺」。

既然是「感覺」，那就是主觀的。

例如題主自己提出的那個例子，439Hz+441Hz等強度混合，會發出一個440Hz的Beat。沒有人會覺得這個音在音高上與440Hz有什麼區別，我們只會聽到一個標準A音高的拍而已。

我不是絕對音感者。但我相信沒有人會在大腦里做傅立葉變換來判斷音高。所謂的絕對音感者，其實只是在辨識能力上更敏銳一些而已。例如，一般人聽450Hz和440Hz覺得沒啥區別，他們能聽出是兩個不同的音。以及，他們能記住440Hz的音高，不需要給他標準音高他就能判斷聽到的某個音是什麼調。但肯定沒有人能做到準確給出聽到的任何一個音的頻率組合。

所以說，我在一定程度上同意@夜還長的回答。判斷音高和判斷顏色是類似的。只不過，這個「顏色」也不是指某確定波長的單色光，而是「某確定頻率分布的單色光組合帶給人的主觀感受」。

當我們說血紅色、絳紅色、桃紅色、磚紅色、酒紅色的時候，真的有人會去分析這些不同色光的頻譜嗎？但我們還是能區分它們的，對不對？（雖然我自己從來都分不清哪種紅叫什麼名字）

我覺得題主這問題問得非常好，這種提問的方式也很對我胃口。給這好問題點個贊。

另外，我自己用Mathematica試了一下，220Hz+330Hz+440Hz......那個例子，其實還是不會被認成110Hz的。至於最後一個例子，就是一個標準的拍了。

有興趣的讀者可以自己試幾種情況，真的挺好玩的（也可以評價一下自己對音高的感覺）。

樓上 @莫若銘說，這問題是要依賴實驗的，我完全同意。

希望看到更專業的回答。

這個問題我之前回答過類似的。

聲信號的客觀參數（頻率、相位、幅度）與主觀參數（音調、響度、音色）有什麼關係？

作者：秉雨
鏈接：音頻信號的表示？ - 秉雨的回答
來源：知乎
著作權歸作者所有，轉載請聯繫作者獲得授權。
1，響度。
響度是人耳對於聲音大小的主觀感受，大量的聽音實驗表明，人耳對於聲音大小的主觀感知不僅僅與聲信號的強度（聲壓）有關，也跟聲音的頻率甚至波形有關。人耳對於不同頻率聲音的敏感度並不相同，對於純音信號，科學家做出等響度曲線來表明這種關係：
圖中橫軸為頻率，縱軸為聲壓級，每條實線表示上面各個點人們聽起來是一樣響的。我們可以發現，50Hz和1000Hz比，需要更大的聲壓才能聽到一樣響的聲音。表示響度的物理量為宋（Sone）和方（Phon），宋和方的關係類似於聲壓和聲壓級的關係。
2，音調。
音調是人對聲調或者說音高的主觀感受。很多人直接把他等同於頻率，實際並非如此。音調的衡量單位為美（Mel），而非赫茲。通常定義響度為40方的1000赫茲純音信號的音調為1000美。主觀上調子高一倍為2000美，低一倍為500美，以此類推。
對於純音信號，音調主要由頻率決定，也和其他因素相關。
音調與頻率的關係如圖：
在500Hz以下，音調和頻率基本成線性，但是對於中高頻則並非如此。
聲壓對於音調的影響如圖：
縱坐標為音調偏移百分比，一般不會超過3%，可見影響並不大。
純音音調還和聲音的持續時間有關，對於ms量級甚至更短的聲音，人無法分辨其音調。對於10-50ms的聲音，人會覺得音調在不斷變大，超過50ms的聲音，音調才會趨於穩定。
對於複音，情況就更複雜了。一段複音的音調不能分解為各個純音的音調組合，而是表現為一個主音調，這個主音調一般由複音中頻率最低的聲音，即基音決定。聲壓對於複音信號音調的影響比純音還要小的多，基本可以忽略。
複音中有一種特殊情況，即該複音是由一個基頻信號與該信號頻率整數倍的諧波信號組成，這種複音表現單一音調，即其基頻決定的音調。比較詭異的是，如果去除這段複音信號的基頻，只保留它的諧波信號，該信號的音調並不會改變，仍然保持其基頻的音調，這種現象叫做「基頻缺失效應」。根據這種效應逆向開發出了虛擬低音技術，以期於突破微型揚聲器的截止頻率，當然這是後話。
3，音色
音色是這三種中最複雜的。影響音色的要素非常多，頻譜中的大部分要素都會影響到音色，除此之外，聲音的瞬態狀況（如音頭和音尾），與音源的距離不同導致不同成分的衰減不同，都會影響音色。在這些因素里，對音色影響最大也是最直觀的要素就是諧波的包絡，基本可以理解為頻譜的樣子。兩段音調相同，響度相同的聲音，如果其頻譜看起來差距很大，基本就可以說兩者有著不同的音色。

另外，人耳對於頻率是有解析度的，相差5%左右的頻率一般難以分辨其中的差別。

對於這道題

1，2Hz+440Hz，2Hz根本聽不見

2，基頻缺失效應

3，基頻缺失+解析度

4，解析度

首先，物理上不可能發出單一頻率的聲音，而一定是分布在各個頻率上的一個波包。對於純音來說，是一個集中分布在某一頻率值處的波峰，因此我們把這個頻譜波峰的中心頻率叫做純音的頻率。如果是樂器發出的樂音，除了基頻成分之外還包含各個高頻泛音成分，各個泛音的相對強度決定了樂器的音色（當然還有隨時間的衰減行為）。因此，我們把基頻和它的一組泛音組成的集合識別為樂器的一個音符。如果奏出的是多個音符組成的和弦，那麼我們能夠識別出它是由若干個基頻對應的音符疊加而成的。

至於人的聽覺機制，猜測是對頻率直接感知的，而不是對時域振幅作解碼（廢話）。比如，假設我們有一組長度從小到大的聽覺感受細胞，每個特定長度的細胞能夠和對應的特定頻率的聲波發生共振，從而感知這種頻率的振幅。聽覺範圍是20-20000Hz。類似地，聲帶發聲的方式也是通過肌肉調節聲帶的形狀和張力大小，從而發出特定頻率的聲音。顯然發聲的頻率範圍也是有限的。

音高指人耳對聲音調高低的主觀感覺。主要取決於頻率的高低與響度的大小。簡單來說，音高就是物理概念的基頻和幅值的組合給人產生的主觀感受，而音色則主要對應物理概念的諧頻，也就說常說的泛音，泛音決定了其不同的音色，使人能辨別出是不同的樂器甚至不同的人發出的聲音。聲學方面的問題可以關注公眾號「聲學在線」。

2HZ人耳又聽不到。

跟不能光看成分還要看強度和人耳的響應特性。

考慮到這兩點以後，最大的那個分量肯定是聽得到的，其他的就看聽覺掩蔽了。沒被掩蔽掉的肯定聽得到的。

可能跟眼睛識別不同頻率光的顏色類似吧。

占坑，可能一二月能答。。

這個問題很棒！！我也想問但是找不到措辭（中文越來越差(/ω＼)。

我有打算在學校science fair的時候搞這個project，但是課程還沒有學過傅立葉變換和別的要求的知識，所以project還沒正式開始，我還在補這些（也不知道趕不趕得上今年science fairπ_π哭哭哭）

我當時給琴調音的時候也發現了，有空我讓那個有絕對音感鋼琴小夥伴聽聽看能不能辨認出來。

要是做出來了我就取匿發上來

（做不出來就算了（逃

我想知道兩個問題，題主你說的「識別」到底是什麼，是找人來聽嘛？還有就是2HZ+440HZ裡面那個2HZ是怎麼被聽見的