為什麼我們能從電話里很容易地分辨出某人的聲音？

12-08

相關問題：http://www.zhihu.com/question/20209456
人聲的振動材質是聲帶，而電話里的聲音直接振動的材質是聽筒的金屬片。照理材質不同，應該波動特性不同，音色也完全不同。但為什麼即使我們從未跟某人講過電話，也很容易一下子認出他們在電話里的聲音？

謝邀。

「照理材質不同，應該波動特性不同，音色也完全不同。」——這句話是不嚴謹的。不能說「波動特性（這個概念貌似也有問題，姑且理解為二者的頻率響應吧）」不同，就導致音色「完全」不同。（看過了@劉中陽的答案，我想我大概理解了這位知友為什麼會強調材質的不同——即使材質不同，由於都是受迫振動，除了失真以外並不會造成二者振動有本質上的差別，這裡@中陽已經解釋地比較清楚了，故不再贅述。）

音色不同不代表沒有相關性，更簡單的理解是，因為發聲的器官和進行聲電轉換的元件材質不同，所以在空氣中的聲音被電話麥克風上的線圈轉化為電信號的過程中會存在失真。只要有失真，則兩者的音色肯定會發生變化。但是只要我們能將這個失真控制在一定範圍以內，就可以通過「腦補」（別想歪了 XD）來辨別出這個聲音來自於誰。如果想要了解我們可以通過哪些手段辨別出這個聲音來源於誰的話，在中國知網上搜索「語音識別」可以查到很多相關文獻。

為什麼說即使有失真人們也能聽出是誰在說話？這個我想不用搬理論也是可以明白的。實際上從聲音到電信號的轉換就是一個錄音的過程。如果你覺得自己能從自己的隨身聽中聽出鋼琴和吉他演奏同一首音樂時他們之間音色的差別的話，就說明只要能將失真控制在一定範圍內，人們就可以如「身臨其境」般聽出任何兩種音色間的差別。

事實上，在電話當中造成語音失真的因素遠遠多於「金屬片和人類聲帶材質不同」這一個，例如在傳統的電話網路中，要對電話話筒拾取到的電信號進行低通濾波，調製解調過程；而到了現在的數字通信時代，則會對這一電信號還要進行數字化，數字信號壓縮（會使用更加複雜的演算法，例如這個問題中談到的HE-AAC http://www.zhihu.com/question/20303076）等等。但是正所謂萬變不離其宗，所有的這些處理的根本，都在於如何在儘可能完整地保留原電信號的特徵的情況下，減少其數據體積，從而實現在有限的電信運營商帶寬資源下，能容納更多的用戶從而創造更高的經濟價值。