不同的聲音是怎麼存儲的啊？

01-16

我可以理解音調的存儲，但是不同的讀音是怎麼存儲的啊，比如我說"一"和"二"，用相同的音高，音色發出，它們在存儲的時候有什麼不同嗎？

首先你說「一」和「二」的時候，發出的並不是純音，而擁有非常豐富的頻率成分，就算只考慮基頻，在說普通話的情況下，「一」的發音勉強可以認為是相同的基頻，但「二」是四聲，不可能保持基頻不變。發出這兩個讀音的時候頻率成分的差別就更大了。

想必題主問的是數字音頻的儲存，為此我們邀請居住在Adobe星球的Microsoft Lily老師來幫我們做一個實驗。

請Lily老師為我們有感情的朗讀「一」

然後看一下波形和頻譜

可以看出在200Hz和400Hz之間有大量的能量，也能看出來基頻可以認為是保持不變的。

然後請Lily老師為我們有感情的朗讀「二「

然後再看一下波形和頻譜

可以很明顯看出「二」的頻譜特點與「一」有很大不同，在頻譜里可以看出發音過程中頻率也就是音調的高低變化，最後明顯的下降趨勢就是所謂的四聲了。

其實波形不同，那麼時域上每一點的採樣值就會不同，儲存的結果自然也不同，問題到此已經解決了。但是我們還可以做得更直觀一點。

然後我們選取相同的長度，0.42s，用相同的標準儲存著兩個文件。

然後用Matlab導入，可以方便的查看具體的量化數據。

可以看出來，在44100hz的採樣率、32bit量化深度下，0.42秒的雙聲道wav文件，在計算機里就是儲存為18522×2=37044個浮點數，外加少量的wav文件編碼信息。這些浮點數在經過相應的編碼方式變成0和1就可以儲存在硬碟和內存中了。

打開後你甚至可以查看這些數字到底是多少。

所以最後的結果是：

（本來我把所有的數值都粘到知乎編輯器的代碼塊里了，結果提交的時候說字數超出限制……）

（那就看個圖意思一下好了）

後面的「0」對應的就是語音說完後，這0.42秒時間內餘下的靜默時間，因為語音是電腦生成的，沒有其他的噪音，所以採樣值全都是0。

所以，Lily老師的「一」和「二」最終存儲的結果就是這樣的數字了，這麼牛逼的數字，每行都有18522個哦。

人聲一與二是音色與音調的差別，本質上是泛音列的差別。

不嚴謹的舉個例子（因為人說話相比樂音來講沒有固定音高），就像鋼琴彈一個do，小提琴拉一個do si，只是很久之前人們就把鋼琴的do規定為一，小提琴的do si 規定為二罷了