關於無損音質

04-08

在生活中很多人有這樣的疑問，比如什麼是無損音樂？mp3文件中的320kbps和128kbps是什麼意思？如果再發燒一點，HiFi、Hi-Res、DSD到底又是什麼？這些音樂格式是如何工作的？

手機、電腦里的音樂能被播放出來的先決條件是，這段音樂（聲音）能被存到手機和電腦里。這聽起來有點像廢話，但是這會產生一個問題，那就是：對於聲音這種我們只能聽得見但抓不住的事物來說，如何把它存儲到電腦里？

一些關於「數字音樂」的基礎技術知識

電腦通過「二進位數字」存儲信息，也就是電腦中的任何信息都是以「一串0和1的排列」（例如100101000110101）的形式存在的，是「0和1的序列」之不同導致了信息內容的不同。

舉一個生活中的例子就更容易理解了：對於英語這門語言來說，信息能被表示成二十六個字母的形式，然後被存儲在紙上，是「字母組合」之不同導致了信息內容的不同。電腦只認識兩個「字母」，即0和1，它用0和1存儲信息。比如字母「a」在電腦裡面就被存儲為了「01100001」。

那麼問題就被轉化為了：我們是如何將聲音轉化為「0和1的排列」呢？為了

決這個問題，首先我們需要看看「聲音」的本質。在初中物理中我們就已經學過，聲音的本質不是我們耳朵聽到的那個「響」，而是在物體中「傳播的振動」。

我們感知了這種振動，通過大腦把它轉化為了聽到的聲音。當時的物理老師大都給我們演示的是像水波紋一樣傳遞振動的橫波，如下圖所示，粒子的振動方向（上下）和振動的傳播方向（向右）垂直：

但在空氣中，聲音其實是以縱波的形式傳遞振動的，就像下面的動圖，其中每個黑點是空氣中的分子，分子的振動方向（左右）和振動的傳播方向（向右）相同：

以時間t為橫軸，空氣中某個位置的壓強P為縱軸（密度ρ越大，壓強P越大），聲音就可以被描述成一種波形聲音，可得到波形圖如下：

將壓強值減去平均壓強值（也就是大氣壓Patm）得到相對壓強值，再以其為縱軸，以時間為橫軸，可得到某點附近的，壓強隨時間的變化而變化的圖（可以理解為耳膜附近的相對壓強隨時間而變化的圖），得到波形圖如下所示：

在波形圖中，橫軸描述了時間，縱軸描述了波形聲音的振幅。這一張圖就把聲音的三個特性（響度、音調、音色）都描述了：縱軸描述響度，橫軸上1秒內波的重複次數代表頻率（音調），波的形狀代表音色。

以每秒振動1000次的正弦波為例，波形是這樣的：

聲音是這樣的：不同的波形有不同的音色。

既然如此，問題又被轉化成了：如何將波形圖轉化為0和1的排列？其實也就是如何將波形圖表示成數字？下面我將通過舉例說明「最常用的方法」是如何做的。

現實生活中，「波形圖」其實就像我們看遠處「群山的輪廓」一樣。很自然地想到初高中物理實驗中的描點作圖，我們會以圖片左下角為原點設立橫軸和縱軸，然後在橫軸上標定一些小間隔，比如間距1mm吧，接著用尺子測量出這些點在垂直方向上與紅線的距離，如52mm吧，然後就得到原圖中紅線上點的坐標。

再後在另一張紙上建立坐標系，然後按坐標值標出那些點，最後再把這些點連起來，就完成了複製——其實就是用「各種坐標點連成的線」模擬了「紅線」。

點的坐標值就是數字，我們將「紅線」變成了數字。

但是等等，這裡有問題。第一，用尺子測量得到52mm，那為什麼不是52.2mm？又會不會是52.25mm？測不精確。第二，紅線從左到右的高度是逐漸變化的，如果用兩點加一條直線相連來替代，就丟失了一些細節。為什麼我們會很自然而然地按照描點作圖的方法來複制？這是因為粗略地看起來，形狀差別並不大，沒必要追求那麼精確，就像這張照片也無法還原當地的所有細節一樣，因為粗略地看起來和當地差別不大。

那麼再回到聲音上。其實和上面的例子一樣，用數字完美複製真實聲音的波形是不可能的，因此只要做到形狀和真實情況非常近似——就像用數字描述的坐標點連成的線和「紅線」看上去相似，這就可以了。操作上，就像描述紅線一樣，在聲音波形圖上「找點找坐標」，這種將真實生活中的信息（被稱為「模擬信號」analog signal）轉化為數字（被稱為「數字信號」digital signal）的過程被稱作「模數轉化」（ADC/analog to digital conversion）：

假設上圖表示時長為1秒鐘的聲音波形圖（紅線代表聲音真實的波形圖）。對於橫軸，我們把它平均分成了26份；對於縱軸，我們把「最大振幅」到「反向最大振幅」（peak-to-peak amplitude）分成了15份。對於每一份的時間，我們找到最靠近真實波形的點。對於這些點，我們把他們以階梯形連接起來，就能近似得到真實聲音的波形了。

電腦回放聲音的時候，就是將數字信號轉化為模擬信號的過程（被稱作「數模轉化」DAC/digital to analog conversion），原理大致是通過改變每個最小時間段的輸出電流值（因此要連接成階梯型，而不是以直線相連）、進而改變音響振膜的位置來實現播放的。

當然像對於這樣粗糙的分割，連線得到的波形和原始波形還是有很大的差距的，上圖的粗糙一目了然。那怎麼辦？那就細分唄，只要分得夠細，就會夠像，就像描點作圖中選點越多就會越精確一樣。一般情況下對於聲音，一秒會被分成44100份，「最大振幅」到「反向最大振幅」之間被分成65535份，這已經相當細緻了。那麼，為什麼是這兩個數字？

這時候需要引入概念了。第一個概念是採樣頻率（sampling rate）。採樣頻率是指聲音每秒鐘被分割的次數（就是上面的44100），單位是「赫茲（Hz），也就是「次/秒」。「採樣」這個詞就相當於在波形上「採集樣品點」，在錄音上就是採集最小單位時間（1/44100秒）內聲音的近似響度。用拍照片的例子來理解「採樣」更為合適。現實生活中的風景不會是一個一個的點構成的，而照一張照片其實就是在現實生活中「采」1200萬個「樣」，以此構成了一張1200萬像素的照片。在這裡，採樣就是取某個區域的顏色近似值。

因為我們人耳能分辨出的最高音的頻率是20KHz，也就是每秒振動兩萬次。為了覆蓋人能聽到的頻率範圍，採樣頻率至少要達到20KHz。然而因為「奈奎斯特-香農採樣定理（Nyquist–Shannon sampling theorem）」（這個定理的大意為數字信號的採樣頻率要比模擬信號大兩倍以上才能得到更真實的信號，否則會失真。），因此擴大兩倍後即要大於40KHz。又因為工程上的一些濾波處理、加之採樣頻率要為50和60的公倍數（50和60取決於電視每秒的幀數），因此採樣頻率最終被定為了44.1KHz，也就是上文44100這個數字。

第二個概念是量化位數（又稱「位深度」，bit depth）。量化位數表示聲音的響度大小被分成了多少份，單位是「比特（bit）」。舉個例子，比如量化位數是16bit，那麼這個音頻文件就能表示「2^16-1」種響度，也就是65535種響度。其中這個「減1」是因為，0響度的存在導致「2^16-1」是個基數，無法均勻分布在0的兩側。去掉一個響度後，就能對稱分布在0的兩側了。這就相當於縱坐標數值最大是32767，最小是-32767，每一個採樣的響度大小對應縱坐標上的一個數字。要說明兩點，第一是「負號」代表的其實是方向，-32767其實和32767所代表的響度的絕對值相同。第二，有點難以理解的是，在電腦中「數字的大小」被表示成了二進位。其實不管是二進位還是十進位，只要兩個數字表達的大小一樣多就行，比如一個響度值是13287，它對應的二進位數是16位的1100111****11，電腦知道這兩個數字所表達的數量大小是一樣的。

這裡關於錄音還要再說一點。為什麼有時候錄音會爆音？這和錄音設備採用的靈敏度有關。如果設備能錄到的最大聲音是50分貝，而實際聲音是60分貝，那錄出來的聲音就失真了。只要把錄音設備的靈敏度調低，比如能錄到的最大聲音是75分貝，那60分貝的聲音就能錄進去了。要注意的是，不管靈敏度如何，量化位數都是16，這就意味著50分貝和75分貝下的兩個錄音響度都是被分成了65535份。

數字音頻文件里最主要的概念也就是這兩個：採樣頻率和量化位數。再加上時間這個因素，我們就能計算一個音頻文件的大小了。比如一首規格為44.1kHz 16bit 4分鐘的歌曲，佔用多大的儲存空間？我們可以做計算：

4min=4×60s=240s。又因為1MB=1024KB，1KB=1024B，1B=8bit（1位元組=8比特），得到佔用的儲存空間大小為：240×44100×16÷1024÷1024÷8=20.19MB（240秒，每秒取樣44100次，每次佔16比特的空間，然後轉化為MB，得到結果）。實際一首歌是左右兩個聲道，剛剛只算了一個聲道。因此對於正常的歌曲來說，大小為40.38MB，準確地來說對於一首44.1KHz 16bit 4分鐘的wav格式歌曲，大小是40.38MB。

4分鐘的歌曲40多MB，這聽起來確實有一點大，尤其是對於16GB的手機來說這大小簡直是災難……1GB只能放25首歌？不行。那怎麼辦？壓縮唄，把大文件變成小文件。壓縮有兩種方式，有損壓縮和無損壓縮，由此產生無損音樂格式（簡稱「無損」）和有損音樂格式。無損壓縮就像rar文件或zip文件一樣，壓縮過後體積會縮小，但是能完美還原源文件。有損壓縮是以犧牲音質為代價將體積變小的，音頻文件不能被還原到原來的音質，但還是能聽的（可以類比為：發到朋友圈中的圖被騰訊的伺服器壓縮了，明顯畫質會下降，但還是能看）。無損音質的主要優點就是音質好，缺點主要就是體積大，有損音樂的優缺點正好對調。無損壓縮格式有ape、flac、m4a等，有損壓縮格式有大名鼎鼎的mp3和aac等。

那麼是無損音樂從誰那裡壓縮？也就是壓縮的源文件是什麼？答：是「CD音質」的音樂。「CD音質」特指44.1KHz 16bit的條件下音頻文件所代表的音質（所謂HiFi，High-Fidelity，高保真，也是指達到了這種音質）。要強調的是，「無損」並不是和「被錄音的聲音」相比較，因為依據上文介紹的「選點採樣」原理，只要是錄出來的聲音都不可能還原出原始的聲音，只能無限近似於原始的聲音。無損是和CD音質作比較的，只要能還原出CD音質，就算無損音樂。

關於有損音樂格式，比如mp3，它壓縮的方式是去掉音頻中部分的高頻來實現的。因為對於人來說，雖然能聽到的頻率上限是20000Hz，但是在一般的歌曲中，高頻部分其實並不多。下圖表示了一些樂器所能發出的頻率範圍，可以看到，鋼琴能發出的最高頻率的聲音不到5000Hz，人聲在80-1000Hz的範圍。

因此可以通過去除部分高頻實現壓縮。

對於壓縮效果，我用兩張圖可以比較出來：

對於同一首歌的無損音質版本（上圖）和mp3版本（下圖）中，我們可以看到，無損音質版本的音頻往高頻一直延伸到20.5KHz，而mp3版本則在約16kHz處被完全截斷了。這表示不論使用多好的設備來放這段音頻，16kHz以上的頻率都聽不到了。但是對於壓縮來說，無損版本22.4MB，mp3版本3.9MB，壓縮掉了80%多……這也意味著，原來的1GB還裝不下50首歌，壓縮過後就能裝250多首……犧牲一些音質換來更多的歌曲存量，還算是值得。

那麼這兩種音頻格式的音質差多少呢？說實話如果是一般手機配一般耳機，無損和mp3是聽不大出有什麼區別的……無損音樂沒那麼神。

但是對於不同音質的mp3文件來說，用好手機配好耳機（價格千元左右）還是能聽出差別的。如QQ音樂、網易雲音樂上的「標準品質」、「HQ高品質」、「普通」、「較高」、「極高」等等品質，就會呈現出差別。但是在手機上聽最好音質的mp3和無損，講真差別不大。

mp3文件音質的好壞主要通過「碼率」來判斷。碼率的單位是kbps（kilo bits per second），千比特每秒（說白了就是每秒鐘音頻文件有多大）。大致可以這樣說，碼率值越高，說明單位時間的文件體積越大，文件體積越大能容納的聲音細節就越多。常見的mp3文件有320kbps（所謂「HQ高品質」、「極高」）、192kbps（所謂「較高」）、以及128kbps（所謂「標準品質」、「普通」），對比一下44100KHz 16bit的wav文件的碼率為1411kbps、一般的無損音樂碼率為700多kbps，還是壓縮了不少的。其實320kbps的mp3文件在手機上聽，和無損比幾乎聽不出差別。

但其實320kbps的mp3和無損音樂之間還是有一點差別的，體現在高音區上樂器的一些泛音。這些泛音未必能被明顯感知到，但是有這些泛音的話會讓人感覺更有「真實感」。這就像，實際上你的骨頭也參與了聽覺系統，但是你感知不到你在用骨頭來聽一些音一樣。只要換個好的播放設備、好的耳機、配上一個好心情，音質就能提升不少（感覺就是聽同一首歌聽到了原來沒有聽到的東西，甚至有的時候配一個好耳機靈魂都升華了……）。

基礎的部分介紹完了，但對於音樂發燒友來說，還有一些更極致的音質文件，比如MQS和Hi-Res。

它們的全稱分別是Mastering-Quality-Sound（大師音質的聲音（翻譯囧），iriver提出的標準）和High-Resolution Audio（高解析度音頻，Sony提出的標準）。其實這只是名字的差異，它們本質上都是一樣的：指音質超過「CD音質」的音樂。它們也都是無損音樂（無損音樂的概念在這裡被拓展了），只是這些音質的參數更為變態。

比如採樣頻率可以到88.2KHz、192KHz、甚至384KHz（採樣頻率足足是CD音質的近8倍），量化位數可以到32bit甚至64bit。其實錄音棚錄出來基本就是這樣的格式，只是一首幾分鐘的歌曲會輕輕鬆鬆過200MB，太大了……因此為了滿足大眾的需求（大眾的設備基本上也發揮不出來這種音質應有的實力），出版商還是會將其壓縮成CD音質然後發行……為了體會MQS或Hi-Res音樂，除了要能找到這樣的音頻文件，另外還要有一**萬的設備（播放器+耳機/音響）。

還有另一種DSD格式（或DSF格式）的音樂。這種音樂的錄音方式和以上所有的都有所不同。它的採樣頻率高達驚人的2.8224MHz（是CD音質採樣頻率的64倍，這種採樣頻率也被稱為64DSD，還有128DSD，採樣頻率是CD音質的128倍），但量化位數只有1bit。這種音頻的錄音方法和前文提到的方法完全不同。前文的方法被稱為PCM（Pulse-Code Modulation），就是將聲音信號轉換成波形圖，然後記錄波形圖。而DSD格式採取PDM（Pulse-Density Modulation）的方法錄製。

對比PCM和PDM如下圖所示：

據說通過PDM的錄音方式，可以減少底噪，這算是DSD格式相對於其他無損格式的優點吧。當然DSD格式也可以說是無損格式，畢竟一首幾分鐘的歌也是一兩百MB……

存儲了DSD格式音頻的CD被稱為SACD，購買的時候可以留意封面上是否有如下標誌：

不過需要注意的是，SACD有兩層，一層是DSD層，一層是普通CD層，如果是一般CD機只能讀取普通CD層，只有特殊的CD機才能讀取DSD層。然而並沒有必要買SACD，一張要幾百塊呢，而且沒有上萬塊的設備也聽不出SACD和CD的區別。