匿名終結者：為什麼說聲音識別是所有入侵手段中最為可怕的一種？

08-26

4 人贊了文章

源地址：匿名終結者：為什麼說聲音識別是所有隱私入侵手段中最為可怕的一種？ - Steemit

人類早已學會以聲音作為識別同胞的關鍵信息。而現在，這一識別權已經被掌握在政府、情報機構和警方的手裡，那些有權因為你的一句話就把你扔進監獄的人

我們在發布這篇《提醒注意大規模監視新途徑》後，得到了很多反饋，看起來有很多朋友非常關心這一問題。不過從回復上看，也有不少讀者不甚理解它的危害性。究竟為什麼我們稱之為「匿名終結者」，為什麼說聲音識別是所有隱私入侵手段中最為可怕的一種？

可以說所有生物識別方式都是非常可怕的，因為生物特徵是每個人獨有的、且無法更改的東西。你可以更改姓名，可以採取任何在線隱私保護的匿名手段（這裡有一個工具箱，可以從各方面保護隱私的工具），但是你的虹膜是無法改變的、掌形是無法改變的，靜脈是無法改變的，如果你想去掉指紋，你知道會有多痛苦（《七宗罪》）。

印度的生物身份識別系統 Aadhar 使用的是指紋和眼球識別，這就是為什麼稱之為全球最可怕的大規模監視計劃。它收錄 11 億人的生物識別數據，一生都無法更改的東西。

沒錯，我們身上長滿了「活密碼」，這些獨一無二的信息就是每個人的身份，監視者最喜歡的東西。在現代技術更加傾向於生物識別解鎖的大趨勢下，我們將失去一切隱私。

其中相比下，最為可怕的就是聲音。

聲紋是指人類語音中攜帶言語信息的聲波頻譜，它同指紋一樣，具備獨特的生物學特徵，具有身份識別的作用，不僅具有特定性，而且具有相對的穩定性。聲音信號是一維連續信號，將它進行離散化後，就可以得到我們現在常見的計算機可以處理的聲音信號。

每個人都具有獨一無二的聲紋，這是由我們的發聲器官在成長過程中逐漸形成的特徵。無論別人對我們的說話模仿的多麼相似，聲紋都具有非常明顯的區別。

就算你感冒了，嗓子啞了，從遠處打來電話，你的熟人也能知道「是你」嗓子啞了，而不是別人；你的家人在聽到一個字「喂」後就知道那是你打來的電話，而不是別人。這就是聲音的特殊性，人類早已以此作為識別同胞的關鍵信息，而現在，這一識別權已經被掌握在政府情報機構和警方的手裡，那些有權因為你的一句話就把你扔進監獄的人。

雖然目前計算機還做不到通過一個字就判斷出人的身份，但是利用大量的訓練語音數據，系統可以學習到智能的「聲紋」大腦，在你說出 8-10 個字的情況下可以判斷你的身份，或者在你說1分鐘以上的話後，就可以準確地判斷出你的真實身份。這裡面其實包含了大部分生物識別系統都適用的重要概念：1:1 和 1:N，同時也包含了只有在聲紋識別技術中存在的獨特的概念：內容相關和內容無關。

對於聲紋識別系統而言，如果從用戶所說語音內容的角度出發，則可以分為內容相關和內容無關兩大類技術：「內容相關」就是指系統假定用戶只說系統提示內容或者小範圍內允許的內容，而「內容無關」則並不限定用戶所說內容。前者只需要識別系統能夠在較小的範圍內處理不同用戶之間的聲音特性的差異就可以，由於內容大致類似，只需要考慮聲音本身的差異，難度相對較小；而後者由於不限定內容，識別系統不僅需要考慮用戶聲音之間的特定差異，還需要處理內容不同而引起的語音差異，難度較大。

目前有一種介於兩者之間的技術，可以稱之為「有限內容相關」，系統會隨機搭配一些數字或符號，用戶需正確念出對應的內容才可識別聲紋，這種隨機性的引入使得文本相關識別中每一次採集到的聲紋都有內容時序上的差異，這種特性正好與互聯網上廣泛存在的短隨機數字串（如數字驗證碼）相契合，可以用來校驗身份，或者和其他人臉等生物特徵結合起來組成多因子認證手段。

隱私保護組織 Big Brother Watch 揭示，自去年年初以來已經有 510 萬名撥打熱線電話的用戶不得不說出』我的聲音是我的密碼』這句話。這裡使用的就是「有限內容相關」。

聲紋識別演算法的技術細節

在特徵層面，經典的梅爾倒譜係數 MFCC，感知線性預測係數 PLP、深度特徵 Deep Feature、以及能量規整譜係數 PNCC 等，都可以作為優秀的聲學特徵用於模型學習的輸入，但使用最多的還是 MFCC 特徵，也可以將多種特徵在特徵層面或者模型層面進行組合使用。在機器學習模型層面，目前還是 N.Dehak 在 2009 年提出的 iVector 框架一統天下，雖然在深度學習大紅大紫的今天，聲紋領域也難免被影響，在傳統的 UBM-iVector 框架下衍化出了 DNN-iVector，也僅僅是使用 DNN（或者 BN）提取特徵代替 MFCC 或者作為 MFCC 的補充，後端學習框架依然是 iVector。

下面是一個完整的聲紋識別系統的訓練和測試流程，可以看到在其中 iVector 模型的訓練以及隨後的信道補償模型訓練是最重要的環節。在特徵階段，可以使用 BottleNeck 特徵取代或者補充 MFCC 特徵，輸入到 iVector 框架中訓練模型。

這就是覆蓋全球的聲音識別資料庫為什麼可怕。

如果你的電話通話被竊聽，就算你使用的是不是自己的手機、手機卡沒有實名認證、或者乾脆撥打的是公共電話，竊聽者也能準確識別你的身份；就算你化名接受採訪，只要記者保留了採訪錄音，掌握那個 SiiP 資料庫的人只要拿到這一錄音的人都能認出接受採訪的人是誰；如果你通過加密應用使用音頻和朋友交流一件非常重要的事，就算你沒有使用手機號註冊、沒有使用真實姓名做 ID，沒有用私人照片做頭像，掌握那個 SiiP 資料庫的人只要可以入侵對話雙方某一方的設備，就可以識別對方是誰。（例如入侵 WhatsApp 的方法）

?? 再次提醒：任何關鍵對話內容，切勿使用語音通訊。