聲紋鑒定能否鑒定經過變聲器的聲音？

01-08

看了一個韓國電影叫《抓住那個傢伙》（又叫《蒙太奇》），裡面對比了嫌疑人的聲音和用變聲器改變後的聲音，確信率99.4%，然後還說了一句「聲波跟指紋一樣，無論怎麼改變都能識別」，請問是這樣的嗎？還是韓語的翻譯有問題？
（1小時26分05秒）

一個有關這個問題的研究叫speaker verification antispoofing

主流的聲紋識別一般是利用短時間特徵進行的，首先對聲音傅立葉變換處理，有了在頻率上的各個分量，這個量是一個複數，可以用來構建表示實部和虛部的絕對值大小magnitude 和實部與虛部相對值phase組成，聲紋都是通過這些分量的magnitude 的分布去判定說話人的。

主流的變聲器也是在這個magnitude 空間進行聲音變換，如果我們用一些通過其他信息去判定說話人，比如基於相對值的phase 去判定說話人，就可以迴避很多變聲器的效果。

可以參考這篇論文

http://www.spoofingchallenge.org/is2015_asvspoof.pdf

挺有意思的問題。

我接觸過一點兒說話人識別技術。說話人識別最常用的場景是作為身份驗證，如果新來的用戶說的話聲音跟已登錄用戶不一樣，則拒絕此用戶訪問。針對這種系統有許多攻擊的方法，比如錄音回放、語音合成、語音轉換等。這些攻擊的目的，都是使得輸入的聲音跟已登錄的聲音儘可能相似。針對這些攻擊也有一些防禦的方法——只要是合成的聲音，總會留下合成軟體的一些特徵，而跟完全自然的聲音不相似。通過檢測這些特徵，可以把這些攻擊擋住。

不過題主問的是另一方面的攻擊，即通過語音轉換，使得聲音不像已登錄的聲音。針對這種攻擊的防禦，我還真不太了解現在的研究現狀。

謝邀：一、聲紋鑒定能否鑒定經過變聲器的聲音？

回答：能。

本人就是從事聲紋鑒定的，這項法庭科學又叫做語音同一認定、司法語音鑒定，都屬於語音檢驗鑒定的範疇。變聲器的案例我遇到過，最後給出了認定同一的鑒定結論（過程不表）。

借用我「模仿語音能否鑒定」下的答案，首先要介紹語音特殊性和語音的穩定性，（這是聲紋鑒定的基本原理，各種教材上有不同風格的表述，但是說的都是一個事兒，我帶學生的第一課就是讓他們背下這個原理）：1、語音的特殊性，發音器官分為聲門上系統、喉系統、聲門下系統，每個人都有自己的一套發音器官，它們的形態、構造各有差別，每次發音需要眾多發音器官相互配合、共同運動。這決定了語音的物理屬性（也稱語音四要素）：音質、音長、音強、音高。這些物理量人各不同，因而語音在聲紋圖譜上呈現不同的聲紋特徵，根據這些聲紋特徵參數，我們不但可以區分語聲，而且可以認定同一人的語聲。2、語音的穩定性。一個人的發音器官發育成熟後，其解剖結構和生理狀態是穩定不變的，加之發音人的言語習慣等語音的社會心理屬性，使得每個人在不同時段所說的相同文本內容的話，基本語音特徵是穩定不變的。因此，你可以把人的聲道看做管樂中的號，長號、短號雖然都是號，但由於聲道的形狀、長短不同，吹出來的音質也不同。

目前的聲紋鑒定方法，簡單講分為兩種：一是目前我國司法實踐中普遍應用的"人工鑒定"——專家鑒定人依靠語音學方法，二是未來發展方向的"自動鑒定"——計算機通過演算法來模擬人耳對聲學特徵的提取、訓練、對比來實現。

那麼「變聲器」是什麼高深的玩意兒呢？變聲器是通過改變輸入音頻的音色、音調，並將變聲後的音頻輸出的工具（百度百科）。其實還有聲音快慢，百度百科說漏了，另外聲音大小就不需說了，不用變聲器也能改變。那麼語音四要素中的音質（就是音色）、音調（對應音高）、音強（就是聲音大小）、音長（對應聲音快慢）都改變了，語音的物理屬性已經改變，怎麼鑒定呢？

1、不要把「變聲器」想得那麼高深

在鑒定上，「變聲器」不就是個信道嗎？信道的定義是信號傳輸的通道，我們的鑒定名叫聲紋鑒定，其實分析檢驗的不是真正意義上人的語音，而是人的錄音——語音信號，各種錄音器材都可以看成信道，各種編碼方式也可以看成信道，它們都對語音信號進行了改變。舉個例子：對講機、電話，都看以看成信道，你的聲音經過對講機傳輸，你聽感上已經失真，你已經感受到了信道對語音信號的影響。目前市面上的「變聲器」，無論是硬體的還是軟體的，主要是改變基頻，把低沉的聲音（男聲）變成了尖細的聲音（女聲、童聲）。（關於改變音色這一點，一方面，音色肯定是改變了，經過了重採樣及基頻的改變，反映音色的共振峰特徵肯定有變化。另一方面，其共振峰的變化是整體改變的，其中的相對關係可以看做不變）當然準確的講，只是我們聽感及社會認識中的所謂男聲、女聲、童聲、老年人聲。聲音不是性特徵，不能區分男女，只是統計學上區分。反例就是「鄭海霞」這樣身材高大——聲帶厚長（正相關）的語音，網上搜來聽聽，你感覺是男是女？另外，動畫片中柯南用變聲器神奇的將其變成毛利小五郎，現實中做不到這麼精確，達不到這麼好的效果，效果這麼好的即時變聲器，單從理論上講，需搜集海量的毛利小五郎的聲學數據才能實現。

2、「變聲器」改變了語音的物理屬性，並非改變了所有鑒定意義上的聲學特徵

前文所述目前普遍採用的人工通過語音學鑒定方法，其主要的優點就在能區分出計算機難以認知的「高級聲紋特徵」，如：方言口音、習慣用語、贅語、言語缺陷、韻律特徵。這怎麼「高級」呢？我們熟人間分辨一個人的語音，首先就是通過這些特徵；模仿秀模仿時也非常注重這類特徵。但是計算機難以認識，稱為「高級特徵」。沒錯，人耳才是最精密的聲紋鑒定儀器。而非專業人士所不熟悉的「低級聲紋特徵」，如：共振峰、基頻，卻是計算機最「熟悉」的，乃至音強、音長、VOT等都是計算機能認識的。

3、「變聲器」改變了語音的物理屬性，在鑒定採樣時也可用相同方法改變樣本

不管是人工鑒定還是自動鑒定，都是通過對案件錄音——「檢材」與嫌疑人錄音——「樣本」來進行對比。變聲器既然是經過一定設定改變了的「檢材」，那麼用相同設定來改變「樣本」即可。前面已經講過，變聲器就是個廣義的信道。曾經有鑒定人因為是「變聲器」的案件，認為語音已經失真，必須要通過信號還原出之前的語音才進行鑒定。這種思路，先不說信道還原在當前科技下不能絲毫不變的還原，主要是沒考慮過，我們鑒定所分析的錄音，哪一個不是通過信道進行信號處理的結果？採樣率再高、精度再細，它也是離散變化的結果，能真正和人聲這樣的連續信號等同嗎？同樣都經過信道，都受到信號處理，只是差別大小不同而在聽感上表現不同。

提問：二、「聲波跟指紋一樣，無論怎麼改變都能識別」這種說法對嗎？

回答：不對。

「聲波」這種說法就不對，每次聽到「聲波」這個詞我就想起蝙蝠，這是非專業人士經常使用的名詞。從事「聲紋鑒定」專業的人，對鑒定十分了解，對物理、信號處理有膚淺的了解，對蝙蝠等生物幾乎不了解。在司法實踐中，無論是法官、檢察官還是公安機關的偵查員，都是以我們的專業說法為權威，至於各類法學院教授，也許有不同表述，但他們說了能算，還要法官幹嘛？為了準確回答這個問題我搜了下百度，裡面出現的論文不是我自己寫的，就是我老師寫的，就是我熟悉的同行寫的，也就是說百度上這些似是而非、甚至自相矛盾的相關釋義全部來自於我們這些人對同一事物的不同理解及表述。「聲紋」這個名詞，是在上世紀80年代這項法庭科學技術引入中國時，最早期的鑒定人對其所作定義。該稱謂是將語音學鑒定方法中所使用的語音圖譜比照「指紋」圖譜而定，通俗易懂，並且習慣性沿用。「聲紋鑒定」即是整個語音鑒定包括語音同一認定、錄音的真實性檢驗鑒定、語音降噪及提高性噪比等鑒定項目的統稱；也單獨指是語音同一認定。「聲紋」即是主要鑒定依據——聲音圖譜的簡稱；又是語音作為生物識別特徵的通稱。當前的鑒定方法已經有所發展，依靠語譜圖分析聲學特徵的方法並不是唯一的鑒定方法，因此稱作「司法語音鑒定」更準確，稱作「聲紋鑒定」更方便。總之，根據喜好，愛咋稱咋稱，但是不能稱為「聲波」，因為「聲音波形」另有所指。

1、「聲波」不同於「聲紋」

由於翻譯與認識的不同，大概來自於這幾個單詞sound waves、spectrum、voice、formant、intensity，鑒定人如果講聲波，肯定是指波形圖（見圖1），恰恰是指intensity，在語音學方法的聲紋鑒定中，不是主要特徵，主要特徵是formant共振峰（見圖2）。

圖1：波形圖（這玩意兒在鑒定中沒什麼用，很多人卻以為我們是靠著玩意兒鑒定）

圖2：共振峰圖（這玩意兒在鑒定中發揮最主要的作用，其他一切聲紋特徵幾乎都能從中反映）

2、「聲紋」跟「指紋」哪裡不同？

一提到「指紋」，教科書上是「觸物留痕、終身不變」；一提到「聲紋」，教科書上是「世界上沒有完全相同的兩片樹葉」。其中的區別，不難體會。「聲紋」這一項生物識別特徵確實與指紋、虹膜、DNA等其他生物識別特徵不同，沒其他特徵那麼頑健。人的語音不是「一成不變」的。在聲紋鑒定中由於背景噪音干擾、傳輸信道變化、疾病、醉酒、心理緊張、情緒變化、偽裝等內外在因素的存在，使得同一人的語音在不同情況下存在差異，但這些差異並非改變了發音器官構造，我們在鑒定上稱之為「非本質差異」，聲紋鑒定的難點就是要區分非本質差異，而注意識別發音人的本質差異。有經驗的鑒定人是不會被這些非本質差異迷惑的。這一差異稱為語音的變異性，與前面所述語音的特殊性、語音的穩定性是聲紋鑒定的三個主要原理之一，語音的自身變異性也是目前語音自動鑒定比不上專家鑒定的原因。

3、「無論怎麼改變都能識別」？

截圖中的識別，又用上了識別率99%的概念，一般是指目前的自動識別技術方法，以後的發展會像指紋庫、DNA庫、人像庫一樣，建成聲紋資料庫。如果將變聲前的語音採集到聲紋庫中，作為樣本，再將變聲後的語音作為檢材，來進行比對檢驗（識別），通常情況是不能準確識別（鑒定）的。

法庭科學技術是最容易被人神話或貶低的技術之一。達到檢驗鑒定條件時，被捧得比《易經》還神；達不到檢驗鑒定條件時，被貶得一文不值。首先說「指紋」是「無論怎麼改變都能識別」嗎？經常有朋友對我說：「他摸過我的包，肯定能提取指紋呀？」或者「他強姦她，她身上肯定有指紋」，或者「他當時用那木棒打的，棒子上肯定有指紋，你們一提取不就結了」。不是說好的「觸物留痕」嗎？後半句也許是，「要看什麼承痕客體」。能在她的皮膚上提到指紋？那一定是一枚血淋淋的指紋。而且提取的指紋就一定能認定或者否定同一嗎？那也要看這枚指紋有多少特徵了？這個道理，在聲紋鑒定上也一樣。

換個角度來說，如果案件的錄音條件好，該嫌疑人的聲音，雖然經過了改變（如：偽裝、變聲器、酒醉、感冒）等，或是經過很多年，但是都在其成年（發音器官穩定）以後，又經過恰當的採樣，那麼確實怎麼改變都能鑒定（識別）。

補充一點：說話人自動識別技術，有兩種，即說話人辨認(Speaker Identification)和說話人確認(Speaker Verification)。前者是我們所說的「聲紋鑒定」，在法庭科學領域應用；而後者是我們所說的「芝麻開門」，對得上就開門，對不上就不開門，在安全防範領域應用。

居然看到這個問題！好激動！這就是我的研究方向啊！！！變聲主要是改變語音的基頻，也就聲調，但又不能改變語速(改變語速會使語音不自然)。目前的研究主要是檢測語音聲調有沒有人為改變過。針對只變調的沒有進行其他操作的語音檢測正確率都已經可以做到95%以上，99％也很正常。這個問題國外研究的比較少，國內中山大學黃繼武老師團隊在取證領域頂級期刊TIFS上發過多篇相關論文，應該是目前做的最好的。

至於第二個問題，在說話人識別也就是聲紋識別領域，有部分學者認為即使人的發聲系統某些部分有時會發生變化，例如感冒了或者嘴裡有異物，但是有相當一部分是長期內不會發生變化，這部分學者認為無論使用什麼物理方法(不使用電子變聲器或者語音處理軟體)改變人聲都應該能被識別出來。

對與使用電子手段，如變聲器或者Adobe Audition這樣的軟體去變聲，單純變調可以檢測出來沒變以前的人的身份，如果還有其他操作，比如變速、加雜訊，這情況就很難檢測出來了。當然市面上能買到的變聲器一般只是修改了基頻，如果是這樣的話可以說使用什麼變聲器都能被檢測出來原來的身份。

大概就是這樣。。。

稍微了解過聲紋，用因子分析的方法，y=wx+b，每個人的原聲音y會被拆成x再去跟資料庫里保存的歷史x去比對。變聲器，我感覺是會影響到x的，那就會影響結果。實際會不會影響到x，還是要實測的。

如果把變聲後的樣本也拿來訓練，就可以不怕變聲了，只要能收斂。但目測準確率會有所下降，如果要保持較高的performance，就要想更多的先驗加進去了。

聲紋識別技術的作用，是通過兩段聲波相似度的對比，防止冒用者的出現。如果某人可以更改自己的語音語調，聲波不同當然是對比不出來的啊。

這個問題，我認為是不可能的。

「聲波跟指紋一樣，無論怎麼改變都能識別」，這句話的邏輯在哪裡。。聲音的不同本身就是空氣振動頻率的不同。聲音即聲波，用擴音器說話，聲波都變了，你讓機器如何識別。。。

當然由於這句話出處是電影，所以不排除翻譯錯誤的可能。

拿指紋做個類比，如果嫌疑人A殺人留下了指紋，他為了掩人耳目把自己的手指全部剁掉。只要他之前沒有留下過別的指紋樣本，那麼，指紋這條證據就不存在了。

聲紋也一樣，只要嫌疑人故意弄啞自己的喉嚨，就沒法比對了。

所以。電影還是不要太相信的好。

講道理，這東西是有的

分析的是頻域特性，還有線性特性之類的

變聲器的話，我這麼說吧，你看過哈哈鏡吧，變聲器就像哈哈鏡

你站在哈哈鏡前面能認出是你自己吧

你把聲音信號走一遍變聲器也就是這樣

當然前提是要對這種特性有充分的了解

聽說這種特性參數已經早就被證明十分有效了，如果這是這樣，那完全沒問題

不要清楚呢。。。反正用偽聲說話能被辨別出來。。。