人工智慧技術在聲紋識別方面的應用 | 解讀技術
更多AI資訊,關註:九三智能控
人工智慧技術對於傳統產業的推進作用越來越凸顯,極大提升了傳統產品的商業價值。「聽聲識我,開口即播」長虹CHiQ5人工智慧電視成為全球首款搭載聲紋識別的人工智慧電視,可以直接通過每個人說話的聲音不同而區分目前使用電視用戶是誰,從而實現內容的精準推薦。無需藉助遙控和手機等智能設備,通過識別家庭成員的聲紋來控制電視。語音助手配備海量語音庫,使用語義模糊識別功能,即使說錯片名也能自動識別出你想要的內容,但是當人們在觀看某一節目的時候談論提及其他電視節目名稱,語音助手功能識別後當即轉換到另一個節目影響正常節目的觀看。但是在價格方面,55寸售價7597元,65寸售價13997元,75寸售價21997元,價格過高難以普及,但是也從側面證明人工智慧確實可以提升產品附加值。
目前人工智慧發力的領域主要集中在指紋、臉、聲音、眼睛等等,都是人和人之間相互區分的獨一無二的標識上,稱之為「生物特徵」。聲音就是這種一種可以反映人身份的生物特徵,參考「指紋」的命名方式,可以叫它「聲紋」。 聲紋是指人類語音中攜帶言語信息的聲波頻譜,它同指紋一樣,具備獨特的生物學特徵,具有身份識別的作用,不僅具有特定性,而且具有相對的穩定性。聲音信號是一維連續信號,將它進行離散化後,就可以得到我們現在常見的計算機可以處理的聲音信號。
在實際應用中,聲紋識別也存在一些缺點,比如同一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風和信道對識別性能有影響;比如環境噪音對識別有干擾;又比如混合說話人的情形下人的聲紋特徵不易提取;……等等。儘管如此,與其他生物特徵相比,聲紋識別的應用有一些特殊的優勢:(1)蘊含聲紋特徵的語音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;(2)獲取語音的識別成本低廉,使用簡單,一個麥克風即可,在使用通訊設備時更無需額外的錄音設備;(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通過網路(通訊網路或互聯網路)實現遠程登錄;(4)聲紋辨認和確認的演算法複雜度低;(5)配合一些其他措施,如通過語音識別進行內容鑒別等,可以提高準確率;……等等。這些優勢使得聲紋識別的應用越來越受到系統開發者和用戶青睞,聲紋識別的世界市場佔有率15.8%,僅次於指紋和掌紋的生物特徵識別,並有不斷上升的趨勢。
聲紋識別(也稱說話人識別)技術也如同現在在智能手機上應用十分廣泛的指紋識別技術一樣,從說話人發出的語音信號中提取語音特徵,並據此對說話人進行身份驗證的生物識別技術。每個人都具有獨一無二的聲紋,這是由我們的發聲器官在成長過程中逐漸形成的特徵。無論別人對我們的說話模仿的多麼相似,聲紋其實都是具有顯著區別的。聲紋識別(Voiceprint Recognition, VPR),也稱為說話人識別(Speaker Recognition),有兩類,即說話人辨認(Speaker Identification)和說話人確認(Speaker Verification)。前者用以判斷某段語音是若干人中的哪一個所說的,是"多選一"問題;而後者用以確認某段語音是否是指定的某個人所說的,是"一對一判別"問題。不同的任務和應用會使用不同的聲紋識別技術,如縮小刑偵範圍時可能需要辨認技術,而銀行交易時則需要確認技術。不管是辨認還是確認,都需要先對說話人的聲紋進行建模,這就是所謂的"訓練"或"學習"過程。
現實生活中的「未見其人,先聞其聲」就是人類通過聲音去識別另一個人身份的真實描述,雖然目前計算機還做不到通過一個字就判斷出人的身份,但是利用大量的訓練語音數據,可以學出一個「智商」還不錯的「聲紋」大腦,它在你說出8-10個字的情況下可以判斷出是不是你在說話,或者在你說1分鐘以上的話後,就可以準確地判斷出你是否是給定的1000人中的一員。這裡面其實包含了大部分生物識別系統都適用的重要概念:1:1 和 1:N,同時也包含了只有在聲紋識別技術中存在的獨特的概念:內容相關和內容無關。
對於一個生物識別系統而言,如果它的工作模式是需要你提供自己的身份(賬號)以及生物特徵,然後跟之前保存好的你本人的生物特徵進行比對,確認兩者是否一致(即你是不是你),那麼它是一個1:1的識別系統(也可以叫說話人確認,Speaker Verification);如果它只需要你提供生物特徵,然後從後台多條生物特徵記錄中搜尋出哪個是你(即你是誰),或者哪個都不是你,那麼它是一個1:N的識別系統(也可以叫辨認,Speaker Identification)。
技術上,簡單的聲紋識別的系統工作流程圖。
對於聲紋識別系統而言,如果從用戶所說語音內容的角度出發,則可以分為內容相關和內容無關兩大類技術。顧名思義,「內容相關」就是指系統假定用戶只說系統提示內容或者小範圍內允許的內容,而「內容無關」則並不限定用戶所說內容。前者只需要識別系統能夠在較小的範圍內處理不同用戶之間的聲音特性的差異就可以,由於內容大致類似,只需要考慮聲音本身的差異,難度相對較小;而後者由於不限定內容,識別系統不僅需要考慮用戶聲音之間的特定差異,還需要處理內容不同而引起的語音差異,難度較大。
目前有一種介於兩者之間的技術,可以稱之為「有限內容相關」,系統會隨機搭配一些數字或符號,用戶需正確念出對應的內容才可識別聲紋,這種隨機性的引入使得文本相關識別中每一次採集到的聲紋都有內容時序上的差異,這種特性正好與互聯網上廣泛存在的短隨機數字串(如數字驗證碼)相契合,可以用來校驗身份,或者和其他人臉等生物特徵結合起來組成多因子認證手段。
具體到聲紋識別演算法的技術細節,在特徵層面,經典的梅爾倒譜係數MFCC,感知線性預測係數PLP、深度特徵Deep Feature、以及能量規整譜係數PNCC 等,都可以作為優秀的聲學特徵用於模型學習的輸入,但使用最多的還是MFCC特徵,也可以將多種特徵在特徵層面或者模型層面進行組合使用。在機器學習模型層面,目前還是N.Dehak在2009年提出的iVector框架一統天下,雖然在深度學習大紅大紫的今天,聲紋領域也難免被影響,在傳統的UBM-iVector框架下衍化出了DNN-iVector,也僅僅是使用DNN(或者BN)提取特徵代替MFCC或者作為MFCC的補充,後端學習框架依然是iVector。
上圖示出了一個完整的聲紋識別系統的訓練和測試流程,可以看到在其中iVector模型的訓練以及隨後的信道補償模型訓練是最重要的環節。在特徵階段,可以使用BottleNeck特徵取代或者補充MFCC特徵,輸入到iVector框架中訓練模型。
在系統層面,不同的特徵及模型,可以從不同的維度刻畫說話人的聲音特徵,加上有效的分數規整,將各子系統融合能有效的提高系統的整體性能。
- 投稿、商業合作、加入微信群,請發郵件至:158354995@qq.com
- 加入微信群請在郵件說明「微信號+名字+研究領域/專業/學校/公司」
http://weixin.qq.com/r/AC91bd-EloLprZsO93oS (二維碼自動識別)
推薦閱讀:
※其實,交叉熵與最大似然估計很相似
※Oncomine數據挖掘發文套路
※機器學習導論——Day8、9
※一文概覽用於數據集增強的生成對抗網路架構