聲紋識別基本原理技術發展過程

04-29

對聲紋識別的研究始於20世紀30年代。早期的工作主要集中在人耳聽辨實驗和探討聽音識別的可能性方面。隨著研究手段和計算機技術的發展，研究工作逐漸脫離了單純的人耳聽辨，使通過機器自動識別人的聲音成為可能。

聲紋識別根據實際應用的範疇可分為1：N識別和1:1識別

1:1識別

1:1識別是指確定待識別的一段語音是否來自其所聲明的目標說話人，即確認目標說話人是目標說話人的過程。主要應用於證券交易、銀行交易、智能硬體等領域，如：

電子支付：在網路支付環節中增加聲紋確認環節，加強虛擬賬戶安全性；

智能硬體：在智能手機、智能音箱等設備中使用聲紋識別技術，針對不同用戶提供更多個性化服務。

https://www.zhihu.com/video/969295212539060224

SpeakIn智能硬體解決方案（建議Wifi環境下觀看）

1:1識別系統的性能評價主要看兩個參量，分別是錯誤接受率(False Acceptation Rate, FAR)和錯誤拒絕率(False Rejection Rate, FRR)。

FAR是指：將非目標說話人判別為目標說話人造成的錯誤率。

FRR是指：將目標說話人誤識成非目標說話人造成的錯誤率

在聲紋識別系統中，可通過設定不同的閾值對 FAR 和 FRR 進行平衡。

對安全性要求越高，則設定閾值越高，此時接受目標說話人的條件越嚴格，即FRR越高，FAR越低；

對用戶體驗要求越高，則設定閾值越低，此時接受目標說話人的條件越寬鬆，即FAR越高，FRR越低；

但實際使用中，我們需要調整閾值來在安全性和用戶體驗上達到一個良好的平衡。一般採用檢測錯誤權衡曲線(Detection Error Trade-offs Curve, DET)[2]來反映兩個錯誤率之間的關係：對一個特定的聲紋識別系統，以 FAR 為橫坐標軸，以 FRR 為縱坐標軸，通過調整其參數得到的 FAR 與 FRR 之間關係的曲線圖，就是 DET 曲線，顯然 DET 曲線離原點越近，系統性能越好。

1：N識別

1：N識別指判定待測試語音屬於目標說話人模型集合中哪一個人，即在N個人中找到目標說話人的過程。被廣泛應用於公安司法、軍隊國防領域中，如：刑偵破案，罪犯跟蹤、國防監聽等，如：

公安刑偵：針對電信詐騙、電話勒索等刑事犯罪案件，公安司法人員可利用聲紋辨認技術，從通話語音中鎖定嫌疑煩人，縮小刑偵範圍；

監聽重點人員：針對恐怖分子和重點人員，通過通訊跟蹤及聲紋識別技術對罪犯進行預防和偵查追捕；

https://www.zhihu.com/video/969296330779230208

SpeakIn聲紋技術在公安和社保領域的應用（建議Wifi環境下觀看）

SpeakIn自2015年成立以來，一直致力於建設大規模聲紋資料庫，在各類複雜產品的應用場景中具有不可比擬的優勢。

以往的聲紋應用領域，在整個演算法層面產生的科研成果非常多，但大量的理論成果並沒有針對具體的應用場景進行工業化適配，在實際的生活中無法直接使用。

針對傳統的iVector方法資料庫量少的問題， SpeakIn團隊採集了多個方言區、上萬人的聲紋數據，數據覆蓋多年齡層，將資料庫樣本數量最大化，就各種方法在各種環境下進行了大量的工程優化和測試，同時在最新的端到端神經網路上也進行了探索，在精度上已經超越了傳統的iVector方法。真正適配於工業級大規模應用及各類複雜產品的實際應用場景。

SpeakIn「搏音」聲紋綜合作戰平台演算法1：N性能表現

「搏音」聲紋識別演算法性能在國內處於領先水平，在一萬人庫容量識別準確率非常高，根據目前的資料看，在十萬人以下庫容衰減有限，性能可以滿足實際使用需要，在更大庫容情況下，「搏音」的性能表現值得期待。

——廣東省公安廳聲紋實驗室權威專家意見

SpeakIn在研究聲紋識別底層技術、基礎演算法和行業解決方案的同時，也在不斷探索更多的垂直應用場景，例如智能貨櫃、停車場、自動售貨機等等，讓聲紋識別融入生活的方方面面，令每一枚聲紋代表的真實個體都能享受到更加個性、便捷的服務。未來在物聯網時代，以聲紋為代表的生物特徵將成為最自然的身份ID，構建全新的社會服務入口。

關於聲紋識別，大家想知道什麼？

歡迎在評論區或私信提問，SpeakIn將儘力為大家解答~