聲紋識別基本原理技術發展過程
對聲紋識別的研究始於20世紀30年代。早期的工作主要集中在人耳聽辨實驗和探討聽音識別的可能性方面。隨著研究手段和計算機技術的發展,研究工作逐漸脫離了單純的人耳聽辨,使通過機器自動識別人的聲音成為可能。
聲紋識別根據實際應用的範疇可分為1:N識別和1:1識別
1:1識別
1:1識別是指確定待識別的一段語音是否來自其所聲明的目標說話人,即確認目標說話人是目標說話人的過程。主要應用於證券交易、銀行交易、智能硬體等領域,如:
電子支付:在網路支付環節中增加聲紋確認環節,加強虛擬賬戶安全性;
智能硬體:在智能手機、智能音箱等設備中使用聲紋識別技術,針對不同用戶提供更多個性化服務。
https://www.zhihu.com/video/969295212539060224SpeakIn智能硬體解決方案(建議Wifi環境下觀看)
1:1識別系統的性能評價主要看兩個參量,分別是錯誤接受率(False Acceptation Rate, FAR)和錯誤拒絕率(False Rejection Rate, FRR)。
FAR是指:將非目標說話人判別為目標說話人造成的錯誤率。
FRR是指:將目標說話人誤識成非目標說話人造成的錯誤率
在聲紋識別系統中,可通過設定不同的閾值對 FAR 和 FRR 進行平衡。
對安全性要求越高,則設定閾值越高,此時接受目標說話人的條件越嚴格,即FRR越高,FAR越低;
對用戶體驗要求越高,則設定閾值越低,此時接受目標說話人的條件越寬鬆,即FAR越高,FRR越低;
但實際使用中,我們需要調整閾值來在安全性和用戶體驗上達到一個良好的平衡。一般採用檢測錯誤權衡曲線(Detection Error Trade-offs Curve, DET)[2]來反映兩個錯誤率之間的關係:對一個特定的聲紋識別系統,以 FAR 為橫坐標軸,以 FRR 為縱坐標軸,通過調整其參數得到的 FAR 與 FRR 之間關係的曲線圖,就是 DET 曲線,顯然 DET 曲線離原點越近,系統性能越好。
1:N識別
1:N識別指判定待測試語音屬於目標說話人模型集合中哪一個人,即在N個人中找到目標說話人的過程。被廣泛應用於公安司法、軍隊國防領域中,如:刑偵破案,罪犯跟蹤、國防監聽等,如:
公安刑偵:針對電信詐騙、電話勒索等刑事犯罪案件,公安司法人員可利用聲紋辨認技術,從通話語音中鎖定嫌疑煩人,縮小刑偵範圍;
監聽重點人員:針對恐怖分子和重點人員,通過通訊跟蹤及聲紋識別技術對罪犯進行預防和偵查追捕;
https://www.zhihu.com/video/969296330779230208
SpeakIn聲紋技術在公安和社保領域的應用(建議Wifi環境下觀看)
SpeakIn自2015年成立以來,一直致力於建設大規模聲紋資料庫,在各類複雜產品的應用場景中具有不可比擬的優勢。
以往的聲紋應用領域,在整個演算法層面產生的科研成果非常多,但大量的理論成果並沒有針對具體的應用場景進行工業化適配,在實際的生活中無法直接使用。
針對傳統的iVector方法資料庫量少的問題, SpeakIn團隊採集了多個方言區、上萬人的聲紋數據,數據覆蓋多年齡層,將資料庫樣本數量最大化,就各種方法在各種環境下進行了大量的工程優化和測試,同時在最新的端到端神經網路上也進行了探索,在精度上已經超越了傳統的iVector方法。真正適配於工業級大規模應用及各類複雜產品的實際應用場景。
「搏音」聲紋識別演算法性能在國內處於領先水平,在一萬人庫容量識別準確率非常高,根據目前的資料看,在十萬人以下庫容衰減有限,性能可以滿足實際使用需要,在更大庫容情況下,「搏音」的性能表現值得期待。
——廣東省公安廳聲紋實驗室權威專家意見
SpeakIn在研究聲紋識別底層技術、基礎演算法和行業解決方案的同時,也在不斷探索更多的垂直應用場景,例如智能貨櫃、停車場、自動售貨機等等,讓聲紋識別融入生活的方方面面,令每一枚聲紋代表的真實個體都能享受到更加個性、便捷的服務。未來在物聯網時代,以聲紋為代表的生物特徵將成為最自然的身份ID,構建全新的社會服務入口。
關於聲紋識別,大家想知道什麼?
歡迎在評論區或私信提問,SpeakIn將儘力為大家解答~
推薦閱讀:
※OFweek中國高科技行業門戶11月舉辦的6場科技大會值得參加嗎?
※人工智慧開始風生水起
※國內無人超市真來了,再不努力你將無工可打!
※dingdang-robot:一個開源的中文智能音箱項目
※阿爾法狗再進化是怎樣的?