語音識別技術的干擾因素有哪些?
對比訊飛,百度,siri,小冰,想得到的,噪音,方言,還有啥?
謝邀。
影響語音識別性能的因素一般認為有:
1. 背景噪音。現在隨著DNN等技術的應用,對噪音的魯棒性有一定提高,但是當信噪比較低(如零以下)的時候性能還是會下降很厲害。特別是當背景雜訊是人聲的時候。我曾經試過當前一些主流的雲端引擎,信噪比較低的時候識別結果會大量的丟字,可能是把語音也判斷成噪音丟棄了,也可能是因為識別出的字置信度太低被丟棄了。
2.口音。在中國主要是方言口音。雖然當前的系統都會內置兼容常見方言的多發音字典,訓練數據也會包含有口音的數據。但中國的方言太過多樣,而且方言影響的不只是聲、韻母發音,還包括聲調、韻律等,所以當前系統對口音較重的普通話識別效果仍然不好。
3.自然的發音方式。這是和朗讀對應的。這在轉寫和速錄一類的任務中尤為突出。因為用戶不是有意識的向計算機輸入,而是自然的對人交流,所以用戶不會刻意說得慢而清晰,語音中會有大量的連音、吞音、發音變形,還會有「嗯啊呃」,「這個」一類的無意義發音和重複、糾正等。當前也有針對這類語音的研究,但總體性能還不理想。我曾經見到某會議上採用某公司的語音速記系統生成同步文本上屏顯示,剛開始主持人發言清晰標準,識別效果很好。然後上來個北京大姐脫稿發言,一口京腔洒脫隨意,識別結果支離破碎怪詞迭出完全不能看,守著系統的小伙兒狂切屏幕想把不好的結果隱藏,最後還是無奈暫停了速記。
4.特定領域和主題。這個其實我認為是最大的難度。人其實在這方面也有困難,例如我家隔壁不識字的奶奶就看不懂新聞聯播,我媽聽我做學術報告也一頭霧水。對於計算機,要求它能適應各種領域的各種詭異用詞確實很難。
最後,給個例子吧,我選過幾段測試語音,都是網路課程,老師都有較重口音,內容分別是高數、線代和圍棋。用主流的幾種雲端引擎測試,準確在70%左右(高數最好引擎79.5%,線代最好引擎70.0%,圍棋最好引擎70.5%)。而採用新聞聯播中的播音員語音測試,則準確率都在95%以上,最好引擎達98.6%。
還有設備本身的電路部分,結構設計,器件選型等
推薦閱讀:
※做好嘈雜環境的語音識別,目前難點主要在哪裡?
※如何理解小米MIX2的雙ADC高清錄音?
※科大訊飛一直漲啊,語音就這麼有未來嗎?
※關於 EM(Expectation Maximization)演算法有哪些書、論文或博客推薦?