深度學習在語音識別方面主要的難題和困難是什麼?

深度學習在語音識別方面的應用已經相對成熟了,在很多場景中的識別率已經超過了人類水平……這一領域還有什麼難題值得探索?


我們需要看到,目前語音識別超過人類水平主要還是在某些受限的場景下,比如在近場麥克風和口音不重的情形下機器可以做得非常好;另外就是在語音識別系統有更多知識的場景下,比如大家經常不知道怎麼轉寫沒有接觸過的一些特殊的地名和店名,而機器可以靠更大的語言模型而在這方面擁有優勢。但是在更複雜場景下,尤其是在訓練數據覆蓋不好的場景下,機器的識別率還有待進一步提高。

許多的這些複雜場景都是在使用遠場麥克風時才會出現,這主要是因為麥克風距離遠了之後,語音信號到達麥克風時衰減比較厲害,使得干擾信號,包括環境噪音、混響、音樂、以及其他人聲的影響不能再被簡單忽略。所以從需要解決的問題的角度來講,識別系統在訓練數據覆蓋不好的具有多重干擾(尤其是人聲干擾)的環境下的魯棒性,是一個重要的問題。從研究的方向來講,至少有以下幾點:

* 更有效的能更好使用語言模型信息的端到端直接映射模型

* 雞尾酒會問題的解決方案

* 能持續預測並自適應的識別系統

* 前端信號處理和後端識別系統聯合優化技術


推薦閱讀:

語音識別技術中提取的聲音特徵的參數具體指什麼?
關於語音識別的研究方向?
Siri 是如何識別語義的?
吳亦凡事件能不能通過技術手段甄別?

TAG:語音識別 | 深度學習DeepLearning |