關於語音識別的研究方向?

題主(本科211電子專業已畢業一年)在申請情報工學系的研究生,導師方向是語音識別、視頻檢索、行為識別等。目前要寫一份英文研究計劃書,我是打算做針對說話人的DNN語音識別的自適應技術,寫了一份初稿給教授被打回來了,說看不出研究主題的新意在哪。而我也不是太懂其中的技術,所以不知道怎麼確定自己的方向是最新的而且是可行的?是要廣讀外文文獻嗎?

在答案二樓附上被打回來的初稿,麻煩幫我看下,謝謝!


謝邀,2010年後DNN風靡之後,自適應的研究其實就逐漸展開了,從GMM-HMM上很成熟的技術遷移到DNN上也很自然,ivector、speaker code等speaker-aware的技術也出現了很多,因此這個方向並不是非常新的方向。

作為學術研究而言,我個人覺得應該去嘗試新的技術話題或者已有話題里仍未攻克的技術難題,仍然以自適應技術為例,儘管論文里實驗結果很漂亮,但是依然沒有解決短語音、低延遲的自適應語音識別技術,這個問題涉及到聲紋識別ivector提取的難度、神經網路對於短語音個性化特徵的學習難度,因此如果做自適應的話,建議考慮這個問題。


推薦閱讀:

Siri 是如何識別語義的?
吳亦凡事件能不能通過技術手段甄別?
有哪些普通人可以見到的東西代表了人工智慧最高水平?
"What"s zero divided by zero?" 為什麼Siri可以回答這種問題?

TAG:機器學習 | 語音識別 | 深度學習DeepLearning | 卷積神經網路CNN |