現有的語音識別技術能否達到自動輸出嚴式國際音標的水平?

現有的TIMIT等數據集所做到的只是音素識別,如輸入為英文單詞pray的語音信號,識別出音素/prei/。請問能否做到輸出嚴式國際音標[p???e?]?或者說有無以嚴式音標為標籤的數據集?


怎麼說呢……我感覺這是一個做不到,也沒有必要做的事情。有這麼幾個原因:

  • 音與音之間的界限本身就是模糊的,哪怕在寬式音標中也是如此,何況嚴式音標;
  • 訓練語音識別器需要有標註的數據,而世界上能夠準確地發出,並能聽辨嚴式音標中所有音的人,可謂鳳毛麟角。


拋磚引玉,蘋果的語音識別。

這個功能在設置-輔助功能-語音-發音里

添加替換的片語

然後會輸出

最後一行應該是片語的標準發音。上面三個音標都是根據我的發音輸出的。


推薦閱讀:

對於圖像識別和語音識別,其各自的深度學習框架的實現差異大嗎,假如理解了其中之一,轉向另一邊容易嗎?
行為識別(action recognition)目前的難點在哪?
基於深度學習的目標跟蹤演算法是否可能做到實時?
如何評價谷歌的xception網路?
怎麼看今天Amazon發布的16 GPU的p2.16xlarge EC2實例?

TAG:機器學習 | 自然語言處理 | 語音識別 | 語言學 | 深度學習DeepLearning |