標籤：

機器學習深度學習DeepLearning 自然語言處理語言學語音識別

現有的語音識別技術能否達到自動輸出嚴式國際音標的水平？

01-08

現有的TIMIT等數據集所做到的只是音素識別，如輸入為英文單詞pray的語音信號，識別出音素/prei/。請問能否做到輸出嚴式國際音標[p???e?]？或者說有無以嚴式音標為標籤的數據集？

怎麼說呢……我感覺這是一個做不到，也沒有必要做的事情。有這麼幾個原因：

音與音之間的界限本身就是模糊的，哪怕在寬式音標中也是如此，何況嚴式音標；
訓練語音識別器需要有標註的數據，而世界上能夠準確地發出，並能聽辨嚴式音標中所有音的人，可謂鳳毛麟角。

拋磚引玉，蘋果的語音識別。

這個功能在設置-輔助功能-語音-發音里

添加替換的片語

然後會輸出

最後一行應該是片語的標準發音。上面三個音標都是根據我的發音輸出的。

推薦閱讀：

※對於圖像識別和語音識別，其各自的深度學習框架的實現差異大嗎，假如理解了其中之一，轉向另一邊容易嗎？
※行為識別（action recognition）目前的難點在哪？
※基於深度學習的目標跟蹤演算法是否可能做到實時？
※如何評價谷歌的xception網路？
※怎麼看今天Amazon發布的16 GPU的p2.16xlarge EC2實例？

TAG:機器學習 | 自然語言處理 | 語音識別 | 語言學 | 深度學習DeepLearning |