隱馬爾可夫模型是如何應用於語音識別?

已知離散HMM基本理論,三個問題的解決過程,MFCC參數,DTW的孤立詞識別。

想知道HMM是如何應用到語音識別的(孤立詞),包括觀察狀態怎麼和向量產生聯繫、隱藏狀態代表什麼物理意義等。如果有比較好的資料也請推薦(請勿推薦common的hmm的資料。。)

謝謝啦!


既然你學過HMM的知識,你應該知道HMM的輸出可以是離散的,也可以是連續的。當輸出是離散的時候,每個狀態的輸出概率分布用一個多項分布來描述;當輸出是連續的時候,每個狀態的輸出概率分布常常使用高斯混合分布(GMM)來描述。天氣、骰子等是輸出離散的情況,而語音識別則是輸出連續的情況。

在孤立詞識別中,每個候選詞用一個HMM來建模。這些HMM一般是順序型的,即由串聯的若干個狀態組成,每個狀態只能轉移到自身或下一個狀態(有時也允許跳過一個狀態,但這樣實現起來稍麻煩)。狀態可以粗略理解成詞中的每個音素,比如dog由d,o,g三個狀態組成。不過在孤立詞識別中,狀態並不一定非要是音素,狀態可以比音素長,也可以比音素短。每個狀態通過它的GMM可以輸出一個特徵向量(如MFCC向量),整個HMM就可以輸出整段語音的特徵向量序列了。

孤立詞識別系統的訓練是這樣進行的:對每一個候選詞,錄製若干次發音並提取特徵向量序列,用這些特徵向量序列來訓練HMM(這是HMM training問題)。在測試時,依次用每個候選詞的HMM測量待識別語音的特徵向量序列的似然值(這是HMM evaluation問題),並與各候選詞的先驗概率相乘得到後驗概率,選擇後驗概率最大的候選詞。


謝邀,這個問題比較複雜,建議去找一本書看看,比如黃學東的自動語音處理等


推薦閱讀:

AI產品,科學家和程序員分別做什麼,是怎麼分工的?
深度強化學習中如何從已有的好行為中快速學習策略?
有研究強化學習(Reinforcement Learning)的不,強化學習的研究價值和應用前景如何?

TAG:機器學習 | 語音識別 |