語音識別之HMM-GMM識別系統

04-26

本文是根據中科院自動化陶建華老師上課講解及其PPT整體得來。在此對陶老師表示深深的感謝。

語音識別的經典系統之一就是HMM-GMM了。

漢語的音素一般由5個狀態組成，英語的為3個。

用混合高斯密度函數去表示每個狀態的出現概率，只需要求出其均值和協方差就可以了。

整體流程：

系統的輸入：提取的聲學特徵參數（比如MFCC、Fbank等）

系統的輸出：條件概率P(O|S)，s表示狀態，O表示輸出的觀測序列，就是音素序列。對於，P(Oi|Si)，則相當於該狀態對應的輸出的觀測值音素，（因為音素的個數是一定的，所以這就相當於一個分類問題）。

在運行完HMM後，語音就自動切分了，每一幀對應的狀態就知道了。根據狀態的出現概率和轉移概率就可以算出每一個可能路徑的最終的輸出概率，選擇概率最大的路徑就是要識別的結果。

1.轉移概率的計算

2.高斯混合模型的參數（均值和協方差矩陣）

3.最優路徑怎麼獲取。

對於1.2問題可以用Baum-Welch演算法估計得到，對於問題3可以使用Viterbi演算法獲得最優路徑。具體實現演算法流程網上已經有很多講解了，在此就不講述了。