基於RNN的序列標註-第六章 混合隱馬爾可夫模型

英語原作下載鏈接:

http://www.cs.toronto.edu/~graves/preprint.pdf?

www.cs.toronto.edu

第六章 混合隱馬爾可夫模型

這一章中,我們用LSTM與隱馬爾科夫模型(HMM)的組合來構建一個混合的序列標籤系統。HMM混合神經網路已經被學術界被廣泛研究了,通常通過多層感知機(MLPs)作為網路的構件。混合HMM模型的基本思想是用HMM的對序列化結構的數據進行建模,用神經網路提供本地化的分類功能。HMM能在訓練過程中自動對輸入序列分割,同時它提供將神經網路分類結果轉換為標籤序列的方法。HMM-ANN能夠直接對目標標籤沒有對齊的時間序列進行訓練,而前面章節介紹的網路則需要目標標籤對齊。

我們評估了HMM-BiLSTM模型在音素識別上實驗效果,發現它比標準的HMM及HMM-LSTM都好。這個結果表明使用改進的上下文處理網路結構的能夠很好處理時間分類任務。

6.1節回顧之前的混合HMM神經網路的工作,6.2節給出在音素識別任務上的實驗結果。

6.1 背景

隱馬爾科夫模型(HMM)與人工神經網路模型(ANN)的結合在1990s被幾個研究者提出,主要用來解決HMMs的一些缺點 (Bourlard and Morgan, 1994; Bengio, 1993; Renals et al.,

1993; Robinson, 1994; Bengio, 1999)。引入ANN的目的是提供差異化訓練,使得可以在更長時間、更豐富的音素上建模,此外還可以擁有更好的非線性函數逼近。最最重要的是增加上下文的使用。

在混合HMM最簡單的形式中,HMM將段分類對齊到整個標籤序列的時序分類中,ANN提供的每個片段分類結果。在其他情況下,ANN可以用來當做HMM模型的轉移或發射概率,也可以用來根據局部的分類對N最好的 HMM標記重新評分,還可以用來提取更容易地被HMM建模的觀察特徵。本章中我們重點介紹最簡單的那種情況。

儘管大多數混合HMM-ANN研究集中在語音識別上,該框架同樣適用於其他序列標籤任務,例如在線手寫識別。

混合模型中HMM與ANN可以獨立訓練,但是很多作者提出組合優化模型方法(Bengio et al.,

1992; Bourlard et al., 1996; Hennebert et al., 1997; Trentin and Gori, 2003),並且可以獲得更佳的結果。這一章我們研究一種迭代訓練的方法,這裡我們用HMM得到的對齊結果的重新訓練神經網路。

圖形變換器網路(Graph Transformer Networks)提供一個類似的但更通用的框架,它是結合神經網路與其他順序演算法。圖形變換器網路的不同模塊執行不同的任務,例如分割,識別和強加的語法限制,模塊通過感測器(transducers)連接,感測器提供可微的序列到序列映射,並且能夠為全局模型提供基於梯度的學習方法。

大多數混合HMM-ANN模型使用多層感知器,通常使用上下文的時間窗口,這些都是神經網路的組成部分。然而也有人對RNN的使用有相當的感興趣。鑒於人工神經網路的主要目的是引入上下文信息,似乎RNNs是一個很自然的選擇。

然而,他們在早期工作中MLP方面的優勢還沒有定論。

6.2 實驗:音素識別

為了評估混合HMM-ANN模型中LSTM和BLSTM的潛力,我們將在TIMIT語音庫上進行實驗,同時與標準的HMM模型進行比較。數據的準備與數據的切分(訓練,測試和驗證)與5.1節中的相同。然而,這個任務不再是每個數據幀有單獨的音素標籤,而是整個輸出序列音素。誤差度量使用音素錯誤率。

我們實驗了標準HMM音素模型(分為有上下文依賴與無上下文依賴的)、HMM混合BLSTM、LSTM、BRNNs。

用5.2.3節中所述的加權誤差信號的作為實驗評比效果。

6.2.1 實驗配置

傳統的HMM是使用HTK語音識別工具包開發(htk.eng.cam.ac.uk/)。 無上下文依賴(單音素)和有上下文依賴(三音素)的模型都進行了訓練和測試。這兩個模型從左到右的都包含三個狀態。模型的靜音狀態(h#,pau,epi)包含兩個額外轉換變換,一個是從第一個到最終狀態,另一個是從最後一個狀態到第一個狀態,這樣做是為了使得實驗更加健全,觀察概率由8個高斯混合模擬得到。

實驗中61個上下文獨立模型和5491個上下文相關模型被使用。上下文相關模型包含了中左/右語境與中心音素一致的,因為它們也出現在TIMIT音譯中(例如「my eyes」被解碼為/m ay ay z/)。在識別過程中,只允許下文相關模型使用那些匹配序列。

為了確保模型的聲學建模能力的公平比較,不使用先驗語言信息(如語音語言模型)。

對於混合模型,我們使用以下網路:單向LSTM、BLSTM和權重誤差訓練的BLSTM。 使用基於維特比的強制對準訓練了每個具有自轉換和退出轉換概率的一個狀態的61個模型。使用訓練集的幀轉換來初始化狀態概率和先驗概率。為了這個目的我們復用第五章中的已經訓練好的分類實驗結果。這裡的網路結構與5.2節中實驗描述一樣。

參數初始化之後,混合模型以迭代的方式進行訓練。這裡我們定義網路的輸出結果為後驗概率,先驗概率可以從數據集中得到,在每一步中,以隱藏狀態為條件的「觀察」(非標準化的)概率(即輸入向量)可以通過先驗概率除以後驗概率得到。這些概率都可以通過HMM得到。HMM訓練得到的對齊結果接著用於為神經網路定義一個新的幀結構訓練信號,重複整個過程直到模型收斂。在再訓練期間,網路參數與5.3節相同,除了標準偏差為0.5的高斯輸入雜訊被添加到輸入。

對於標準HMM和混合模型都在識別過程中,在驗證集上插入損失進行了優化。

6.2.2 實驗結果

從表6.1中我們可以看到,HMM-BLSTM混合模型比上下文相關和上下文無關的HMM都好。我們還可以看到BLSTM比單向LSTM的性能更好,與第5章實驗結果一致。使用帶有加權的誤差信號的HMM-BLSTM可以獲得最好的結果。這正是我們所期望的結果,因為加入權重誤差就是為了所有的音素同樣重要,因為它們等同與音素錯誤率。

實驗中,混合模型的參數比上下文相關的HMM模型參數少了很多。這是由於上下文相關的HMM模型中需要大量的狀態對模型上下文依賴進行建模。

混合模型中的網路最初是手動的分段訓練數據訓練的。雖然實驗本可以通過簡單的分割就可以進行了,但這可能會導致較差的結果。


推薦閱讀:

TAG:神經網路 | 語音識別 | 隱馬爾科夫 |