Kaldi里的DNN訓練時的輸入是什麼，三音素的GMM訓練好後為什麼要做數據的強制對齊？

01-08

訓練DNN的時候，需要知道每一幀對應的是什麼音素（甚至HMM狀態）。而一般語音數據的標註，只有音素串，並不知道每個音素（或HMM狀態）的起止時間。「強制對齊」就是利用一個GMM-HMM模型，求出每個音素（或HMM狀態）的起止時間。

因為輸入到DNN裡面，要做幀級別的標註。

DNN的訓練第二階段是有監督的微調，需要帶標籤的數據。