Kaldi里的DNN訓練時的輸入是什麼,三音素的GMM訓練好後為什麼要做數據的強制對齊?
01-08
訓練DNN的時候,需要知道每一幀對應的是什麼音素(甚至HMM狀態)。而一般語音數據的標註,只有音素串,並不知道每個音素(或HMM狀態)的起止時間。「強制對齊」就是利用一個GMM-HMM模型,求出每個音素(或HMM狀態)的起止時間。
因為輸入到DNN裡面,要做幀級別的標註。
DNN的訓練第二階段是有監督的微調,需要帶標籤的數據 。
推薦閱讀:
※微軟有哪些語音識別技術積累,Cortana 能否跟 Siri 和 Google Now 抗衡?
※想學語音識別技術用什麼教材入門比較好?
※如何理解迅雷新產品「心聲」和「心膜」?
※如何自己寫個語音識別系統?
※能否訓練一個狗語 AI,讓它理解我的狗在對我說什麼?
TAG:語音識別 |