第七節 大語料庫中語音單元序列的自動挑選
第七節 大語料庫中語音單元序列的自動挑選
基於大語料庫的語音單元挑選是現今最為常見的一種語音合成方法,由於使用了自然的語音波形,音質可以得到保證,且隨著語料庫規模的增大,合成語音的自然度也能不斷提高。為了在語音合成中實現語音單元的合理選擇,需要計算各個備選單元相對於合成目標單元的目標代價以及前後備選單元之間的連接代價,並通過動態規劃演算法來進行最優備選序列的搜索。中國科大針對單元挑選語音合成的特點,提出了一種新的最小單元挑選錯誤準則,採用區分性模型訓練方法同時進行模型權值和模型分布參數的更新,可以顯著提升合成語音的效果。
基於統計建模的方法,在模型訓練階段首先要定義一組能夠反映語音合成系統性能的聲學特徵,包括各個音素單元對應的頻譜、基頻、時長特徵等,然後使用最大似然機器學習方法進行每一種聲學特徵對應統計模型的訓練( )。使用HMM模型來表示頻譜特徵, MSD-HMM表示基頻特徵, 使用GMM表示音素的時長。被訓練的統計模型均是上下文相關的,為了解決模型訓練過程中存在的數據稀疏問題,可以引入決策樹的模型聚類方法,來保證模型參數的魯棒性。
在合成階段必須保證挑選得到的最優備選語音單元序列所對應的聲學參數與訓練中得到的統計模型有最大的似然值。針對具體的特徵選擇,最大似然可以轉換為傳統的目標代價與連接代價加和的形式,從而通過動態規劃演算法實現最優單元序列的搜索。相對於傳統的單元挑選演算法,這裡的代價函數由統計模型自動導出,需要進行的手工調試很少。當合成使用的語料庫規模較大時,為了提高單元挑選過程的運算效率,可以利用訓練得到的統計模型,基於Kullback-Leibler距離進行備選單元的快速預選。
推薦閱讀: