【第六期】AI Talk:基於深度學習的語音合成技術進展
83 人贊了文章
一、語音合成技術簡介
語音合成,通常又稱文語轉換(Text To Speech,TTS),是一種可以將任意輸入文本轉換成相應語音的技術,是人機語音交互中不可或缺的模塊之一。如果說語音識別技術是為了讓機器能夠「聽懂」人說話,那麼語音合成技術則讓機器能夠跟人「說話」。無論是在地圖導航、語音助手、教育、娛樂等軟體應用,還是在智能音箱、家電、機器人等硬體設備中,都有語音合成技術的身影。
如圖 1 所示,語音合成系統通常包含前端和後端兩個模塊。 前端模塊主要是對輸入文本進行分析,提取後端模塊所需要的語言學信息。對中文合成系統來說,前端模塊一般包含文本正則化、分詞、詞性預測、多音字消歧、韻律預測等子模塊。後端模塊根據前端分析結果,通過一定的方法生成語音波形。後端模塊一般分為基於統計參數建模的語音合成(Statistical Parameter Speech Synthesis,SPSS,以下簡稱參數合成),以及基於單元挑選和波形拼接的語音合成(以下簡稱拼接合成)兩條技術主線。
參數合成在訓練階段對語音聲學特徵、時長信息進行上下文相關建模,在合成階段通過時長模型和聲學模型預測聲學特徵參數,對聲學特徵參數做後處理,最終通過聲碼器恢復語音波形。該方法可以在音庫相對較小的情況下,得到比較穩定的合成效果。缺點是統計建模帶來的聲學特徵參數過平滑問題,以及聲碼器對音質的損傷。
拼接合成通常也會用到統計模型來指導單元挑選,訓練階段與參數合成基本相同。在合成階段通過模型計算代價來指導單元挑選,採用動態規劃演算法選出最優單元序列,再對選出的單元進行能量規整和波形拼接。拼接合成直接使用真實語音片段,可以最大限度保留語音音質;缺點是需要的音庫一般較大,而且無法保證領域外文本的合成效果。
傳統的語音合成系統一般採用隱馬爾可夫模型來做統計建模。近年來,深度神經網路由於其較高的建模精度,被越來越多地應用到語音合成領域。語音合成技術中用到的神經網路模型主要有 DNN、RNN、LSTM-RNN(以下簡稱 LSTM)等。在 2012 年成立之初,雲知聲發布了國內首個基於深度神經網路的語音識別公有雲平台。同樣地,在語音合成領域,雲知聲也將深度神經網路技術應用到自己的合成引擎中。
二、雲知聲基於 LSTM 的參數合成系統
雲知聲參數合成系統框架如圖 2 所示,主要包括文本分析、時長模型、聲學模型、聲碼器等模塊。對於一句輸入文本,首先經過文本分析得到音素級別上下文相關語言學特徵;然後根據時長模型預測結果擴展到幀級別特徵,作為聲學模型的輸入;最後把聲學模型輸出的聲學特徵參數送入聲碼器,輸出語音波形。這裡我們採用 LSTM 做聲學和時長建模,並且使用延遲輸出和跳幀輸出的策略,在提升建模效果的同時可以有效降低運算量。引入 Tacotron 系統中的 CBHG 網路對 LSTM 層的輸出做後處理,以保證聲學特徵參數的平滑性。此外,還採用了生成式對抗網路,來得到更加自然的合成語音。接下來我們詳細介紹雲知聲參數合成系統所採用的模型結構以及相關技術細節。
2.1 基於 LSTM 的統計參數建模
長短時記憶(Long Short Term Memory,LSTM)網路具有強大的序列建模能力,而 Bi-directional LSTM 由於能夠充分考慮序列的上下文信息而得到廣泛應用。在語音合成任務中,考慮到流式處理的需要,我們採用單向 LSTM 網路。為了更好地對輸入特徵進行抽象,在 LSTM 層之前加了兩層全連接網路。
為了使單向 LSTM 網路也能夠觀測到未來的輸入信息,我們採用了延遲輸出策略。具體做法是在得到若干幀後的輸入信息之後,才開始給出第一幀的輸出。另外,為降低計算量,採用了跳幀輸出策略。對於連續的 N 幀,只需要提供最後一幀的輸入,即可得到全部 N 幀的輸出序列,從而有效降低了計算量。LSTM 模型不像 BLSTM 那樣可以輸出平滑的特徵參數,而採用 RNN 代替全連接作為輸出層,可以得到更加平滑的特徵參數輸出。
2.2 CBHG 網路
採用 RNN 作為輸出層,可以生成平滑的譜參數,但是基頻參數還是有比較明顯的不平滑問題。為了解決這個問題,我們引入了 Tacotron 系統中用到的 CBHG(1-D convolution bank + highway network + bidirectional GRU) 網路。CBHG 網路結構如圖4 所示,由一維卷積濾波器組,加上 Highway 網路和一個雙向 GRU 網路組成。CBHG 是一種非常強大的網路,常被用來提取序列的表徵。在 LSTM 網路後面加上 CBHG 網路,可以有效改善輸出特徵參數不平滑的問題,並進一步提升模型預測精度。
2.3 生成式對抗網路
生成式對抗網路(Generative Adversarial Network,GAN)作為一種強大的生成式模型,已經成功地被應用到圖像生成和其他一些領域。GAN 的結構如圖 5 所示,由一個生成器 G 和一個鑒別器 D 組成。其中 G 作為參數合成系統中的聲學模型,目標是生成逼近自然語音的特徵參數;而 D 的作用是評估 G 輸出的聲學特徵與真實的聲學特徵的相似度,並通過梯度的方式傳遞給 G,從而調整生成網路使得輸出的聲學特徵更加逼近自然語音。採用 GAN 的網路結構,可以有效緩解參數合成帶來的聲學特徵參數過平滑問題,從而使合成語音更加真實自然。傳統 GAN 的生成器以隨機雜訊作為輸入,這裡輸入的是語言學信息。而 G 的損失函數在傳統損失函數基礎上,還加入了輸出聲學特徵和真實聲學特徵的均方誤差。在訓練階段分別對 G 和 D 進行交叉訓練,即在每次迭代先固定 D 的參數, 對 G 進行訓練;然後再固定 G 的參數, 對 D 進行訓練。
2.4 多發音人、多語種混合建模
傳統的語音合成系統,對於每一個語種的每個發音人都要單獨訓練一個模型。考慮到 LSTM 強大的建模能力,我們完全可以用一個模型來對多個語種和多個說話人建模。為了簡單起見,我們在系統中使用不同語種的語言特徵集合作為模型的輸入特徵,另外還加入了語種標記和說話人標記,用來區分不同的語種和說話人。
三、語音合成新方法
上述的語音合成系統基於傳統參數合成框架,將其中的聲學和時長模型採用深度神經網路來實現。相比於傳統的參數合成,該系統可以輸出更高自然度的合成語音,但是並沒有跳出傳統參數合成的框架。
近年來,一些新的語音合成方法不斷被提出,並且取得了比較理想的合成效果。比如 DeepMind 團隊提出的 WaveNet 合成系統,通過構建一個自回歸模型,直接對時域採樣點建模,得到了高自然度的合成語音。而 Yoshua Bengio 團隊提出的 Char2Wav 和 Google 提出的 Tacotron 系統,則是直接建立輸入文本到輸出語音的映射關係,實現了端到端的語音合成,合成語音效果能夠接近真人發音的水平。雲知聲在這個領域也做了大量的研究工作,並且取得了積極的進展。後續我們將為大家介紹語音合成技術的新方法,以及雲知聲在這方面最新的研究成果。
四、參考文獻
- Zen H, Sak H. Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis[C]//Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015: 4470-4474.
- Zen H, Agiomyrgiannakis Y, Egberts N, et al. Fast, compact, and high quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices[J]. arXiv preprint arXiv:1606.06061, 2016.
- Li B, Zen H. Multi-Language Multi-Speaker Acoustic Modeling for LSTM-RNN Based Statistical Parametric Speech Synthesis[C]//INTERSPEECH. 2016: 2468-2472.
- Saito Y, Takamichi S, Saruwatari H. Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(1): 84-96.
- Yang S, Xie L, Chen X, et al. Statistical parametric speech synthesis using generative adversarial networks under a multi-task learning framework[J]. arXiv preprint arXiv:1707.01670, 2017.
- Wang Y, Skerry-Ryan R J, Stanton D, et al. Tacotron: Towards end-to-end speech syn[J]. arXiv preprint arXiv:1703.10135, 2017.
推薦閱讀:
※IBM宣布語音識別錯誤率接近人類水平
※(精品乾貨)ACL 2018最新論文歸類(最全最細)分享
※<Attention is All You Need>閱讀筆記
※一文介紹3篇無需Proposal的實例分割論文
※自底向上——知識圖譜構建技術初探
TAG:自然語言處理 | 深度學習DeepLearning | TTStexttospeech |