帶有韻律的合成語音：谷歌展示基於Tacotron的新型TTS方法

04-20

文章選自Google Blog，作者：Yuxuan Wang、RJ Skerry-Ryan，機器之心編譯

神經網路文本轉語音（TTS）是自然語言處理領域的重要方向，很多谷歌的產品（如 Google Assistant、搜索、地圖）都內置了這樣的功能。目前的系統已經可以產生接近人聲的語音，但仍然顯得不夠自然。在最近發表的兩篇論文中，谷歌為自己的 Tacotron 系統加入了對韻律學的建模，以幫助人們利用自己的聲音進行個性化語音合成。

最近，谷歌在基於神經網路的文本轉語音（TTS）的研究上取得重大突破，尤其是端到端架構，比如去年推出的 Tacotron 系統，可以同時簡化語音構建通道併產生自然的語音。這有助於更好地實現人機交互，比如會話式語音助手、有聲讀物朗誦、新聞閱讀器和語音設計軟體。但是為了實現真正像人一樣的發音，TTS 系統必須學習建模韻律學（prosody），它包含語音的所有表達因素，比如語調、重音、節奏等。最新的端到端系統，包括 Tacotron 在內，並沒有清晰地建模韻律學，這意味著它們無法精確控制語音的發聲。這致使語音聽起來很單調，儘管模型是在字詞發音有明顯變化的極具表現力的數據集上訓練的。今天，谷歌共享了兩篇新論文，有助於解決上述問題。

谷歌 Tacotron 的第一篇論文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介紹了「韻律學嵌入」（prosody embedding）的概念。我們加強了附有韻律學編碼器的 Tacotron 架構，可以計算人類語音片段（參考音頻）中的低維度嵌入。

我們為 Tacotron 增加了一個韻律學編碼器。上圖的下半部分是原始的 Tacotron 序列到序列模型。技術細節請詳見我們的第一篇論文。

該嵌入捕捉獨立於語音信息和特殊的說話者特質的音頻特徵，比如重音、語調、語速。在推理階段，我們可以使用這一嵌入執行韻律學遷移，根據一個完全不同的說話者的聲音生產語音，但是體現了參考音頻的韻律。

嵌入也可以將時間對齊的精確韻律從一個短語遷移到稍微不同的短語，儘管當參考短語和目標短語的長度和結構相似時，該技術效果最好。

令人激動的是，甚至當 Tacotron 訓練數據不包含說話者的參考音頻時，我們也可以觀察到韻律遷移。

這是一個很有希望的結果，它為語音交互設計者利用自己的聲音自定義語音合成鋪平了道路。你可以從網頁上試聽所有的音頻。

Demo 鏈接：https://google.github.io/tacotron/publications/end_to_end_prosody_transfer/。

儘管有能力遷移帶有高保真度的韻律，上述論文中的嵌入並沒有將參考音頻片段中的韻律與內容分開。（這解釋了為什麼遷移韻律對相似結構和長度的短語效果最佳）此外，它們在推斷時需要一個參考音頻片段。這引起了一個自然的問題：我們可以開發一個富有表現力的語音模型來緩解這些問題嗎？

這正是我們在第二篇論文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》中所要做的。在第一篇論文的架構之上，我們提出了一種建模潛在語音「因素」的無監督新方法。這一模型的關鍵是其學習的是較高層的說話風格模式而不是時間對齊的精確的韻律學元素，前者可在任意不同的短語之中遷移。

通過向 Tacotron 多增加一個注意機制，使得它將任何語音片段的韻律嵌入表達為基礎嵌入固定集合的線性組合。我們把這種嵌入稱之為 Global Style Tokens (GST)，且發現它們能學習一個聲紋風格中的文本無關變化（柔軟、高音調、激烈等）——不需要詳細的風格標籤。

Global Style Tokens 的模型架構。韻律嵌入被分解成了「style tokens」，從而做到無監督的風格控制和遷移。更多技術細節，請查看文後論文。

在推理時間，我們可以選擇或者調整 tokens 的結合權重，讓我們能夠迫使 Tacotron 使用特定的說話風格，不需要參考語音片段。例如，使用 GST，我們能創造出語音長度多樣化的不同語句，更為「活潑」、「氣憤」、「悲傷」等：

GST 文本無關的特性使得它們能更理想的做風格遷移，採用特定風格的語音片段，將其風格轉換為我們選擇的任意目標語句。為了做到這一點，我們首先推理預測我們想要模仿風格的 GST 組合權重。然後，把這些組合權重饋送到模型，從而合成完整的不同語句，即使長度、結構不同，但風格一樣。

最後，我們的論文表明，Global Style Tokens 不只能建模說話風格。當從 YouTube 未標記聲紋的雜訊語音上訓練時，帶有 GST 的 Tacotron 系統能學習表示雜訊源，把不同聲紋區分成獨立 tokens。這意味著通過選擇在推理中使用的 GST，我們能合成沒有背景雜訊的語音，或者合成數據集中特定未標記聲紋的語音。這一激動人心的成果為我們打開了一條通向高延展且穩健的語音合成之路。詳情可參見論文：Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis。

對以上介紹的兩種研究的潛在應用和機遇，我們非常興奮。同時，也有很多重要的研究問題亟待解決。我們期望把第一篇論文中的技術擴展到在目標聲紋的天然音域範圍中支持韻律遷移。我們也希望開發一種技術能夠自動從語境中選擇合適的韻律或者說話風格，例如結合 NLP 和 TTS。最後，雖然第一篇論文提出了一種做韻律遷移的客觀與主觀標準，但我們想要進一步的開發，從而幫助簡歷韻律評估的普遍可接受方法。

論文 1：Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

論文鏈接：https://google.github.io/tacotron/publications/end_to_end_prosody_transfer/Towards%20End%20to%20End%20Prosody%20Transfer%20for%20Expressive%20Speech%20Synthesis%20with%20Tacotron.pdf

在此論文中，我們提出了對 Tacotron 語音合成架構的擴展，讓它能夠從包含想要韻律的聲學表徵中學習韻律的隱藏嵌入空間。我們表明，即使參照聲紋與合成聲紋不同，這種條件的 Tracotron 學習嵌入空間合成的語音在時間細節上極其匹配參照信號。此外，我們在文中展示了可使用參照韻律嵌入來合成不同於參照語句的文本。我們定義了多種定量以及主觀性的度量標準，來評估韻律遷移，且隨韻律遷移任務中的 Tacotron 模型採樣自單個說話人和 44 個說話人的語音樣本一起報告了結果。

論文 2：Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

論文鏈接：https://google.github.io/tacotron/publications/global_style_tokens/Style%20Tokens%20Unsupervised%20Style%20Modeling%20Control%20and%20Transfer.pdf

在此研究中，我們提出了 global style tokens」(GST)，一個由 Tacotron 共同訓練的嵌入庫——後者是目前業內最佳的端到端語音合成系統。該嵌入的訓練沒有明確的標籤，但仍然為相當廣泛的語音表達能力進行了建模。GST 引出了一系列重要結果，其生成的軟可解釋「標籤」可以用於以全新的方式控制合成，如獨立於文本長度地合成不同速度與講話語調的聲音。它們也可以用於進行風格遷移，從單一語音剪輯中複製出說話風格，並用於整段長文本語料中。在經過充滿噪音、無標籤的數據訓練之後，GST 可以學會區分噪音和說話人的聲音，該研究為高度可擴展且具有魯棒性的語音合成打開了道路。

同時，谷歌也將自己的語音合成技術在 Google Cloud 平台上開放，我們現在可以在多種應用中植入 Cloud Text-to-Speech，如讓物聯網設備對人類的指令做出應答，或製作自己的有聲讀物。

鏈接：https://cloud.google.com/text-to-speech/

目前，該服務包含 32 種音色，支持 12 種語言。谷歌宣稱其服務對 1 秒鐘時長的語音反應速度僅為 50 毫秒，而價格為每處理 100 萬字 16 美元。

原文鏈接：https://research.googleblog.com/2018/03/expressive-speech-synthesis-with.html