目前，人工智慧語音在說中文時的語氣感覺上還比較機械，怎樣使人工智慧語音的語氣更自然一些？

01-11

比如說有真人的抑揚頓挫？感覺上，讓人工智慧學習發音和學習語氣是兩個不同的過程？

我覺得，與其說發音和語氣說成是分開的兩個過程，不如說是合成目標的兩種層級。發音清晰是首先需要解決的問題，是解決讓用戶聽不聽得懂的問題；而語氣自然不自然則是更高層級的問題，是要使得合成語音聽起來就是一個真人在說話。

目前主流的TTS都是數據驅動的，抑揚頓挫的感覺必須從聲優的錄音數據中學習出來。要對語氣進行建模，對錄音數據量的要求一定更高，因為畢竟變數增加了，要做好，一定需要更多的學習數據。

合成本身是從簡到繁的數據產生問題。僅僅看TTS的一頭一尾：輸入的是文本，最終輸出的是語音，這是一種1對多的產生式問題。用人來舉例子，一句文字，放在電影劇本中，讓同一個演技派演員來表演，都能用多種表達方式展現給導演。何況現實中，每句話的上下文，說話對象，情緒，場景都會發生變化。因此文字擺出來，可以有各種各樣的表達方式，每一種表達對人來說都是自然的，那讓機器怎麼學？學哪一種呢？

據我所知，現在通常的做法是，訓練時需要先對數據進行更加細緻的描述。訓練數據的標註就是要把發音中的不同語氣現象描述出來，然後再送給模型訓練演算法進行學習。常見的語氣相關的數據描述包含但不限於下面這些：韻律邊界，重音，邊界調，甚至情感。還有更多的信息甚至是難以客觀描述的，目前的演算法只能暫且忽略。

上面講的都是訓練時的工作，在語音被合成的時候，還要從文字中將這些數據描述信息預測出來。告訴AI用哪種表達方式來讀，然後才用模型生成對應的語音。預測的不準確通常是造成合成不自然現象的首要原因。

個人認為，從原理上來說，如果有足夠大的訓練數據，涵蓋了足夠全面的語氣現象，再經過詳細的數據描述，這樣訓練出來的模型是能支持合成各種變化的語氣的。並且隨著各種訓練數據量的增加，能夠有越來越好的自然度。

但是實際情況中，數據的積累是很慢的（畢竟數據標註的難度擺在那裡）。通常的做法是讓錄音包含的語氣逐步進行擴充。首先選擇產品最通用的語氣情感，然後逐步放開限定範圍，增加相應的變化。對於人工智慧助手產品來講，這是一種比較自然的進化過程。

最後，最新的end－to－end的TTS也許能將數據描述的學習過程直接從未標註數據中學到。將來的數據描述可能不需要像今天這麼細緻，但我覺得很大的可能性是：還是要有一些基礎的描述信息，來輔助機器學習建模。但是，一旦能夠放鬆對數據描述的依賴，數據量的增加就變得及其容易，合成的性能就能有真正本質性的提升。

ps. 母語比外語更難提高語氣自然度。因為人類被母語訓練的太熟了，不僅僅能從母語中聽到語義的內容，還能從語氣，節奏中聽出話外的意思。這就造成語音中一點點的語氣不自然都能被母語用戶聽出來。

這個問題我們在跟很多中國語音方案提供方聊天的時候都有說到過，人工智慧感覺很機械，除了語氣語調外，還有一個很重要原因來自情感交互的確實。

以 Alexa 為例，為了讓 Alexa 擁有「人」的性格，亞馬遜找了三個女性來做性格塑造：

Alexa 的原始回應組織：由擁有創意寫作碩士學位的米歇爾·里根-蘭森負責；
讓回應趨近消費者的期望：由專門從事人格科學研究的心理學畢業生法拉赫·休斯頓負責；
Alexa 辭彙庫的熱門事件篩選更新（比如超級碗賽事等）：由擁有自然語言處理專業知識的數學家貝絲·霍爾姆斯負責。

另外呢，米歇爾·里根-蘭森手下還有一大幫劇作家、詩人、小說家和音樂家，他們每一周的「出品」都會被整合到 Alexa 的人格設定裡面去。。。

在這麼強大的「人格團隊」支撐下，Alexa 長成了一個相對比較像「人」的語音助手。但是，目前很多的中文語音助手的數據累積比較少，所以機械感會便重一點。

不過呢，雖然資料庫不如亞馬遜，但很多中文語音助手提供方在 VUI 花了很大心血，特別是問答的選擇，AI 能夠實現對用戶習慣的長期學習，為用戶過濾、篩選掉不必要信息以提高命令下達、執行的效率。

隨著資料庫和技術的逐步強大，人工智慧會越來越像人的吧。。。。。。。。。

參考文章：Rokid 新品 Pebble 天貓正式開售，成為中國版的 Echo 只是時間問題嗎？

個人感覺siri比較生硬，男版比女版強點。小冰靠賣萌的語氣掩蓋的比較好。cortana（拼對了嘛）沒用過不評價。

我覺得並不是單單中文的就生硬了，只是對別的語言我們很少熟練到能分辨是否生硬。。。

祭個萬年老圖吧

PS 我其實覺得siri英文語氣也怪怪的，然而前面都說到這個份上了，會不會被打。。你們就當我裝B好了

日語中有個詞叫「棒讀」，本來是用來形容演員的對白沒有感情起伏，就像在朗讀一樣，現在的閱讀軟體在朗讀時的效果其實就類似於棒讀。

在日本甚至有一個軟體的名字就叫做「棒読みちゃん」2333333333

我們在讓程序朗讀文本時並不會在乎它是否棒讀，但在人與人工智慧通過語音進行交流的時候，棒讀的問題就很嚴重了（調戲siri不算）。

想像一下下面的場景：

女：今天我打扮得可愛嗎？

男：嗯，很可愛呢。

這沒有問題，我們再換一個場景：

某姑娘今天要同男友約會，花了一個小時打扮，然後她問智能管家：「今天我打扮得可愛嗎？」

只聽智能管家用朗讀的語氣一個字一個字地讀道：「是的，可愛極了。」

有沒有感覺到一股嘲諷的氣息鋪面而來呢？

是的，嘲諷。一句夸人的話，用朗讀的語氣說出來，立馬就變成嘲諷了，表達出了和說的內容完全相反的意思。

其實人與程序說話時的區別並沒有想像中那麼大，畢竟程序的語音也是找人錄的，為什麼我們會認為程序的朗讀是機械的，而人說的話是自然的呢？機械與自然的區別究竟在哪兒？

用音頻軟體分析一下就知道，無非就是以下幾點：

1、人在說話時字與字之間間隔的時間不一樣。

很多朗讀程序會刻意縮短或拉長某些字或詞之間的間隔，以免發音過於機械，但如果每次出現某個詞時，兩個字的發音間隔以及音高變化都是相同的，還是會給人一種不自然的感覺。

2、同一個音調的字，甚至同一個字在不同地方，它們的音高存在差異。

最簡單的例子，出現疊字的時候，程序在朗讀這兩個字時的發音往往是完全相同的，這是最機械的表現；而人在說話時，哪怕僅僅是連續出現兩個一聲的字，雖然每個字單獨拿出來看，它們的音高都沒有變化，但整體上一定會有音高的起伏。

3、同一個漢字（非一聲），音高變化的幅度和速率不同，也會給人不同的感覺。

比如我們在讀二聲的漢字時有一個音高從低到高的滑動過程，但不同的語氣環境下，甚至相鄰的兩個字，音高滑動的幅度和速率也可能會相差一倍以上。

以上三點其實並不難解決。如果給出一段人的語音素材作為示範，很容易就能將程序朗讀出的類似的話語處理成相同的語氣，並給人「自然」的感覺。

所以我認為，只要有足夠的語音素材進行訓練（甚至可以用男聲去訓練女聲），涵蓋了各種情景下可能用到的各種對話，人工智慧就能用自然的語氣與人進行日常對話了。

這個工程可能比想像中的還要小，畢竟，在人類的大多數日常對話中，所說的僅僅只是套話而已。

Cortana用戶表示沒有這種感覺。

郭德綱導航？

補充下：看到有人回答方言，我用的手機app咪咕閱讀就有廣東話、四川話、東北話、湖南話可以選擇，有興趣的人可以試試，迷羊帶感

剛好今年跟進了語音類項目，學到一些淺薄的知識，你的這個問題，我有兩個建議：

1：採用人工錄音，比如林志玲姐姐的錄音。

2：錄音一部分，比如志玲姐姐的聲音，然後構建聲學模型模擬志玲姐姐的聲音和語氣，合成大量語音。

使合成語音更具有表現力，擺脫平鋪直敘應該滿足以下條件：

1、情感豐富的大數據，如：更自然的發音、更豐富的情感、更高更強的表現力

2、新技術的應用

? 深度神經網路技術已經成功應用到韻律模型、聲學模型預測，並集成端到端的語音合成模型；

? 彈性單元挑選技術，讓合成語音更逼近真人發音；

? 立足於大量數據的文本分析技術讓合成系統更理解人類的語言；

3、強需求應用場景，如：語音導航、小說播報、個性化需求等。

高德地圖不是就可以選擇台灣波多老師語音嗎

不是生硬才酷么？跟人完全一樣，有啥意思

提一個更高的要求，能不能通過語音合成讓人工智慧唱歌，比如讓Siri唱"忘情水"！

個人覺得，如果都改成賣萌或者高冷女王攻一類的音的話，就可以在現有情形不變的情況下聽起來不那麼生硬了……

智能語音是人工智慧的一部分，隨著人工智慧的發展，智能語音交互會越來越逼真，讓人感受不到是智能機器人在交流，

個人感覺就需要人為干預了，再智能的大數據智能識別還是離不開人工去校對，，，速錄俠這個人工翻譯的軟體值得推薦

抱吃。

套吃。

胸市。

現在的這些語音應該大部分還都是考預先錄製的，錄的越多越豐富，才能再考慮抑揚頓挫的問題。

如果採用合成方法的話讓人手弄都不方便（某VOCALOID菜雞的感慨）

我覺得語氣這個東西在人工智慧成熟以前還是不要要求太高。畢竟語音助手可沒法判斷語境

我一直也跟題主感覺相同，直到有一次在北京的的士上親耳聽到郭德綱語音包

沒有啊，科大訊飛做的挺好。不過相對於英文的中文語音是差點。上次聽他們介紹是都是人錄的，錄入也很多真人語音素材。然後合成的時候就基於原有的語音素材進行合成，有的時候你會發現詞的發音特別準確而句子不太順這是因為句子是由多個片段合成，片段之間不太銜接。但是現在科大訊飛做的已經不錯了。至於其他的細節什麼我就不太清楚了。

單字(逐字)發音肯定覺得生硬，解決辦法之一:也對片語和短語、日常用語特別是疑問句等預先錄好音，並建立一套能識別它們的預處理系統。這樣情況會好很多。我是站著說話不腰疼，不用理我。