如何看待人工智慧用於配音？

01-25

《創新中國》紀錄片用人工智慧復原李易老師的聲音，這項黑科技是新時代的創新還是對人性的挑戰？
AI 語音技術還有哪些落地的方向？
人工智慧語音技術逐漸在人類生活中普及，AI技術得到越來越多人的關注。最近看到央視《創新中國》紀錄片發布會，其中最大的亮點就是這部紀錄片的配音還原了已逝的李易老師的聲音。由此我對合成人聲這項技術提出幾個疑問：
1. 李易老師是著名配音員，音源數據龐大，合成人聲究竟是靠音段拼接還是機器模擬，像老百姓這樣沒有大量音源數據的人可以完成這項技術嗎？
2. 合成人聲最大的問題在於聲音的真實性，而與逝者對話的關鍵就在於情感的表達，它又將如何實現？

3. 合成人聲這項技術可以應用在哪個技術領域以及給人類帶來怎樣的便捷？同時，它是否會像克隆技術一樣給人類帶來某些方面的危機？

感謝邀請。

謝謝您關注到了這部紀錄片的一個亮點：那就是配音還原了已逝的「配音大師」的聲音。這是全球第一部全篇採用人工智慧配音的紀錄片。我們利用了智能語音和人工智慧技術，讓已逝的著名配音藝術家李易老師的聲音重現熒幕，完成了整部紀錄片的配音。

1、想要讓聲音「復活」，必須要藉助語音合成技術。語音合成可以進行超大規模音庫的製作，包括語料設計、音庫錄製、精細切分、韻律標註；同時進行規則統計，以此來針對不同發音人進行細緻調整。這樣合成出來的音頻音質比較好，一般句子的自然度也不錯。

第一個是語音庫的製作過程，第二個是使用語音庫將文本變成音頻的過程。

語音庫的製作首先需要收集對方的需求，確定音色、風格、使用領域、產品特性、角色要求；然後找到配音員試音，根據需求設計試音文本，收集錄音，通過實驗分析確定發音人是否合適做音庫；然後確認實驗效果是否能接受；最後投入音庫生產線，錄音腳本設計、錄音資源訓練、效果優化。

我們的技術團隊與央視紀錄頻道、專業配音團隊通過多次討論後，確認了這項工作的可行性；並且在已故著名配音演員李易家人的授權和支持下，通過選取搜集以往配音紀錄片的可用聲音素材、處理和調優，完成了李易老師的音庫。

在輸入文本後，首先需要按照詞典規則對文本進行語言處理。這個過程主要模擬我們真人怎麼去理解自然語言，主要目的是為了讓機器人能完全明白輸入的文本在說什麼，還要給出機器後面步驟的發音提示。

接著是韻律處理。人們在說話的時候，聲音會根據不同情況有所變化；合成音也需要規劃音高、音長和音強上的的音段特徵，聽起來更加自然、真實。最後根據前兩部分處理結果的要求輸出語音，即合成語音。

考慮到普通人沒有龐大的音源數據，大家可以通過使用我們的「訊飛配音」APP來體驗語音合成技術↓↓

訊飛配音（原名：配音閣）是基於訊飛TTS語音合成技術，同時擁有最優良的音頻製作環境和設備，可以將文字秒變聲音。作為一款通用配音工具軟體，訊飛配音製作簡單、高效，旨在為用戶提供最優質的一站式配音服務。

主要功能：

·合成配音：世界級的語音合成技術，自然度和清晰度已經達到了專業主播水平，能幫助用戶控制成本，提升效率；

·人工配音：業內資深配音老師組成專業配音和後期製作團隊，輔以優良的製作環境和設備，能高效提供最優質的配音作品；

·視頻配音：提供多場景的視頻模板，只需簡單替換視頻中的文字和圖片，便能生成屬於您的專有視頻。

無論是激情飽滿的少年聲，還是沉穩大氣的男神音；無論是知性溫柔的女性音，還是活潑清脆的童聲，以及額外驚喜出現的名人聲音，都盡在你掌握之中；此外，訊飛配音還提供真人錄音的功能，央視播音大事、網路配音紅人等多位權威大咖為你獨家服務。想說什麼就說什麼，想讓誰說就讓誰說！

使用說明：你想知道有關訊飛配音的一切，都在這裡--

訊飛配音官方網站：訊飛配音,國內最專業的一站式配音服務平台

訊飛配音官方微微信：訊飛配音

訊飛配音官方微博：@訊飛配音

2、從語音合成派的發展歷史來看，表現力、音質、複雜度和自然度一直是合成技術所追求的四點。

其中，隨著技術的演進，複雜度、自然度、音質三個方面都已經取得了非常不錯的成績。目前，語音合成給大家留下的最大問題仍然在於合成音的表現力，如何能讓合成音的語氣和情感更加貼近真實、自然？這還是我們需要繼續努力和研究的重點。

根據提供的《創新中國》紀錄片文稿，我們首先利用音庫初步合成了一個小樣。聽到小樣中流出那熟悉的聲音，《創新中國》的配音負責人、李易老師的學生感慨不已，直呼語音合成的效果讓他「老是想掉眼淚」。

為了更好還原配音中的種種細節，讓科技的呈現更有溫度，我們的技術團隊在仔細比對前幾版合成內容後，對字與字之間的黏連度、語句的節奏變化、個別詞語的重音強調和合成後的噪音等問題，進一步實現了演算法層面的針對性優化，改善了發音、韻律、重讀和音質等方面的效果。在此基礎上，攝製團隊通過剪輯優化合成配音與紀錄片的融合，精益求精，力求使紀錄片呈現出最好的效果。

3. 語音合成技術目前可以應用越來越多的領域，比如語音導航、語音助手、電話客服；影視、遊戲的配音、有聲閱讀等等。在鎚子科技2017春季新品發布會上，一個叫做「模擬來電」的功能吸引了不少人的眼光。在某些比較尷尬的時刻，可以通過模擬來電功能設定來電時間、名稱、音色、方言，還可以自定義輸入來電內容，就能用一通以假亂真的電話幫你「逃離苦海」了。這項功能的技術也是來源於訊飛配音。

克隆技術發展到現在，我們的擔憂還有多少？「以假亂真」的聲音會給我們帶來什麼樣的後果？我們只能說，科學技術也是一把「雙刃劍」，在法律系統完善的情況下，它給我們帶來更多的肯定是便捷、高效。

謝邀。

這個算不上黑科技，自從GAN能穩定訓練以後，這種由A數據生成B數據的數據生成方法都不再存在大的障礙，就是找到好的樣本數據和精細調節參數進行訓練的問題了。

1、合成人聲究竟是靠音段拼接還是機器模擬：肯定是機器模型，說白了是數據生成。可以根據文本生成語音，也可以根據語音生成語音，本質上，跟用一張圖像生成另外一張圖像（如生成表情，卡通生成真實圖像，真實圖像生成卡通等等）沒有重大區別。

2、像老百姓這樣沒有大量音源數據的人可以完成這項技術嗎：GAN訓練需要大量數據，沒有數據找公開數據集，沒有數據集就從網上爬，爬不到就沒辦法了。

3、如何實現：定義一個ground true，讓生成的數據跟這個比較，使其最接近。反正所有的機器學習原理都是這個。

4、合成人聲這項技術可以應用在哪個技術領域：簡單的，可以讓自動閱讀不再那麼生硬刻板，複雜的可以開下腦洞，比如戰爭時模仿某個公眾人物的聲音，等等。

5、它是否會像克隆技術一樣給人類帶來某些方面的危機：無論什麼技術都會帶來一定危機，比如生產鋼鐵可以用於戰爭，生產菜刀可以殺人，但這些都可以在法律框架下控制。

關於人工語音智能這方面的黑科技不太懂，坐等各位大神回答～

我覺得聲音可以說是人類的一筆巨大精神財富，同影像、文字一樣，聲音所蘊含的內容同樣可貴。所以我認為復原逝者聲音這個話題其實應該受到更多的社會關注，首先它在心理醫學領域絕對是有一席之地的。很多因痛失親人和愛人造成心理創傷的患者，可依靠合成人聲技術找回逝者聲音，這對他們來說無疑是最大的安慰。很多先天語言障礙的聾啞人，也可依靠此技術合成自己的聲音。

這項技術應用的領域比我們想像的更多，例如應用於電視、電影、遊戲等各領域的配音環節，大大地減少人力支出。還可應用於電子書閱讀以及充當個人助理等各種私人服務，也就是說，王凱、靳東、胡歌這樣的低音炮每天為你讀詩將不是夢。

但它給人類所帶來的後果也是十分可怕，許多國家的司法系統就尤其看重這一點。不法分子可利用這項技術輕易操縱錄音，從而破壞了錄音作為證據的可信度，這對法律無疑也是一張挑戰！

其次請試想一下，假如你的聲音將不具有個性化，也就是說你的聲音不再只是你自己的，它會被各種人盜取合成，危險程度可想而知，如果再出現在各種奇怪的地方…比如…你們懂得！

In a word，合成人聲這項技術將如何應用於人類生活以及如何把握它的尺度還是個未知數。

謝邀。看過一些這方面的文章，但是只是皮毛，簡單說一下看法，「開發該系統的蒙特利爾大學學習演算法實驗室博士後亞歷山大·布瑞比森表示，在學會並模仿了幾個人的聲音後，再模仿任何一個新對象的語音就會變得更快，因此新語音系統不需太多信息，1分鐘足以捕獲某個人聲音的核心特點」。

但是AI作為數據科學的近親，訓練庫越大，演算法越精準也是合理的。所以說沒有大量聲源或許也能模仿出來，也比較逼真，但是聲源越多一定越好。

Affective Computing（情感計算）一直是AI的重要課題，通過計算情感，人類不同情感，音節的音調，音色的改變也是有規律的，所以理論上感情也是可以做到的，但是沒有內心戲，模仿出的情感能達到什麼程度就不得而知了。

便捷就多多了，優化現有的語音助手，語音導航等。麻煩可能就是耳聽為虛的麻煩了。

向虛擬現實方向又走近了一步. 進度條達到了0.01%.

別小看這個進度條, 這個進度條到達100%的時候, 就是黑客帝國矩陣誕生的時候,

計算機模擬虛擬現實世界需要的bit量總量為:

音頻A=20kHz*32bit*2 Ear=1Mbps 的採樣精度, 這個部分已經完成了, 基本100% 模擬么? 差不多了.

V=視頻 4K高清的話, 4k*3k*32bitColor*10Frame*2Eye = 8Gbps

嗅覺細胞按與音頻類似. S=A

味覺按與音頻類似. T=A

全身觸覺按與視覺類似F=V

則目前的進度已經完成了

A, 100%, V, 30%, S, 10%; T, 10% ; F, 10%

所以總進度條為: 0.01%.

(以上數字建議生理神經學家修正補充)

別小看這個進度條, 這個進度條到達100%的時候, 就是黑客帝國矩陣誕生的時候, -- 人類無法知道自己是在現實世界, 還是在睡眠中被綁架到一個矩陣中, 因為所有的感知都無法確認.

唯一防止的方法是, 在自己的一本書上記錄自己一個重要的數字, 以及一個密碼加密的md5值, 一旦懷疑人生, 就回到自己的家中找到這個密碼-- 盜夢空間中稱之為"_圖騰_".

當然如果一個圖騰不夠, 就多選幾個.

問題是, 發現自己在夢中, 在虛擬世界中又能如何跳出呢?

人工智慧都能考上一本，

要我們人類有何用?

畢業就等失業吧。

不失業，遲早也得失業，

這樣，資本家們就能從機器上榨取更多的剩餘價值。何樂而不為?

沒準人工智慧創造下一代了，

確實和克隆有兩拼，控制不好就完蛋的玩意兒。

這簡直是想讓我失業啊哈哈哈哈哈

很多場景下，會有很好的應用，但是法律法規要配套，不然會出亂子。

小編相信人工智慧的發展能夠給社會帶來利好，語音合成本身就有不少的應用場景，比如大家提到的高德導航。題主的案例，操盤者現身說法分享了很多，小編這裡只想補充一點：與逝者對話還言之過早。不說情緒變化預測，對話本身就是一個複雜的問題，基於規則的對話應用面窄，基於數據的多輪對話，雖然有深度生成模型，仍然是需要海量的數據。不過，機器終究不是本人，即便讓機器模擬出本人的思維模式，也未必有意義。