看似福音的AI配音，也會邪魅一笑

05-16

文 | 楊蘇穎

來源 | 智能相對論（ID：aixdlun）

在前文字時代，聲音曾經是人類唯一的交流工具。由於聲音的傳播距離非常有限，所以那個時候人類的生存以「部落」為單位，關係十分緊密。後來隨著傳播媒介的一步步發展，我們開始不再需要彼此近距離交流就能獲得大量信息，反而，卻開始突然懷念單一的聲音帶給我們的感覺，這種最原始的媒介承載著人類最充沛的情感。

今年1月份，世界首部利用人工智慧模擬人聲的紀錄片在央視播出，而這部名為《創新中國》的紀錄片解說詞卻全程是由在2013年就「已逝」的聲音完成的。這個奇蹟的背後是科大訊飛利用語言合成技術成功幫AI模擬出了我國已故著名配音演員，語言藝術家李易的聲音。

科大訊飛強勁的語言合成技術讓AI模擬的聲音成功打動了李易老師的學生、朋友和家人。在AI自然流暢的語言解說當中，似乎還能再見故人的音容笑貌。科大訊飛這項語音合成技術主要由三個步驟構成：

一是輸入文本，讓機器模擬人對自然語言的理解過程，對文本進行語言處理，主要包括文本規整、詞語切分、語法語義分析，然後給出後續步驟所需要的發音提示；

二是規劃音段特徵，比如音調、音長、音重等等，讓機器可以對語言的特有韻律進行處理，使機器模擬的聲音更自然並且更準確地傳達實際語義。

最後根據前兩部分處理的結果進行語音合成即可。通過這幾個步驟，AI模擬的聲音與人聲已經非常相似，即使是最熟悉的人在某些情況下也很難分辨機器人與人聲的界限。

AI配音拉動的兩駕「馬車」

那麼這麼驚艷的人工智慧配音技術，它的邊界究竟能夠延伸到多遠的地方呢？智能相對論分析師（aixdlun）楊蘇穎就此提出了人工智慧配音的兩個用武之地。

1、「粉絲經濟」向AI配音伸出「橄欖枝」？

「粉絲經濟」已經成為現在文娛產業經濟增長的主要支柱之一。隨著最近養成類偶像節目的火爆，粉絲對明星投入的情感越來越多，隨之帶動這個群體為明星付費的意願同樣水漲船高。網傳范冰冰弟弟范丞丞在新浪微博發布付費閱讀的自拍，一夜徒手狂賺幾百萬（後遭到經紀人否認）。既然，明星的周邊如此火爆，何不運用配合人工智慧語音合成的VR、AR技術來打造的虛擬范丞丞們，讓他們更真實地出現在粉絲的日常生活當中呢？要深挖中國的粉絲潛力，比起像騰訊視頻之前在明日之子上打造虛擬二次元偶像「荷茲」，聽著現實當中熟悉的偶像聲音叫自己起床，陪自己聊天，這樣的虛擬真人版偶像或許更能得到粉絲認可。

2、AI配音是音也是「葯」

據國外媒體報道，有研究表明，年邁夫婦可能因為一方喪偶而增大死亡率，這種現象被稱為「心碎綜合症」。這項研究由哈佛大學和威斯康斯大學麥迪遜分校的兩位科學家負責，研究結果顯示，男性喪妻後「全因死亡率」的概率增大了18%，女性喪夫後「全死因死亡率」的概率增大了16%。並且我們還可以做一個合理推斷，在其他喪子或者喪雙親的情況下，這種「心碎綜合症」的表現也一定存在，比如在唐山大地震和汶川地震之後。心理學家表示，要想修復這種創傷是非常困難的。但是人工智慧配音的AI或許可以做到呢，它能夠利用過去已有的音頻合成親人的聲音，如果心理醫生說的話能夠用親人的聲音來傳達，也許可以幫助病人更快地走出陰霾。

AI 配音在舞台上也會唱「黑臉」

但是，一切技術都是刀子的翻版，人工智慧配音技術解決問題的同時也會引發新的問題，智能相對論（aixdlun）分析師楊蘇穎認為，這項技術在廣泛落地之前還要接受不少拷問。

1、AI盜用聲音卻能「無罪釋放」？

手機里高德地圖我們足夠熟悉，但大家不知道的可能是其導航應用所採用林志玲聲音其實部分是採用了人工智慧配音技術後期合成的。那麼大家可能覺得語音合成必須得提前去技術公司錄製這樣一段純凈的聲音。

但是事實上，語音合成卻對音頻質量沒有那麼高的要求，利用海量的互聯網音頻也可以實現人聲模仿。Google Research軟體工程師發表論文《Looking to Listen atthe Cocktail Party》採用的全新視聽模型可以在不同噪音之中，把重疊的人聲分離出來，形成每一位說話者單獨純凈的音頻信號。同時，訊飛也提出以全自動無監督方法快速得到單個目標發音人的純凈音庫。

之前伯明翰阿拉巴馬大學的一項調查表明，如果給予AI的的信息足夠多，它可以生成任何人以假亂真的圖片或者視頻。現在個人的聲音已經越來越成為個人身份的標誌之一，對個人聲音利益的侵害也同肖像一樣可能造成個人人格尊嚴和財產利益上的損失。我們知道明星的形象擁有肖像權，如果他們的照片被他人私自用作商業用途時，他們可以一紙訴狀將別人告上法庭維護自己的肖像權。但是目前在我國立法界及學界對聲音權的保護卻仍無統一定論，如果個人的聲音被別人盜用是沒有法律能夠對其進行保護的。

2、AI配音攪局聲紋識別

大家可能聽說過聲紋鑒定，一般來說人的發聲具有特定性和穩定性，雖不能說完全達到了指紋那樣精確的程度，卻仍然有越來越多國家已經把聲紋鑒定作為辨認犯罪嫌疑人的重要手段。

但在GeekPwn2017國際安全極客大賽上，白帽黑客們卻上演了一場與聲紋識別的對弈。現場5組選手有4組根據《王者榮耀》里英雄妲己的聲音樣本，利用AI語音合成技術模擬妲己聲音通過「聲紋鎖」的驗證，成功欺騙了語音驗證系統，這意味著利用個人聲音驗證身份可能沒那麼靠譜。

「聲紋識別」在現實當中用途十分廣泛，離我們最近的有手機聲紋解鎖，另外，在智能家居產品當中，以及公共安全領域，它也有許多落地點。但是當聲紋識別碰上了AI語音合成技術，一場智能的博弈就開始了，一不小心就會打開個人隱私安全的潘多拉魔盒。AI語音合成技術越高明，挾持該技術的人就能越輕而易舉的闖入你的生活。

此外，在警察偵查工作中，原本進行聲紋分析可以判斷說話人的性別、年齡、方言（生活地區）等特徵為偵查提供方向和範圍，但 AI配音的干擾要求刑偵手段需迅速跟上科技發展的步伐，否則聲紋鑒定的有效性就會受到普遍質疑，司法判決的過程也會變得異常艱難，這無疑是為犯罪者提供了另一層保護傘。

3、AI能不能別老和藝術家杠上？

AI配音在《創新中國》中的表現非常令人吃驚，人類激動的眼淚印證了語音合成技術的成功。因此，不禁有人發問，AI配音如果在行業里廣泛應用會否取代傳統的配音演員呢？配音演員由四字組成，不僅重在「配音」，其實亦重在「演員」。今年年初口碑爆棚的綜藝《聲臨其境》在展示了優秀演員的配音功力同時，也讓觀眾看到在配音間里，配音者不僅僅是提供聲音，更要演戲。因為配音必須要符合劇本角色的情緒，甚至包括呼吸的頻率都要對得上。

目前要建立機器的情感識別系統已經非常困難，機器深度學習需要大量數據進行量化分析，而人類情感是最難以被量化的存在。所以更別說讓機器去生產情感從而進行配音表演。配音演員和演員這兩種職業本就異曲同工，所以AI配音取代傳統配音演員獨立參與影視劇製作是不可能的。

不過，AI配音代替遊戲配音和讀書配音倒是不錯的選擇。像四平八穩的紀錄片一樣，這類配音並不需要調動太多的情感，就算人工智慧配音需要存在幾種不同的感情色彩，機器學習的量也在可控制的範圍之內，不會像影視劇那樣複雜。

在AI配音這件事情上，有人拍案叫絕，有人憂心忡忡。技術善論技術惡論的對峙不會停止，但是只要控制的閥門還掌握在人類的手中，一切就不會那麼糟。

【完】

智能相對論（微信id:aixdlun）：深挖人工智慧這口井，評出鹹淡，講出黑白，道出vb深淺。重點關注領域：AI+醫療、機器人、智能駕駛、AI+硬體、物聯網、AI+金融、AI+安全、AR/VR、開發者以及背後的晶元、演算法、人機交互等。