語音也有DNA，智能語音合成（TTS）新領地：快速語音模仿技術 | 機器語音

05-17

來自專欄九三智能控

點擊藍色字體，關註：九三智能控

近年來，一種快速語音模仿技術開始萌芽，並且在Google、Baidu等公司的相關業務領域有所建樹，這也是語音合成領域一個很重要的突破點，未來可能會孵化出一片新的應用市場，應該引起行業內人士的重視。

「清明時節雨紛紛，路上行人慾斷魂。借問酒家何處有？牧童遙指杏花村。」——杜牧的一首《清明》，寫出了人們對逝去親人的思戀之情。明天就是清明節了，每年此時，人們對逝去情人的思戀會更加濃烈，雖然有各種不舍和不願，可生老病死和各種不幸的發生，又是不可改變的事實。

但是，AI技術越來越成熟，難道不能做點什麼嗎？小編在想，如果有一種手段能將親人的聲音特徵留下來，並且藉助越來越成熟的語音合成技術，通過某種方式讓機器能用親人的聲音和自己聊天，是不是會讓你覺得親人並沒有離去，而是在你的身邊呢？就像很多相聲小品演員一樣，經過長期的鍛煉，可以模仿出某個人的聲音，而機器應該也可以做到，不過機器的學習時間會做到更短，這正是機器學習和人工智慧的優勢所在。

近年，一種快速語音模仿技術開始萌芽，並且在Google、Baidu等公司的相關業務領域有所建樹，這也是語音合成領域一個很重要的突破點，未來可能會孵化出一片新的應用市場，應該引起行業內人士的重視。

加拿大琴鳥（Lyrebird）公司

2017年4月，加拿大新創公司琴鳥（Lyrebird）發布了新款人工智慧（AI）語音系統，其能通過分析講話錄音和對應文本以及兩者之間的關聯，在1分鐘內模仿人類「講話」，比如，模仿特朗普、奧巴馬和希拉里三個人的聲音展開一段對話。（https://lyrebird.ai/demo/ ，需要翻牆）

Lyrebird公司的AI使用了一種全新的語音合成系統，能在「傾聽」過程中「掌握」每個人說話時字母、音位和單詞的發音特點，通過推理並模仿這個人聲音中的情感和語調，「說」出全新的語句。Lyrebird公司創始人亞歷山大·布雷比松說：「神經網路能夠從聲音樣本中抓取關鍵特徵，如音色、音調、音節、停頓等等，而這些關鍵特徵足夠定義一個人的聲音，這跟人們根據聲音判斷說話者是一個道理。」布雷比松把這些關鍵特徵比作聲音的DNA。

Lyrebird公司與Google頗有淵源，它是谷歌在加拿大蒙特利爾大學建立的人工智慧實驗室（MILA）成立。早先Google旗下的DeepMind曾經公布了一個用AI合成人聲的研究成果：WaveNet，它與人類的發音非常相似，不仔細聽可能都會騙過你的耳朵。

百度AI語音鏡像

近日，一位Baidu工程師深夜進行「鏡像語音」內測的小視頻，在科技圈引發熱議。在這段視頻中，這位工程師用一台電腦啟動了機器人的「語音鏡像能力」，並在極短時間內構建了語音提取學習模型和語音合成應用。這段視頻令人稱奇的是，在與工程師經過一段時間的對話交流後，小度機器人冷不丁地以工程師的聲音脫口而出：「不想聊，想吃水煮魚嗎？」，而機器人所說的「水煮魚」梗，來自於對話開始時工程師所說的「午餐吃了水煮魚」。視頻中顯示，工程師用手機記錄的測試內容，雙方的對話時間僅有9分37秒。也就是說，這種內測中的語音鏡像技術，能讓機器設備在極短時間內完成實時語音學習和合成。

結語

快速語音模仿技術技術應用場景極廣，如投入應用，將在諸多日常生活場景中，給需要關懷和陪伴的人多一份溫暖。比如：偏遠山區的留守兒童、異地戀的情侶、子女常年在外打拚的空巢老人……都不用再苦苦等待，隨時隨地都有他們熟悉的聲音陪伴，有傳言稱，各大科技巨頭均在布局該技術。

參考來源

搜狐科技：http://www.sohu.com/a/141487400_337363

搜狐科技：http://www.sohu.com/a/226919531_100135269

微信群&交流合作

加入微信群：不定期分享資料，拓展行業人脈請在公眾號留言：「微信號+名字+研究領域/專業/學校/公司」，我們將很快與您聯繫。
投稿（無稿費）、合作請留言聯繫。

http://weixin.qq.com/r/AC91bd-EloLprZsO93oS (二維碼自動識別)