語音也有DNA,智能語音合成(TTS)新領地:快速語音模仿技術 | 機器語音
來自專欄 九三智能控
點擊藍色字體,關註:九三智能控
近年來,一種快速語音模仿技術開始萌芽,並且在Google、Baidu等公司的相關業務領域有所建樹,這也是語音合成領域一個很重要的突破點,未來可能會孵化出一片新的應用市場,應該引起行業內人士的重視。
「清明時節雨紛紛,路上行人慾斷魂。借問酒家何處有?牧童遙指杏花村。」——杜牧的一首《清明》,寫出了人們對逝去親人的思戀之情。明天就是清明節了,每年此時,人們對逝去情人的思戀會更加濃烈,雖然有各種不舍和不願,可生老病死和各種不幸的發生,又是不可改變的事實。
但是,AI技術越來越成熟,難道不能做點什麼嗎?小編在想,如果有一種手段能將親人的聲音特徵留下來,並且藉助越來越成熟的語音合成技術,通過某種方式讓機器能用親人的聲音和自己聊天,是不是會讓你覺得親人並沒有離去,而是在你的身邊呢? 就像很多相聲小品演員一樣,經過長期的鍛煉,可以模仿出某個人的聲音,而機器應該也可以做到,不過機器的學習時間會做到更短,這正是機器學習和人工智慧的優勢所在。
近年,一種快速語音模仿技術開始萌芽,並且在Google、Baidu等公司的相關業務領域有所建樹,這也是語音合成領域一個很重要的突破點,未來可能會孵化出一片新的應用市場,應該引起行業內人士的重視。
加拿大琴鳥(Lyrebird)公司
2017年4月,加拿大新創公司琴鳥(Lyrebird)發布了新款人工智慧(AI)語音系統,其能通過分析講話錄音和對應文本以及兩者之間的關聯,在1分鐘內模仿人類「講話」,比如,模仿特朗普、奧巴馬和希拉里三個人的聲音展開一段對話。(https://lyrebird.ai/demo/ ,需要翻牆)
Lyrebird公司的AI使用了一種全新的語音合成系統,能在「傾聽」過程中「掌握」每個人說話時字母、音位和單詞的發音特點,通過推理並模仿這個人聲音中的情感和語調,「說」出全新的語句。Lyrebird公司創始人亞歷山大·布雷比松說:「神經網路能夠從聲音樣本中抓取關鍵特徵,如音色、音調、音節、停頓等等,而這些關鍵特徵足夠定義一個人的聲音,這跟人們根據聲音判斷說話者是一個道理。」布雷比松把這些關鍵特徵比作聲音的DNA。
Lyrebird公司與Google頗有淵源,它是谷歌在加拿大蒙特利爾大學建立的人工智慧實驗室(MILA)成立。早先Google旗下的DeepMind曾經公布了一個用AI合成人聲的研究成果:WaveNet,它與人類的發音非常相似,不仔細聽可能都會騙過你的耳朵。
百度AI語音鏡像
近日,一位Baidu工程師深夜進行「鏡像語音」內測的小視頻,在科技圈引發熱議。在這段視頻中,這位工程師用一台電腦啟動了機器人的「語音鏡像能力」,並在極短時間內構建了語音提取學習模型和語音合成應用。這段視頻令人稱奇的是,在與工程師經過一段時間的對話交流後,小度機器人冷不丁地以工程師的聲音脫口而出:「不想聊,想吃水煮魚嗎?」,而機器人所說的「水煮魚」梗,來自於對話開始時工程師所說的「午餐吃了水煮魚」。 視頻中顯示,工程師用手機記錄的測試內容,雙方的對話時間僅有9分37秒。也就是說,這種內測中的語音鏡像技術,能讓機器設備在極短時間內完成實時語音學習和合成。
結語
快速語音模仿技術技術應用場景極廣,如投入應用,將在諸多日常生活場景中,給需要關懷和陪伴的人多一份溫暖。比如:偏遠山區的留守兒童、異地戀的情侶、子女常年在外打拚的空巢老人……都不用再苦苦等待,隨時隨地都有他們熟悉的聲音陪伴,有傳言稱,各大科技巨頭均在布局該技術。
參考來源
搜狐科技:http://www.sohu.com/a/141487400_337363
搜狐科技:http://www.sohu.com/a/226919531_100135269
微信群&交流合作
- 加入微信群:不定期分享資料,拓展行業人脈請在公眾號留言:「微信號+名字+研究領域/專業/學校/公司」,我們將很快與您聯繫。
- 投稿(無稿費)、 合作請留言聯繫。
http://weixin.qq.com/r/AC91bd-EloLprZsO93oS (二維碼自動識別)
推薦閱讀:
※在CentOS 7下搭建機器學習環境
※鋼鐵直男的救世主來了!讓AI告訴你妹子到底是啥意思
※「猜你喜歡」—邏輯回歸分類
※如何理解機器學習?