Adobe Project VoCo用的是什麼技術?

Adobe在11月3號展示的新技術,視頻在這裡:
https://www.youtube.com/watch?v=I3l4XLZ59iw

可以根據一個人說話的錄音,合成幾乎以假亂真的任意錄音,號稱Photoshop for audio. 這是什麼黑科技?有沒有相關的paper? 另外有沒有可能短期內出現開源實現?


運用的voice convertion 技術,基本是基於拼接的,論文可參考
https://ccrma.stanford.edu/~gautham/Site/Publications_files/CUTE-icassp_2016.pdf?nsukey=ak6%2BUCmNNC5FCJFdy9Dk0KYUAOuGldi79uJpcanVTMGCUJrKmB%2Bl82T8YBEhl16p0FP0KXZzVKb9ZboVu13kFbElKyNzbI1idohD1jlfnqhjnsUKxsQJb7E8U6HNS0JzoTJFojugDPWLmj7WnDty06NsPW6zK4nEzzcT7tY55Y7FTIrgfwR%2Fq%2BZyqUi%2F2bta


鬼畜技術

據了解國內少數視頻製作人員已經初步掌握了這一最新科技,且運用到實踐中


你添加的標籤,已經基本總結了技術


今早上看到的黑科技,總覺得project voco如果和face 2face結合起來很牛氣~~~


發明此技術的同學是清華大學計算機畢業的,現在在普林斯頓讀博,去Adobe實習做的一個項目,誰有興趣聯繫他?


眾所周知,VoCo是一個新興產品,十分令人所嚮往。
但是根據VoCo的運作,基本可以推測VoCo的應用原理和UTAU簡直可以相提並論。
我們知道UTAU是一個Vocaloid輔助軟體,可以自己製造音源庫進行音調保存和樂曲演奏
我認為,VoCo就是UTAU+oremo(UTAU音源錄製器)的整合版本,但是對於人聲的處理和效果以及後期UTAU對於語音語調進行了類似於Voiceroid(Vocaloid輔助軟體,通過音源自然合成說話語調和語氣,通過符號猜測情緒的軟體)的調製。
總的來說,VoCo將會是第一個語音軟體官方化的軟體,前途無量(順便打那個不知道怎麼把情緒和語音語調語氣情感複製的人的臉)


感覺作為 電台主持人的我要下崗了


雖然聲音可以複製,但是語氣情感的變化如此複雜,要不然聲優和我們怎麼差別那麼大。很好奇如何把情緒複製進去。比如以後的聲優就不需要了嗎,找一個專業的,把他的聲音進行變聲處理,他一個人就能演繹一部劇嗎


在上周舉辦的Adobe MAX 大會上,Adobe公司展示了正在研發中的一款聲音編輯軟體,該軟體被稱作Project VoCo,它可以使語音模型化,讓碎片化的語音像文本一樣可編輯。

從具體的原理來看,你只需對著Project VoCo說20分鐘話,它便會搜集你的語音信息進行分析,將語句分解為音素並記錄下來,隨後創建語音音素模型。利用該模型,你可以像編輯文本一樣編輯出任何完整的語句。尤其值得注意的是,該語音分析工具不需要人工設定時間節點就可以智能分析出說話者的每個音素,這一功能將極大地提高音頻的處理效率。

不過,目前這一合成技術還並不完美,只要你仔細聽,還是可以聽出許多問題來的。但是隨著Adobe公司不斷地改進合成技術,Project VoCo的逼真性會做得更好,該技術在人工智慧領域也一定會給我們帶來更多驚喜。

編譯:劍煒

這是劍煒翻譯的第102篇文章,轉載請註明來源,感謝大家的支持!歡迎關注@創業趨勢海外版

作者:VentureTrends
鏈接:知乎專欄
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。


推薦閱讀:

Adobe 中國認證設計師 (ACCD) 和 ACAA 認證的證書,有何區別,哪個含金量更高?
求辨認圖中的星體?
如何把一張照片用 Photoshop 做成動畫背景效果?
Photoshop 不支持編輯鈔票圖片嗎?
怎麼做相片的日系風格後期調色?

TAG:Adobe | 機器學習 | 自然語言處理 | 聲音識別 | 語音合成 |