你看到的可能是假的奧巴馬?沒錯,還真是假的!

大數據文摘作品,轉載要求見文末

編譯 | 康璐、大力、錢天培

想像生日當天,你收到了一份神秘禮物:你的朋友請奧巴馬給你錄了一段生日祝福視頻——嘴型和聲音完全對得上,肢體動作也相當協調。奧巴馬說著你的名字、你的故事,為你許願,看得你淚眼朦朧:「原來我的小夥伴是個隱形土豪!」這樣的場景是否十分夢幻呢?

華盛頓大學的計算機科學家們正讓這件事情變得有可能。

近日,他們發布了一項有趣的最新研究成果:以現有美國前總統巴拉克奧巴馬的音頻和視頻為原料,用人工智慧的方法製作出以假亂真的奧巴馬視頻。

在此之前,華盛頓大學的計算機科學家已表示,他們可以通過分析網路圖像資料製作人物數字化身(digital doppelg?ngers)。從社會名流,如湯姆漢克斯(《阿甘正傳》的阿甘)、阿諾德施瓦辛格(《終結者》的終結者),到公眾人物,如喬治.W.布希、巴拉克奧巴馬,他們的數字化身都可以被製作出。

在此次研究中,該實驗室將奧巴馬選取為對象是因為網上有大量奧巴馬的高清視頻。這個研究團隊通過神經網路分析了上百萬幀奧巴馬的視頻,用以掌握奧巴馬說話時的面部元素變化,例如嘴唇、牙齒和皺紋的移動。

為了使神經網路學習到嘴型和聲音之間的相互聯繫,研究人員將音頻片段與視頻的原始聲音文件剪輯在一起,製成神經網路學習的數據源。然後,他們把匹配了新音頻片段的嘴型嫁接到了源視頻中。本質上來說,研究人員利用過去幾十年的素材,合成了嘴型和聲音同步的奧巴馬視頻。

研究人員注意到,以前類似的研究大多是通過一遍遍錄製人們說話的視頻來尋找不同嘴型和聲音之間的聯繫。然而,這是一項非常費錢、枯燥又費時的工作。與此相反,這個新方法可以利用已經存在於網路或其他地方的數百萬小時的視頻資料來展開研究,大大節約了成本。

該研究的合作者Ira Kemelmacher-Shlizerman說道,這項新技術的前景之一是為視頻會議提供技術支持。雖然遠程的視頻會議通常伴隨著卡頓、畫面暫停或低解析度的問題,但是音頻通常不會出現問題。因此在未來,視頻會議可能只需要簡單傳輸人們說話的音頻,然後用這個軟體重構出人們說話時候的樣子。這項工作也能在VR和AR應用中用數字化替身的方式幫助人們對話。

此外,他們也期待這項工作能在未來幫助VR(虛擬現實)或AR(增強現實)應用生成人物數字化模型。

研究人員注意到,他們做的假視頻目前還不是盡善盡美。例如在一個目標視頻中,當奧巴馬將臉轉離正對鏡頭方向的時候,他尚有缺陷的臉部三維建模會使他的嘴重疊到臉外的背景上去。此外,奧巴馬也偶爾會長出「雙下巴」。

除此之外,研究團隊也注意到,他們目前的成果還無法模擬情緒變化。因此在假視頻中,奧巴馬的臉部表情可能會在非正式的發言場合顯得太嚴肅,或者在嚴肅的發言場合顯得太隨意。他們表示,用神經網路來預測視頻中的情感變化將會是一個非常有趣的任務。

研究者們也表示,他們很小心地避免了將非奧巴馬本人的音頻製作成假視頻。「但這種連音頻一同偽造的假視頻可能很快就能被製作出來了」,來自華盛頓大學的計算機科學家、該研究的第一作者 SupasornSuwajanakorn說道。也就是說,在文章開頭提到的「奧巴馬為你送生日祝福」的情境很快就能變為現實了。

有趣的是,這項研究提供了假視頻製作的技術支持,同時也啟發了我們檢測假視頻的方法。譬如,在被處理過的假視頻中,人物的嘴部和牙齒會產生局部模糊。Suwajanakorn 說:「這種模糊雖然很難被人眼識別,卻可以被一個比對不同視頻嘴部模糊程度的程序很有效地識別出來。」

在一定程度上,嘴型變化和說話內容之間的聯繫是全人類共有的特徵。因此,用奧巴馬的視頻訓練出來的神經網路模型或許也可以被用到其他人物的假視頻製作上。或許在不久的將來,不需要錄製大量的個人視頻,你也能夠快速製作出你自己的「虛擬人像」。

當那天到來,你的語音將會把你的虛擬影像帶去世界各地,但你或許也會發現「假冒」的自己在各地遊走。當然,也可能會發現正在說freestyle的奧巴馬。

如果一切成真,你會如何看待這項技術呢?歡迎在文末留言說出你的看法。

原文鏈接:spectrum.ieee.org/tech-


推薦閱讀:

中國互聯網大變局:2018年這三個行業將發生重大變化
iPhone X攜人臉識別改變行業,美圖美妝用人臉識別改變女人
教你用 Web Speech API 和 Node.js 來創建一個簡單的 AI 聊天機器人

TAG:人工智能AI酱 | 华盛顿大学UniversityofWashington |