有了這個AI你也能跳出來,人均舞王指日可待。

有了這個AI你也能跳出來,人均舞王指日可待。

來自專欄景略集智5 人贊了文章

自從抖音火起來後,一批魔性舞蹈也跟隨抖音火了起來,海草舞、C哩C哩舞、搓澡舞(好像沒看到過象徵自由的舞蹈?),幾乎每次舞蹈熱潮都會捧紅一些抖音小姐姐。因為大部分國人還是比較內斂含蓄,自己真要舞動身體,還是看起來很拘束和不自在,所以只好到抖音上看小姐姐們跳舞了。但是你有沒有想過,小姐姐們的曼妙舞姿,你也可以一某一樣跳出來?

上周來自加州伯克利的幾位研究人員在 aRxiv 上發表了一篇名為《Everybody Dance Now》的論文,呼喚大家一起來跳舞。在本篇論文中,他們提出了一種新的 AI 演算法,有了它每個人都能跳出自己在現實中跳不出的舞步,哪怕是「亞洲舞王」尼古拉斯·趙四那似魔鬼的步伐。

總的來說,這個 AI 演算法能夠複製舞步,我們只需輸入自己想模仿的舞蹈視頻和自己的視頻素材即可。效果如視頻所示:

https://www.zhihu.com/video/1023601831737507840

方法概要

研究人員在論文摘要中介紹道,他們提出了一種新的簡單方法,根據一個舞蹈源視頻,也就是我們想模仿的舞步,只需幾分鐘就能將該視頻中的舞步遷移到目標人物身上,比如我們自己或其他任何人,讓這個人也能跳出和源視頻中人物一樣的標準舞步。

首先,其中一個子演算法負責將源舞蹈視頻的動作扒下來,並生成一個火柴人似的 3D 動作模型。隨後,演算法會以火柴人模型和輸出視頻為素材,生成一幀幀舞步圖像。最後,另一個

演算法還會專門負責處理圖像的面部表情。

整體而言,這個演算法包括兩部分,其中一個子演算法負責動作部分,它會將源舞蹈視頻中的舞步動作給提煉出來,生成一個類似人物線條畫的 3D 動作模型。然後演算法會以這個火柴人般的動作模型和輸出視頻為素材,生成一幀一幀的舞步圖像。最後再用另一個子演算法專門處理圖像中的人臉部分。

他們將這種舞步遷移問題解析為一種具有時空平滑特點的逐幀圖像到圖像翻譯問題。通過將舞姿檢測用作輸入和輸出的中間表示,研究人員讓演算法學習從舞姿圖像到目標人物動作之間的映射,在後期生成連貫視頻和人臉合成部分都應用了這種設置。

研究人員表示,這種 AI 方法能讓任何未經舞蹈訓練的人在視頻中做出和專業芭蕾舞演員一樣標準的旋轉跳躍動作,或者跳出和當紅明星一樣的舞步。

難點和解決方法

要想讓兩個視頻中的人物實現逐幀遷移,演算法必須學習兩個人物圖像之間的映射,所以研究人員的目標就是要發現源視頻和目標視頻之間的圖像到圖像翻譯。最終他們發現,可以用基於關鍵動作點的舞姿作為兩個人物之間的中間表示。所以他們將中間表示設計為類似火柴人的人物線條畫,如下所示:

他們從目標視頻中獲取了每一幀的舞姿檢測結果,生成了一系列的對應圖像對(舞姿線條畫,目標人物圖像)。有了這些成對的數據後,研究人員就能以監督學習的方式,創建人物線條畫和目標人物圖像之間的圖像到圖像模型。這樣他們訓練模型為具體目標人物生成個性化視頻。

為了優化結果,研究人員增加了兩部分內容:在每一幀以之前時步的預測為條件,以此優化生成視頻的流暢度;另外使用了一個專門訓練的GAN模型為目標人物生成臉部。

圖像到圖像的對抗式訓練

研究人員應用了 Ting-Chun Wang 等人在《High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs》中使用的 pix2pixHD 框架,並在此基礎上做了修改,以生成時空連貫的視頻幀,併合成逼真的臉部圖像。

他們修改了生成單張圖像的設置以增強相鄰幀的時空連貫性,從而創建視頻序列。然後又添加了一個特別訓練的 GAN 為人物的臉部區域添加更精細的內容和真實感。

臉部GAN設置

在訓練階段,生成完整圖像的 GAN 和專門生成臉部圖像的 GAN 沒有一起訓練,而是分開訓練。他們首先訓練模型的主生成器和主鑒別器,訓練完這部分後將完整圖像生成器和鑒別器的權重暫時凍結,然後優化生成臉部圖像的 GAN 模型。

模型架構

在演算法處理的不同階段,研究人員使用了不同的模型架構。在提取人物身體、臉部和肢體關鍵點部分,他們使用了 OpenPose 模型中先進的人體姿態檢測器。

對於圖像到圖像翻譯階段,他們使用了 pix2pixHD 模型。而在人臉處理部分,他們使用了一個 70x70 Patch-GAN 鑒別器用於鑒別人臉。在實際訓練中,又將 LSGAN 模型中的目標函數用於生成完整圖像的 GAN 和生成人臉圖像的 GAN 這兩個模型中。

模型的整體訓練和遷移流程

模型評估&局限性

為了評估演算法生成的單個視頻幀質量,研究人員衡量了生成結果的結構相似度(SSIM)和習得感知圖像匹配相似度(LPIPS)。

他們將人體姿勢檢測器在每個體系的輸出上運行,將這些重構的關鍵點和源輸入視頻中的姿勢檢測結果進行比較,進而分析演算法的生成結果。最終得到了各個部分生成結果的指標得分:

整體來看,AI 模型能夠根據源舞蹈視頻,生成任意時長、合理的模仿視頻,且舞步整體相符。不過我們也應看到模型的局限性,甚至偶爾還會出現嚴重問題。

首先,如果想做出質量好的舞步遷移視頻,模型需要至少 20 分鐘 120 幀的視頻素材。其次,演算法目前還無法處理人物翩翩起舞時的衣服飄逸效果,所以輸出目標得穿著比較貼身的衣服。另外,生成的視頻也會不時出現卡頓現象,甚至有時出現手腳消失的情況。

不過,總的來看,模型複製舞步的效果還是非常不錯的,特別是這種 AI 演算法剛剛提出,達到如此程度實屬不易。等未來優化和擴充訓練集後,相信演算法的生成結果會大幅提高,人人皆可成舞王。

從最初的 GAN 生成明星臉,到 DeepFakes 更換人臉,再到如今模仿舞蹈動作,人工智慧的創造能力正在以超乎我們預料的速度發展。

論文地址:

arxiv.org/pdf/1808.0737


參考資料:

arxiv.org/pdf/1808.0737

推薦閱讀:

8分鐘Keras入門使用指南(中文字幕)
王司圖與你聊聊AI工作的小事兒

TAG:景略集智 | 生成對抗網路GAN | 人工智慧 |