想像力驚人!只憑一句話,AI就能腦補出動漫小片

岳排槐 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

《摩登原始人》你看過么?

這是一道暴露年齡題。

安妮薇,《摩登原始人》是一部首播於1960年的喜劇動畫片。第一季在豆瓣上被2.2萬用戶打出8.7分的評價。

現在,這部想像力爆棚的動畫片,被用來訓練出了一個想像力驚人的AI。有多驚人?看過的人都說鵝妹子嚶~

只需要給一段腳本,或者說文本描述,AI就能腦補生成一段動漫小片。注意!這些動漫小片,都是你沒有看過的全新版本。

生成的方法,就是AI根據描述,從原始動畫片中找到對應的元素,提取出來。然後再調整大小、比例、位置、角度、道具、前景、背景等,重新拼接在一起~

來,直接看展示。

交代一下,Fred、Wilma等都是這部動漫的主人公名字。

腳本:

Fred戴著一頂紅帽子,正走在客廳里。

這是AI生成的視頻:

腳本:

Betty和Wilma在客廳里聊天。她倆坐在沙發上,你一言我一語。

視頻:

腳本:

Fred開車途中,一邊想一邊自言自語。

視頻:

腳本:

Betty在廚房裡打電話。

視頻:

怎麼樣?是不是很厲害?

下面這段視頻,有更多的集中展示。

AI腦補動漫案例集錦_騰訊視頻?

v.qq.com圖標

數據集和模型

AI是怎麼做到的呢?簡單來說,首先得構建一個《摩登原始人》的數據集,這個數據集包括25000個動畫片小段(75幀,約三秒)。

每一小段都經過了密集的標註。

標註信息包括,場景、主要角色的名稱:Fred、Wilma等。對於不常出現的配角,會有人工添加簡單的注釋:警察、穿紅衣的老頭等。

然後,還要藉助SLIC演算法(Simple Linear Iterative Clustering) 、GrabCut自動圖像分割演算法、PatchMatch演算法等對畫面進行分割和重建。

經過這一系列的處理,就構成了AI可以利用的原始素材。

當然重中之重,就是AI模型的構建。

這個模型被稱為Craft(Composition, Retrieval and Fusion Network)。從結構上來說,這個模型長這樣:

主要包括三個部分:Layout Composer(布局編排器)、Entity Retriever(實體檢索器)、Background Retriever(背景檢索器)。

在「腦補」動漫小片時,Craft從空視頻開始,根據腳本描述,依次添加場景中的實體。實體和背景檢索器,會從數據集中搜索合適的素材,而布局編排器會對位置和比例進行調整。

最終上述種種融合,生成一段全新的小片。

上面這張圖,就是布局編排器的工作原理。

當然這中間還涉及很多數學公式啊,實驗啊什麼的。如果你對這些細節感興趣,可以直接前往論文查看。

地址:arxiv.org/abs/1804.0360

這個研究,出自AI2、UIUC等機構的幾名學者之手。

還不完美

當然,當然,現階段,這個研究遠非無懈可擊。

比方,畫面的重建還相對粗糙,能明顯看出拼貼的痕迹。

還有,AI有時會在理解腳本和重建視頻上產生問題。

例如,搞錯姿勢(站著->坐著)、打電話時聽筒位置不對、背景和人物動作不同步等等。還有下面這個案例。

腳本:Wilma正跟Fred講話,而他坐在飯廳的餐桌前讀書。Fred專註讀書,沒聽Wilma在講什麼。

如果你仔細看,能發現兩個人物關係搞反了。

還有更糟的。

對於極端複雜的場景,例如包括三個或以上罕見的實體對象,Craft腦補出來的動漫小騙堪稱「災難」。

就像這樣。

不過,這個研究的意義在於,AI對於文本的理解,以及基於其上的視頻生成。一切還都有進步空間。

更遠一點,也許未來的動畫工作室,不會再有一堆堆天才的動畫師,取而代之的是能快速生成動畫片的AI。

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態

推薦閱讀:

白雪公主與七個小矮人有哪些演員?
《奧特曼》中的奧特曼之父和奧特曼之母有哪些特點?
妄鬼獵殺手札:妄夜(序章:冰與海)
為什麼會起名叫做花魁淵禁區有什麼由來嗎?

TAG:人工智慧 | 神經網路 | 動漫 |