用AI讓靜圖變動圖:CVPR熱文提出動態紋理合成新方法

圖畫總是只能表現事物瞬間的形象,而動畫則需要逐幀手繪,費時費力,人工智慧是否能夠幫助我們解決這一困難?近日,來自加拿大約克大學、Ryerson 大學的研究者們提出了使用「雙流卷積神經網路」的動畫生成方法,其參考了人類感知動態紋理畫面的雙路徑模式。該動畫生成模型可以參考相關視頻,讓一張靜態圖片變成效果逼真的動畫。目前,該研究的論文已被 CVPR 2018 大會接收,相關代碼也已公開。

項目展示頁:ryersonvisionlab.github.io

動畫生成效果展示

很多常見的時序視覺模式使用組成元素的外觀和動態(即時序模式變化)的集合進行描述。此類模式包括火、搖曳的樹木和波浪起伏的水。長期以來,理解和特徵化這些時序模式是人類感知、計算機視覺和計算機製圖領域感興趣的問題。之前的研究給這些模式起了很多名字,如渦流運動(turbulent-flow motion)[17]、時序紋理(temporal texture)[30]、時變紋理(time-varying texture)[3]、動態紋理 [8]、紋理運動(textured motion)[45] 和時空紋理(spacetime texture)[7]。本論文作者使用「動態紋理」(dynamic texture)。該研究提出從外觀和時序動態的角度對動態紋理進行因子分析。然後使用因子分解結果完成基於示例紋理輸入的動態紋理合成,從而生成新型動態紋理實例。它還產生了一種新型風格遷移形式,目標外觀和動態可來自不同來源,如圖 1 所示。

圖 1:動態紋理合成。(左)給出一個輸入動態紋理作為目標,本文提出的雙流模型能夠合成一個新的動態紋理,保留目標的外觀和動態特徵。(右)雙流模型使合成結合一個目標的紋理外觀和另一個目標的動態,從而產生二者的合成品。

本研究提出的模型由兩個卷積網路(ConvNet)構成——外觀流和動態流,二者分別經過預訓練,用於目標識別和光流預測。與空間紋理研究 [13, 19, 33] 類似,本文根據每一個流的濾波器輸出的時空數據集,總結輸入動態紋理。外觀流建模輸入紋理每一幀的外觀,動態流建模時序動態。合成過程包括優化隨機初始化的雜訊模式,以使每個流的時空數據與輸入紋理的時空數據相匹配。該架構受到人類感知和神經科學的啟發。具體來說,心理物理學研究 [6] 顯示人類能夠感知動態紋理的結構,即使是在沒有外觀提示的情況下,這表明兩個流是獨立的。類似地,雙流假設 [16] 從兩個路徑建模人類視覺皮層:腹側流(負責目標識別)和背側流(負責運動處理)。

本文提出的對動態紋理的雙流分析也被應用於紋理合成。研究者考慮了大量動態紋理,並展示了其方法能夠生成新型高質量樣本,匹配輸入樣本的逐幀外觀和時序變化。此外,外觀和動態的因子分解還產生了一種新型的風格遷移形式,一個紋理的動態可以與另一個紋理的外觀結合起來。我們甚至可以使用單個圖像作為外觀目標來完成該操作,使靜態圖像變成動畫。最後,研究者通過大量用戶調研驗證了其生成紋理的逼真程度。

技術方法

本文提出的雙流方法包括外觀流(表示每一幀的靜態(紋理)外觀)和動態流(表示幀與幀之間的時序變化)。每個流包括一個卷積神經網路,其激活數據被用於特徵花動態紋理。合成動態紋理是一個目標為匹配激活數據的優化問題。本文提出的動態紋理合成方法見圖 2。

圖 2:雙流動態紋理生成。Gram 矩陣集表示紋理的外觀和動態。匹配這些數據才能實現新紋理的生成和紋理之間的風格遷移。

圖 3:動態流卷積神經網路。該 ConvNet 基於面向時空的能量模型 [7,39],同時經過光流預測的訓練。圖中顯示了三個擴展(scale),實踐中研究者使用了五個擴展。

實驗結果

(動態)紋理合成的目標是讓計算機生成人類觀察者無法區分是否為真實圖像的樣本。該研究同時也展示了各種合成結果,以及大量用戶調研,以定量評估新模型生成圖像的逼真程度。由於生成圖像隨時間變化的特性,本研究的結果多為視頻展示。研究人員表示,該雙流架構是由 TensorFlow 實現的,並使用 NVIDIA Titan X(Pascal)GPU 生成結果,圖像合成的時間介於 1-3 小時之間,每次生成 12 幀,圖像解析度為 256×256。

論文:Two-Stream Convolutional Networks for Dynamic Texture Synthesis

論文鏈接:arxiv.org/abs/1706.0698

摘要:本論文提出了一個用於動態紋理合成的雙流模型。我們的模型基於兩個預訓練的卷積神經網路(ConvNet),分別針對兩個獨立任務:目標識別、光流預測。給定一個輸入動態紋理,來自目標識別卷積神經網路的濾波器響應數據壓縮輸入紋理每一幀的外觀,而來自光流卷積神經網路的數據會對輸入紋理的動態進行建模。為了生成全新的紋理,隨機初始化輸入序列經過優化後,用於匹配輸入紋理的數據與每個流的特徵數據。受到近期關於圖像風格遷移的啟發,同時受益於本文提出的雙流模型,我們還嘗試合成一種紋理的外觀與另一種紋理的動態,以生成全新的動態紋理。實驗表明,我們提出的方法可以生成全新的、高質量樣本,可匹配輸入紋理的逐幀外觀及其隨時間的變化。最後,我們通過深入的用戶研究,對新的紋理合成方法進行量化評估。


推薦閱讀:

假裝在專欄里發乾貨之邏輯回歸
譯文:如何為機器學習索引,切片,調整 NumPy 數組
GBDT實踐
戀愛哲學的數學原理
機器學習:回歸演算法

TAG:人工智慧 | 機器學習 | 深度學習DeepLearning |