實景照片秒變新海誠風格漫畫:清華大學提出CartoonGAN

實景照片秒變新海誠風格漫畫:清華大學提出CartoonGAN

來自專欄機器之心295 人贊了文章

選自CVPR 2018,作者:Yang Chen、Yu-Kun Lai、劉永進,機器之心編譯。

使用漫畫風格重現現實世界的場景對於畫師來說是一項費時費力——很多時候卻又不得不做的工作。AI 能不能幫助我們解決這個麻煩?近日,來自清華大學、卡迪夫大學的研究者們提出了 CartoonGAN,它可以用真實景物的照片作為源圖片,生成任意風格的「漫畫」,從新海誠到宮崎駿……只要拿來一組帶有所需風格的示例漫畫圖片訓練之後即可開始「轉換」。該研究的論文已被 CVPR2018 大會接收。

CartoonGAN 的預訓練模型,其中包括宮崎駿、細田守、今敏(動畫電影《紅辣椒》)和新海誠風格:cg.cs.tsinghua.edu.cn/p

漫畫是在日常生活中我們能夠廣泛接觸到的一種藝術形式。除了藝術本身之外,它的適用範圍從出版媒體到兒童教育。和其他藝術形式一樣,很多著名的漫畫形象都是基於現實世界的場景創作的。下圖展示了真實世界火車站的場景,在動畫電影《你的名字。》中也出現了相應的漫畫形象。

然而,使用卡通風格手繪重現現實世界的場景是一個費時費力的工作,而且需要很多專業的繪畫技能。為了獲得高質量的畫面,原畫作者必須仔細繪製每個線條,並對目標場景的每種顏色區域進行塗色。目前看來,具有標準特徵的現有藝術編輯軟體和演算法無法產生令人滿意的漫畫效果。因此,如果有專業技術能夠自動將真實世界的照片轉換為高品質的漫畫風格畫面,對於畫師來說是非常有幫助的一件事:這可以為他們節省大量時間,讓他們專註於更有意義和創造性的工作。風格遷移工具也可以為 Instagram 和 Photoshop 等圖像編輯軟體提供新功能。

圖 1. 漫畫風格的一個示例:(a)是真實世界的一個場景,其漫畫形象出現在動畫電影《你的名字。》中。(b)是 CartoonGAN 將照片轉換為漫畫風格的結果。請注意:模型訓練數據中並不包含任何《你的名字。》電影中的圖片。

以藝術方式對圖片進行處理的研究一直是計算機視覺的熱門方向。此前的傳統方式通常針對特定樣式開發特定的演算法。然而,這意味著需要做出大量技術上的努力才能做出模仿個人藝術家的細緻風格。最近,基於機器學習的風格遷移方法,因為其可以通過示例圖片對圖像進行風格化,已經引起了很多人的關注。特別是生成對抗網路(GAN),其引入了循環方式訓練進一步探索並提高了風格遷移的質量,GAN 的獨特之處在於可以使用不成對照片和風格化圖像進行訓練。

儘管基於學習的風格遷移已經獲得了很大成功,但最先進的方法仍無法生產具有可接受質量的漫畫風格圖像。究其原因,首先,漫畫風不是添加紋理和邊界線,而是需要從現實世界圖像的複雜構造中高度簡化;其次,儘管藝術家之間風格各異,但卡通圖像具有一些明顯共通之處:邊緣清晰、顏色遮罩平滑、質地相對簡單——這與其他形式的藝術作品截然不同。

在論文中,清華大學的研究人員提出了 CartoonGAN,一個基於 GAN 的全新照片漫畫化方法。該方法需要一組照片和一組漫畫圖像進行訓練。為了讓訓練數據易於獲得,同時獲得高質量的結果,我們不需要讓兩組圖像互相配對或對應。從計算機視覺演算法的角度來看,漫畫風格化的目標是將照片流型映射到漫畫流型中,同時確保其中的內容不變。為了實現這個目標,研究人員提出了專用的 GAN 架構,以及兩個簡單有效的損失函數。

研究人員稱,CartoonGAN 的主要貢獻在於:

  1. 提出了一個專用的基於 GAN 的方法,可以有效地學習使用不成對的圖片集進行訓練,對現實世界照片和漫畫圖像建立映射。新方法可以生成高質量的風格化漫畫,這大大超越了現有最佳技術的能力——當來自特定藝術家的漫畫圖像被用於訓練時,新方法可以忠實重現他們的風格。
  2. 在基於 GAN 的體系結構中提出兩種簡單而有效的損失函數。在生成網路中,為了應對照片和漫畫之間的實質風格差異,研究人員在 VGG 網路的高級特徵映射中引入了定義為?1 的稀疏正則化語義損失。在鑒別器網路中,作者提出了推進邊緣的對抗損失,以保證清晰的邊緣。

  3. 作者進一步引入了一個初始化階段來改善網路到目標流形的收斂。新的方法比現有的訓練方法效率要高很多。

在 CartoonGAN 中,生成器網路 G 用於將輸入圖像映射到漫畫流型中。在模型經過訓練後,漫畫風格化任務就可以執行了。G 從平卷積階段開始,隨後是兩個下卷積區塊,以對圖像進行空間壓縮和編碼。在這個階段提取有用的本地信號用於下游轉換。隨後使用相同布局的八個殘差區塊來構建內容和流形特徵。研究人員採用了《Perceptual losses for real-time style transfer and super-resolution》中提出的殘差塊布局。最後,通過兩個上卷積塊重構輸出的漫畫風格圖像,這兩個卷積塊包含步長為 1/2 的分步卷積層和一個 7×7 內核的最終卷積層。

為了與生成器網路形成互補,鑒別器網路 D 用於判斷輸入圖像是否是「真實的」漫畫圖。由於判斷圖像是否為漫畫是個要求不高的任務,因此我們使用 D 中參數較少的簡單補丁級鑒別器,而不是常規全圖鑑別器。與圖像分類任務不同,漫畫風格鑒別任務依賴於圖像的局部特徵。所以,鑒別器網路 D 被設計得較淺。在平層之後,網路採用兩個步進卷積塊來降低解析度並編碼用於分類的基本局部特徵。隨後,使用特徵構造塊和 3×3 卷積層來獲得分類返回。在每個歸一化層之後使用α = 0.2 的 Leaky ReLU。

圖 2. CartoonGAN 架構中的生成器與分類器網路,其中 k 是內核大小,n 是特徵映射的數量,s 是每個卷積層的跨步,norm表示歸一化層,ES 表示元素之和。

圖 5. CartoonGAN 生成的不同藝術家漫畫風格:(a)為輸入照片。(b)為新海誠風格。(c)為宮崎駿風格。

圖 6. 邊緣生成的細節。(a)為 NST 使用訓練集中所有圖像訓練後的風格轉換結果;(b)為 CycleGAN 在同一性損失參數下的結果;(c)為 CartoonGAN 的結果。

圖 7. CartoonGAN 與 NST 和 CycleGAN 在新海誠(上)和宮崎駿(下)風格轉換上的比較。Gatys(image 1)和 Gatys(collection)是兩個 NST 的變種,其分別將輸入照片與內容密切近似的漫畫圖片進行訓練,並輸出結果。

論文:CartoonGAN: Generative Adversarial Networks for Photo Cartoonization

論文鏈接:203.187.160.133:9011/op

摘要:在此論文中,我們提出了一種解決方案,能夠將現實場景的圖片轉換為漫畫風格的圖像,這在計算機視覺和計算機繪圖領域都是極具價值與挑戰性的任務。我們的解決方案屬於基於學習的方法,也就是近來以藝術形式做圖像風格化的流行方式。然而,已有的方法不能產生令人滿意的卡通化結果,主要是因為:1. 漫畫風格有自己獨特的特點,高度簡化、抽象化。2. 漫畫圖像有明顯的邊緣、平滑的顏色和相對簡單的紋理,這對當前基於紋理描述器損失函數的方法有極大的挑戰。

在此論文中,我們提出了 CartoonGAN,也就是做漫畫風格轉換的生成式對抗網路。我們的方法採用未配對照片和漫畫圖來做訓練,非常容易使用。我們也提出了兩種適用於漫畫化的兩種全新損失函數:

1. 一個語義內容損失函數,其表述為 VGG 網路中高階特徵映射的稀疏正則化,以應對照片和漫畫之間的風格差異。

2. 一個邊緣提升對抗損失來保留清晰的邊緣。我們進一步引入了初始化階段,來改進網路的收斂達到目標流形。我們的方法也要比已有方法有更高效的訓練。實驗結果表明,該方法能夠從真實圖片轉換為高質量的漫畫圖像(也就是遵循特定的風格,有明晰的邊緣和平滑的描影,且超越了其他頂尖方法。


推薦閱讀:

《86-eightysix-》—— 在生死間綻放的虞美人
你認為涼宮春日是個怎樣的人?
《高達00》劇場版高速勸退補遺
動畫的截屏都有特別的光暈感,請問那種一看就覺得是「動畫截屏」的畫面該怎麼畫出來呢?
愛因茲貝倫家族參戰聖杯戰爭的意義是什麼?

TAG:ACG | 人工智慧 | 計算機視覺 |