李飛飛CVPR最新論文 | 「文本轉圖」效果優化可多一步:物體關係描述

Root 假裝發自 凹非寺

量子位 出品 | 公眾號 QbitAI

一個設計師拿到簡(mo)單(hu)需求的日常。

幫我做個海報吧。

我要個浪漫的場景,兩個人在海邊走,有日落,海浪,遠山那種。

Source:人類關懷計劃

If有一款神器,可以根據文本生成圖像,快速做出一般客戶需求的海報,設計師們也許就可以把更多的時間用在創意上了。

文本轉圖像演算法

其實已經有了。李飛飛斯坦福團隊今年發表在CVPR論文Image Generation from Scene Graphs就和這個應用相關。

在計算機視覺領域,已經有了不少團隊造出能直接把文本轉成圖像的演算法。此前表現最好的是2017年在ICCV上露面的StackGAN,由港中大和百度研究院共同出品。

我們先來看看它的表現:

第一題:

This bird is white with some black on its head and wings, and has a long orange beak.

「畫一隻白鳥,頭部和翅膀帶點黑shaǐ,還有個很細長的橘黃色喙。」

效果驚人

再來看看第二題:

A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.

「畫兩隻羊站草原上,要有雲,遠方還有海,海上還得有隻船。對了羊後邊還要加棵樹。」

效果感人

對於語義簡單的句子,StackGAN還能hold住,可是句子中有多個物體且位置關係複雜的話,這個生成的圖像完全不能用了。

為了解決這個問題,李飛飛攜團隊,Justin Johnson和Agrim Gupta想出了一個辦法:先把文本處理一下,把句子中的物體及他們的相對位置用一個物體關係圖(Scene Graph)表示出來,然後再交給模型處理。

像這樣。

然後生成出來的圖果然好多了,更貼近真實世界(雖然還有點模糊)。

加一步,多面臨三重挑戰

為了生成更符合物理世界規律的圖像,生成過程中所用到素材必須取自真實世界的圖像。

因此,第一個挑戰就是要構建一個能處理真實圖像的輸入處理器。

除此之外,生成的每一個物體都必須看起來真實,而且能正確反映出多個物體的空間透視關係。

最後一個,就是整個圖中所有物體整合到一起,得是看起來是自然和諧不彆扭的。

訓練過程簡介

先是選Visual Genome和COCO兩個數據集里的圖片作為素材源。只挑那些含有3~8個物體的圖片。

然後把這些圖片人工地給出物體關係圖。像這樣:

然後用模型預測物體之間的位置,大概給出一個圖片元素的布局。

最後根據多個判別模型保證輸出的圖像是符合真實感知的。

整個訓練過程如下圖:

但圖像效果夠不夠真,自己不好說了算。

因此李飛飛團隊在Amazon Mechanical Turk平台上找了人幫忙做評估。和StackGAN相比,合成效果好了一倍。

最後,附論文地址:arxiv.org/abs/1804.0162

你可能感興趣

AI學會視覺推理,「腦補」看不清的物體 | 李佳李飛飛等的CVPR論文

這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+代碼

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

實踐非同步DQN
DIY發現新行星操作指南 | 谷歌開源了行星發現代碼
這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+代碼
人工智慧——狀態機

TAG:計算機視覺 | 人工智慧演算法 | CVPR |