利用條件GANs的pix2pix進化版:高解析度圖像合成和語義操作 | PaperDaily #23
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背後的探索和思考。 在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。 點擊即刻加入社區,查看更多最新論文推薦。
本期推薦的論文筆記來自 PaperWeekly 社區用戶 @Aidon。這個名為 pix2pixHD 的項目來自英偉達和 UC Berkeley,利用條件 GAN 進行 2048 x 1024 解析度的圖像合成和處理。
本文從三個方面對 pix2pix 方法做了改進,還將他們的方法擴展到互動式語義操作,這對於傳統的圖像逼真渲染是一個顛覆性的工作。
如果你對本文工作感興趣,點擊即可查看原論文。
關於作者:鄭琪,華中科技大學碩士生,研究方向為計算機視覺和自然語言處理。
論文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
鏈接 | https://www.paperweekly.site/papers/1278
作者 | Aidon
論文導讀
現有的用於圖像逼真渲染的圖形學技術,在構建和編輯虛擬環境時往往非常複雜並且耗時,因為刻畫真實的世界要考慮的方面太多。
如果我們可以從數據中學習出一個模型,將圖形渲染的問題變成模型學習和推理的問題,那麼當我們需要創造新的虛擬環境時,只需要在新的數據上訓練我們的模型即可。
之前的一些利用語義標籤合成圖像的工作存在兩個主要問題:1. 難以用 GANs 生成高解析度圖像(比如 pix2pix 方法);2. 相比於真實圖像,生成的圖像往往缺少一些細節和逼真的紋理。
本文從三個方面對 pix2pix 方法做了改進:一個 coarse-to-fine 生成器,一個 multi-scale 判別器和一個魯棒的 loss,從而成功合成出 2048 x 1024 的逼真圖像。此外,本文還將他們的方法擴展到互動式語義操作,這對於傳統的圖像逼真渲染是一個顛覆性的工作。
模型介紹
1. The pix2pix Baseline
給定語義標籤圖和對應的真實照片集 (si,xi),該模型中的生成器用於從語義標籤圖生成出真實圖像,而判別器用於區分真實圖像和生成的圖像,該條件GANs對應的優化問題如下:
其中:
pix2pix 採用 U-Net 作為生成器,在 Cityscapes 數據集上生成的圖像解析度最高只有 256 x 256。
2. Coarse-to-fine 生成器
這裡一個基本的想法是將生成器拆分成兩個子網路 G={G1,G2}:全局生成器網路 G1 和局部增強網路 G2,前者輸入和輸出的解析度保持一致(如 1024 x 512),後者輸出尺寸(2048 x 1024)是輸入尺寸(1024 x 512)的 4 倍(長寬各兩倍)。
以此類推,如果想要得到更高解析度的圖像,只需要增加更多的局部增強網路即可(如 G={G1,G2,G3}),具體的網路結構如圖所示:
其中 G1 由卷積前端 ,一系列殘差塊 和一個轉置卷積後端 組成,G2 也由卷積前端 ,一系列殘差塊 和一個轉置卷積(有時也叫反卷積)後端 組成。從圖中可以看到, 的輸入是由 的輸出和 最後一層的 feature map 相加得到,這樣就使得全局信息可以傳遞到G2。
3. Multi-scale 判別器
要在高解析度下區分真實的與合成的圖像,就要求判別器有很大的感受野,這需要更深的網路或者更大的卷積核才能實現,而這兩種選擇都會增加網路容量從而使網路更容易產生過擬合問題,並且訓練所需的存儲空間也會增大。
這裡用 3 個判別器 {D1,D2,D3} 來處理不同尺度的圖像,它們具有相同的網路結構:
4. 改進的 adversarial loss
由於生成器要產生不同尺度的圖像,為使訓練更加穩定,這裡引入特徵匹配損失:
其中 表示判別器 Dk 提取的第 i 層特徵,T 為總的層數,Ni 為該層總元素的個數。於是,總的目標函數如下:
5. 學習 instance-level 的特徵嵌入
當前的圖像合成方法都只利用了 pixel-level 的語義標籤圖,這樣無法區分同類物體,而 instance-level 的語義標籤為每一個單獨的物體提供了唯一的標籤。
文章指出,示例圖(instance map)所提供的最重要的信息其實是物體的邊緣。所以本文首先計算出示例邊緣圖(instance boundary map),如圖所示:
然後將語義標籤圖和示例邊緣圖連接起來,輸入到生成器網路中。
考慮到一個理想的圖像合成演算法應該能夠從同一個語義標籤圖產生出多種逼真的圖像,而現有的方法無法讓用戶直觀地控制產生什麼樣的圖像,並且不允許 object-level 的控制,於是本文提出將額外的低維特徵也輸入到生成器網路中。
為此,需要訓練一個編碼器網路 E,用於確定與真實圖像中每個目標示例的低維特徵向量,以G(s,E(x)) 代替之前的 G(s),如圖所示:
在編碼器訓練好之後,輸入訓練圖像,找出圖像中的所有示例,並記錄對應的特徵。然後利用 KK-means 聚類得到每一個語義類別的特徵編碼。推斷時,隨機選取一個聚類中心作為編碼特徵,與之前的標籤圖連接輸入到生成器網路中。
實驗結果
實驗中設置 λ=10,K=10,用 3 維向量對示例特徵進行編碼,採樣 LSGANs 用於穩定訓練。實驗比較了不同的圖像合成演算法,包括 pix2pix 和 CRN,還比較了加入感知損失(w/o VGG)的結果,其中 F(i) 表示 VGG 網路的第 i 層。
在 Cityscapes 數據集上的實驗結果如下:
在 NYU Indoor RGBD 數據集上的實驗結果如下:
更多關於的實驗結果可以閱讀原文或者訪問project 網頁。
總結
本文提出了一個有通用性的基於條件 GANs 的網路框架,用於高解析度圖像合成和語義操作。相比於 pix2pix,本文在語義分割結果和圖像合成的清晰度以及細節上都有了很大的提升。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智慧、機器學習、數據挖掘和信息檢索等研究方向,點擊即刻加入社區!
我是彩蛋
解鎖新姿勢:用微信刷論文!
PaperWeekly小程序上線啦
今日arXiv√猜你喜歡√熱門資源√
隨時緊跟最新最熱論文
解鎖方式
1. 掃描下方小程序碼打開小程序
2. 用PaperWeekly社區賬號進行登陸
3. 登陸後即可解鎖所有功能
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
微信公眾號:PaperWeekly
新浪微博:@PaperWeekly
推薦閱讀:
※1.6【OpenCV圖像處理】圖像混合
※Matlab圖像處理中的傅里葉變換
※[171105] 基於 Python OpenCV 圖像處理的車道線檢測