標籤:

論文閱讀:Synthetic to Real Adaptation with Generative Correlation Alignment Networks

論文題目:Synthetic to Real Adaptation with Generative Correlation Alignment Networks

作者:Xingchao Peng,Kate Saenko

來源: arxiv2017

1. 摘要

文章的想法是如果使用3D CAD建模的合成圖片進行訓練數據的數據增強,將會是一件非常有意義的事。然而,合成圖片與真實圖片之間存在較大的domain discrepancy,所以直接使用的效果甚微。本文提出了一種DGCAN的網路結構,使用shape preserving loss和low level statistic matching loss來減小特徵空間中域之間的差異。

具體的,CAD合成圖片具有很大的非真實性,其原因如下:

1)前景與背景的不匹配性很大

2)物體邊緣和背景之間有很大的對比度

3)不逼真的場景

以上原因導致了合成圖片與真實圖片有很大的域差異

2. 文章的思路

2.1 總體的思路

上圖是總體的方法概略,使用DGCAN(Deep Generative Correlation Alignment Network)來生成inexpensive annotated training data。通過

綜合物體的形狀(從易獲取的3D CAD中得到)以及結構紋理(從少量的真實圖片中獲得),最終在DGCAN-合成圖片上進行訓練,其效果有很大的改善。

設${cal I}s={ {cal C}i,{cal Y}i}{i=1}^{ns} $,其中$ns$是有標籤的source domain的CAD合成圖的數目,而設${cal I}t={ {cal R}i}{i=1}^{nt} $,其中的$nt$是所有target domain所有真實圖片(無標籤)的數目。本文的目的是合成一個有標籤的中間數據集${cal I}={ {cal D}i,{cal Y}i}{i=1}^n$,每個${cal D}i in {cal I}$的圖片都與${cal C}i in cal Is$包含類似的物體形狀和輪廓,以及每個${cal D}i in {cal I}$的圖片都與$cal R in cal I_t$圖片相類似的模式,顏色,紋理結構等。

為了從 $cal C$ 和 $cal R$ 中得到$cal D$,最直接的方法是直接對兩個圖片求平均。傳統的方法如:half-half alpha blending以及pyramid blending仍會造成很大的domain shift。而本文的方法是在DCNN中將生成的$cal D$ align到$cal C$ ,$cal R$中,或者反過來,用$cal D sim cal p (cal D|cal C,cal R)$來從$cal C$ 中合成$cal D$ 。

2.2 DGCAN的實現

使用VGG-16作為基礎架構,包含13個卷積層(conv11-conv53),3個全連接層(fc6-fc8),5個pooling層(pool1-pool5)。

令$cal H^l(cdot)$是DCNN的第$cal l$層的表達矩陣,$cal H{i}^l(cdot)$是$cal H^l(cdot)$的第$cal i$個維度,$cal H{i,j}^l(cdot)$是$cal H_{i}^l(cdot)$的第$cal j$個值

第一個loss是為了保證物體的輪廓保持一致,第二個Loss是為了圖像與真實圖片有相似的low-level的特徵。

2.2.1 shape preserving loss

$${cal L}{feat}^{cal Xf} = sum{lincal Xf} (frac{omegaf^l}{2alpha^l}sumi||cal Hi^l(cal D)-cal Hi^l(cal C)||2^2)$$

其中$cal D in cal I , cal C in cal Is$ ; $omegaf^s$是第l層的loss weight;$cal Xf$是所有加了$l^2$ loss的集合。$alpha^l = N^lF^l$,$N^l$是第l層特徵的通道數,$F^l$是每個通道的特徵長度

該loss關於激活值的導數是

$$frac{partial{cal L}{feat}^{cal Xf}}{partial cal H{i,j}^l(cal D)}=frac{omegaf^l}{alpha^l}(cal H{i,j}^l(cal D)-cal H{i,j}^l(cal C))$$

2.2.2 naturalness loss

為了使生成的圖片具有與真實圖片相似的low-level的特徵(紋理,邊緣對比度,顏色等),這裡使用了CORAL loss。Correlation Alignment(CORAL) 是[1]論文中提出的loss。用於match the second-order statistics of feature distributions for domain adaptation。

$${cal L}{coral}^{{cal X}c} = sum{lin{cal X}c}( frac{omegac^l}{4alpha^{l^2}}||Cov(cal H^l(cal D))-Cov(cal H^l(cal R))||F^2)$$

其中$cal D in cal I , cal R in cal It$ ; $omegac^l$是第l層的 COARL loss weight;$cal Xc$是所有加了CORAL loss的集合。

參考原論文,協方差矩陣如下:

$$Cov({cal H}^l({cal M}))=frac{1}{{cal N}^l}{{cal H}^l ({cal M})^ op {cal H}^l ({cal M}) - frac{1}{{cal N}^l} { {f 1}^ op{cal H}^l({cal M}))^ op( {f 1}^ op{cal H}^l({cal M})) }$$

其中${cal M} in {{cal D},{cal R}}$,$f 1$是恆1列向量,$N^l$是第l層的特徵通道數

利用鏈式法則對CORAL求導得導數為:

$$frac{partial {cal L}
{coral}^{cal Xc}}{partial {cal H}{i,j}^l(cal D)}=frac{omegac^l}{N^lalpha^{l^2}}{ [{cal H^l(cal D)}^ op-frac{1}{cal N^l}(f 1^ op{cal H}^l(cal D)){f 1}^ op]^ op cdot(Cov^l({cal D})-Cov^l({cal R}))}{i.j}$$

最後總的loss是將兩個結合起來。先對原始圖像增加一個擾動$epsilon sim {cal N(0,Sigma)}$。然後將圖像送入DGCAN中關於 $cal D$ 計算$cal l^2$loss。關於 $cal R$ 去計算 CORAL loss。合成圖片通過如下規則得到:

$${cal D}^* = mathop{argmin{{cal D}in{cal I}}}({cal L}{feat}^{cal Xf}+lambda{cal L}{coral}^{cal Xc}|{cal X},{cal R},{cal Xf},{cal X_C},{lambda},{epsilon})$$

2.3 實驗結果

實驗分兩部分:1)用CAD合成圖片和真實圖片一起生成DGCAN合成圖片;2)用現有的分類器在DGCAN合成圖上進行訓練

上圖展示了根據兩個輸入(source domain:CAD合成圖,target domain:真實圖片)而產生的合成圖。

1) 把$cal L{feat}$和$cal L{coral}$分別總用與不同的卷積層找到最合適的方案。左圖展示了當把$cal L{feat}$作用於淺層卷積層時,DGCAN可以生成清晰的物體輪廓。當把$cal L{coral}$作用於更高層的卷積層時,DGCAN可以合成出更具結構化的紋理特徵

2)改變trade-off參數$lambda$,找到$lambda$的最優值。右圖顯示當$lambda$較小時,物體輪廓比背景紋理更佔優勢,反之亦然。

左側的一組圖是CAD合成圖和它對應的生成好的DGCAN合成圖,可以看到著色後的圖片具有真實的圖像輪廓和真實的紋理。使用【2】中的工具進行圖像可視化處理。可以發現,DGCAN的合成圖片與真實圖片的差異較小。而單一的灰度圖像(CAD合成圖)僅提供了邊緣信息(edge information).

左邊的是混淆矩陣(confusion matrix)大概理解是DGCAN合成圖的錯誤模式和CAD合成圖的錯誤模式大大不同,右圖是t-SNE可視化的效果,可以得出DGCAN-合成圖與原圖的domian shift更小。

(混淆矩陣剛考完數據挖掘然後想起來了,以下摘自百度百科:混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式來表示。具體評價指標有總體精度、製圖精度、用戶精度等,這些精度指標從不同的側面反映了圖像分類的精度。在人工智慧中,混淆矩陣(confusion matrix)是可視化工具,特別用於監督學習,在無監督學習一般叫做匹配矩陣。在圖像精度評價中,主要用於比較分類結果和實際測得值,可以把分類結果的精度顯示在一個混淆矩陣裡面。混淆矩陣是通過將每個實測像元的位置和分類與分類圖像中的相應位置和分類像比較計算的。混淆矩陣的每一列代表了預測類別 ,每一列的總數表示預測為該類別的數據的數目;所以上圖中對角線值越高,表示分類越準確),

3.參考文獻

[1] B. Sun, J. Feng, and K. Saenko. Return of frustratingly easy domain adaptation. arXiv preprint arXiv:1511.05547, 2015. 1, 2, 4, 6, 7, 8

[2]A. Mahendran and A. Vedaldi. Visualizing deep convolutional neural networks using natural pre-images. International Journal ofComputer Vision, pages 1–23, 2016. 5

推薦閱讀:

AAAI 2018最佳論文出爐,中國留學生再下一城
如何選擇SCI論文翻譯平台?
不容錯過的八大商科資料庫,再多Paper也不怕
論文格式要求及字體大小
【AAAI Oral】利用DeepMind的DQN解數學應用題,準確率提升15%

TAG:論文 |