《小王愛遷移》系列之十四:用於部分遷移學習的深度加權對抗網路

本次介紹一篇被計算機視覺頂會CVPR 2018接收的文章:《Importance Weighted Adversarial Nets for Partial Domain Adaptation》。文章作者團隊來自澳大利亞卧龍崗大(University of Wollongong)。

背景

我們目前接觸過的絕大部分遷移學習問題情景都是:源域和目標域的特徵空間與類別空間一致,只是數據的分布不一致,如何進行遷移。也就是說,源域和目標域要是幾類,都是幾類。但是這種情況顯然具有很大的限制性:在真實應用中,我們往往不知道目標域的類別,更不用說它是否和源域的類別完全一樣。這就極大地限制了它的應用。

遷移學習的目標就是利用大量有標註的源域數據來對目標域數據進行建模。如果我們假設我們已有的源域數據很豐富,它本身就包含了目標域的類別,那麼問題是不是看起來更加具有一般性?形式化來講,我們用 mathcal{Y}_s mathcal{Y}_t 分別表示源域和目標域的類別空間,那麼部分遷移學習就是 mathcal{Y}_s supset mathcal{Y}_t 。這種情況比通常意義下的遷移學習更有挑戰性。這就是部分遷移學習(Partial Transfer Learning)

Motivation

作者的motivation很直觀:既然源域的類別比目標域的多,無法直接進行遷移,那麼,就首先選擇出源域中與目標域那部分類別最接近的樣本,給它們賦予高權重,然後進行遷移。

基於這個想法,作者設計了一個兩階段的深度對抗網路。我們都知道對抗網路主要由特徵提取器(feature extractor)領域分類器(domain classifier)組成。特徵提取器用於進取樣本的公共特徵,領域分類器用於判別兩個領域是否相似。

已有工作通常對源域和目標域採用一個公共的特徵提取器。但是在部分遷移學習中,由於源域和目標域的類別不同,因此作者提出對它們分別採用不同的特徵提取器進行。這樣做還有一個好處就是,不同的特徵提取器可以針對各自的domain學習到各自的表徵性特徵。

在學習時,固定源域的特徵提取器不變,只學習目標域的特徵,這更符合原始GAN的理論。

Method

作者提出了一個深度加權對抗網路(Importance Weighted Adversarial Nets)。這個網路的示意圖如下圖所示。網路的主要部分是:分別作用於源域和目標域的兩個特徵提取器(分別叫做 F_s F_t ),以及兩個領域分類器(分別叫做 DD_0 )。第一個領域分類器用來篩選出源域中與目標域相似的那部分樣本(或者源域中與目標領域共享的那部分類別),第二個領域分類器進行正常的domain adaptation。

相應地,方法主要分為兩個部分:1)篩選出源域中與目標域屬於相同類別的樣本,2)綜合學習。

樣本篩選

此部分是該論文的核心創新點。主要思路是,由 F_s F_t 產生的源域和目標域特徵 z_s z_t,通過一個領域分類器 D,判別樣本是來自於源域還是目標域。這個 D 是一個二類分類器,如果 D=1 ,表示樣本來自源域;否則樣本來自目標域。那麼,如何才能知道樣本是否屬於源域和目標域的公共類別,而不是特異於源域的類別(作者叫它們outlier)?

如果 D(z) approx 1 ,那麼就表示 z 這個樣本是來自於源域。更進一步分析,為什麼這部分樣本只是來自源域?就是因為這部分樣本是源域獨有的!否則的話,它就也會來自目標域了!從另一個角度說,如果 D(z) approx 0 ,則表示這部分樣本來自目標域。同時,也表示它可能來自源域中與目標領域共享的類別。因為兩部分的類別是共享的!

這個簡單而直觀的道理指導著我們設計不同的權重。我們的目標是,對於篩選出的那部分與目標域屬於相同類別的源域樣本,給它們賦予大權重;另一部分源域特有的樣本,權重調小。則該權重可以被表示為:

w(z) = 1 - D^star(z) = frac{1}{frac{ps(z)}{pt(z)}+1}

這裡的 D^star(z) 表示的是領域分類器$D$的最優值,它可以通過求導得出(D^star(z)=frac{p_s(z)}{p_s(z)+p_t(z)} )。從這個式子可以看出,如果 D^star(z) 值較大,則表示樣本更可能是outlier,那麼權重值就會變小;反之,如果 D^star(z) 值較小,則表示樣本更可能是源域和目標域共同部分,那麼權重值就會變大。這個方法很好地對源域和目標域中的共同類別的樣本完成了篩選工作。

作者還對源域部分的權重進行了歸一化,以更加明確樣本的從屬關係。加入權重以後,優化目標變成了

下一步工作是處理領域分類器 D_0 D_0 也可以以同樣的求導方式得到。

綜合學習

綜合學習之前,作者還加了一個熵最小化項用於對目標域的樣本屬性進行約束。這也是我們比較常見的。熵最小化可以被表示為

min{F_t} mathbb{E}{x sim p_t(x)} H(C(F_t(x)))

其中的 H(cdot) 就是熵的表達形式。 C(cdot) 是分類器。

現在,總的學習目標就是

實驗

部分遷移學習實驗主要在傳統的Office-Caltech以及Office-31上做。不過實驗任務與之前的遷移學習有所不同:源域的類別比目標域多

作者在這裡和一些最新的遷移學習方法進行了對比,表明了所提方法的優勢。

作者還特別做了一個實驗:當目標域的類別個數逐漸變多時,精度如何變化?結論是,隨著目標域類別個數的減少,精度逐漸增加。這表明知識在進行遷移時,源域知識越多,通過篩選,對目標越有效。

具體實驗設定、結果、以及其他的可視化結果可以參照原文。

總結

本文核心創新點是,從任務出發,直觀地構造出兩階段式對抗網路,對源域中與目標域共享的類別樣本進行有效篩選。另一個與已有工作不同的地方是,作者分別對源域和目標域採用了不同的特徵提取器。其實這一點與作者發表在CVPR-17的JGSA方法很像。可以參考學習。

Reference

[1] 本文對應的論文:Zhang J, Ding Z, Li W, et al. Importance Weighted Adversarial Nets for Partial Domain Adaptation[J]. arXiv preprint arXiv:1803.09210, 2018. 下載地址:arxiv.org/abs/1803.0921.

[2] JGSA方法:Zhang J, Li W, Ogunbona P. Joint geometrical and statistical alignment for visual domain adaptation[J]. arXiv preprint arXiv:1705.05498, 2017.

[3] 與本文相關的另一篇部分遷移學習工作:zhuanlan.zhihu.com/p/32

========================

[作者簡介]王晉東(不在家),中國科學院計算技術研究所博士生,目前研究方向為機器學習、遷移學習、人工智慧等。作者聯繫方式:微博@秦漢日記 ,個人網站Jindong Wang is Here。

=================

更多《小王愛遷移》系列文章:

《小王愛遷移》系列之零:遷移學習領域著名學者和研究機構

《小王愛遷移》系列之一:遷移成分分析(TCA)方法簡介

《小王愛遷移》系列之二:聯合分布適配(JDA)方法簡介

《小王愛遷移》系列之三:深度神經網路的可遷移性

《小王愛遷移》系列之四:深度網路如何進行遷移學習(DaNN、DDC、DAN)

《小王愛遷移》系列之五:測地線流式核方法(GFK)

《小王愛遷移》系列之六:學習遷移(Learning To Transfer)

《小王愛遷移》系列之七:負遷移(Negative Transfer)

《小王愛遷移》系列之八:深度遷移學習文章解讀

《小王愛遷移》系列之九:開放集遷移學習(Open Set Domain Adaptation)

《小王愛遷移》系列之十:張量遷移學習(tensor unsupervised domain adaptation)

《小王愛遷移》系列之十一:選擇性對抗遷移學習(Selective Adversarial Network)

《小王愛遷移》系列之十二:新年新氣象-重新整理的遷移學習資源倉庫

《小王愛遷移》系列之十三:在線遷移學習(online transfer learning)

《小王愛遷移》系列之十四:用於部分遷移學習的深度加權對抗網路

《遷移學習簡明手冊》發布啦!


推薦閱讀:

TAG:遷移學習TransferLearning | 人工智慧 | 機器學習 |