《小王愛遷移》系列之十五:自動選擇源域的遷移學習方法(SSFTL)
來自專欄 機器有顆玻璃心
本次我們介紹一篇楊強老師團隊早期(2011年)發表在人工智慧頂會IJCAI上的文章:《Source-selection-free Transfer Learning》。這篇論文所針對的問題是:如果我們可供選擇的源域數量太多(千萬級),我們如何可以根據兩個領域之間的關係,自動地進行源域選擇?這篇文章對 實踐 的指導性非常強,我們可以借鑒運用於我們的實際項目中。
Motivation
給定的一個任何要分類的領域,例如文本分類,如果僅有少量的標定數據,那麼無法訓練出一個足夠好用的模型。這時候就需要藉助於可用的輔助領域來進行知識遷移。這個輔助領域的數據需要有足夠的標籤,並且,需要和target儘可能的相似。這些知識從哪裡可以獲得呢?
在文本領域,有一個已知的包含大量文本結構化信息的庫:維基百科。維基百科上有著眾多的文本分類信息,是一個文本分類領域非常理想的source。但是問題來了:這個source的類別通常和我們的target的類別不會完全對應(也就是說 與 的交集並不為空)。這類似於CVPR 2018上提出的partial transfer learning的問題。這也是真實世界的狀態。我們的挑戰就是,如何利用這並不完全重疊的,看似沒關係的source和target,建立二者之間的聯繫?
作者藉助於一個社會化標籤分享網站的數據:Delicious。這個網站由用戶對不同的網頁給出自己的tag。這些tag我們可以認為是包含了大量的label信息,上面包括source和target的label信息。藉助Delicious這個橋樑,構建source和target之間的關係。
Method
方法一共分為兩個部分:1)通過Delicious這個中間產品,得到source與target之間的關係,方便利用source進行遷移。2)得到關係之後,建立分類模型,完成遷移。其中,第2)步是大家通常採用的方法,第1)步是重點,也是創新點。
得到source和target的關係
Source有label,target也有label,這些label之間有什麼關係?作者藉助於delicious進行。這個過程是這樣的:Delicious上有不同的人對不同的網頁打的標籤。那麼作者就挖掘這些標籤的距離:兩個label的距離就是都打過這兩個標籤的人數。以此類推,得到了一個二部圖。假設source和target的類別加起來是 ,那麼這個圖的大小就是 。邊的值就是兩個label的距離。
得到這個 以後,由於這個矩陣是一個高維度矩陣,那麼用拉普拉斯特徵映射對這個圖進行降維,得到了一個降維以後的矩陣 ,這個 只有 這麼多列,所以就達到了降維的目的。
這個 里就包含了source和target的關係。我以接下來就可以用這個矩陣進行知識的遷移。
這個過程可以用下圖來表示。
構建遷移學習演算法框架
有了這個矩陣 ,我們就可以構建一個遷移學習分類器。我們假設要學習一個線性模型,那麼這個模型的權重向量就是 。這個模型的一般形式如下所示:
第一項是在部分有label的target上的誤差,第二項是正則項,第三項是在無label數據上的誤差。
由於source是有label的,我們還沒有用呢。現在可以用了:用不同的source去訓練若干個分類器,我們叫 。這些分類器進行集成,就可以被用於target的預測:
上面兩個式子就用到了我們得到的矩陣 來拉近source和target的距離。然後就可以進行訓練了。學習source分類器權重是一個簡單方法,不再贅述。學習過程如下圖所示。
啟發
要自動選擇source,就需要對source和target的距離進行很好的度量。本文為了解決文本分類這個問題,繞過了這一點。是一個很好的數據挖掘性質的文章,解決了這個實際問題。但是可能換一個問題,方法就需要進行相應的變化,還沒有歸納出一個抽象的通用的學習模式。可以繼續探索。
References
[1] 本文對應的論文:Xiang E W, Pan S J, Pan W, et al. Source-selection-free transfer learning[C]//IJCAI proceedings-international joint conference on artificial intelligence. 2011, 22(3): 2355.
[2] 本文中的圖片均來自楊強老師演講的PPT。
[3] 本專欄中的partial transfer learning文章:《小王愛遷移》系列之十一:選擇性對抗遷移學習(Selective Adversarial Network)
========================
[作者簡介]王晉東(不在家),中國科學院計算技術研究所博士生,目前研究方向為機器學習、遷移學習、人工智慧等。作者聯繫方式:微博@秦漢日記 ,個人網站Jindong Wang is Here。
=================
更多《小王愛遷移》系列文章:
《小王愛遷移》系列之零:遷移學習領域著名學者和研究機構
《小王愛遷移》系列之一:遷移成分分析(TCA)方法簡介
《小王愛遷移》系列之二:聯合分布適配(JDA)方法簡介
《小王愛遷移》系列之三:深度神經網路的可遷移性
《小王愛遷移》系列之四:深度網路如何進行遷移學習(DaNN、DDC、DAN)
《小王愛遷移》系列之五:測地線流式核方法(GFK)
《小王愛遷移》系列之六:學習遷移(Learning To Transfer)
《小王愛遷移》系列之七:負遷移(Negative Transfer)
《小王愛遷移》系列之八:深度遷移學習文章解讀
《小王愛遷移》系列之九:開放集遷移學習(Open Set Domain Adaptation)
《小王愛遷移》系列之十:張量遷移學習(tensor unsupervised domain adaptation)
《小王愛遷移》系列之十一:選擇性對抗遷移學習(Selective Adversarial Network)
《小王愛遷移》系列之十二:新年新氣象-重新整理的遷移學習資源倉庫
《小王愛遷移》系列之十三:在線遷移學習(online transfer learning)
《小王愛遷移》系列之十四:用於部分遷移學習的深度加權對抗網路
《遷移學習簡明手冊》發布啦!
《小王愛遷移》系列之十五:自動選擇源域的遷移學習方法(SSFTL)
推薦閱讀:
※python3機器學習經典實例-第四章聚類19
※為什麼我們需要傳統方法?
※MLer必知的8個神經網路架構
※斯坦福機器學習筆記10密度分布估計の混合高斯模型
TAG:遷移學習TransferLearning | 人工智慧 | 機器學習 |