Synthesized Classifiers for Zero-Shot Learning

05-20

摘要：

零樣本學習的目標是精確識別未見類別對象，但未見類別樣本在訓練階段不可獲得。本篇文章從流形學習的角度解決這一問題，主要思想是將從輔助信息導出的語義空間（semantic space）和與識別視覺特徵相關聯的模型空間（model space）進行對齊。為此，我們引入了一組「虛構」對象類（phantom），其坐標既存在與語義空間，又存在於模型空間。這些虛擬類別作為字典中的基，可以通過帶標籤的數據進行優化，因此合成的真實對象類別分類器可以實現最佳判別性能。我們在四個零樣本基準數據集上驗證了我們的方法相對於目前先進演算法的優越性，其中包括含有超過20000個未知類的ImageNet Fall 2011數據集。

問題設定及整體思想：

比如想對「Chanel Tweed Fantasy Flap Handbag」做一個視覺上的調查，儘管每個單獨的元素handbag, flap, tweed, Chanel都是流行的配飾，風格，面料和品牌，但它們的組合卻是一個很稀有的類。在Google上進行搜索，得到的55000條結果中只有很少的圖片，遠不足以構建一個高性能的分類器。除非把這個類看作是一些屬性的組合，對每個屬性來說訓練數據可以方便地得到。

目前零樣本學習存在兩個關鍵問題：（1）怎樣把未知類別和已知類別相聯繫；（2）怎樣在未知類別上獲得最佳判別性能，儘管沒有它們的帶標籤數據。本篇文章結合流行學習的思想，採用一種雙交叉策略來解決這兩個問題。

圖1 零樣本方法闡述

如圖1所示，我們認為對象類別存在於兩個空間。在語義空間中，它們以語義嵌入（as）為表徵，比如屬性和類別名稱的詞向量。在模型空間中，它們被表徵為識別這些類對應的視覺圖像的模型（ws）。在這兩個空間，這些類形成權重圖，邊的權重以類別相關性大小來表示。此方法主要思想是這兩個空間應該對齊。特別地，模型空間的坐標應該是圖頂點從語義空間到模型空間的映射，映射同時保持了編碼在圖中的類別相關性。我們引入虛擬類（b和v）來連接已知類別和未知類別，虛擬類別分類器是合成真是類別分類器的基。特別地，合成採用凸組合的形式。

具體演算法：

每個類別 $c$ 有一個坐標 $a_{c}$ ,它們存在於語義嵌入空間的流形結構中。在下文中用屬性來闡述演算法，實驗中屬性和詞向量兩種類型都有用到。

我們引入一組虛擬類別，與之相關的語義嵌入為 $b_{r},r=1,2,...,R.$ 再次強調虛擬類別不對應於任何真實對象，它們被引入來提高模型靈活性。真實和虛擬類別形成一個權重雙向圖，權重被定義為：

$Sigma^{-1}$ 是一個可以從數據中學習到參數，方便起見，我們設 $Sigma=sigma^{2}I$ ,通過交叉驗證調整標量自由超參 $sigma$ 。並且可以應用馬氏距離來進行度量。這種定義權重的特殊形式是受一些流形學習方法啟發，比如SNE。特別地， $s_{cr}$ 可以被解釋為在類別 $c$ 的鄰居中觀察到類別 $r$ 的條件概率。

在模型空間中，每個真實的類別和一個分類器 $w_{c}$ 相關聯，每個虛擬類別和一個虛擬分類器 $v_{r}$ 相關聯。我們通過把 $w_{c}$ （或者 $v_{r}$ ）看作是權重圖的嵌入來對齊語義和模型空間。特別地，我們傾向於尋求拉普拉斯特徵映射背後的思想，即尋求能夠儘可能保持圖結構的嵌入。對等地，失真誤差為：

其被最小化。這個目標函數有一個解析解：

這個解引出從虛擬分類器 $v_{r}$ 合成分類器的想法。為明確概念，從現在起，我們將 $v_{r}$ 稱為字典中的基分類器，從中可以合成新分類器。我們確定了幾個優點。首先，我們可以構造無窮數量的分類器，只要我們知道怎樣計算 $S_{cr}$ 。第二，通過使 $Rll S$ ，該公式可以顯著減少學習成本，因為我們只需要學習 $R$ 個基分類器。（ $S$ 是已知類別數量）

學習基分類器：

有兩種方法：

（1）

$l(x,y;w)=max(0,1-yw^{T}x)^{2}$ 是平方hinge loss， $I_{y_{n},c}in$ {-1,1}指示 $y_{n}$ 是否等於 $c$ 。即 $l(x_{n},I_{y_{n},c};w_{c})=max(0,1-I_{y_{n},c}w_{c}^{T}x_{n})^{2}$ ，若 $y_{n}=c$ ，則 $I_{y_{n},c}=1$ loss為0，否則 $I_{y_{n},c}=-1$ ，產生loss，進行懲罰。

（2）也可以使用Crammer-Singer多分類SVM

若當 $c e y_{n}$ 時， $riangle(c,y_{n})=1$ ，則此方程為標準的Grammer-Singer loss。但是這種Loss忽視了類別之間的相關性，因此我們使用了一個 $l_{2}$ 距離 $riangle(c,y_{n})=left | a_{c}-a_{y_{n}} ight |^{2}$ 作為Loss，以發掘類別相關性。這兩種學習設置在實際研究中各有優缺點。

學習語義嵌入：

權重圖等式(2)也被可調節的虛擬類別嵌入 $b_{r}$ 進行參數化。在本文工作中，為了方便起見，我們假設每一個虛擬類別嵌入 $b_{r}$ 是已知類別屬性向量的稀疏線性組合：

因此，要優化的整體目標函數如下：

其中 $h$ 是一個預定義的標量，等於真實屬性向量的範數。在本實驗中，由於採用 $l_{2}$ 範數， $h=1$ （可能對連續屬性做了某種處理，使其二範數為1）。可以看到，加上約束條件，目標函數中的第二項和第三項保證了已知類別屬性向量的稀疏線性組合。最後一項則要求 $b_{r}$ 和 $a_{c}$ 的範數不要相距太遠。該目標函數的前兩項用來學習 $v_{r}$ ，後兩項學習 $eta_{rc}$ 。

我們執行交替優化來最小化目標函數。儘管此過程是非凸的，仍然對初始化優化過程有一些有用的啟發。例如，如果 $R= S$ ，最簡單的設置是讓 $b_{r}=a_{r}$ 。如果 $Rleq S$ ，可以從已知類別屬性向量中（隨機）選取R個 $b_{r}$ ，或者首先在已知類別屬性向量進行聚類，然後讓每個 $b_{r}$ 成為已知類別屬性向量在簇頭 $r$ 處的組合。如果 $R> S$ ，則可以採用上述兩種策略的結合。

實驗：

數據集：AwA, CUB, SUN, ImageNet (with full 21841 classes)

結果：分別驗證了整體性能的優越性，在大規模數據集ImageNet上的性能優越性，連續屬性和深度特徵的優越性，以及將兩種語義空間結合的優越性。並且通過實驗證明在虛擬類別R約為已知類別S的60%~70%時，已經足夠達到較好性能。

結論：

通過引入虛擬類別，提出了一種用於零樣本學習的新的分類器合成機制。虛擬類別將已知類別和未知類別的節點連接起來，已知和未知類別的分類器由同一組虛擬類別對應的基分類器以相同的係數方程構造。最終，我們可以方便地利用帶標籤的已知類別數據學習到分類器合成方法，然後將其應用到未知類別。我們的演算法在四個數據集上大多數情況下性能優於現有的先進演算法。