[Paper Share -5]DeepFashion:Powering Robust Clothes Recognition and Retrieval with Rich Annotations

05-11

導讀
這篇文章是湯曉鷗，王曉剛團隊的作品，收錄於CVPR2016，可能又點老了，不過，對還沒入門的我來說，看一看還是有收益的。文章主要說兩個方面：其一，發布了一個比較大的數據集------DeepFashion（包含超過80萬的圖像，帶有屬性，衣服關鍵點和同一件衣服在不同場景中的標註）；其二，提出一個深度模型------FashionNet，用於服飾檢索。

1.Introduction

想要做深度學習，第一個會遇到的問題就是數據不夠。在一份分類，屬性預測，服飾檢索這個領域裡，前人已有些工作，但是數據集不是不公開就是數據集太小。另一方面，服飾檢索會遇到幾個挑戰：1，衣服款式，文理，剪裁多種多樣;2，服飾存在變形，和遮掩；3，服飾一般有很多不同的場景。比如展櫃里，網上商店。沒有一個強大的數據集，很難推動這個研究的發展，並且很難對比各個演算法的優劣。因此，本文提供了一個比較大型的數據集------DeepFashion。這個數據集有3個特點：1，全面，數據集中的圖片包含了豐富的信息，其中有類別，屬性，關鍵點，和不同場景中的同一款衣服的標註（cross-domain pair correspondences）；2，規模大，超過80萬的圖片，是前人數據集的兩倍。3，開放，數據集對外開放。

2.The DeepFashion Dataset

2.1 圖像來源

這部分主要講述圖像的來源。數據集有兩個來源：1，購物網站；2，Google Image；

2.2 圖像的標註

數據集主要包含一下幾個標註。

50個類別，1000個屬性，其中屬性分成5個組（texture, fabric, shape, part, and style），下圖展示了一些樣例。
關鍵點，比如對於上衣，有六個關鍵點，分別在領子左右，袖子左右，下擺左右。
映射對（Pair Annotation）不同場景中的同一件衣服對，比如，網店的，街上拍的，給出對應關係。

2.3 Benchmark

主要從三個方面來評價演算法的表現。

類別和屬性的預測
In-Shop衣物檢索。這個是用網店的衣物圖去檢索同樣來源網店的圖片。
Consumer-to-Shop衣物檢索。這個是根據消費者子集拍的照片去檢索網店的衣物。這個比較有挑戰。也是最有應用價值的點。

3. Our Approach

網路結構

FashionNet使用VGG-16作為基礎網路，然後，在最後一層接上3個分支，red，green，blue。如下圖所示。

網路示意圖

紅色分支，用於提取圖像的全局特徵。

綠色分支，用於提取關鍵點的特徵。

上面兩個特徵進行融合，然後用於後面的分類，屬性預測和triplet訓練（衣服pair的訓練）。

藍色分支，用於特徵點的定位，並給出特徵點是否可見（補充一點，數據集在標註的時候，即使特徵點被遮擋，也不會被標出來，但是會指明被遮擋。）

Forword Pass

前向計算時，分三步走：

對於輸入先計算藍色分支，得到預測關鍵點的位置。
將預測的關鍵點信息用於綠色分支，提取關鍵點的特徵，這裡有一個關鍵點poolin 層。下圖給出。
全局特徵和關鍵點特徵進行融合，concate，然後用於分類，和屬性分類。

關鍵點Pooling層如下：

Backword Pass

反向傳播時，考慮5個損失函數的加權：1.關鍵點的回歸loss，2.關鍵點是否可見的softmax loss，3.類別的softmax loss，4.屬性的交叉損失，5.同一件衣服的triplet loss。

訓練時，把藍色分支作為主要任務，紅色分支和綠色分支作為輔助任務。所以，關鍵點的損失和關鍵點是否可見的損失，將會被加重。

4. Experiments

實驗部分主要對比了兩個方法。WTBI（where to buy it）和DARN（Dual Attribute-aware Ranking Network）

4.1 Results

Cagegory Classification

通過實驗，文章對類別分類總結出三點規律：

FashionNet遠遠超過WTBI和DARN。這說明，加入了關鍵點信息有助於分類。
當將衣物關鍵點替換成人體姿勢或者人體關鍵點時，表現下降了6-9個點。再一次說明衣物關鍵點的有效性。
使用大越多的屬性，分類的準確率越好。使用1000個屬性會比使用500個屬性要好。

Attribute Prediction

同樣，屬性分類也得益於關鍵點。

In-Shop Clothes Retrieval

在這個任務上也可以看到，關鍵點對圖像檢索的作用也是相當明顯的。

Consumer-to-Shop Clothes Retrieval

雖然這種情況下的表現比上面in-shop低不少，但是關鍵點的加入效果顯著。所以知道為啥把關鍵點作為主要任務了吧。當然也有可能正是因為關鍵點作為主要任務，才能在最終效果中體現出如此重要的作用。

4.2 進一步分析

然後作者做了一些圍繞關鍵點的其他實驗。

上圖10，左邊是不同關鍵點的檢測率。右邊表明屬性（attributes）的加入能提升關鍵點的檢測。畢竟有些屬性描述了關鍵點，比如「fringed-hem」（流蘇下擺）。

而圖11左邊則展示了，尺度變化帶來的挑戰比姿勢帶來的挑戰更大。右邊展示了幾個類別的檢索精度。

至此，本文已經結束。從這篇論文中，我們學到了一個如何提取一個有效的特徵，與及圖像的標註，大小，衣物的類別，姿態對圖像檢索效果會有的影響。

好，今天的分享就到這裡。後期會繼續寫關於圖像檢索的論文分享。晚安，各位。

------少俠阿朱 2017.12.05於深圳。

轉載註明處處唄。簡書知乎