[Paper Share -5]DeepFashion:Powering Robust Clothes Recognition and Retrieval with Rich Annotations
導讀
這篇文章是湯曉鷗,王曉剛團隊的作品,收錄於CVPR2016,可能又點老了,不過,對還沒入門的我來說,看一看還是有收益的。文章主要說兩個方面:其一,發布了一個比較大的數據集------DeepFashion(包含超過80萬的圖像,帶有屬性,衣服關鍵點和同一件衣服在不同場景中的標註);其二,提出一個深度模型------FashionNet,用於服飾檢索。
1.Introduction
想要做深度學習,第一個會遇到的問題就是數據不夠。在一份分類,屬性預測,服飾檢索這個領域裡,前人已有些工作,但是數據集不是不公開就是數據集太小。另一方面,服飾檢索會遇到幾個挑戰:1,衣服款式,文理,剪裁多種多樣;2,服飾存在變形,和遮掩;3,服飾一般有很多不同的場景。比如展櫃里,網上商店。沒有一個強大的數據集,很難推動這個研究的發展,並且很難對比各個演算法的優劣。因此,本文提供了一個比較大型的數據集------DeepFashion。這個數據集有3個特點:1,全面,數據集中的圖片包含了豐富的信息,其中有類別,屬性,關鍵點,和不同場景中的同一款衣服的標註(cross-domain pair correspondences);2,規模大,超過80萬的圖片,是前人數據集的兩倍。3,開放,數據集對外開放。
2.The DeepFashion Dataset
2.1 圖像來源
這部分主要講述圖像的來源。數據集有兩個來源:1,購物網站;2,Google Image;
2.2 圖像的標註
數據集主要包含一下幾個標註。
- 50個類別,1000個屬性,其中屬性分成5個組(texture, fabric, shape, part, and style),下圖展示了一些樣例。
- 關鍵點,比如對於上衣,有六個關鍵點,分別在領子左右,袖子左右,下擺左右。
- 映射對(Pair Annotation)不同場景中的同一件衣服對,比如,網店的,街上拍的,給出對應關係。
2.3 Benchmark
主要從三個方面來評價演算法的表現。
- 類別和屬性的預測
- In-Shop衣物檢索。這個是用網店的衣物圖去檢索同樣來源網店的圖片。
- Consumer-to-Shop衣物檢索。這個是根據消費者子集拍的照片去檢索網店的衣物。這個比較有挑戰。也是最有應用價值的點。
3. Our Approach
網路結構
FashionNet使用VGG-16作為基礎網路,然後,在最後一層接上3個分支,red,green,blue。如下圖所示。
紅色分支,用於提取圖像的全局特徵。
綠色分支,用於提取關鍵點的特徵。
上面兩個特徵進行融合,然後用於後面的分類,屬性預測和triplet訓練(衣服pair的訓練)。
藍色分支,用於特徵點的定位,並給出特徵點是否可見(補充一點,數據集在標註的時候,即使特徵點被遮擋,也不會被標出來,但是會指明被遮擋。)
Forword Pass
前向計算時,分三步走:- 對於輸入先計算藍色分支,得到預測關鍵點的位置。
- 將預測的關鍵點信息用於綠色分支,提取關鍵點的特徵,這裡有一個關鍵點poolin 層。下圖給出。
- 全局特徵和關鍵點特徵進行融合,concate,然後用於分類,和屬性分類。
關鍵點Pooling層如下:
Backword Pass
反向傳播時,考慮5個損失函數的加權:1.關鍵點的回歸loss,2.關鍵點是否可見的softmax loss,3.類別的softmax loss,4.屬性的交叉損失,5.同一件衣服的triplet loss。訓練時,把藍色分支作為主要任務,紅色分支和綠色分支作為輔助任務。所以,關鍵點的損失和關鍵點是否可見的損失,將會被加重。4. Experiments
實驗部分主要對比了兩個方法。WTBI(where to buy it)和DARN(Dual Attribute-aware Ranking Network)
4.1 Results
Cagegory Classification
通過實驗,文章對類別分類總結出三點規律:- FashionNet遠遠超過WTBI和DARN。這說明,加入了關鍵點信息有助於分類。
- 當將衣物關鍵點替換成人體姿勢或者人體關鍵點時,表現下降了6-9個點。再一次說明衣物關鍵點的有效性。
- 使用大越多的屬性,分類的準確率越好。使用1000個屬性會比使用500個屬性要好。
Attribute Prediction
同樣,屬性分類也得益於關鍵點。In-Shop Clothes Retrieval
在這個任務上也可以看到,關鍵點對圖像檢索的作用也是相當明顯的。Consumer-to-Shop Clothes Retrieval
雖然這種情況下的表現比上面in-shop低不少,但是關鍵點的加入效果顯著。所以知道為啥把關鍵點作為主要任務了吧。當然也有可能正是因為關鍵點作為主要任務,才能在最終效果中體現出如此重要的作用。4.2 進一步分析
然後作者做了一些圍繞關鍵點的其他實驗。
上圖10,左邊是不同關鍵點的檢測率。右邊表明屬性(attributes)的加入能提升關鍵點的檢測。畢竟有些屬性描述了關鍵點,比如「fringed-hem」(流蘇下擺)。
而圖11左邊則展示了,尺度變化帶來的挑戰比姿勢帶來的挑戰更大。右邊展示了幾個類別的檢索精度。
至此,本文已經結束。從這篇論文中,我們學到了一個如何提取一個有效的特徵,與及圖像的標註,大小,衣物的類別,姿態對圖像檢索效果會有的影響。好,今天的分享就到這裡。後期會繼續寫關於圖像檢索的論文分享。晚安,各位。
------少俠阿朱 2017.12.05於深圳。轉載註明處處唄。簡書 知乎
推薦閱讀:
※CVPR2018 | 讓AI識別語義空間關係:斯坦福大學李飛飛組提出「參考關係模型」
※[CVPR2018筆記]An Analysis of Scale Invariance in Object Detection – SNIP
※CVPR論文《Face Alignment at 3000 FPS 》閱讀筆記
※多風格生成網路——實時風格轉換
※從CVPR2017 看多樣目標檢測
TAG:深度學習DeepLearning | 神經網路 | CVPR |