標籤:

Rethinking ICCV 2017 [Part 1]

祝專欄讀者們新春快樂~

1.【3*】Reasoning about Fine-grained Attribute Phrases using Reference Games

Jong-Chyi Su? Chenyun Wu? Huaizu Jiang Subhransu Maji

University of Massachusetts, Amherst

[Paper] [Github]

本文提供了一個很有趣的attributes phrases學習的pair-wise framework,如上圖左所示。其任務是結合屬性短語學習同類物體間的不同。採用的方法如上圖右所示包括一個Speaker和Listener, speaker為show&tell的caption model描述其中一個instance的attributes phrases, listener的概率模型會去判斷其中哪個instance對應描述。listener和speaker都測試了兩種input方式,單一圖片/描述 或一對圖片/描述。attributes phrases的優勢在於attributes set並非固定(fixed set of attributes就可以轉為分類問題了),那麼在遇到unseen attributes的時候(e.g., 學的時候small size, human speaker給的small)也能work.下圖是這個方法的speaker的示意,可以看到phrases也有問題在於部分重複(數據集搜集時指定規則不完善)。

2.[4*]Attribute Recognition by Joint Recurrent Learning of Context and Correlation

Jingya Wang1 Xiatian Zhu2 Shaogang Gong1 Wei Li1

Queen Mary University of London1 Vision Semantics Ltd.2

[Paper] [Related Notes]

在Related notes里作者把這篇文章分析得比較清楚,故以下簡述均摘自【Link】

論文提出JRL模型挖掘屬性上下文信息及屬性間相互關係提升識別準確率。JRL在一張行人圖像內學習屬性相關性,具體的說是屬性預測順序的相互關聯性。

解決屬性預測遇到挑戰的方法,一是使用屬性的相關性:如「女性」和「裙子」在一張行人圖像中出現的可能性大。二是使用視覺上下文信息協助屬性識別,如同一場景中不同人具有相同屬性。論文將行人之間的上下文信息及行人個體內部屬性關聯一起建模,學習一個一體化的網路。提出了一個新的RNN 編碼-解碼網路用於行人屬性預測。RNN模型探索了順序預測約束,挖掘潛在的更豐富的高階屬性相關性。自然語言語句預測就使用了詞間相關性。論文沒有使用人體part,監控場景中part比較難檢測到。

3. [3*]Automatic Spatially-aware Fashion Concept Discovery

Xintong Han1,3 Zuxuan Wu1 Phoenix X. Huang2 Xiao Zhang3

Menglong Zhu3 Yuan Li3 Yang Zhao3 Larry S. Davis1

1University of Maryland 2Snap Inc. 3Google Inc.

[Paper] [Dataset]

本文作者Xintong Han做了一些很有趣的工作,例如服裝搭配、時尚元素檢索、虛擬試穿。如下圖所示,本文(1)將attributes和visual features編碼到一個空間,(2)再藉助global averaging pooling(GAP) 和Word2vector確定服裝attribute的空間響應(spatial representation)和語義表達(semantic representation)將attributes分成若干concepts.(3)依據concepts將第一步中的common space劃分成若干subspace. 這個工作有利於structured browsing和attribute-feedback的商品檢索。作者提供了一個Fashion200k數據集,含服裝圖片和文字描述。為了減少背景干擾,作者訓練了一個detector,故對於一類描述既有正例也有負例(positive detection score or negative)。在第一步中作者用了cosine距離度量visual features和sentence embedding

不過也有些很奇怪的點。。(1)例如第一步中用的sentence embedding v = W_t * e,e是one-hot vector, v是bag-of-words representation. 假設一句描述里不會出現重複的詞,那其實應該v = e...

(2)作者在第二步中用word2vector去embed意圖豐富concept內間語義聯繫,但根據描述作者是用產品描述自己train的。。感覺反而會推開語義相近的attributes..

*(3)update:試了試作者的數據集MultiBox detect出來十分不準。。


推薦閱讀:

2017年歷史文章匯總|深度學習
【小林的OpenCV基礎課 10】Canny邊緣檢測
【小林的OpenCV基礎課 番外】卷積與濾波
計算機視覺部分演算法最佳解釋

TAG:計算機視覺 |