近期無監督或半監督行人重識別有什麼進展?

LeCun在演講中說,無監督學習才是下一個風口。近期也有好多無監督或者半監督的行人重識別工作面世。早期Shanggang Gong老師,Chen Change (Cavan) Loy老師,Qi Tian老師,Xiao Tong學長,Liang Zheng學長 的很多工作都很棒! 希望也能在回答中總結一下。


根據我的了解,以前很多工作是data driven,設計特徵的,這些特徵直接用的話,也可以取得不錯的效果,比如BOW,BiCov, LOMO等等。同時也有一些無監督dictionary learning的論文,近期的比如Unsupervised Cross-Dataset Transfer Learning for Person Re-identification (CVPR 2016)。

在現在效果最好的deep learning里,unsupervised learning還比較少。Learning Deep Feature Representations with Domain Guided Dropout for Person Re-identification 討論把其他數據集上學習的特徵拿到新數據集直接用。

一個有效的方式是利用新數據集(target)的數據分布,將已有的一個模型(在source上訓練的)進行提高。這有點類似transfer learning,清華的Mingsheng Long老師做了很多。在這方面,將re-ID作為應用的論文並不多。

在這個事情上,我認為重要的一個步驟是label estimation,就是如何從unlabeled data裡面找到一些可信的label。我們組最近剛放出來的論文Unsupervised Person Re-identification: Clustering and Fine-tuning (ArXiv 2017)是在這個問題上的一點嘗試。這個論文把訓練集(無label)的聚類和CNN fine-tuning進行迭代訓練,通過幾次迭代,可以有效提高初始model在target上的性能。論文代碼已經公開,hehefan/Unsupervised-Person-Re-identification-Clustering-and-Fine-tuning。這個方法因為原理直觀,實現起來難度不大,我認為可以看做一個baseline的論文。


鄭良博士和范鶴鶴同學已經講了很多了。在這裡我來補充幾句。

隨著person re-ID這個技術的逐漸發展,研究者們逐漸將目光轉向實際場景下的問題研究。現實場景下的person re-ID首先面對的問題就是labeled training data的嚴重缺乏,因為我們不可能針對每一個應用環境(比如一個大型購物中心,一個迪士尼遊樂場)都去標記大量的訓練數據,人力成本太高,也不切合實際。因此,無監督person re-ID的研究價值就凸顯出來了。

鄭良博士已經介紹了他們組最近推出的一種簡單有效的無監督re-ID方法。在這篇文章里,作者主要致力於建立一套基於deep learning的無監督 re-ID的框架,並給出一種簡單有效的baseline方法,來引領後續的研究,所以對於有些具體的問題,作者並沒有去深究。

比如,這篇文章需要使用一個額外的labeled dataset去初始化feature embedding,那麼如何構建這個初始化數據集就很重要。一個規模很大,多樣性很高的初始化數據集顯然有助於更好地在一個unseen的監控場景下進行無監督學習,因為其會提高初始化feature embedding的行人特徵表示能力,同時也會降低初始化特徵表示的bias。個人覺得如果將來能有一個類似ImageNet的大規模行人再識別數據集(業內的安防監控大公司是有這個財力和人力的),專門用於無監督person re-ID的初始化,那麼person re-ID離實用化就不遠了。

在這裡,我再推廣一下我們組最近發表的一個簡單有效的半監督行人再識別方法Enhancing Person Re-identification in a Self-Trained Subspace,TOMM, 2017)。這個方法是先選取很一小部分訓練數據用來初始化一個子空間特徵映射,然後將unlabeled的訓練數據映射到這個子空間,然後使用KNN方法來獲得pseudo pairwise relationship(實際上就是如果兩個unlabeled samples距離很近,就假定他倆是同一個人),並據此來增強那個特徵映射,這也是個迭代學習的過程。通過多次迭代,我們在CUHK01數據集上僅僅使用1/3甚至1/5的labeled data,就可以獲得接近全監督方法的性能。(文中也包含了一個multi-kernel的拓展,這個主要是為了增加期刊文章的工作量,大家可以忽略)我們的方法原理簡單直觀,效果也很顯著,代碼已經在我的github上公開了Xun-Yang/ReID_slef-training_TOMM2017。歡迎大家拍磚。


無監督或半監督行人重識別的確有著比較實際的需求, 因為總不能對每一個新區域或對每一組新攝像頭都收集數據, 標數據然後再train, 這樣代價太高了. 而且, 在論文Unsupervised Person Re-identification: Clustering and Fine-tuning里有實驗證明通過大量已有數據集並不能明顯提升在未知(unseen)數據數據上的性能,甚至有時還會降低性能(由場景, 攝像頭角度以及光線強度等引起的domain不同). 綜上兩點, 行人重識別有必要減輕對unseen區域labelled數據的依賴.

非deep learning的無監督或半監督行人重識別已有不少方法, 再往前推hand-crafted feature應該也算是一類. 但由於在有監督行人重識別領域, CNN取得了無可比擬的性能, 因此無監督的deep learning方法也應該有所嘗試.


稍稍安利一下我們在ICCV 2017上發表的一個關於Unsupervised re-ID的工作。

Dynamic Label Graph Matching for Unsupervised Video Re-Identification。

文章的想法很直觀,如下圖所示:

我們將每個camera下的samples構建一個graph,將每一個person當成一個node,然後cross-camera 之間的positive samples就可以通過graph matching來進行mining。採用graph matching一個主要的考慮是基於graph matching可以很好的挖掘樣本之間的關係,做一個global的optimization,這一點可以參見CVPR 16 Joint Probabilistic Matching Using m-Best Solutions 。如果是matched nodes就可以被當成positive,unmatched 的nodes就是negative。通過estimated labels我們就可以學習到一個更好的metric,也可以通過這個學習好的metric來propagate 到更多的camera中來mine positive。文中簡單採用了一個label re-weighting來過濾一些false estimated labels。文章的code也在github上release了,感興趣的可以去試試。

我覺得可能有以下幾個改進點:

  1. 一些更先進的outlier removement 來替代label re-weighting應該可以大幅提升最後的效果。
  2. 文中通過graph matching 去mine positive,依賴於兩個camera 下大部分sample都是匹配的假設,一些更robust graph matching 方法應該可以比較好的克服這個問題。如partial matching。
  3. 針對於video的情況,可以考慮一些更複雜的graph結構去更好的mining sample之間的關係,如multi-layer graph。

歡迎大家一起討論!


在很多人臉識別中也遇到這樣的問題。比如cuhk在lfw上很高的演算法,到現實中效果就降低了。很大程度上是因為訓練數據集的人種,明星臉造成的。

期待能找到重識別的 cross domain 方案啊。數據集上dukemtmc-reid都是外國人,market cuhk都是華人多。


剛接觸Re-ID領域,查閱到這個問題,最近也在讀鄭良博士的這篇文章 1705.10444 Unsupervised Person Re-identification: Clustering and Fine-tuning。但文中有一處,還是覺得有些confused。

公式(2)中vi是一個取值為0/1的indicator,但文章中的寫法 λ ||v||,和後面的描述中提到取全0/全1的兩種極限情況。一方面感覺是類似於正則項,另一方面又感覺像是需要做一個trade-off

但其實公式詳細推導和從(Fig.1 selection),且文中也提到了,其實就是將λ作為一個篩選閾值吧?

如果這樣來理解,雖然沒有漂亮的公式,是不是能簡化問題,同時也避免mislead呢

個人理解,輕拍


人家yann說的unsupervised和你reid半毛錢關係沒有


推薦閱讀:

行人重識別在問題深度上有什麼問題可以研究?
行人重識別的應用場景有哪些?
計算機如何理解圖像?
怎麼樣才能踏入機器視覺這個行業?
虛擬視點視頻的實時合成(real-time view synthesis )是否已經能夠實現?

TAG:計算機視覺 | 深度學習DeepLearning | 行人重識別 | 智能安保 | 半監督學習 |