刷新三數據集紀錄的跨鏡追蹤(行人再識別-ReID)技術介紹
概要
日前,雲從科技在跨鏡追蹤(行人再識別)技術(ReID)上獲取重大突破。同時在Market-1501,CUHK03,DukeMTMC-reID三個數據集刷新了世界紀錄,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)達到96.6%,讓跨鏡追蹤(ReID)在準確率上首次達到商用水平,人工智慧即將從「刷臉」跨到「識人」的新紀元。今天介紹一下他們使用的方法。
文章地址:https://arxiv.org/abs/1804.01438
背景導讀
人臉識別技術經過進幾年的發展,已較為成熟,在眾多的場景與產品中都已有應用,但人臉識別技術只能用到人體的人臉信息,放棄了人體其他重要信息的利用,例如衣著、姿態、行為等,另外在應用時必須要有清晰的人臉正面照片,但在很多場景下無法滿足要求,例如低頭、背影、模糊身形、帽子遮擋等等。而跨鏡追蹤(ReID)技術正好能夠彌補人臉識別的這些不足,行人重識別能夠根據行人的穿著、體態、髮型等信息認知行人。這將人工智慧的認知水平提高到一個新的階段,現在跨鏡追蹤已成為人工智慧領域的重要研究方向。但現有的研究成果還不是很成熟,離實際商用的要求還有一定距離。而雲從科技的跨鏡追蹤(ReID)技術獲得了重大突破,將現有的技術水平提高到一個新的階段,這將大大推動業界技術研究與應用落地的進度,也將大大推動人工智慧由「刷臉」跨進全面「識人」的新紀元。
定義:
跨鏡追蹤技術(Person Re-Identification,簡稱 ReID)是現在計算機視覺研究的熱門方向,是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。該技術可以作為人臉識別技術的重要補充,可以對無法獲取清晰拍攝人臉的行人進行跨攝像頭連續跟蹤,增強數據的時空連續性。該技術可以廣泛應用於視頻監控、智能安保、智能商業等領域。
難點:
ReID技術與人臉識別技術類似,存在較多的困難點需要克服,例如光線、遮擋、圖片模糊等客觀因素。另外,行人的穿著多樣,同一人穿不同的衣服,不同的人穿相似的衣服等等也對ReID技術提出更高的要求。行人的姿態多變導致人臉上廣泛使用的對齊技術也在ReID失效。行人的數據獲取難度遠遠大於人臉識別數據獲取難度,而行人的信息複雜程度又遠遠大於人臉,這兩個因素疊加在一起使得ReID的演算法研究變得更加困難,也更加重要。通過演算法的有效設計,降低對數據依賴來實現ReID效果的突破是現在業內的共識。
本次雲從提出通過融合行人的全局信息以及具有辨識力的多粒度局部信息的思路,為解決ReID問題提供了一個非常不錯的思路。雲從科技本次提出的方案有幾大優勢(1)結構精巧:該方案實現了端到端的直接學習,並沒有增加額外的訓練流程,(2)多粒度:融合了行人的整體信息與有區分度的多粒度細節信息,(3)關注細節:模型真正懂得什麼是人,模型會把注意力放在膝蓋,衣服商標等能夠顯著區分行人的一些核心信息上。
研究成果:
Market-1501,CUHK03,DukeMTMC-reID是衡量ReID技術的最主流的數據集。首位命中率(Rank-1 Accuracy)、平均精度均值(Mean Average Precision,mAP)是衡量ReID技術水平的核心指標。雲從科技在這三個數據集中都刷新了業內最好的水平,在Market-1501數據集的Rank-1 Accuracy達到驚人的95.7%,使用Re-Ranking 技術後更是達到96.6%。mAP是更加全面衡量ReID演算法效果的指標,它要求將檢索圖片與被檢索圖片都匹配正確,而不止首位命中。雲從科技此次將Market-1501的mAP指標將現在最好的水平提高了近5%,達到86.9%,使用Re-Ranking技術之後更是達到了94.2 %。能夠獲得如此大幅度的突破,充分說明雲從科技ReID的研究成果的價值,該成果必然能夠推動ReID技術的大幅進步,也使得ReID離實際商業應用越來越近。
行人相對人臉的一個巨大的不足是數據的稀缺,行人最主流的數據集才1000-3000個行人ID,而人臉的公開數據集ID規模已超100萬,企業私有的ID規模可能更大。這樣的現象主要是由於行人數據集需要採集自同一個人在一段時間內同時出現在多個攝像頭下,這樣嚴苛的要求限制了行人數據集的構建。正因為數據的缺失,對ReID演算法的研究提出了更高的要求。雲從科技本次的方案不是以堆數據這麼」簡單粗暴」的方式提高精準度,而是通過對深度學習對行人學習的本質研究,通過設計針對性的網路結構與演算法,使得人工智慧對行人識別的理解達到一個全新的高度。
「刷臉」是計算機視覺領域的重要的應用,而「識人」將促使計算機視覺行業進入新的發展階段。雲從科技作為人臉識別領域的領導者之一,同樣對行人識別的技術前景、應用場景、社會價值有極其深刻的研究。本次ReID技術的分享是一次嘗試,雲從科技在「識人」方向的眾多細分領域已經有深入的研究,例如行人檢測、行人結構化信息提取、人體關鍵點檢測、姿態估計、行為動作識別等。雲從科技希望能夠與業內一起推動計算機視覺在「識人」這個方向上的發展,讓大家能夠更快地體會到「識人」的人工智慧對智能安防、人機互動、自動駕駛、智能商業、家居生活等各方面的幫助與提升。
文章導讀
作者表示結合全局與局部特徵是提高提取行人關鍵可分辨信息的重要方法。之前的局部特徵提取的方法專註在基於位置的顯著信息提取,導致訓練難度提高,同時在複雜場景的魯棒性並不盡如人意。而作者新設計了一個多分支的端到端的深度網路,使得不同級別的網路分支能夠關注不同粒度的分辨信息,也能夠有效兼顧整體信息。損失函數部分,作者表示為了充分體現網路的真實潛力,該文章中只使用了在深度學習中非常常見的Softmax Loss
與Triplet Loss。
作者的對多粒度的解析如圖所示,從左到右是人體部分從粗粒度到精細粒度的過程。左邊三張是完整的行人圖片,中間是將行人圖片分割為上下兩部分,最有右邊是將行人圖片分成上中下三個部分。
網路結構圖
多粒度網路(Multiple Granularity Network,MGN)如上圖所示,該結構的基礎網路部分採用業內最為常用的Resnet50。根據對Resnet50網路以及跨鏡追蹤的深刻分析,作者創新性地對Resnet50進行了合理的修改,使用Resnet50前三層提取圖像的基礎特徵,而在高層次的語意級特徵作者設計了3個獨立分支。如圖所示,第一個分支負責整張圖片的全局信息提取,第二個分支會將圖片分為上下兩個部分提取中粒度的語意信息,第三個分支會將圖片分為上中下三個部分提取更細粒度的信息。這三個分支既有合作又有分工,前三個低層權重共享,後面的高級層權重獨立,這樣就能夠像人類認知事物的原理一樣即可以看到行人的整體信息與又可以兼顧到多粒度的局部信息。
同時文章對損失函數部分也進行了精心而巧妙的設計。三個分支最後一層特徵都會進行一次全局MaxPooling操作,而第二分支與第三分支還會分別再進行局部的MaxPooling,然後再將特徵由2048維降為256維。最後256維特徵同時用於Softmax Loss與Triplet Loss計算。另外,作者在2048維的地方添加一個額外的全局Softmax Loss,該任務將幫助網路更全面學習圖片全局特徵。
而在測試的時候只需使用使用256維特徵作為該行人的特徵進行比較,無需使用2048維的特徵,使用歐氏距離作為兩個行人相似度的度量。
正是這樣簡約的設計,使得整個網路對行人完成由粗粒度特徵到精細粒度特徵的理解。
作者最後使用Re-Ranking技術對結果進行處理。需要著重強調的是文章的數據顯示,本方法在Market-1501的Rank1數值即使在沒有使用Re-Ranking技術的情況下已達到95.7%,這個結果已經超越了其他方案使用Re-Ranking技術後的結果。另外本方案的所有結果都是根據每個數據集官方提供的訓練數據以及評測方法進行,並沒有做數據擴充或者將多個數據集融合訓練這樣的」技巧」性策略。
推薦閱讀: