DensePose開源了,人體姿態大規模識別也很高效 | Facebook·CVPR 2018

DensePose開源了,人體姿態大規模識別也很高效 | Facebook·CVPR 2018

來自專欄量子位

圓栗子 編譯整理

量子位 出品 | 公眾號 QbitAI

大家可能還記得,今年2月Facebook發布的,人體姿勢實時識別系統DensePose。

現在,代碼開源了。撒花。

100人也很輕鬆

DensePose,這項技術可以把2D圖像,轉換成3D人體模型,並已成功躋身今年CVPR的Oral環節。

Facebook和來自法國的INRIA研究所共同開發的AI,和傳統姿態估計系統很不一樣。

前人的姿勢識別,大多是著眼一組關節,比如手腕,比如肘部。

不過,Facebook團隊覺得,這樣的觀察方式,是沒有辦法深刻理解圖像的。

他們需要的是,人體表面的全方位觀察,把每個人變成UV貼圖,一片一片一片,一片。

系統可以覆蓋渾身上下超過5000個節點,比十幾個關節要細緻得多。

另外,DensePose每秒處理多幀畫面,而且,就算視頻里同時出現100個人,也沒問題。

每一個被人體佔據的像素,盡收眼底。

這樣的任務,一個GPU可以完全搞定。2D轉3D的速度和準確度,有希望為AR/VR這樣的應用提供加持。

數據集叫COCO

這樣的成就,DensePose-COCO功勛卓著。

這是一個大規模的參考標準 (Ground Truth) 數據集。裡面包含了5萬人圖像 - 表面UV圖的一一對應。

隨機採樣的人類,千姿百態,還有各個身體部位分割開來的樣子。

萬事俱備,只是數據集還沒開源。

模型結構怎樣

DensePose-RCNN,深度神經網路的結構,是團隊新建的。

他們是在Facebook自家的物體檢測平台Detectron上面,搭起了這樣一個模型。

在全卷積處理之後,用了興趣區域池化層 (ROI Pooling) 。研究人員用三個輸出通道,擴增了這個網路。

訓練好之後,AI可以把每一個像素,分配到不同的身體部位,給出U坐標和V坐標。

看著自家神經網路茁壯成長,Facebook團隊還在博客里致謝了被併到PyTorch里的Caffe 2

沉迷學習時間

現在,既然還不知道數據集裡面,有多少羞羞的姿勢,大家就先瞻仰一下代碼吧。

GitHub傳送門:

github.com/facebookrese

順便,CVPR正在鹽湖城開心地進行。6月22日,就要輪到DensePose團隊開講,當地時間早8點之前,沉迷學習的各位可以趁機複習一下論文。

論文傳送門:

arxiv.org/pdf/1802.0043

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態

推薦閱讀:

[CVPR2018筆記]Im2Flow: Motion Hallucination from Static Images for Action Recognition
[CVPR2018筆記]Squeeze-and-Excitation Networks
CVPR論文《Face Alignment at 3000 FPS 》閱讀筆記
python下載CVPR2017全套paper
CVPR2018 | 讓AI識別語義空間關係:斯坦福大學李飛飛組提出「參考關係模型」

TAG:Facebook | CVPR | 計算機視覺 |