DensePose開源了,人體姿態大規模識別也很高效 | Facebook·CVPR 2018
來自專欄量子位
圓栗子 編譯整理
量子位 出品 | 公眾號 QbitAI
大家可能還記得,今年2月Facebook發布的,人體姿勢實時識別系統DensePose。
現在,代碼開源了。撒花。
100人也很輕鬆
DensePose,這項技術可以把2D圖像,轉換成3D人體模型,並已成功躋身今年CVPR的Oral環節。
Facebook和來自法國的INRIA研究所共同開發的AI,和傳統姿態估計系統很不一樣。
前人的姿勢識別,大多是著眼一組關節,比如手腕,比如肘部。
不過,Facebook團隊覺得,這樣的觀察方式,是沒有辦法深刻理解圖像的。
他們需要的是,人體表面的全方位觀察,把每個人變成UV貼圖,一片一片一片,一片。
系統可以覆蓋渾身上下超過5000個節點,比十幾個關節要細緻得多。
另外,DensePose每秒處理多幀畫面,而且,就算視頻里同時出現100個人,也沒問題。
每一個被人體佔據的像素,盡收眼底。
這樣的任務,一個GPU可以完全搞定。2D轉3D的速度和準確度,有希望為AR/VR這樣的應用提供加持。
數據集叫COCO
這樣的成就,DensePose-COCO功勛卓著。
這是一個大規模的參考標準 (Ground Truth) 數據集。裡面包含了5萬人圖像 - 表面UV圖的一一對應。
隨機採樣的人類,千姿百態,還有各個身體部位分割開來的樣子。
萬事俱備,只是數據集還沒開源。
模型結構怎樣
DensePose-RCNN,深度神經網路的結構,是團隊新建的。
他們是在Facebook自家的物體檢測平台Detectron上面,搭起了這樣一個模型。
在全卷積處理之後,用了興趣區域池化層 (ROI Pooling) 。研究人員用三個輸出通道,擴增了這個網路。
訓練好之後,AI可以把每一個像素,分配到不同的身體部位,給出U坐標和V坐標。
看著自家神經網路茁壯成長,Facebook團隊還在博客里致謝了被併到PyTorch里的Caffe 2。
沉迷學習時間
現在,既然還不知道數據集裡面,有多少羞羞的姿勢,大家就先瞻仰一下代碼吧。
GitHub傳送門:
https://github.com/facebookresearch/DensePose順便,CVPR正在鹽湖城開心地進行。6月22日,就要輪到DensePose團隊開講,當地時間早8點之前,沉迷學習的各位可以趁機複習一下論文。
論文傳送門:
https://arxiv.org/pdf/1802.00434.pdf— 完 —
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI · 頭條號簽約作者
?? ? 追蹤AI技術和產品新動態
推薦閱讀:
※[CVPR2018筆記]Im2Flow: Motion Hallucination from Static Images for Action Recognition
※[CVPR2018筆記]Squeeze-and-Excitation Networks
※CVPR論文《Face Alignment at 3000 FPS 》閱讀筆記
※python下載CVPR2017全套paper
※CVPR2018 | 讓AI識別語義空間關係:斯坦福大學李飛飛組提出「參考關係模型」