標籤：

人工智慧深度學習DeepLearning 物體檢測

近200FPS的高幀多人姿態檢測丨YOLO+OpenPose

09-13

近200FPS的高幀多人姿態檢測丨YOLO+OpenPose

來自專欄量子位114 人贊了文章

伊瓢發自凹非寺
量子位報道 | 公眾號 QbitAI

在高幀數下，如何實現人體姿態檢測？

下面這條刷屏的twitter視頻給出了答案。

https://www.zhihu.com/video/1022584086367469568

這是今年ECCV上的一篇名為《Pose Proposal Networks》的論文，作者是日本柯尼卡美能達公司的関井大気（Taiki SEKII），結合了去年CVPR上的YOLO和CMU的OpenPose，創造出的新方法，能夠實現高幀數視頻中的多人姿態檢測。

高幀數，無壓力

而其他方法，比如NIPS 2017 的AE（Associative embedding）、ICCV 2017的RMPE（Regional multi-person pose estimation）、CVPR 2017的PAF（Realtime multi-person 2D pose estimation using part affinity fields），都無法實現高幀數尤其是100以上幀數視頻的姿態檢測。

在COCO數據集上也不虛，相比谷歌PersonLab能在更高幀數下運行。

來看下具體數據，在頭、肩、肘部位和整體上半身識別中超過了其他方法，整體得分也不虛。

神奇「體位」大冒險

另外，常規的姿態檢測十分容易出錯的「體位」中，該方法也可以規避。

比如從天上跳傘下來這種奇怪的姿勢：

人數過多的擁擠場景：

還有，兩個人重疊的圖像。

注意，右側站立的女子和她前面在瑜伽墊上的人，完完全全分開了，不會鬧出下面這種胳膊腿兒搞錯的笑話。

原理

這是基於ResNet-18的PPN對多人姿勢檢測的過程：

a) 輸入圖像；

b) 從輸入圖像中檢測部分邊界框；

c) 檢測出肢體；

d) 區分圖中每個人。

這篇論文的方法是先將圖片分割為較小的網格，使用較小的網路對每一幅網格圖片進行單次物體檢測範例，之後通過區域提議（region proposal）框架將姿態檢測重定義為目標檢測問題。

之後，使用單次CNN直接檢測肢體，通過新穎的概率貪婪解析步驟，生成姿勢提議。

區域提案部分被定義為邊界框檢測（Bounding Box Detections），大小和被檢測人身材成比例，並且可以僅使用公共關鍵點注釋進行監督。

整個架構由單個完全CNN構成，具有相對較低解析度的特徵圖，並使用專為姿勢檢測性能設計的損耗函數直接進行端到端優化，此架構稱為姿態提議網路（Pose Proposal Network，PPN）。PPN借鑒了YOLO的優點。

傳送門

論文：

http://taikisekii.com/PDF/Sekii_ECCV18.pdf

Poster：

http://taikisekii.com/PDF/Sekii_ECCV18_pos.pdf

至於code嘛，暫時沒有。

— 完 —

歡迎大家關注我們的專欄：量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

量子位 QbitAI· 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態

推薦閱讀：

TAG:物體檢測 | 人工智慧 | 深度學習DeepLearning |