檢測和識別人-物體的相互作用

檢測和識別人-物體的相互作用

為了理解視覺世界,機器不僅必須識別單個目標實例,還必須識別它們如何交互。人類往往處於這種相互作用的中心,檢測人 - 物體相互作用是一個重要的實際和科學問題。在本文中,我們討論了在挑戰日常照片中檢測<人,動詞,物體>三元組的任務。我們提出了一種由以人為中心的方法驅動的新模型。我們的假設是一個人的外表 - 他們的姿勢,衣服,動作 - 是一個強大的線索來用於他們正在與之交互的目標的定位。為了利用這個線索,我們的模型學習基於檢測到的人的外觀來預測目標對象位置上的特定動作的概率密度。我們的模型還共同學習檢測人和物體,並通過融合這些預測,它有效地在一個乾淨的,聯合訓練的端到端系統中推斷交互三元組,我們稱之為InteractNet。我們對最近在COCO(V-COCO)和HICO-DET數據集中引入的動詞上驗證了我們的方法,我們在這些數據集中顯示了定量引人注目的結果。

Detecting and Recognizing Human-Object Interactions. Georgia Gkioxari, Ross Girshick, Piotr Dollár, and Kaiming He. Tech report, arXiv, Apr. 2017.


推薦閱讀:

上周最佳天文圖片(NASA-APOD中文版)5.14-5.20
李焯芬:現代物理學看到了佛教的「空」
物理學的本質
電場的高斯定理

TAG:計算機視覺 | 科技 | 物理學 |