這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+代碼

夏乙 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

保安,保安!抓住那個砸玻璃的人!

對於人類保安來說,理解這個指令是自然而然毫無難度的事。但機器就不一樣了:它們能從畫面中認出人人人人人,但究竟哪一個才是「砸玻璃的人」呢?

李飛飛領導的斯坦福視覺實驗室即將在CVPR 2018上發表的一篇論文Referring Relationships,研究的就是這個問題。

這篇論文提出的「指稱關係」任務,是給計算機一個「主-謂-賓」結構的「關係」描述和一張圖,讓它能將主體(主語對應的那個東西)和客體(賓語對應的那個東西)定位出來。

比如說:

他們要讓計算機在這樣一個場景中,根據「person - kicking - ball(人在踢球)」這個描述,定位出「踢球的人」和「球」,根據「person - guarding - goal(人在守門)」這個描述,定位出「守門的人」和「球門」。

正確圈出主體和客體,計算機內心需要經歷這樣一個過程:

如上圖所示,整個過程的第一步是用CNN提取圖像特徵,供演算法用來對主體和客體分別進行初步定位。

不過,不是所有的主體和客體都那麼容易找出來,比如說人很好識別,但球門就不一定了。幾位研究員所用的方法,是先找到主客體之間的關係,這樣只要定位出其中一個,就很容易找到另一個。

在這個過程中需要對謂語建模,也就是搞清楚 對主客體關係的描述。他們把謂語看作主體和客體之間的注意力移動,藉此找出主客體之間的關係。

從上面的流程圖我們也可以看出,根據主體和構建出來的關係描述,可以推斷出來注意力轉移到的區域,找到客體應該在的位置,並據此修改圖像特徵。也可以根據注意力轉移,從客體推斷出主體位置。這個過程,稱為predicate shift。

運用predicate shift過程在主體和客體之間反覆傳遞消息,最終就能將這兩個實體定位出來

「某人在另一個某人的左邊」,這種描述中的兩個人,也可以用這種方法定位出來。

「拿著杯子的人」、「站在滑板上的人」等等也都沒問題。

李飛飛團隊在CLEVR、VRD和Visual Genome三個視覺關係數據集上評估了自己的模型,成績如下:

想要了解更多細節,請進入親自讀論文擼代碼環節~

論文:[1803.10362] Referring Relationships

Keras+TensorFlow實現:StanfordVL/ReferringRelationships

根據斯坦福視覺實驗室主頁介紹,他們在CVPR 2018上總共發表了三篇論文,除了量子位今天介紹的這一篇之外,還有:

  • What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets De-An Huang, Vignesh Ramanathan, Dhruv Mahajan, Lorenzo Torresani, Manohar Paluri, Li Fei-Fei, and Juan Carlos Niebles

    CVPR 2018 (spotlight)
  • Finding 「It」: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Video De-An Huang, Shyamal Buch, Lucio Dery, Animesh Garg, Li Fei-Fei, and Juan Carlos Niebles

    CVPR 2018 (oral)

這兩篇論文的PDF版還未放出,量子位還會繼續關注噠。

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

線上分享預告|邊佳旺 穩定的圖像特徵匹配以及快速的GMS方案(CVPR2017論文)
首發——Large Margin Object Tracking with Circulant Feature Maps
參加 CVPR 2018 機器學習圖像壓縮挑戰賽
CVPR論文《Face Alignment at 3000 FPS 》閱讀筆記
多風格生成網路——實時風格轉換

TAG:計算機視覺 | 人工智慧演算法 | CVPR |