關係網路(Relation Net)在視頻識別和推理的應用

關係網路(Relation Net)在視頻識別和推理的應用

150 人贊了文章

一年多前寫過一篇關於DeepMind的關係網路(relation network)的回答(周博磊:如何評價 DeepMind 新提出的關係網路(Relation Network)?),最近的一篇ECCV我把這個關係結構擴展到時域,用於視頻行為識別取得了不錯的效果。大致想法是通過利用網路在時間域上面估計幀與幀之間的關係,模型本身非常簡單,在something-something dataset v2上也取得了SOTA。熟悉我研究工作的朋友應該知道我自己喜歡簡潔有效的方法。昨天為即將舉辦的ECCV錄了個demo視頻,發現在長視頻的預測上效果也蠻好,跟大家分享一下,如下,視頻下方是模型的預測結果:

https://www.zhihu.com/video/1021283281559531520

感興趣的同學可以看下面論文和代碼(特別鳴謝TSN作者的代碼庫)。

論文:arxiv.org/pdf/1711.0849

代碼:metalbubble/TRN-pytorch

值得一提,這篇論文是我PhD期間的最後一個工作,發表過程也曲折。投稿CVPR『18時因為被二作坑而高分被拒(原因是二作美國小哥沒經驗,在我們為補充材料準備的demo video開頭直接插入了我們作者名字,我也沒注意到就提交了,最後PC直接以違反double blind policy鋸掉。。)後來轉頭ECCV『18中了。周六將參加ECCV,朋友們慕尼黑聚起來,也許這也是我最後一次自己來講海報了,完結:)。

推薦閱讀:

Omnigraffle的使用技巧介紹
「小三」剋星,當貓眼可以錄像抓拍還有人臉識別,你是否會買?
cs131課程筆記(3)
PodSixNet模塊
CVPR18|Repulsion loss:遮擋下的行人檢測

TAG:計算機視覺 | 人工智慧 |