關係網路(Relation Net)在視頻識別和推理的應用

09-11

150 人贊了文章

一年多前寫過一篇關於DeepMind的關係網路(relation network)的回答（周博磊：如何評價 DeepMind 新提出的關係網路（Relation Network）？），最近的一篇ECCV我把這個關係結構擴展到時域，用於視頻行為識別取得了不錯的效果。大致想法是通過利用網路在時間域上面估計幀與幀之間的關係，模型本身非常簡單，在something-something dataset v2上也取得了SOTA。熟悉我研究工作的朋友應該知道我自己喜歡簡潔有效的方法。昨天為即將舉辦的ECCV錄了個demo視頻，發現在長視頻的預測上效果也蠻好，跟大家分享一下，如下，視頻下方是模型的預測結果：

https://www.zhihu.com/video/1021283281559531520

感興趣的同學可以看下面論文和代碼（特別鳴謝TSN作者的代碼庫）。

論文：https://arxiv.org/pdf/1711.08496.pdf

代碼：metalbubble/TRN-pytorch

值得一提，這篇論文是我PhD期間的最後一個工作，發表過程也曲折。投稿CVPR『18時因為被二作坑而高分被拒（原因是二作美國小哥沒經驗，在我們為補充材料準備的demo video開頭直接插入了我們作者名字，我也沒注意到就提交了，最後PC直接以違反double blind policy鋸掉。。）後來轉頭ECCV『18中了。周六將參加ECCV，朋友們慕尼黑聚起來，也許這也是我最後一次自己來講海報了，完結：）。