[CVPR2018筆記]Actor and Action Video Segmentation from a Sentence

CVPR 2018 ORAL

本文定義了一個新的任務:給出一個句子,根據該句子分割視頻中的actor及其action。

主要有三大部分:

1, Textual Encoder

使用word2vec的預訓練模型,句子中的每個詞被編碼成1x300的vector,一個句子則聲稱nx300的matrix,通過padding使句子們size統一。

網路構造詳情見文章

2,Video Encoder

encode the actor and its action.

網路構型採用state of the art 的運用3d filter的I3D model,後面又提到了follow了two stream模型,未做很多解釋,只說同時學習RGB和光流信息

3,Decoding with dynamic filters

這裡又提到了dynamic conv filters, 這是我第二次見到這個,感覺還是有必要讀一下,若網上解讀不多,會後期發出筆記。

為了保持同樣的解析度,使用了deconv,deconv的應用上有一些創新和trick,詳情請翻讀論文

模型的訓練

訓練時模型的輸入:視頻片段,sentence,segmentation mask

loss function

公式中的r表達的是不同的解析度,作者解釋是將多個解析度納入考慮,形成一種類似skip-connnection的效果


推薦閱讀:

CVPR 2018 | Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀
Action Reconition CVPR 2017
多風格生成網路——實時風格轉換
[CVPR2018筆記]Squeeze-and-Excitation Networks
線上分享預告|邊佳旺 穩定的圖像特徵匹配以及快速的GMS方案(CVPR2017論文)

TAG:CVPR | 計算機視覺 |