[CVPR2018筆記]Actor and Action Video Segmentation from a Sentence
CVPR 2018 ORAL
本文定義了一個新的任務:給出一個句子,根據該句子分割視頻中的actor及其action。
主要有三大部分:
1, Textual Encoder
使用word2vec的預訓練模型,句子中的每個詞被編碼成1x300的vector,一個句子則聲稱nx300的matrix,通過padding使句子們size統一。
網路構造詳情見文章
2,Video Encoder
encode the actor and its action.
網路構型採用state of the art 的運用3d filter的I3D model,後面又提到了follow了two stream模型,未做很多解釋,只說同時學習RGB和光流信息
3,Decoding with dynamic filters
這裡又提到了dynamic conv filters, 這是我第二次見到這個,感覺還是有必要讀一下,若網上解讀不多,會後期發出筆記。
為了保持同樣的解析度,使用了deconv,deconv的應用上有一些創新和trick,詳情請翻讀論文
模型的訓練
訓練時模型的輸入:視頻片段,sentence,segmentation mask
公式中的r表達的是不同的解析度,作者解釋是將多個解析度納入考慮,形成一種類似skip-connnection的效果
推薦閱讀:
※CVPR 2018 | Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀
※Action Reconition CVPR 2017
※多風格生成網路——實時風格轉換
※[CVPR2018筆記]Squeeze-and-Excitation Networks
※線上分享預告|邊佳旺 穩定的圖像特徵匹配以及快速的GMS方案(CVPR2017論文)