Deep Reinforcement Learning for Visual Object Tracking in Videos 論文解讀

Deep Reinforcement Learning for Visual Object Tracking in Videos 論文解讀

來自專欄 DL論文閱讀心得分享專欄

這篇論文是 Da Zhang博士在2017年發的畢業論文,剛看的第一眼確實非常有意思,但是讀完發現。。。水分有點足。。。

正文:

網路架構:

每個frame的圖片輸入經過一個prtrained的VGG net至512維。

然後concat 4個數字(所以要用prtrained的VGG net,已經不知道如何吐槽了。。。),作為rnn網路的開始,這四個數字是物體的ground truth,隨後的數字都為0,每個rnn ltem的輸出取後四位作為當前frame的ground truth。

說實話,看完這個網路架構,個人就不太想繼續讀了,奈何後面的training非常有意思。

訓練:

該網路由強化學習更新參數,也就是需要訓練一個reward function,與其他物體追蹤的論文類似,在該論文中,這個function的目標輸出為IoU,換句話說,這個網路的輸出與IoU越相近那麼獎勵越高。而損失函數由GT與PR的相減。

以上就是論文的大概解讀,非常淺顯,原因是這個網路架構除了損失函數與VGG後的concat以外都與2014年Google發的一篇paper《 Recurrent Models of Visual Attention》(簡稱RAM)一毛一樣。。。。作者還非常自覺的說了出來。。。。。另這篇論文並未公布源碼,但是看了RAM公布的源碼後發現,好像作者就算不公布代碼,直接由RAM修改也是非常快的。。。但是不論如何,這篇論文算是開創了rnn,cnn,深度學習,強化學慣用於追蹤的前例。RAM的源碼解析與訓練具體過程。


推薦閱讀:

【最優化】無約束優化方法-阻尼牛頓法
Pytorch and Tensorflow的第一步
Coursera Machine Learning疑惑與解答-第0篇-Week2 Assignments
python3機器學習經典實例-第五章構建推薦引擎20
從零開始實現樸素貝葉斯分類演算法(連續特徵情形)

TAG:計算機視覺 | 深度學習DeepLearning | 機器學習 |