[CVPR2018筆記]Discriminative Learning of Latent Features for Zero-Shot Recognition
CVPR 2018 ORAL
zero-shot learning的解釋可以詳情見鄭哲東在知乎中的回答,就是尋求將學習到的特徵映射到另一個空間中,從而map到seen及unseen的屬性或者label上
什麼是One/zero-shot learning?這篇文章的主要亮點在於學習了已定義label的同時,學習了latent attribute(隱含屬性)。
已有方案的drawbacks:
1,在映射前,應當抽取image的feature,傳統的用pretrain model等仍不是針對zero-shot learning (ZSL)特定抽取特徵的最優解。
2,現有的都是學習user-defined attribute,而忽略了latent representation
3,low-level信息和的空間是分離訓練的,沒有大一統的framework
本文便是對應著解決了以上問題。
notation:
FNet:抽取img的feature;
ZNet: 定位最discriminative的區域並將其放大
ENet: 將img feature映射到另一個空間
下面我們先介紹各個子網路
FNet(The Image Feature Network)
這部分直接借用了已有的VGG19、GoogleNet,不細講
ZNet(The Zoom Network)
這裡的目的是定位到能夠增強我們提取的特徵的辨識度的region,這個region同時也要與某一個我們已經定義好了的attribute對應。
ZNet的輸入是FNet最後一個卷積層的輸出。
在這裡運用某個已有的激活函數方法,將我們定位好了的region提取出來,即將crop操作在網路中直接實現。
然後,將ZNet的輸出與original img做element-wise的乘法,最後,將region zoom到與original img相同的尺寸。
如圖,再講該輸出輸入到另一個FNet(第一個Fnet的copy)
ENet(The Embedding Network)
這裡作者提出了一個score用于衡量img feature和attribute space的相似性(兼容性)
Enet將img feature映射到2k dim的空間中,1k是對應於已經定義了的label,並用softmax loss。
另1k則是對應潛藏屬性,為了使這些特徵discriminative,作者使用了triplet loss。
推薦閱讀:
※SCNN-用於時序動作定位的多階段3D卷積網路
※GAIR大講堂CVPR清華大學專場回顧,4位CVPR論文講者乾貨大爆料
※CVPR2018: 基於時空模型無監督遷移學習的行人重識別
※多風格生成網路——實時風格轉換
※[CVPR2018筆記]Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering