[CVPR2018筆記]Discriminative Learning of Latent Features for Zero-Shot Recognition

CVPR 2018 ORAL

zero-shot learning的解釋可以詳情見鄭哲東在知乎中的回答,就是尋求將學習到的特徵映射到另一個空間中,從而map到seen及unseen的屬性或者label上

什麼是One/zero-shot learning??

www.zhihu.com圖標

這篇文章的主要亮點在於學習了已定義label的同時,學習了latent attribute(隱含屬性)。

已有方案的drawbacks:

1,在映射前,應當抽取image的feature,傳統的用pretrain model等仍不是針對zero-shot learning (ZSL)特定抽取特徵的最優解。

2,現有的都是學習user-defined attribute,而忽略了latent representation

3,low-level信息和的空間是分離訓練的,沒有大一統的framework

本文便是對應著解決了以上問題。

notation:

FNet:抽取img的feature;

ZNet: 定位最discriminative的區域並將其放大

ENet: 將img feature映射到另一個空間

下面我們先介紹各個子網路

FNet(The Image Feature Network)

這部分直接借用了已有的VGG19、GoogleNet,不細講

ZNet(The Zoom Network)

這裡的目的是定位到能夠增強我們提取的特徵的辨識度的region,這個region同時也要與某一個我們已經定義好了的attribute對應。

ZNet的輸入是FNet最後一個卷積層的輸出。

在這裡運用某個已有的激活函數方法,將我們定位好了的region提取出來,即將crop操作在網路中直接實現。

然後,將ZNet的輸出與original img做element-wise的乘法,最後,將region zoom到與original img相同的尺寸。

如圖,再講該輸出輸入到另一個FNet(第一個Fnet的copy)

ENet(The Embedding Network)

這裡作者提出了一個score用于衡量img feature和attribute space的相似性(兼容性)

Enet將img feature映射到2k dim的空間中,1k是對應於已經定義了的label,並用softmax loss。

另1k則是對應潛藏屬性,為了使這些特徵discriminative,作者使用了triplet loss。


推薦閱讀:

SCNN-用於時序動作定位的多階段3D卷積網路
GAIR大講堂CVPR清華大學專場回顧,4位CVPR論文講者乾貨大爆料
CVPR2018: 基於時空模型無監督遷移學習的行人重識別
多風格生成網路——實時風格轉換
[CVPR2018筆記]Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

TAG:CVPR | 計算機視覺 |