[CVPR2018筆記]Unsupervised Discovery of Object Landmarks as Structural Representations

05-08

CVPR 2018 ORAL，今年cvpr landmark 和attention這兩個詞出現的頻率很高

現在看到的是第二版，對該文進行了更深入的研究後完成。

landmark detector

本文採用的是名為hourglass的網路構架，以圖片作為輸出，該網路輸出k+1個channel，含有k個landmark和背景。對不同landmark用softmax生成confidence

在如圖公式中，Dk(u,v)意思是第k channel中坐標為（u，v）的值，Dk是weight map，與對應坐標相乘，再除以總的權重和坐標乘積的和，從而生成該channel的landmark的normalized 坐標。

soft constrain

為了保證我們生成的諸landmark及其坐標是表達的我們想要的landmark而非其他latent repre，文章提出了幾個soft constrain

1，concentration constrain：

計算兩個坐標軸上坐標的方差，設計如圖示loss是為了使方差儘可能小

這裡做了一個近似，使之轉換成了Gau dis，更低的熵值意味著peak處更多的分布，換句話說，就是使landmark儘可能地突出出來。

2，separation constrain：

由於剛剛開始訓練時候的輸入時純random distribution，故可能導致提取出的landmark聚集在中心，可能會導致separation效果不好，因此而落入local optima，故設計了該loss。

這個loss也不難理解，將不同channel間的坐標做差值，使得不同landmark儘可能不重疊。

3，Equivariance constraint：

這個比較好理解，就是某一個landmard在另一個image中變換坐標時應該仍能夠很好地定位，在這裡，作者介紹了他們實現landmark變換坐標的幾個trick。

4，Cross-object correspondence

本文模型認為不能保證同一object在不同情況檢測時絕對的correspondence，文章認為這應該主要依賴於該特定pattern能夠在網路生成的激活值展現一定的共性

Local latent descriptors

這個des的目的是解決一個delimma：除了我們定義的landmark，可能還有一些latent representation，要復原一個image，僅僅landmarks是絕對不夠的，所以需要一些其他的信息作為一個補充，但表達他們又有可能影響landmark的表達。

在這裡，文章又用了另一個hourglass network，如圖中左下角的F，就在我們之前提到的concentration costrain中，用一個高斯分布來將該channel對應的landmark突出出來，在這裡，文章將他當做soft mask來用，用mask提取後再用一個linear operator來講這些feature map映射到一個更低維的空間，至此，local latent descriptor就被生成了。

Landmark-based decoder

第一步，raw score map

第二步，normalize

第三步，生成最終圖像

在這裡，wk是landmark-specific operator。

簡言之，Dk是我們提出的landmark位置信息，fk是對應landmark的descriptor。

這裡又提到了一個dilemma：在用mask的時候，越多的pixel被納入是最理想的，但納入太多又使得邊緣的銳利不能體現，因為該文用了多個不同的超參數來嘗試。