[CVPR2018筆記]Unsupervised Discovery of Object Landmarks as Structural Representations
CVPR 2018 ORAL, 今年cvpr landmark 和attention這兩個詞出現的頻率很高
現在看到的是第二版,對該文進行了更深入的研究後完成。
landmark detector
本文採用的是名為hourglass的網路構架,以圖片作為輸出,該網路輸出k+1個channel,含有k個landmark和背景。對不同landmark用softmax生成confidence
在如圖公式中,Dk(u,v)意思是第k channel中坐標為(u,v)的值,Dk是weight map,與對應坐標相乘,再除以總的權重和坐標乘積的和,從而生成該channel的landmark的normalized 坐標。
soft constrain
為了保證我們生成的諸landmark及其坐標是表達的我們想要的landmark而非其他latent repre,文章提出了幾個soft constrain
1,concentration constrain:
計算兩個坐標軸上坐標的方差,設計如圖示loss是為了使方差儘可能小
這裡做了一個近似,使之轉換成了Gau dis,更低的熵值意味著peak處更多的分布,換句話說,就是使landmark儘可能地突出出來。
2,separation constrain:
由於剛剛開始訓練時候的輸入時純random distribution,故可能導致提取出的landmark聚集在中心,可能會導致separation效果不好,因此而落入local optima,故設計了該loss。
這個loss也不難理解,將不同channel間的坐標做差值,使得不同landmark儘可能不重疊。
3,Equivariance constraint:
這個比較好理解,就是某一個landmard在另一個image中變換坐標時應該仍能夠很好地定位,在這裡,作者介紹了他們實現landmark變換坐標的幾個trick。
4,Cross-object correspondenceLocal latent descriptors
這個des的目的是解決一個delimma:除了我們定義的landmark,可能還有一些latent representation,要復原一個image,僅僅landmarks是絕對不夠的,所以需要一些其他的信息作為一個補充,但表達他們又有可能影響landmark的表達。
在這裡,文章又用了另一個hourglass network,如圖中左下角的F,就在我們之前提到的concentration costrain中,用一個高斯分布來將該channel對應的landmark突出出來,在這裡,文章將他當做soft mask來用,用mask提取後再用一個linear operator來講這些feature map映射到一個更低維的空間,至此,local latent descriptor就被生成了。
Landmark-based decoder
在這裡,wk是landmark-specific operator。
簡言之,Dk是我們提出的landmark位置信息,fk是對應landmark的descriptor。
這裡又提到了一個dilemma:在用mask的時候,越多的pixel被納入是最理想的,但納入太多又使得邊緣的銳利不能體現,因為該文用了多個不同的超參數來嘗試。
推薦閱讀:
※CVPR2018 | 直接建模視覺智能體?讓「小狗」動起來~
※圖像檢索之Large-Scale Image Retrieval with Attentive Deep Local Features
※Rocket Training: 一種提升輕量網路性能的訓練方法
※視覺系統選型及搭建—工業相機篇