提升目標定位/防止過擬合/Hide-and-Seek

05-24

論文 arXiv:1704.04232v2 [cs.CV] 23 Dec 2017

聲明：此文稿由本人自己手動翻譯，僅作自己筆記使用。請勿作為學習內容。文末附有原論文地址，可以將本文作為參考。歡迎指正，如若轉載註明出處以及聲明。

隱藏和尋找：使用弱監督強制網路進行細緻的目標和行為定位

Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization

作者：Krishna Kumar Singh & Yong Jae Lee（加州大學，Davis分校）

摘要

這裡的Hide-and-Seek，是一個弱監督框架，用於自動提升在圖片里的目標定位和在視頻里的行為定位（action localization)。現目前大多數的弱監督演算法定位都是在所有區塊中最具辨識的區域，這使得(演算法)表現並未達到最佳。我們的中心思想是在訓練集圖片中隨機地隱藏一些斑塊(patches)，當最具辨識區域塊被隱藏起來的時候強制讓網路去尋找其他相關部分。我們的方法只需要修改輸入的圖片就可以和任何一個為目標定位而設計的網路使用。在測試的時候，我們當然不需要隱藏任何斑塊(patches)。（然而）我們的Hide-and-Seek方法相比於在ILSVRC』數據集上更早期的弱監督演算法，獲得了更好的性能。我們也證實了我們的框架可以更容易的延伸應用到目標定位弱監督演算法。

1.介紹

弱監督處理過去被用於：包括對象監測在內的各式各樣的視覺分類和定位任務[55,13,9,41,3,50,43,8,32,61,40]、詞義的區分[33,26]。與完全監督學習相比較，弱監督學習的優勢在於它需要的注釋細節(detailed annotationd)更少,因此（弱監督）有潛力使用在從網路上獲得的只具備少量注釋細節的視覺文件上。例如，弱監督物品分類器可以僅使用沒有任何對象目標註釋(object location annotations)的圖片級別的標籤（『是狗』或者『不是狗』）來訓練。

現今的弱監督演算法在訓練數據上確定有效辨識區域（的時候）頻繁的集中在一個種類而極少確定其他剩餘種類。這明顯的發生如下兩個情況之一：採集有效區域的圖像或者特徵[55,13,9,41,3,42,43,8,40] 或者暗中的被那些由一個用於圖片分類的深層網路訓練得到的上層激活圖來分析[38,32,61](得到)。然而，由於內部分類的變更或者信賴只在於一個分類目標，這些演算法通常不會去辨識整個目標範圍而只停留在最具辨識的區域。

近期用於解決大部分識別工作只集中在辨識區域的問題的（研究）工作中。Song 等其他多人[43]將目標中多種共同發生的辨識區域結合在一起用於覆蓋更多區域。當確保在目標中多重選擇到的辨識區覆蓋更大的範圍的時候，卻沒有辦法確保那些少辨識區域的斑塊也存在其中。Singh等人[40]使用從視頻文件弱標籤(weakly-labeled)中得到的動作提示和轉移跟蹤目標框（解決問題）。然而，這種方法需要額外的視頻文件弱標籤，而這樣的標籤並非都可以找到。終於，Zhou等人[61]在圖片分類網路卷積層最後一層用全局平均池化替代了最大池化層。從平均池化層將所有特徵聚合，這個方法鼓勵網路（的學習範圍）超出最具辨識的區域（這個方法足夠達到最大池化效果）。然而，如果正在識別的少數高辨識區域能夠學習到出精確地分類成績，網路仍然會避開辨識低的區域，如圖1所示(第一行)。

主要思想.

在本篇論述中，我們使用一個完全不同的方法來應對這個問題。區別於採用改變演算法[43,61]或者依賴外部數據[40]，我們將改變輸入的圖片來解決問題。主要的關鍵點在當圖片在訓練的時候去隱藏斑塊，於是模型就需要在剩餘的部分去找尋相關目標區域。我們的方法Hide-and-Seek』也由此得名。圖1（下面一行）直接的證明：如果隨機的從圖片中去除一些斑塊，可能是圖上那隻狗的頭部，而這個最具辨識的區域，卻對模型而言是不可見的。在這個例子中，模型為了良好的完成分類任務，必須尋找其他類似於尾巴和腿這樣相關的區域。藉由在每批次訓練(training epoch)中採用隨機隱藏不同的斑塊，模型尋找不同的圖像的區域，而且它被迫於將找尋的注意範圍放在對於相關目標的多個部分，這超越了只有一個最相關區域的範圍。重點在於，我們只需要將這種隨機隱藏斑塊應用在訓練的時候而非測試的時候。由於在測試的時候（模型）會注意到整個圖片數據，和在訓練的時候看到的不一樣。我們會展示將隱藏像素值設置為數據平均值，可以讓兩個部分相匹配，並且規定了一個理論上的對正。

——圖1——

由於Hide-and-Seek』只是改變了輸入的圖片，因此可以很容易的推廣應用到不同的神經網路和任務中。在本篇論述中，我們在AlexNet[28]和GoogLeNet46]上論證了它的適應性，而且將這個理念應用在弱監督圖片目標定位和弱監督視頻動作定位上。在短暫的動作定位任務中（需要找出視頻中動作的開始和結束），當訓練一個動作分類網路的時候隨機隱藏了順序播放的幀畫面，這迫使網路在其他相關幀畫面里學習相關動作。

貢獻.

我們的工作主要有三個方面的貢獻：

我們提出Hide-and-Seek『這樣弱監督定位的理念並且在ILSVRE數據集[36]中創造了最新的目標定位成績；
我們展示了在不同網路和層中應用的普遍性；
我們將理念延生到相對陌生的弱監督短暫動作定位任務中。

2.相關工作

弱監督目標定位.

全監督卷積網路（CNNs）過去在目標偵查[16,15,30]、分割[31]和歸屬定位[11,60,27]上展示了斐然的成績，但是訓練需要耗費昂貴的人工標註（比如用邊界框標註目標）。為了降低昂貴的標註成本，弱監督使用更便宜的標籤處理學習問題，比如使用圖片級別的標籤預測目標定位。[55,13,9,41,3,43,50,8,32,61]

在數據中挖掘用於辨識特徵或者區域的時候，大多數弱監督定位處理頻繁的出現在一個類別，而鮮於出現在其他的類別中[55,13,9,41,3,7,42,43,8]。然而這些處理方法傾向於專註在最具辨識的區域，以至於未能將處理範圍覆蓋到目標整個區域。在我們的方法中，我們在訓練過程中（隨機）隱藏了圖片的斑塊，這迫使我們的網路不再只注意最具辨識的區域而是目標的更多樣的部分。另有一些演算法將視頻文件中的弱標籤作為外加的動作提示，以用來提升目標定位性能[35,40]。聽起來是一個好主意,但並非總是容易獲取這樣的視頻文件，特別是對於靜態的目標。相對而言，我們的演算法不需要任何的外部數據或者是注釋。

最近有對CNN的結構做一些修改，以使得執行圖片分類任務的時候卷積層可以學到目標定位[32,61]。其他的網路已經為弱分類目標探測[20,4,24]做了設計。儘管這些演算法已經顯著提升了最新成績，但從本質來說仍然是依賴於一個目標分類，這導致當低辨識區域不能提升分類性能的時候，演算法會放棄捕獲整個範圍。我們雖然也是依賴於一個目標分類，然而我們用隨機隱藏斑塊的方式修改輸入圖片代替修改CNN的構造。我們證實這種強迫網路注意低辨識區域的方法，最終能使網路注意目標中更大的範圍。

屏蔽像素或者激活物.

屏蔽圖片斑塊已經應用於目標定位[1]、自監督特徵學習[34]、分割語義[17,10]、在目標檢測中產生硬閉合(hard occlusion)訓練樣本[54]、以及視覺化理解CNN已經學習到的內容[59]。在個別項目中，對於目標定位[59,1]，為訓練一個圖像分類CNN的時候遮擋的局部區域會導致分類性能的大幅度下跌。這是由於這些對圖片區域的屏蔽處理只是在測試的時候而非訓練的時候，這些局部區域局限於高辨識度區域。在我們的方法中，圖像區域是在訓練時被遮擋起來，這使得模型甚至去注意到目標上的低辨識區域。最終，我們的工作和敵對擦除(adversarial erasing)的演算法密切相關，它針對弱監督語義分割迭代的訓練一序列的模型。每個模型依據前面迭代模型的輸出確認目標的相關部分。最終我們只訓練單一的模型一次（這比較便捷）而不依賴於像以前一樣的改善高顯著區域的定位[56]。

Dropout[44]以及相關的延伸方法[49,47]依然值得討論。這裡有兩個不同之處:(1)這些演算法的任務是提升定位性能的時候用於防止過擬合的；(2)在Dropout的時候單元是被隨機的去除，而在我們的演算法中，被去除的是連續的圖片或者視頻幀畫面。在實驗中證實我們的方法在定位上顯著優於Dropout。

動作定位.

動作定位是一個很好的研究課題[29,6,51,21,23]。最近CNN-based處理[58,37]展現了比之前手工製作方法更優越的性能。這樣的全監督演算法需要注釋出視頻中開始和結束時候的動作，這需要用大量資源去獲得。弱監督方法從電影原文[29,12]或者一個有序的動作列表[5,18]中去學習。Sun等人[45]將從網路上得到的圖片聯合成弱標籤視頻用於動作定位。相對於這些方法，我們的方法針對一個短暫的視頻只用到一個視頻級別動作標籤(video-leavel action label)。[14]在找尋一個動作的關鍵框架的時候我們同樣也只使用視頻級別的動作標籤。

3.方法

在這個部分，我們首先描述我們Hide-and-Seed在圖片中的目標定位演算法，隨後描述在視頻中的動作定位。

3.1弱監督目標定位

對於弱監督目標定位，我們將一組圖片中每個圖片 I 只被定義上它自己類別的標籤。

Iset={I1，I2，... ... ，IN}

我們的目標是學習到的目標定位既能夠預測分類標籤也能在新的測試圖片 Itest 中標識出目標的相關(object-of-interest)邊界框。為了學習目標分類，我們訓練一個在進行圖片分類任務的同時也學習目標定位的CNN。當數目繁多的技巧用於設計來解決這個問題的時候，現存的演算法傾向於只定位目標上最具辨識度的部分，因為這些部分的數據已經足夠充分去優化分類任務。

為了強迫網路學習目標的所有相關部分，我們的主要思想是在訓練的時候隨機地從每個圖片 I 中隱藏斑塊，正如如下的例子所示。

——圖2-1——

——圖2-2——

隨機隱藏圖片斑塊.

隱藏斑塊的目的是為了當訓練圖像分類任務網路的時候向它展示目標的不同部分。藉由隨機的隱藏斑塊，我們可以保證目標上最具辨識度的部分並非總是可以被網路發現，這使得網路被迫將注意放在目標的其他相關部分。用這種方法我們可以克服現存的弱監督演算法只將注意放在目標上最具辨識度的區域的情況。

具體的說，給出一個尺寸為 W×H×3 尺寸的訓練圖片 I ，我們首先用一個固定尺寸S×S×3將它劃分為網格。由此產生總數為(W×H)/(S×S)的斑塊。隨後我們用 Phide 的概率隱藏每個斑塊。舉例來說，在圖2-1，圖片的尺寸是224×224×3，而它被分割成56×56×3的16個斑塊。每個斑塊被以 Phide=0.5 的概率隱藏。我們得到一個帶有隱藏斑塊的圖片 I ，並且將之作為訓練用的圖片輸入給分類CNN。

重要的是，我們在每張圖片隨機的隱藏不同斑塊組。並且，對於同樣的圖片，我們在每次訓練批隱藏不同的斑塊組。這樣的操作性質允許讓網路學習每個圖片中目標的多種相關部分。例如在圖2-1，由於隨機的隱藏斑塊，網路在每一個批次尋找到的是不同的 I『。在第一批次中，狗的頭部是被隱藏起來的而它的腿和尾巴被清楚的查看到。相對的，在第二個批次中，狗的腿和尾巴被隱藏起來而頭部是可見的。正因如此，為更好的辨識一張圖片是一隻」狗「，網路被迫去學習狗的所有相關部分而非只有最高辨識度的部分（比如說頭部）。

我們只是在訓練的時候隱藏斑塊，在測試的時候，沒有任何隱藏斑塊的整張圖片將作為輸入給到網路，圖2-2。由於網路在訓練的時候已經學習到注意多種相關部分，所以米有必要在測試的時候隱藏任何斑塊。這於[1]的方法形成直觀地對比，它是在測試的時候隱藏斑塊而非訓練時。因為網路在訓練時已經被訓練成將注意放在最具辨識度的區域，本質上來說為時已晚，而在測試時隱藏斑塊對目標定位性能提升沒有顯著的效果。

設置隱藏的像素值.

有一個非常重要的細節我們需要小心。由於在訓練隱藏起來的斑塊和測試時沒有隱藏的斑塊是矛盾的，那麼通過訓練的第一個卷積層激活的分布在測試時完全不同。為了讓一個網路能很好的推廣到新的測試數據上，激活的分布應當是粗略的相等。也就是說，對於神經網路中的任意一個連接到X的單元及其輸出權重W，在訓練時和測試時分配的WTX應該粗略的相等。然而在我們的設置的中，由於訓練時某些斑塊被隱藏而測試時將不會再有隱藏，所以這種情況並非必然發生。

特別指出，在我們的設置中，假設我們有一個——核尺寸為K×K，三維權重Ｗ={ｗ１,ｗ2,......,wk×k}的卷積層濾波器F,它應用於圖片I 中的一個RGB斑塊X={x1，x2，......，xk×k}上。v是在每個隱藏像素的RGB值的表示向量。有三種激活情況:

——圖3——

1.F完全處於可以看到的部位（圖3，藍框）。那麼相應的輸出即為：

2.F完全處於隱藏的斑塊中（圖3，紅框）。那麼相對的輸出即為：

3.F部分處於隱藏的斑塊中（圖3，綠框）。那麼相應的輸出即為：

在測試期間，F總是完全處於可見區域—輸出為：

在訓練時只有在第一種情況的時候才會是這種理想輸出。而剩下的兩個情況，當F完全或者部分處於隱藏斑塊，測試期間看到的部分會有不同的激活分布。

我們用設置一個隱藏像素的RGB向量值v等於整個數據集RBG向量的平均值來解決這個問題:

這裡的j是數據範圍內所有像素的索引，Npixels是數據中所有像素的數目。這是如何奏效的呢？本質上來說，我們假設了一個預期，斑塊的輸出會和斑塊的平均值相等

用μ替代v，第二種和第三種情況的輸出將會變為：

而這恰好達到了在測試時的輸出預期（比如一個完全可見的斑塊）。

dropout[44]這個過程和縮放比例有關，此時在測試時的輸出會按照訓練時預期輸出的縮小率來縮放比例。在dropout中，輸出在整個特徵地圖上統一的丟棄，與空間位置無關。如果我們將隱藏斑塊等同的視為dropping單元，那麼在我們的這種情況下，由於輸出的部分依賴於是否有任何隱藏的像素，我們就不能設置一個整體的縮放因素。因此，我們按照上述方法，取而代之採用按照預期的訓練數據中的像素值來設置隱藏值，而沒有按照輸出來相應的縮放比例。從經驗來看，我們發現採用這種方法設置隱藏像素對使得在訓練時和測試時都有相似表現是非常重要的一步。

目標定位網路構架.

我們這個隱藏斑塊的方法是獨立於網路構架的，它可以和任何被設計來做目標定位的CNN網路一起使用。在我們的實驗中，選擇的使用Zhou等人[61]的網路，該網路執行了在卷積特徵圖上的全局平均池化（GAP）來給出一個分類激活圖（CAM）用於描繪輸入圖片的類別下最具辨識的區域。這個方法已經在ILSVRC定位挑戰[36]的弱監督方面展示出來最新的性能，而現有的CNN構架譬如AlexNet[28]和GoogLeNet[46]都能方便的調整來獲得一個CAM。

在一張圖上獲得CAM的方式為，在執行最後一層卷積層後執行全局平均池化，能獲得預測圖片分類概率的一個分類層。和分類層中分類相關的權重代表了最後一個卷積層的那個分類特徵圖的重要程度。更正式的表達為，F={F1,F2,...,FM}是最後卷積層的M個特徵圖，而W是分類層中N×Ｍ的權重矩陣，這裡的N是分類的數量。那麼在圖片I中的分類c在CAM表示為：

輸入一張圖片到CAM，我們得到一個由

[61]演算法得到的邊界框。簡單說來，我們首先用CAM生成一個二進位的前景/後景映射，然後找到後景與前景映射相關的組件。最終，將最大的組件部分使用邊界框圈起來。我們閱讀參考了[61]里的更多細節部分。
3.弱監督動作定位

拿到一組沒有裁剪過的視頻Vset={V<suv>1,V2,...,VN}以及視視頻的分類標籤，我們此刻的目標是預測一個在測試視頻Vtest中同樣動作標籤的開始和結束時間。相同的關鍵問題是對於任意的視頻，網路會將大部分注意放在高辨識度的幀畫面上以優化分類的準確度，而非所有相關幀畫面。取自我們在圖片中隱藏斑塊的靈感，我們將採用從視頻中隱藏幀畫面來提高動作定位。

明確的來說，在訓練的時候，我們從每個視頻中均勻地採樣得到幀畫面Ftotal。隨後把Ftotal採用長度Fsegment連續切割，由此得到Ftotal /Fsegment個片段。這就像圖片的斑塊，在輸入到動作定位深度網路之前採用phide的概率來隱藏每個片段。我們使用前面提到的程序得到分類激活圖（CAM）。在這種情況下，這裡的CAM是一個表示對動作分類具有辨識度幀畫面的一維映射。我們通過二值化這個映射來獲得這個動作分類的開始和結束時間。

4.實驗

我們在圖片目標定位和視頻動作定位中定量和定性地執行Hide-and-Seek。我們也同時採用了燒燭研究(ablative studies)來比較我們的演算法的不同選擇之間的差異。

數據集和評價指標

我們採用ILSVRC2016[36]來評價目標定位的精確度。在訓練時，使用了120萬張圖片及其分類標籤（1000個類別）。我們比較了驗證數據上的基準線。我們用三個度量標準來測量性能：

1）Top-1定位精準度(Top-1 Loc):對於那些和真實分類相似概率最高的預測分類下的圖片，而且預測類別的邊界框準確率超過了真實Iou邊界情況的50%。

2）已知真實分類下的定位準確度(GT-Known Loc):對於測試出來的真實分類邊界框超過真實LoU邊界框50%的那一部分圖片。由於我們的方法是設計用來提升定位準確率，我們以此來評估獨立於分類性能的測量定位準確度。

3）我們同樣使用了分類準確度(Top-1 Clas)來評估Hide-and-Seek在圖片分類性能上的影響。

針對動作定位，我們使用THUMOS2014的驗證數據集[22]，其構成是歸屬為101種動作分類的1010條未被調整的視頻。我們訓練了所有未調整的視頻以用於分類任務，然後在20個已經有臨時注釋的分類上評價定位。每個視頻可以包含多重的類別實例。我們計算平均準確率(mAP)用來評估，考慮如果測試的真實Iou＞θ那麼該測試視為正確。我們嘗試θ分別為0.1, 0.2, 0.3, 0.4, 0.5。因為我們關注點是網路定位的能力，所以假設視頻的真實分類標籤是我們已知的。

執行的細節.

為了學習目標定位，我們使用從61引進的和AlexNet以及GoogLeNet同樣改進的網路。AlexNet-GAP在pool5之前和AlexNet一樣，而在這之後添加了兩個卷積層。在GoogLeNet-GAP上也是類似的，在inception-4e之後的層被去除而使用一個單一卷積層取而代之。對於AlexNet-GAP和GoogLeNet-GAP兩者而言，最後一層卷積層輸出到一個全局平均池化層（GAP），接下來是一個分類softmax層。對於AlexNet-GAP和GoogLeNet-GAP每個添加的卷積層，各自有512和1024個尺寸為3×3、歩幅為1、填充類型為1的核。

我們分別使用55批次及40批次(epochs)來訓練AlexNet-GAP和GoogLeNet-GAP，其參數batch size=128，初始學習率為0.0001。為幫助GoogLeNet-GAP收斂，我們在每個卷積層之後添加來標準batch[19]（batch normalization)。為簡單起見，我們的構架不像原始AlexNet構架[28]那樣，我們沒有將卷積濾波器聚合起來（這能得到和AlexNet-GAP的分組版本在統計學上相同的Top-1 Loc精確度，然而在分類上有更好的性能）。網路在隱藏圖片斑塊（訓練時）和沒有隱藏圖片斑塊（測試時）完全保持一致。為了得到二進位的前景/背景映射，分別為AlexNet-GAP和GoogLeNet-GAP選擇20%和30%的CAM最大值作為闕值(threshold);闕值由觀察幾個訓練數據集中的幾個定性結果選擇出來。在測試中，我們從10個結果中取平均值來獲得分類概率以及定點陣圖(四個角和中心，以及水平翻轉後的同樣位置)。我們發現在微調預訓練網路時定位和分類性能很接近。

對於動作定位，我們使用一個在Sports 100萬[25]上預訓練的模型來計算C3D[48]fc7 特徵。我們計算了10feats/sec(每個特徵超過16個幀畫面計算)以及從視頻中2000個一致的特徵樣本。把視頻分割成20個由特徵 $F_{segment}=100$ 的等長片段。在訓練時，每個片段以 $P_{hide}=0.5$ 的概率隱藏。當分類時，我們將C3D特徵作輸入到一個CNN，構成為兩個卷積層後接一個全局最大池化和一個softmax分類層。每個卷積層有500個尺寸為1×1、步幅為1的核。對於任何隱藏的幀畫面，我們分配的是C3D特徵的平均數據集。為了闕值化，選擇CAM最大值的50%。所有在闕值化後的連續片段都被在預測時被考慮。

4.1.目標定位的定量結果

我們首先對ILSVRC驗證數據集上的目標定位準確率進行分析。表格1中展示了使用Top-1 Loc 和 GT-known Loc的評測結果。AlexNet-GAP[61]是我們在測試的時沒有任何隱藏斑塊而看到整個圖片得到的基準線。Alex-HaS-N是我們採用方法，具體為使用0.5的概率在訓練時隱藏尺寸時N×Ｎ的斑塊。

——表1——

斑塊的尺寸N我們應該如何選擇？

我們探尋了四個不同斑塊尺寸N={16,32,44,66}，它們每個執行結果都優於AlexNet-GAP的Top-1 Loc 和 GT-known Loc兩個分數。用每個斑塊尺寸下執行的GoogLeNet-HaS-N模型結果同樣勝過GoogLeNet-GAP。這些結果明確的表現出在訓練時隱藏斑塊能取得更好的定位。通過我們的方法會損失一些分類準確度(Top-1 Clas)，這是因為它沒有看到完整的圖片而導致可能沒有學習到聯繫某些部分，但在定位效果上的巨大的推動(可以從與GT-known Loc性能比較中看到)彌補了在分類性能上的任何不足。

我們同樣訓練了混合了斑塊尺寸的網路(AlexNet-HaS-Mixed)。在訓練期間，每個圖片的每個批次，選擇隱藏的隨機尺寸從16,32,44和56也包括無隱藏(全圖可見)。由於隱藏起來的斑塊是不同尺寸，所以網路可以從一個目標的不同部分學習到足夠信息(例如小/大斑塊更適合隱藏更小/更大的部分)。確實，我們使用AlexNet-HaS-Mixe獲得了最好的結果。

與state-of-the-art比較

接下來，選擇了我們最佳的AlexNet和GoogLeNet模型，用於在ILSVRC驗證數據集上與state-of-the-art演算法比較，見表2。我們的演算法執行結果分別在GT-know Loc以及Top-1 Loc的分數比AlexNet-GAP[61]高3.78%和1.40%百分點。更重要的是，獲得此等分數只是簡單的改變輸入圖片而沒有對網路結構做改動。

——表2——

整體模型.

由於不同尺寸的斑塊提供充足的信息（見之前的論述部分），我們也創建了一個有不同尺寸斑塊的整體模型（我們的整體）。為在一張圖片中得到最終的定位，我們是使用AlexNet-HaS-16,32,44,56將CAM獲得的結果平均，當用於分類時，四個和使用AlexNet-GAP獲得分類概率一樣的模型，我們取其所有分類概率求得平均值。這個整體模型在GT-know Loc以及Top-1 Loc的分數上比AlexNet-GAP分別取得了5.24%和4.15%的巨大提高。一個更可觀的比較，我們也聯合了五個相互獨立的AlexNet-GAP取得了整體基準線。我們的整體模型在GT-know Loc以及Top-1 Loc的分數上分別勝過高標準基準線5.24%和4.15%。

4.2目標定位的定性結果

we visualize the class activation map (CAM)and bounding box obtained by our AlexNet-HaS approach versus those obtained with AlexNet-GAP

在圖4 中，我們形象化的展示了分類激活圖(CAM)並對比畫出了由我們AlexNet-Has方法獲得的以及由AlexNet-GAP獲得的邊界框。對於每張圖片文件有一對展示圖，第一張展示圖了預測邊界框（綠色）和真實邊界框（紅色）。第二張展示圖為CAM,i.e，圖為網路針對這個類別的關注點。相對於AlexNet-GAP我們的演算法定位更多目標的相關部分而沒有隻限制在最具辨識度的區域。舉例來說，在第一、第二，以及第五行中AlexNet-GAP只將注意放在動物的頭部，然而我們的演算法在此時定位了身體部分。類似的情況，在第三和最後一行的展示圖中，AlexNet-GAP漏掉了蛇和松鼠的尾巴而我們沒有。

——圖4——

4.3. Hide-and-Seek的特徵分解

與dropout對比

Dropout[44]已經被廣泛地在深度網路中用於解決過擬合問題。儘管它沒有被設計用來提升定位，但是扔掉的單位和我們隱藏的斑塊有關聯。我們因此進行了一個實驗將圖片層使用50%的dropout。我們注意到由於像素級水平的巨大的dropout，學習後的濾波器生成一個對應於圖片dropout部分的bias，而且分類以及定位性能明顯不佳(AlexNet-dropout-trainonly)。如果我們也在測試的時候使用dropout(AlexNet-dropout-traintest)是可以提升性能但是相對我們的方法仍然落後很多（表3）。由於dropout隨機的扔掉像素（以及RGB通道）,目標相關的大部分信息依然有很大的幾率被網路看到，這使得它可能只集中在最具辨識的區域。

——表3——

我們需要全局平均池化嗎？

[61]展示出對於目標定位來說GAP要優於全局最大池化(GMP)，這是由於全局平均池化鼓勵網路注意整個辨識度區域。而最大池化只需要給出最具辨識度的區域。但難道說全局池化對定位完全沒有幫助了嗎？

使用Hide-and-Seek的時候，即使和最大池化一起，網路也被迫注意不同的辨識度區域。在表4中可以看到最大池化(AlexNet-GMP)比平均池化(AlexNet-GAP)相對遜色。然而使用Hide-and-Seek，最大池化(AlexNet-GMP)定位準確度大幅增長，甚至微微地勝過平均池化(AlexNet-GAP)。

——表4——

在卷積層的Hide-and-Seek.

我們接下來將我們的想法應用在卷積層。我們將卷積層特徵圖劃分成網然後用0.5的概率隱藏每個斑塊(以及斑塊相應的通道)。我們在conv1特徵圖(圖尺寸55×55×96)中隱藏尺寸為5(AlexNet-HaS-conv1-5)以及尺寸為11(AlexNet-HaS-conv1-11)的斑塊。從表5看出這種方法與AlexNet-GAP基準線相比取得了巨大的進步。這表明我們的這種隨機隱藏斑塊的辦法可以推廣到卷積的層中。

——表5——

隱藏的概率.

在之前的試驗中，我們用50%的概率隱藏斑塊。在表6中，我們在使用不同的隱藏概率下評估GT-know Loc以及Top-1 Loc。如果增大概率那麼GT-know Loc幾乎和Top-1 Loc同樣的大幅度減少。發生這種情況是因為當隱藏概率高的時候網路看到的少可憐的像素，結果導致分類準確度以及Top-1 Loc下降。如果減小概率那麼GT-know Loc減小但Top-1 Loc增大。在這種情況下，網路看到更多的像素因此其分類性能提升，但是由於隱藏部分少，網路將注意只放在辨識度區域而降低了它的定位能力。

——表6——

4.4.動作定位成績

最後，我們評估動作定位準確度。將我們這種在學習動作分類時隨機隱藏幀畫面片段的方法(Video-HaS)，與可以見到全部視頻的方法(Video-full)得到的基準線做比較。表7展示了在THUMOS驗證數據集上得到的結果。Video-HaS依然在定位任務上勝過Video-full，表明隱藏幀畫面迫使我們的網路注意到更多相關的幀，這最終取得了更好的動作定位性能。我們在supp里定性的展示了成績。

——表7——

5.結論

我們提出的Hide-and-Seek，一個全新的弱監督框架來提升圖片里的目標定位和視頻里的的短暫動作定位。藉由在圖片/視頻中隨機地隱藏斑塊/幀畫面，我們迫使網路學習去注意一個目標/動作的多種相關部分。在我們大量的實驗中展示提升後定位準確度超過了state-of-the-art的演算法。

鳴謝.

這裡的部分工作得到了Interl Corp、Amazon Web Services Cloud Credits for Reserch、GPUs donated by NVIDIA支持。

參考文獻
[1] L. Bazzani, B. A., D. Anguelov, and L. Torresani. Self-taught object localization with deep networks. In WACV, 2016. 2, 4
[2] T. Berg, A. Berg, and J. Shih. Automatic attribute discovery and characterization from noisy web data. In ECCV, 2010. 1
[3] H. Bilen, M. Pedersoli, and T. uytelaars. Weakly supervised object detection with posterior regularization. In BMVC, 2014. 1, 2
[4] H. Bilen and A. Vedaldi. Weakly supervised deep detection networks. In CVPR, 2016. 2
[5] P. Bojanowski, R. Lajugie, F. Bach, I. Laptev, J. Ponce, C. Schmid, and J. Sivic. Weakly supervised action labeling in videos under ordering constraints. In ECCV, 2014. 3
[6] C. Y. Chen and K. Grauman. Efficient activity detection with max-subgraph search. In CVPR, 2012. 3
[7] R. Cinbis, J. Verbeek, and C. Schmid. Multi-fold MIL Training for Weakly Supervised Object Localization. In CVPR, 2014. 2
[8] R. Cinbis, J. Verbeek, and C. Schmid. Weakly supervised object localization with multi-fold multiple instance learning. In arXiv:1503.00949, 2015. 1, 2, 3
[9] D. J. Crandall and D. P. Huttenlocher. Weakly supervised learning of part-based spatial models for visual object recognition. In ECCV, 2006. 1, 2
[10] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015. 2
[11] K. Duan, D. Parikh, D. Crandall, and K. Grauman. Discovering localized attributes for fine-grained recognition. In CVPR, 2012. 2
[12] O. Duchenne, I. Laptev, J. Sivic, F. Bach, and J. Ponce. Automatic annotation of human actions in video. In ICCV, 2009. 3
[13] R. Fergus, P. Perona, and A. Zisserman. Object Class Recognition by Unsupervised Scale-Invariant Learning. In CVPR, 2003. 1, 2
[14] C. Gan, N. Wang, Y. Yang, D.-Y. Yeung, and A. G. Hauptmann. Devnet: A deep event network for multimedia event detection and evidence recounting. In CVPR, 2015. 3
[15] R. Girshick. Fast r-cnn. In ICCV, 2015. 2
[16] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. In CVPR, 2014. 2
[17] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simul-taneous detection and segmentation. In ECCV, 2014. 2
[18] D.-A. Huang, L. Fei-Fei, and J. C. Niebles. Connectionist temporal modeling for weakly supervised action labeling. In ECCV, 2016. 3
[19] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 5
[20] M. Jaderberg, K. Simonyan, A. Zisserman, and k. kavukcuoglu. Spatial transformer networks. In NIPS, 2015. 2
[21] H. Jhuang, J. Gall, S. Zuffi, C. Schmid, and M. J. Black. Towards understanding action recognition. In ICCV, 2013. 3
[22] Y.-G. Jiang, J. Liu, A. Roshan Zamir, G. Toderici, I. Laptev, M. Shah, and R. Sukthankar. THUMOS challenge: Action recognition with a large number of classes. http://crcv.ucf.edu/THUMOS14/, 2014. 5
[23] V. Kantorov and I. Laptev. Efficient feature extraction, encoding and classification for action recognition. In CVPR, 2014. 3
[24] V. Kantorov, M. Oquab, M. Cho, and I. Laptev. Contextlocnet: Context-aware deep network models for weakly supervised localization. In ECCV, 2016. 2
[25] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014. 6
[26] A. Khoreva, R. Benenson, M. Omran, M. Hein, and B. Schiele. Weakly supervised object boundaries. In CVPR, 2016. 1
[27] M. Kiapour, K. Yamaguchi, A. C. Berg, and T. L. Berg. Hipster wars: Discovering elements of fashion styles. In ECCV, 2014. 2
[28] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet Classification with Deep Convolutional Neural Networks. In NIPS, 2012. 2, 4, 5
[29] I. Laptev, M. Marszalek, C. Schmid, and B. Rozenfeld. Learning realistic human actions from movies. In CVPR, 2008. 3
[30] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg. Ssd: Single shot multibox detector. In ECCV, 2016. 2
[31] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 2
[32] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Is object localization for free? weakly-supervised learning with convolutional neural networks. In CVPR, 2015. 1, 2, 3
[33] D. Pathak, P. Krahenb ¨ uhl, and T. Darrell. Constrained con- ¨ volutional neural networks for weakly supervised segmentation. In ICCV, 2015. 1
[34] D. Pathak, P. Krahenb ¨ uhl, J. Donahue, T. Darrell, and ¨ A. Efros. Context encoders: Feature learning by inpainting. In CVPR, 2016. 2
[35] A. Prest, C. Leistner, J. Civera, C. Schmid, and V. Ferrari. Learning Object Class Detectors from Weakly Annotated Video. In CVPR, 2012. 2
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015. 2, 4, 5
[37] Z. Shou, D. Wang, and S.-F. Chang. Temporal action localization in untrimmed videos via multi-stage cnns. In CVPR, 2016. 3
[38] K. Simonyan, A. Vedaldi, and A. Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. In ICLR Workshop, 2014. 1, 6
[39] K. K. Singh and Y. J. Lee. End-to-end localization and ranking for relative attributes. In ECCV, 2016. 1
[40] K. K. Singh, F. Xiao, and Y. J. Lee. Track and transfer: Watching videos to simulate strong human supervision for weakly-supervised object detection. In CVPR, 2016. 1, 2
[41] P. Siva, C. Russell, and T. Xiang. In Defence of Negative Mining for Annotating Weakly Labelled Data. In ECCV, 2012. 1, 2
[42] H. O. Song, R. Girshick, S. Jegelka, J. Mairal, Z. Harchaoui, and T. Darrell. On Learning to Localize Objects with Minimal Supervision. In ICML, 2014. 1, 2, 3
[43] H. O. Song, Y. J. Lee, S. Jegelka, and T. Darrell. Weaklysupervised discovery of visual pattern configurations. In NIPS, 2014. 1, 2
[44] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. JMLR, 2014. 2, 4, 7, 8
[45] C. Sun, S. Shetty, R. Sukthankar, and R. Nevatia. Temporal localization of fine-grained actions in videos by domain transfer from web images. In ACM Multimedia, 2015. 3
[46] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015. 2, 4
[47] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler. Efficient object localization using convolutional networks. In CVPR, 2015. 2
[48] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In ICCV, 2015. 6
[49] L. Wan, M. Zeiler, S. Zhang, Y. LeCun, and R. Fergus. Regularization of neural network using dropconnect. In ICML, 2013. 2
[50] C. Wang, W. Ren, K. Huang, and T. Tan. Weakly supervised object localization with latent category learning. In ECCV, 2014. 1, 2
[51] H. Wang and C. Schmid. Action recognition with improved trajectories. In ICCV, 2013. 3
[52] J. Wang, Y. Cheng, and R. Schmidt Feris. Walk and learn: Facial attribute representation learning from egocentric video and contextual data. In CVPR, 2016. 1
[53] S. Wang, J. Joo, Y. Wang, and S. C. Zhu. Weakly supervised learning for attribute localization in outdoor scenes. In CVPR, 2013. 1
[54] X. Wang, A. Shrivastava, and A. Gupta. A-fast-rcnn: Hard positive generation via adversary for object detection. In CVPR, 2017. 2
[55] M. Weber, M. Welling, and P. Perona. Unsupervised Learning of Models for Recognition. In ECCV, 2000. 1, 2
[56] Y. Wei, J. Feng, X. Liang, M.-M. Cheng, Y. Zhao, and S. Yan. Object region mining with adversarial erasing: A simple classification to semantic segmentation approach. In CVPR, 2017. 2
[57] F. Xiao and Y. J. Lee. Discovering the spatial extent of relative attributes. In ICCV, 2015. 1
[58] S. Yeung, O. Russakovsky, G. Mori, and L. Fei-Fei. Endto-end learning of action detection from frame glimpses in videos. In CVPR, 2016. 3
[59] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV, 2014. 2
[60] N. Zhang, M. Paluri, M. Ranzato, T. Darrell, and L. Bourdev.
PANDA: Pose Aligned Networks for Deep Attribute Modeling. In CVPR, 2014. 2
[61] B. Zhou, A. Khosla, L. A., A. Oliva, and A. Torralba. Learning deep features for discriminative localization. In CVPR, 2016. 1, 2, 3, 4, 5, 6, 7, 8

原論文地址

https://arxiv.org/pdf/1704.04232.pdf?

arxiv.org

提升目標定位/防止過擬合/Hide-and-Seek

論文 arXiv:1704.04232v2 [cs.CV] 23 Dec 2017

隱藏和尋找：使用弱監督強制網路進行細緻的目標和行為定位

1.介紹

2.相關工作

3.方法

[61]演算法得到的邊界框。簡單說來，我們首先用CAM生成一個二進位的前景/後景映射，然後找到後景與前景映射相關的組件。最終，將最大的組件部分使用邊界框圈起來。我們閱讀參考了[61]里的更多細節部分。3.弱監督動作定位

4.實驗

數據集和評價指標

4.1.目標定位的定量結果

整體模型.

4.2目標定位的定性結果

4.3. Hide-and-Seek的特徵分解

4.4.動作定位成績

5.結論