[論文筆記] Referring Relationships
論文概述
純屬個人理解,梳理自己思路用,僅供參考(可能會有標點錯誤或語句不通順 +_+)
本文通過提出SSAS模型,利用主語-謂語-賓語的語義結構信息,來實現對視覺中準確的指代關係(referring relationship
)。通過理解全文大意,發現文章並沒有利用太多語義信息,只是在模型訓練時,利用SSAS實現主謂賓結構信息的約束的訓練,並不像其他方法通過提取語義表示,來做多模態關聯,實現visual grounding
。本方法可以用於圖像理解,圖像文本搜索等領域。
指代關係的visual grounding
,在同一圖像中,可以有多種表述,如下圖所示,有兩種描述和,同樣的person卻指代不同人,同樣的視覺足球有不同的文本表述。
問題描述
目的是通過輸入referring relationship
來消除圖像中目標的歧義性,輸入表述為R = ,分別對應主語、謂語和賓語。模型的輸出是主語和賓語的visual grounding
。通過CNN網路提取輸入圖片特徵map,u=CNN(img),大小為L×L×C,L是特徵圖尺寸,C是通道數。輸出是判斷特徵圖這些區域,即i=1...L×L的所有區域,定義一個圖G = {Vx U Vy, ε},其中Vx和Vy是圖的節點,表示圖像L×L的區域,ε是圖的邊,表示區域間的聯繫。總結,給定圖片和描述文本,即u和R,預測x※,y※ = argmax P(X,Y | u,R)。
dense connected graph
的方法,構建了一種通用的消息傳遞模型,用來作推斷,主要包括attention和predicate shift modules
,前者表示定位指定的類別,後者表示兩個類別間的聯繫。
Symmetric stacked attention shifting (SSAS) model
構建整體模型,如下圖所示,存在兩個挑戰,第一個是目標檢測間目標差異性問題(有些目標區分度高容易檢測,有些莫表區分度低容易檢測,通過兩個entity間聯繫的條件依賴解決這個問題),第二個是謂詞特徵的多變性(沒有通過學習謂詞的表觀特徵,而是通過兩個entity間attention的方式來解決,不僅可以對空間描述的謂詞預測,也可以對其他方式的謂詞進行預測)。
Attention modules
注意力模塊,公式定義如下,用來逼近subject和object的位置,注意力x0和y0並不是基於謂詞的條件預測,而是從entity初始化來的。
Predicate shift modules
受CRF的啟發,利用平均場的消息傳遞機制,設計了通用的模型,用來傳遞entities間的信息。消息可以從subject傳遞到object,也可以反過來,由於非對稱性,要學習兩個attention shifts
,公式如下圖所示。SH()和SH-1()表示shift操作,通過多次傳遞,利用卷積核來學習。F()和F-1()表示同一個謂詞的兩個特徵。輸出結果x0_shift和y0_shift是shift的mask,維度為L×L×1,分別表示從條件x0和y0建模得到。
為了應對predicate語義的多樣性,例如和語義空間位置剛好相反,這裡通過與F(P)的卷積核來定義體現,定義最後一個卷積核輸出通道數為1,即上面所說的L×L×1,中間卷積的通道數定義為cl,用來表述語義多樣性。卷積操作次數n,通過L/k來確定,L是特徵圖size,k是卷積核的size。
Running iterative inference
有了上述兩個模塊,可以更新subject和object的位置,如下公式所示。為了推斷準確性,消息要傳遞多次,也就是說,下式要迭代多次。
實驗結果
attention shift的可視化,如下圖所示。
與其他方法的對比結果,如下圖所示。
推薦閱讀:
※vscode源碼的一點點筆記
※《論語》,孔子的喪葬工作筆記
※《天才假象》讀書筆記之一:成功的內在邏輯
※Numpy基礎知識