經典重讀-What helps where知識遷移與語義相似
來自專欄多模態學習
多模態學習的核心問題之一是如何有效聯繫視覺與語義信息。在人工智慧和深度學習的大潮下,學術界、工業界的研究日新月異。人們被淹沒於各種Fancy的網路結構之下,多少有些忽略了意圖解決的問題本身,以及研究的Motivation從何而來。其實,許多問題的由來和研究的動機在早些時候的經典論文中已有提及。
今天,我們回顧多模態學習領域的經典論文——[What Helps Where – And Why? Semantic Relatedness for Knowledge Transfer](What helps where - and why? Semantic relatedness for knowledge transfer - IEEE Conference Publication). 該論文由馬普所Bernt Schiele 研究組發表於2010年的CVPR。論文以零樣本學習為例,在[AWA數據集](http://ieeexplore.ieee.org/document/5206594/)上探討了語義與視覺兩個Modality究竟藉助怎樣的知識庫(Knowledge Base)才能更好地實現知識遷移(Knowledge transfer),並將知識遷移到新任務(本文為Zero-shot Recognition)上。
知識遷移依靠**Attribute(屬性)**(顏色、形狀、大小等)在較抽象的層面上描述物體(類似深度網路中的高層特徵)。Attribute描述的是:**某物具有某特性**。Attribute和類別的關係如下圖所示:
與CNN的高層特徵不同,Attribute完全是人工定義,人工標註的。它的優點是1.具有較好的表達能力。[直接使用Attribute當做圖像特徵也能取得超過低級特徵的分類效果](https://link.springer.com/content/pdf/10.1007%2Fs11263-013-0695-z.pdf);2.具有明確的物理意義,便於和自然語言相對應。
Attribute也有許多不足,這些不足主要是人工標註導致的:
- 人工選取的Attribute是單詞,斷章取義,不能很好描述客觀世界。
- 人工標註過程是不可靠的。
- 數據集需要進行圖像級別的標註,因此人工標註費時費力。
- 對於訓練集中未出現的**Unseen類別**,需要人工做類別級別的標註。
因此,本文關註:怎樣減少Attribute的選取和標註這一過程中的人工。具體來說,其工作包括:
- 沿用人工選取的Attribute集合,自動為Unseen類別的Attribute賦值。
- 自動選取Attribute集合,自動為Unseen類別的Attribute賦值。
- 將Seen類別(訓練階段看到的類別)的label當做Attribute,用相似度來度量為Unseen類別的Attribute賦值。
- 考察在上述三個設定下,使用不同的知識庫(WordNet、Wiki、搜索引擎、大規模圖像搜索引擎、小規模圖像搜索引擎)來為Attribute賦值的優劣。
---
如何自動選取Attribute集合,本文講得很模糊,在3.2節的Mining attributes第二段中說到:使用了WordNet的整體-局部關係來提取了所有類別中關心的Parts作為屬性。
如何為Attribute賦值,取決於使用怎樣的知識庫,其思想是,藉助知識庫來尋找Unseen label和Attribute兩個單詞之間的相似性。相似性的具體計算方法請參照論文本身,此處不再贅述。
其實驗對比如下表所述:
推薦閱讀:
※法官」語義古今漫談
※語言背後的代數學(三):語義模型
※從弗雷格之謎及信念之謎看心靈內容與語義內容的關係
※語言背後的代數學(六):Henkin模型
※FCN學習筆記