CVPR 2018 | Spotlight 論文：北京大學計算機研究所提出深度跨媒體知識遷移方法

05-22

來自專欄機器之心

近日，來自北京大學計算機科學技術研究所的博士生黃鑫和彭宇新教授提出了一種新型的遷移學習方法：深度跨媒體知識遷移（Deep Cross-media Knowledge Transfer, DCKT）。該方法針對跨媒體檢索中訓練樣本不足導致檢索效果差的問題，結合了兩級遷移網路結構和漸進遷移機制，能夠基於大規模跨媒體數據進行知識遷移，提高了小規模跨媒體數據上的檢索準確率。在實驗中，以大規模跨媒體數據集 XMediaNet 為源域，以 3 個廣泛使用的小規模跨媒體數據集為目標域進行知識遷移與檢索，結果表明 DCKT 有效提高了跨媒體檢索的準確率。該論文已經被 CVPR 2018 大會接收為 Spotlight 論文。

一、簡介

隨著計算機與數字傳輸技術的快速發展，圖像、文本、視頻、音頻等不同媒體數據已經隨處可見，並作為相互融合的整體深刻影響和改變著我們的生活。認知科學表明，人類天然地具備接收與整合來自於不同感官通道的信息的能力。因此，如果能方便地檢索出語義相關但媒體不同的數據，對於提高人們的信息獲取效率具有重大意義。跨媒體檢索是旨在進行跨越圖像、文本等不同媒體類型的信息檢索。例如，用戶上傳一張北京大學的圖片，不僅能夠得到有關北京大學的相關圖片，也能檢索到北京大學的文字描述、視頻介紹、音頻資料等。相比於傳統的單媒體檢索（如以文搜文、以圖搜圖等），跨媒體檢索能夠打破檢索結果的媒體限制，從而增強搜索體驗和結果的全面性。

「異構鴻溝」問題是跨媒體檢索麵臨的一個核心挑戰：不同媒體的數據具有不同的特徵表示形式，它們的相似性難以直接度量。為解決上述問題，一種直觀的方法是跨媒體統一表徵，即把不同媒體數據從各自獨立的表示空間映射到一個第三方的公共空間中，使得彼此可以度量相似性。近年來，隨著深度學習的快速發展與廣泛應用，基於深度學習的統一表徵方法已經成為了研究的熱點與主流。

然而，訓練數據不足是深度學習的一個普遍挑戰，而對於深度跨媒體檢索方法來說則更加嚴峻。從模型訓練的角度來講，跨媒體關聯關係呈現複雜多樣的特點，使得深度網路需要從大規模、多樣化、高質量的訓練數據中學習關聯線索。訓練數據不足的問題嚴重限制了模型的訓練效果。從人工成本的角度來講，跨媒體數據的收集與標註需要耗費大量的人工勞動。例如，我們需要收集與「老虎」這一概念相關的跨媒體數據，不但需要看圖片、讀文本、聽音頻、看視頻，還需要判斷這些數據是否確實彼此相關。這使得針對特定域的檢索問題往往難以收集到足夠的樣本進行訓練。

在這種情況下，遷移學習思想就顯得尤為重要，它能夠從源域（一般是大規模數據集）中提取與遷移知識到目標域（一般是小規模數據集），從而提高目標域上的模型訓練效果。如何從已有跨媒體數據集中遷移有價值的知識以提高新數據上的檢索準確率，成為了跨媒體檢索走向實際應用的一大挑戰。然而，現有的遷移學習方法往往是從單媒體源域遷移至單媒體目標域，缺少從跨媒體源域到跨媒體目標域的知識遷移的研究。此外，現有方法往往假定源域和目標域具有共同的語義標籤空間，而對於跨媒體數據集來說往往難以滿足。針對上述問題，本文提出了深度跨媒體知識遷移方法，基於兩級遷移網路和漸進遷移機制，能夠從一個大規模跨媒體數據集中充分遷移知識，提高小規模數據集上的模型訓練效果。

二、方法：深度跨媒體知識遷移

圖 1：深度跨媒體知識遷移（DCKT）方法的總體框架

本文提出了深度跨媒體知識遷移（DCKT）方法，其主要貢獻在於：（1）提出了兩級遷移網路，通過同時最小化媒體級、關聯級的域間差異，使得互補的單媒體語義知識和跨媒體關聯知識能夠有效遷移；（2）提出了漸進遷移機制，通過自適應反饋的域間一致性度量，以遷移難度從小到大為原則進行迭代樣本選擇，使得遷移過程能夠逐漸減小跨媒體域間差異，提高了模型的魯棒性與檢索準確率。方法的總體框架如圖 1 所示，下面分別簡要介紹。

1. 兩級遷移網路：

大規模跨媒體數據集中存在著兩種有價值的知識：（1）如果獨立地看每個媒體，其中的每種媒體數據中都含有豐富的單媒體語義知識。（2）如果綜合地去看所有媒體，不同媒體之間的關聯模式也蘊含著豐富的跨媒體關聯知識。針對上述兩個重要且互補的方面，本文提出了兩級遷移網路進行知識遷移。在媒體級遷移中，通過最小化兩個域的同種媒體之間的表示分布差異，實現單媒體語義知識的遷移；在關聯級遷移中，通過最小化兩個域中共享網路層之間的表示分布差異，實現跨媒體關聯知識的遷移。通過上述兩方面的結合，達到單媒體語義知識與跨媒體關聯知識的跨域共享。

2. 漸進遷移機制：

演算法 1：本文提出漸進遷移機制的演算法流程

由於跨媒體數據集具有複雜的媒體內、媒體間關聯，且源域和目標域的語義標籤空間不一致，使得兩個域之間的差異很大。對於目標域來說，部分樣本和源域具有較明顯的一致性，知識遷移較為容易，而某些樣本的知識遷移則較為困難。如果同等對待所有訓練樣本，可能對知識遷移帶來雜訊甚至誤導信息。因此，我們提出漸進式遷移機制（如演算法 1 所示），以源域模型為指導，以遷移難度由小到大為原則進行自適應樣本選擇，在迭代反饋中逐漸減小域間差異，利用跨媒體數據的知識遷移解決跨媒體訓練樣本不足的問題。

三、實驗

本文採用我們構造的大規模跨媒體數據集 XMediaNet 為源域。XMediaNet 包括 200 個語義類別的超過 10 萬個標註數據，涵蓋圖像、文本、視頻、音頻和 3D 圖形。XMediaNet 具有明確的語義類別，均為具體的物體（如 Dog、Airplane 等），避免了語義混淆。數據來自著名網站如 Wikipedia, Flickr, Youtube, Findsounds, Freesound, Yobi3D 等。在本文中，我們使用 XMediaNet 數據集的圖像、文本數據作為源域，以 3 個廣泛使用的小規模跨媒體數據集作為目標域進行跨媒體檢索實驗，包括以圖像檢索文本、以文本檢索圖像的雙向交叉檢索實驗。在實驗比較上，以 MAP 值為評測指標，與 12 個現有方法進行比較，結果表明本文提出的 DCKT 方法在 3 個數據集上均取得了最好的檢索準確率（如表 1 所示）。

表 1：本文方法和現有方法在 3 個數據集上的檢索 MAP 值

論文： Deep Cross-media Knowledge Transfer（深度跨媒體知識遷移）

本文 arXiv 鏈接：https://arxiv.org/abs/1803.03777
課題組主頁：http://www.icst.pku.edu.cn/mipl
課題組 Github 主頁（已發布團隊 IEEE TIP, TMM, TCSVT, CVPR, ACM MM, IJCAI, AAAI 等論文代碼）：https://github.com/PKU-ICST-MIPL

摘要：跨媒體檢索是旨在進行跨越圖像、文本等不同媒體類型的信息檢索。跨媒體檢索的準確率往往依賴於有標註的訓練數據，然而由於跨媒體訓練樣本的收集與標註非常困難，如何從已有數據中遷移有價值的知識以提高新數據上的檢索準確率，成為了跨媒體檢索走向實際應用的一大挑戰。本文提出了深度跨媒體知識遷移方法，能夠基於大規模跨媒體數據進行知識遷移，提升小規模跨媒體數據上的模型訓練效果。本文的主要貢獻包括：（1）提出了兩級遷移網路，通過同時最小化媒體級、關聯級的域間差異，使得互補的單媒體語義知識和跨媒體關聯知識能夠有效遷移；（2）提出了漸進遷移機制，通過自適應地反饋域間的一致性度量，以遷移難度從小到大為原則進行迭代樣本選擇，使得遷移過程能夠逐漸減小跨媒體域間的差異，提高了模型的魯棒性與檢索準確率。以大規模跨媒體數據集 XMediaNet 為源域，以 3 個廣泛使用的小規模跨媒體數據集為目標域展開知識遷移與檢索的實驗，本文所提方法均有效提高了跨媒體檢索的準確率。