AI綜述專欄——多模態學習研究進展綜述

08-25

AI綜述專欄——多模態學習研究進展綜述

12 人贊了文章

AI綜述專欄

在科學研究中，從方法論上來講，都應先見森林，再見樹木。當前，人工智慧科技迅猛發展，萬木爭榮，更應系統梳理脈絡。為此，我們特別精選國內外優秀的綜述論文，開闢「綜述」專欄，敬請關注。

作者簡介

許倩倩，中科院計算所智能信息處理重點實驗室副研究員，主要研究方向是多媒體內容分析、數據挖掘、機器學習。近年來以第一作者的身份在國際頂級期刊和會議，如：T-PAMI、ICML、AAAI、ACM Multimedia、TMM等發表了多篇高水平學術論文，其中，以第一作者身份在多媒體國際頂級會議ACM Multimedia發表長文6篇。博士學位論文獲得「2015年度中國人工智慧學會優博論文（全國共8篇）」、「2014年度中科院百篇優博論文（中科院共100篇）」。此外，還先後獲得「中科院青促會會員」、「中科院院長優秀獎」、「所級青年之星」、「騰訊犀牛鳥科研基金獲得者」等榮譽稱號，並受邀參加CCF青年精英大會擔任技術秀講者。

黃慶明，中國科學院大學教授，博士生導師，主要研究領域為多媒體分析、計算機視覺和模式識別。國家傑出青年科學基金獲得者，百千萬人才工程國家級人選並被授予「有突出貢獻中青年專家」榮譽稱號，中科院「百人計劃」入選者，IEEE Fellow，CCF 會士, 北京市石景山區優秀人才，享受國務院政府特殊津貼。先後獲得教育部科技進步一等獎、黑龍江省自然科學二等獎、中國計算機學會科學技術獎等省部級獎勵；主持承擔國家和省部級科研項目20餘項；發表學術論文300餘篇（Google學術引用7600餘次，H指數43），其中IEEE/ACM彙刊論文和中國計算機學會認定的A類國際會議論文90餘篇；已授權國內外發明專利20餘項。

一、引言

模態是指人接受信息的特定方式。由於多媒體數據往往是多種信息的傳遞媒介（例如一段視頻中往往會同時使得文字信息、視覺信息和聽覺信息得到傳播），多模態學習已逐漸發展為多媒體內容分析與理解的主要手段，國內外研究者也逐步在多模態學習領域取得了顯著的研究成果。鑒於多模態學習的重要性，本文將重點介紹近年來多模態學習領域的主要研究方向、相關研究進展和未來研究趨勢。

二、主要研究方向及研究進展

多模態學習主要包括以下幾個研究方向：

1. 多模態表示學習：主要研究如何將多個模態數據所蘊含的語義信息數值化為實值向量。

2. 模態間映射：主要研究如何將某一特定模態數據中的信息映射至另一模態。

3. 對齊：主要研究如何識別不同模態之間的部件、元素的對應關係。

4. 融合：主要研究如何整合不同模態間的模型與特徵。

5. 協同學習：主要研究如何將信息富集的模態上學習的知識遷移到信息匱乏的模態，使各個模態的學習互相輔助。典型的方法包括多模態的零樣本學習、領域自適應等。

(一)多模態表示學習

表示學習的目的是將被研究對象（結構化數據、圖像、視頻、語音、文本等）中所蘊含的語義信息抽象為實值向量。當多個模態共存時，我們需要同時從多個異質信息源提取被研究對象的特徵。在單模態表示學習的基礎上，多模態的表示學習還要考慮多個模態信息的一致性和互補性。下面對近年來多模態表示學習的最新成果進行簡要介紹。清華大學朱文武教授團隊在多模態學習的理論和應用方法研究上均取得了相應進展。在理論方面，[1]提出了一種面向多模態表達的緊緻哈希編碼方法。該工作首先基於模態內和模態間的相關性約束，提出了一種新的深度學習模型生成哈希編碼。在此基礎上又提出了一種正交正則化方法降低哈希編碼特徵的冗餘性，並給出了理論分析。在應用方面，[2]提出了一個面向情感檢測的多模態字典學習方法及相關標準數據集。浙江大學庄越挺教授團隊從若干新視角對多模態表示學習進行了改進。[3]中提出了一種基於層級複合語義的深度多模態嵌入方法。[4]則以點擊圖上的隨機遊走為基礎，提出了一種多模態表示學習方法。該方法將用戶點擊信息引入到多媒體信息檢索中，並以圖像、文本查詢作為節點，以點擊關係作為邊構造了點擊圖。在此基礎上，以點擊圖中節點關係作為約束構造了相應的多模態表達學習模型。[5]考慮了由於數據稀疏性造成的部分模態數據缺失問題，提出了一種基於自適應相似結構正則化的部分多模態稀疏編碼模型。[6]中基於模態內和模態間的相關關係，提出了一種基於棧式自編碼器的高效多模態檢索模型。[7]提出了一種稀疏的多模態哈希編碼方法。該方法首先利用超圖建模模態間和模態內的相關關係，隨後採用超圖拉普拉斯稀疏編碼方法同時學習多個模態的字典。中國科學院西安光學精密機械研究所李學龍研究員團隊也在多模態表示學習領域取得了一系列成果。[8]基於對不同模態的相關性矩陣的譜分析，提出了一種譜哈希編碼方法並將其應用於跨模態檢索問題中，實現了基於哈希編碼的快速跨模態檢索。[9]提出了一種面向大規模跨模態檢索的判別性二值編碼學習方法。該工作中提出的跨模態哈希編碼方法直接保留了求解二值編碼時的離散約束。特別地，該方法可通過學習模態特異的哈希函數得到統一的二值編碼，並可將所得到的二值編碼作為判別性特徵用於後續分類。西安電子科技大學高新波教授團隊在多模態表示學習領域也取得了豐碩的成果。[10]提出了一種基於成對關係導向的端對端深度哈希編碼方法，並將其應用於跨模態檢索問題中。[11]中提出了一種基於層次化多模態LSTM的密集視覺-語義嵌入方法。具體而言，該工作首先提出了一種層級化的遞歸神經網路，該網路可以建模句子與詞以及圖像與圖像中局部區域的層次化關係，然後利用該網路學習詞、句子、圖像以及圖像區域的特徵。中科院自動化所徐常勝研究員團隊近年來在多模態表示領域成果匯總如下。[12]中通過從互聯網獲取有監督數據，提出了一種多模態知識表示學習方法。該方法具有以下優點：1）可自動從互聯網平台獲得可表徵文本-視覺兩模態關聯關係的相關數據，並藉此挖掘多模態數據中潛在的知識；2）可構造模態無關、任務無關的公共知識表示空間；3）通過遷移從已知節點和關係中所學的知識，能夠表示在已知樣本上未觀測到的多模態關係。[13]中提出了一種面向跨模態檢索的一致表示學習方法。特別地，該方法可同時學習多個模態的基矩陣。另外，該方法還採用了局部組稀疏的正則項以保證多模態特徵的一致性。

(二)模態間映射

多模態機器學習中另一個重要的問題是發現知識在不同模態間的映射關係。給定實體在一種模態下的表示，模態間映射是將該表示轉換成其它模態下表示的過程。例如，給定一幅圖像，我們希望得到一個描述該圖像的句子，或者給出一段文字描述來生成一幅與之相匹配的圖像。模態間映射一直是學術界研究的熱點問題，早期工作包括語音合成、圖像視頻描述以及跨模態檢索等。最近，學術界對模態間映射的主要興趣集中在如何將計算機視覺和自然語言處理領域最新的研究成果結合起來，並應用在大規模資料庫上得到合理的視覺場景描述，其中微軟發布的COCO是目前圖像視頻標註任務公認的數據集。特別地，電子科技大學的申恆濤教授研究組取得了一系列研究成果。比如，[14]提出一種基於注意力機制的LSTM來完成視頻標註，該方法利用語義一致性，能夠捕捉視頻的顯著結構，探索多模態表示之間的關係，以生成具有豐富語義內容的句子來描述視頻內容；[15]提出一種可以調整時序注意力的層次LSTM結構，利用時間注意力選擇特定的幀來預測相關詞，而調整後的時間注意力可以用於決定相關詞是否依賴於視覺信息或語言上下文信息；[16]提出一種能夠基於語言知識選擇性地關注視覺屬性的標註方法，該方法將神經網路中的隱藏狀態映射到潛在嵌入空間，並採用注意機制獲得語言知識表示，從而獲得語言與視覺屬性的對應關係。此外，微軟亞洲研究院梅濤研究員研究組在圖像視頻標註領域也取得了很多研究成果。比如，[17]提出一種包含屬性的LSTM和RNN網路來發現圖像視覺屬性與語義表達之間的複雜關係；[18]提出一種基於拷貝機制的圖像標註方法，該方法通過將檢測到的物體與拷貝機制相結合來預測圖像標題中的新物體；他們還關注了如何從句子獲得對應視頻的問題，提出時序生成對抗網路[19]，利用語義標註作為條件來建模視頻中物體的時空關係；與計算所張勇東研究員合作提出一種具有多模態注意力機制的LSTM[20]，該方法設計了一個多層次的注意力機制來獲取關於時間序列和多模態流數據中的關鍵線索。清華大學的張長水教授研究組提出了基於區域注意力機制和場景特異上下文信息的圖像標註方法[21]，該方法能夠協調生成描述和注意力在視覺區域之間的轉移，同時將場景特定的上下文引入到LSTM中，獲得特定場景類型下的語言模型用於辭彙生成。浙江大學的吳飛教授和庄越挺教授提出一種能夠獲得更具有多樣性的圖像標註方法[22]，該方法能夠同時學習多種語言描述的分布，同時模仿人類撰寫圖像標註的多樣性。復旦大學的姜育剛教授和薛向陽教授提出了一種弱監督視頻標註方法[23]，該方法能夠在訓練過程中為視頻剪輯生成多個不同的視頻標註，所使用的監督信息僅僅是視頻級別的描述語句。清華大學孫富春教授和微軟亞洲研究院芮勇研究員提出了名為「Image2Text」的多模態標註生成演算法，該演算法將輸入圖像表達為被檢測物體的序列輸入卷積神經網路中並獲得最終的圖像標註。山東大學聶禮強教授和騰訊AI實驗室劉威研究員提出基於空間和通道注意力機制的圖像標註演算法[24]，該方法能夠在卷積神經網路中對生成標註的上下文進行動態建模，從而確定注意力機制關注的位置和對象。中科院計算所蔣樹強研究員提出一種利用物體和場景信息的圖像標註方法，該方法同時關注了圖片中的物體信息和場景信息，從而獲得更好的標註結果。清華大學丁廣貴教授提出基於訓練樣本作為參考的LSTM模型，能夠有效解決在圖像標註問題中辭彙重要性被錯誤對待及物體或場景被錯誤識別的問題。

(三)對齊

對齊旨在挖掘不同模態之間子部件的相關或對應關係，從而促使學習到的多模態表示更加精確，並且也為多媒體檢索提供更細緻的檢索線索。浙江大學的庄越挺教授團隊提出了一種利用最大邊距學習方式結合局部對齊（即視覺對象和辭彙對齊）和全局對齊（即圖片和語句對齊）方法來學習共同嵌入表示空間[25]，對齊後的跨語義表示可以較好地提高跨模態檢索的質量。西安電子科技大學的高新波教授團隊提出了一種基於判別性字典學習的跨模態檢索方法[26]，該方法學習判別性字典來解釋每種模態，不僅增強了來自不同類別的模態內數據的辨別能力，而且增強了同一類中的模態間數據的相關性，而後將編碼映射到特徵空間，通過標籤對齊方法進一步增強跨模態數據的區分性和相關性。上海交通大學的楊小康教授團隊提出了一種深層跨模態對齊網路[27]，聯合行人序列與圖像數據來訓練得到多次行人重識別模型，網路中將行人圖像映射到序列數據空間並進行對齊，從而儘可能消除模態間的不匹配問題。

(四)融合

多模態融合旨在將多個模態信息整合以得到一致、公共的模型輸出，是多模態領域的一個基本問題。多模態信息的融合能獲得更全面的特徵，提高模型魯棒性，並且保證模型在某些模態缺失時仍能有效工作。浙江大學的庄越挺教授團隊設計了一種隱含條件隨機場[28]，假設不同模態的數據共享潛在的結構，通過多模態數據間的聯繫來學習這種潛在共享結構，同時挖掘該結構與監督類別信息間的相互作用，從而應用於分類任務。中國科學院自動化所的徐常勝研究員團隊提出了一種新的多模態事件主題模型來建模社交媒體文檔[29]，通過學習文本和視覺特徵間的相關性，以區分視覺代表性主題和非視覺代表性話題，並採用增量式學習策略以幫助理解社交事件的演變趨勢；同時還提出了一種多模態多視角的主題-意見挖掘模型[30]，有效結合多模態和多視角的特徵用於社交事件分析，該方法不僅能挖掘多模態數據中的共同主題，還能總結出它們在每個特定主題上的異同，並且挖掘對不同主題的多視角意見集合。中國科學院西安光學精密機械研究所的李學龍研究員團隊提出了一種新型哈希演算法[31]，將弱監督方式提取出的多模態特徵統一整合為二進位編碼，從而使用核函數配合SVM進行分類。北京航空航天大學的毛峽教授團隊通過多層線性融合雙頻GPS定位與多個參考接收天線運動信息來檢測系統的定位誤差[32]。西安交通大學的徐宗本院士團隊提出一種新型端到端的深度融合卷積神經網路[33]，將二維與三維數據輸入網路進行特徵提取和融合，進而獲得高度集中的特徵表示，進行人臉表情識別。中國科學院計算技術研究所的張勇東研究員和羅徹斯特大學的羅傑波教授合作提出了一種帶注意力機制的遞歸神經網路[34]，利用LSTM網路融合文本和社交上下文特徵，再利用注意力機制將其與圖像特徵融合，進行端到端的謠言預測。

(五)協同學習

在缺乏標註數據、樣本存在大量雜訊以及數據收集質量不可靠時，可通過不同模態間的知識遷移提高質量較差模態的性能。北京大學的彭宇新教授團隊提出了一種跨模態知識遷移網路將跨模態數據轉換為共同表示用於檢索[34]，其中模態共享遷移子網路利用源域和目標域的模式作為橋樑，將知識同時遷移到兩種模態，而層共享相關子網路保留固有的跨模態語義相關性以進一步適應跨模式檢索任務。

三、未來研究展望

(一)表示學習

從本文綜述的相關研究成果來看，按多模態表示共享的方式可將多模態表示學習分為兩類：一類方法將所有模態的特徵均投影到同一個表示空間，我們稱此類方法為公共表示學習；另一類方法則為不同模態學習不同的特徵表示空間，我們稱此類方法為特異性表示學習。公共表示學習方法適用於所有模態數據在測試階段都可使用的情況。相對而言，特異性表示學習由於分別學習不同模態的特徵，更加適合測試階段僅提供單模態數據或部分模態數據可用的情況，例如零次學習、模態間映射、跨模態檢索等任務。對於特異性表示學習，相關工作往往僅限於兩個模態的情況，對於更多模態同時存在的情況下的特異性表示學習則有待進一步研究。此外，表示學習的主流方法往往只局限於靜態條件下，而使用多模態數據，如何進行動態學習是一個很有價值的研究點。

(二)模態間映射

多模態映射問題面臨的一大問題是難以設計評價指標來度量模型的優劣。尤其是在某些生成式的任務中，如對圖像進行描述和標註，往往不存在唯一正確的「標準答案」，映射過程容易受到主觀影響，使得最終結果無法確認同一實體在不同模態間的表示。儘管我們也可以通過人工評分或兩兩比較來評價模型的映射質量以獲得最接近人類認知的質量評價，但這類人工方式往往頗為耗時，且成本較高，標註結果受測試者性別、年齡、文化背景等偏差的影響而導致評價失准。因此，學界提出了一系列相關的自動評價指標，如BLEU、ROUGE、Meteor、CIDEr等。但相關研究指出這類自動指標尚不能很好地刻畫映射結果的主觀性。綜上所述，解決映射過程中的主觀評價問題不僅可以更好地評價不同方法，而且可以輔助設計更好的優化目標函數，從而全面提升模型性能。

(三)對齊

早期的多模態對齊主要依靠基於概率圖模型、動態規劃等無監督學習方法進行不同模態間的元素匹配。近年來，雖然已陸續有學者進行有監督的對齊方法研究，但現階段的對齊方法仍然存在以下幾點主要問題有待進一步研究：

1. 顯式標註對齊信息的數據較少，不利於進行實驗分析。

2. 設計不同模態之間的相似度度量指標較為困難，且人工設計費時費力。

3. 不同模態間元素的對齊過程往往存在一對多的關係，甚至還可能存在無法匹配的情況。

4. 受雜訊影響大，尤其是當元素的匹配錯位時模型性能下降嚴重。

目前，隨著度量學習的發展，直接採用有監督學習方法確定有效的模態間相似度度量已成為可能。在未來的工作中，研究者可以通過設計同時進行度量學習和對齊的方法提高相關模型的性能。

(四)融合

近年來，多模態融合問題被國內外學者廣泛關注，已經陸續提出基於模型無關、圖模型、神經網路的多種多模態融合方法。儘管學術界在多模態融合領域已經取得了諸多進展，但現階段的研究仍存在一些問題。每一種模態會受到不同類型和不同程度的雜訊影響，導致融合得到的信息不能準確表達出應有的特徵，並且在包含時序關係的多模態學習（如一段有聲視頻）中，每種模態可能遭受雜訊干擾的時刻也可能不同。此外，模態與模態之間在時序上沒有對齊，如視頻的音畫不同步，也可能對多模態的融合造成較大的影響。

(五)協同學習

由於不同模態所包含的信息不盡相同，多模態協同學習主要利用從一種模態中學到的信息來補充完善另一種模態數據的訓練。其中協同訓練、零次學習等問題在視覺分類、音聲識別等方面得到廣泛的應用。同時，協同學習方法是與需要解決的任務無關的，因此它可以用於輔助多模態映射、融合及對齊等問題的研究。基於協同學習本身的特點，如何挖掘得到儘可能多的模態間的不同信息來促進模型的學習是一個很有價值的研究方向。

四、結束語

多模態學習是一個充滿活力的多學科交叉領域，其主要目的在於建立可以處理和關聯來自多個模態信息的模型。本文綜述了近年來在表示學習、映射、對齊、融合和協同學習這五個子研究方向上取得的主要進展。此外，我們還針對每個子問題討論了未來需要解決的難點及其發展方向。希望本文能夠為多模態學習領域帶來一些新的啟發，促使多模態學習這個方向更加彭勃發展。

參考文獻

[1]Daixin Wang, Peng Cui, Mingdong Ou, Wenwu Zhu: Learning Compact Hash Codes for Multimodal Representations Using Orthogonal Deep Structure. IEEE Trans. Multimedia 17(9): 1404-1416 (2015)

[2]Guangyao Shen, Jia Jia, Liqiang Nie, Fuli Feng, Cunjun Zhang, Tianrui Hu, Tat-Seng Chua, Wenwu Zhu:Depression Detection via Harvesting Social Media: A Multimodal Dictionary Learning Solution. IJCAI 2017: 3838-3844

[3]Yueting Zhuang, Jun Song, Fei Wu, Xi Li, Zhongfei Zhang, Yong Rui: Multimodal Deep Embedding via Hierarchical Grounded Compositional Semantics. IEEE Trans. Circuits Syst. Video Techn. 28(1): 76-89 (2018)

[4]Fei Wu, Xinyan Lu, Jun Song, Shuicheng Yan, Zhongfei (Mark) Zhang, Yong Rui, Yueting Zhuang: Learning of Multimodal Representations With Random Walks on the Click Graph. IEEE Trans. Image Processing 25(2): 630-642 (2016)

[5]Zhou Zhao, Hanqing Lu, Deng Cai, Xiaofei He, Yueting Zhuang: Partial Multi-Modal Sparse Coding via Adaptive Similarity Structure Regularization. ACM Multimedia 2016: 152-156

[6]Wei Wang, Beng Chin Ooi, Xiaoyan Yang, Dongxiang Zhang, Yueting Zhuang: Effective Multi-Modal Retrieval based on Stacked Auto-Encoders. PVLDB 7(8): 649-660 (2014)

[7]Fei Wu, Zhou Yu, Yi Yang, Siliang Tang, Yin Zhang, Yueting Zhuang: Sparse Multi-Modal Hashing. IEEE Trans. Multimedia 16(2): 427-439 (2014)

[8]Yi Zhen, Yue Gao, Dit-Yan Yeung, Hongyuan Zha, Xuelong Li: Spectral Multimodal Hashing and Its Application to Multimedia Retrieval. IEEE Trans. Cybernetics 46(1): 27-38 (2016)

[9]Xing Xu, Fumin Shen, Yang Yang, Heng Tao Shen, Xuelong Li: Learning Discriminative Binary Codes for Large-scale Cross-modal Retrieval. IEEE Trans. Image Processing 26(5): 2494-2507 (2017)

[10]Erkun Yang, Cheng Deng, Wei Liu, Xianglong Liu, Dacheng Tao, Xinbo Gao: Pairwise Relationship Guided Deep Hashing for Cross-Modal Retrieval. AAAI 2017: 1618-1625

[11]Zhenxing Niu, Mo Zhou, Le Wang, Xinbo Gao, Gang Hua: Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding. ICCV 2017: 1899-1907

[12]Fudong Nian, Bing-Kun Bao, Teng Li, Changsheng Xu: Multi-Modal Knowledge Representation Learning via Webly-Supervised Relationships Mining. ACM Multimedia 2017: 411-419

[13]Cuicui Kang, Shiming Xiang, Shengcai Liao, Changsheng Xu, Chunhong Pan: Learning Consistent Feature Representation for Cross-Modal Multimedia Retrieval. IEEE Trans. Multimedia 17(3): 370-381 (2015)

[14]Lianli Gao, Zhao Guo, Hanwang Zhang, Xing Xu, Heng Tao Shen: Video Captioning With Attention-Based LSTM and Semantic Consistency. IEEE Trans. Multimedia 19(9): 2045-2055 (2017)

[15]Jingkuan Song, Lianli Gao, Zhao Guo, Wu Liu, Dongxiang Zhang, Heng Tao Shen: Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning. IJCAI 2017: 2737-2743

[16]Yi Bin, Yang Yang, Jie Zhou, Zi Huang, Heng Tao Shen: Adaptively Attending to Visual Attributes and Linguistic Knowledge for Captioning. ACM Multimedia 2017: 1345-1353

[17]Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, Tao Mei: Boosting Image Captioning with Attributes. ICCV 2017: 4904-4912

[18]Ting Yao, Yingwei Pan, Yehao Li, Tao Mei: Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects. CVPR 2017: 5263-5271

[19]Yingwei Pan, Zhaofan Qiu, Ting Yao, Houqiang Li, Tao Mei: To Create What You Tell: Generating Videos from Captions. ACM Multimedia 2017: 1789-1798

[20]Jun Xu, Ting Yao, Yongdong Zhang, Tao Mei: Learning Multimodal Attention LSTM Networks for Video Captioning. ACM Multimedia 2017: 537-545

[21]Kun Fu, Junqi Jin, Runpeng Cui, Fei Sha, Changshui Zhang: Aligning Where to See and What to Tell: Image Captioning with Region-Based Attention and Scene-Specific Contexts. IEEE Trans. Pattern Anal. Mach. Intell. 39(12): 2321-2334 (2017)

[22]Zhuhao Wang, Fei Wu, Weiming Lu, Jun Xiao, Xi Li, Zitong Zhang, Yueting Zhuang: Diverse Image Captioning via GroupTalk. IJCAI 2016: 2957-2964

[23]Zhiqiang Shen, Jianguo Li, Zhou Su, Minjun Li, Yurong Chen, Yu-Gang Jiang, Xiangyang Xue: Weakly Supervised Dense Video Captioning. CVPR 2017: 5159-5167

[24]Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, Wei Liu, Tat-Seng Chua: SCA-CNN: Spatial and Channel-Wise Attention in Convolutional Networks for Image Captioning. CVPR 2017: 6298-6306

[25]Xinyang Jiang, Fei Wu, Xi Li, Zhou Zhao, Weiming Lu, Siliang Tang, Yueting Zhuang: Deep Compositional Cross-modal Learning to Rank via Local-Global Alignment. ACM Multimedia 2015: 69-78

[26]Cheng Deng, Xu Tang, Junchi Yan, Wei Liu, Xinbo Gao: Discriminative Dictionary Learning With Common Label Alignment for Cross-Modal Retrieval. IEEE Trans. Multimedia 18(2): 208-218 (2016)

[27]Zhichao Song, Bingbing Ni, Yichao Yan, Zhe Ren, Yi Xu, Xiaokang Yang: Deep Cross-Modality Alignment for Multi-Shot Person Re-IDentification. ACM Multimedia 2017: 645-653

[28]Xinyang Jiang, Fei Wu, Yin Zhang, Siliang Tang, Weiming Lu, Yueting Zhuang: The classification of multi-modal data with hidden conditional random field. Pattern Recognition Letters 51: 63-69 (2015)

[29]Shengsheng Qian, Tianzhu Zhang, Changsheng Xu, Jie Shao: Multi-Modal Event Topic Model for Social Event Analysis. IEEE Trans. Multimedia 18(2): 233-246 (2016)

[30]Shengsheng Qian, Tianzhu Zhang, Changsheng Xu: Multi-modal Multi-view Topic-opinion Mining for Social Event Analysis. ACM Multimedia 2016: 2-11

[31]Yingjie Xia, Luming Zhang, Zhenguang Liu, Liqiang Nie, Xuelong Li: Weakly Supervised Multimodal Kernel for Categorizing Aerial Photographs. IEEE Trans. Image Processing 26(8): 3748-3758 (2017)

[32]Tao Feng, Xia Mao: Multimodal data fusion for SB-JPALS status prediction under antenna motion fault mode. Neurocomputing 259: 46-54 (2017)

[33]Huibin Li, Jian Sun, Zongben Xu, Liming Chen: Multimodal 2D+3D Facial Expression Recognition With Deep Fusion Convolutional Neural Network. IEEE Trans. Multimedia 19(12): 2816-2831 (2017)

[34]Zhiwei Jin, Juan Cao, Han Guo, Yongdong Zhang, Jiebo Luo: Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs. ACM Multimedia 2017: 795-816

[35]Xin Huang, Yuxin Peng, Mingkuan Yuan: Cross-modal Common Representation Learning by Hybrid Transfer Network. IJCAI 2017: 1893-1900

http://weixin.qq.com/r/YjscBDbE4GufrXJn925w (二維碼自動識別)

歷史文章推薦：

譚鐵牛：人工智慧的春天剛剛開始！

【AIDL專欄】梅濤：深度視覺理解（附PPT）

AI綜述專欄 | 腦啟發的視覺計算2017年度關鍵進展回顧（附PPT）

【AIDL專欄】魯繼文：面向視覺內容理解的深度度量學習

AI綜述專欄 | 11頁長文綜述國內近三年模式分類研究現狀（完整版附PDF）

AI綜述專欄 | 朱松純教授淺談人工智慧：現狀、任務、構架與統一（附PPT）

【AIDL專欄】熊輝：《易經》如何指導我們做人工智慧？

【AIDL專欄】羅傑波: Computer Vision ++: The Next Step Towards Big AI