居然被AI劇透了?可以看視頻講故事的機器學習模型來了
來自專欄 DeepTech深科技15 人贊了文章
架起自然語言與視覺之間的橋樑一直是計算機視覺和多媒體領域追求的目標。這一領域早起探索的任務是對圖片進行描述,也就是生成單個句子描述圖片內容。近年來的工作則更多關注於對圖片和短視頻內容進行更為詳盡的描述,生成包含多個句子的段落。同時,研究者們也探索了根據照片流來講述故事。
不過,人們在記錄人生中重要的事件時,相比於短的視頻片段,往往更喜歡使用長視頻,比如生日派對和婚禮。為此,來自新加坡國立大學與明尼蘇達大學的研究者們提出了該領域新的任務:針對長視頻生成簡介、連貫的描述性故事。為此,他們建立了新的數據集並提出了新的模型。在該數據集上,他們將新模型與前人工作中效果最佳的模型進行了比較,新模型取得了更優的結果。
圖|上圖為人類所寫的故事; 下圖為新模型生成的故事; 均只選擇了故事的前五句和視頻中它們nm相應的關鍵幀的採樣。
針對長視頻生成故事這一新任務與以往的各項任務都存在著顯著的差別。與短視頻詳細描述任務相比,該任務更關注包含複雜動態事件的長視頻,抽取其中的重要場景生成故事,而不要求包含視頻中出現的每一個細節。而與根據照片流生成故事相比,該任務更基於視覺內容。因為由照片流生成故事的任務中,視覺材料由一張張照片組成,相對貧乏,故而任務的關鍵是填補照片中間的信息鴻溝。這就意味著故事講述的過程需要想像力和先驗知識,得到的故事可能因為標註者的背景不同而產生很大差異。而這項任務的視覺信息十分充足,根據視覺信息就足以生成故事,不會受到過多主觀因素的影響。
基於這些特性,這項新任務也主要面臨兩大挑戰。第一,與單句描述相比,長故事包含數量更多,更多樣化的句子。而對於相同的視覺內容,可能有多種多樣的描述。為此,保證故事的簡潔性和連續性就更為困難。第二,長視頻中通常包含多個角色、地點和活動,難以把握故事的主線。
為了應對這些挑戰,研究者將該任務分解為兩個子任務。首先從長視頻中挖掘重要的片段,然後通過檢索的方式選擇合適的句子生成故事。根據這兩個子任務,他們提出了由兩個部分組成的模型。
模型的第一部分是上下文感知多模態嵌入學習框架,通過兩個步驟,由局部到全局建立起多模態語意空間,也就是將視頻內容和自然語言映射到同一語意空間中,將其聯繫在一起。它首先對視頻片段-句子對進行建模,然後將長視頻轉化為一系列的視頻片段。通過一個殘差雙向 RNN(Residual Bidirectional RNN)進行處理。該結構不僅能將上下文信息整合到多模態語意空間中,同時可以保證時序上的連貫性和語意嵌入的多樣性。
圖|局部到整體的多模態嵌入式學習模型。左側部分為局部嵌入學習。針對每一個輸入的視頻片段-句子對,利用 CNN+RNN 對視頻片段進行編碼,利用 RNN 對句子進行編碼。
右側為全局嵌入學習,將視頻片段和句子應映射到同一語意空間。
模型的第二部分稱之為「旁白」。給定一個視頻,該結構首先從中抽取一系列重要的剪輯片段,接下來在語意空間中檢索與這些剪輯片段最匹配的句子,生成整個故事。視頻中哪些方面對於一個好故事是重要的呢?換句話說,什麼樣的片段是重要的呢?這顯然沒有一個明確的定義。因此,這一模塊被設計為一個強化學習的代理,通過觀察一系列的輸入視頻來學習一個策略,通過該策略選擇獎勵最大的剪輯片段。而這個獎勵,就是通過這些剪輯片段生成的故事與人類書寫的參考故事之間的相似度來決定。
圖|上圖為旁白網路,根據輸入的視頻提取重要的視頻片段。下圖為根據提取出的片段檢索出句子組合成故事的過程。
數據集一直是驅動該領域研究進步的重要因素。為此,研究者針對這一新任務專門建立了 Video Story 數據集。該數據集包含四種常見而複雜的事件(生日、露營、聖誕、婚禮),通過關鍵字檢索從 Youtube 上檢索下載,最後手動選擇 105 個在事件內部和不同事件之間都有足夠差異性的視頻。這些視頻的故事通過亞馬遜勞務眾包平台 Amazon Mechanical Turk 收集。故事的選擇必須滿足以下三個條件:(1)至少包含 8 個句子;(2)每個句子至少包含 6 個單詞;(3)故事內容要連貫,併合視頻內容契合。最後研究者請工作人員針對每個故事中每個句子,標註其在視頻中的開始時間和結束時間。最終,研究者收集了 529 個故事。
圖|Video Story 與其他現存數據集的比較。
研究者在新數據集上對新模型和目前效果最好的模型進行了評估和比較,新模型均取得了更優的結果。
圖|多模態嵌入評估:以一系列視頻片段作為查詢條件,檢索得到一個句子序列。R@K 的數值越高,Medr 的數值越低表示效果越好
圖|Video Story 數據集上,確定視頻片段條件下不同模型的故事生成結果評估。ResBRNN-KNN 優勢明顯。
圖|Video Story 數據集上的故事生成評估結果(針對對模型第二部分)。實驗中,視頻片段由各個模型自行提取,根據視頻片段檢索句子的方式固定。Narrator(旁白模型)各項指標均效果更佳。
不過,該模型目前還有很大的局限性。例如,生成故事的句子只能在數據集中檢索。研究者表示,在接下來的工作中,他們將使用更多野生的句子來擴展故事的多樣性,同時使用一些自然語言處理的方法使句子之間的的銜接更加自然。
圖|不同模型生成的故事舉例。Proposed 為研究者提出的新模型,GT 為作為參照的標準答案。綠色框為 GT 選擇的重要視頻片段,黃色框新模型選擇的重要視頻片段。紅色框為二者共同選中的視頻片段。
參考:
https://arxiv.org/pdf/1807.09418.pdf推薦閱讀:
※【新科技降糖】化開血糖為能量,遠離併發症,血糖穩在6.0!
※江寧這4個小鎮人少景美,而且科技感、文藝范兒統統都有!
※論現代科技革命與世界文明中心轉移
※分析師認為蘋果或將在2020年推出首款可摺疊的iPhone手機
※歷史七年級下冊《宋元時期的科技與中外交通》測試題
TAG:機器學習DrewConway,JohnMylesWhite著書籍 | 科技 | 機器學習 |