解密美圖大規模多媒體檢索技術DeepHash

08-16

17 人贊了文章

美圖是一家擁有海量多媒體數據的公司，如何有效分析理解這些數據內容並從中挖掘出有效信息，對我們提出了重大挑戰。本文以美拍業務為例，介紹我們在海量短視頻數據的內容分析理解和大規模檢索技術方向的探索和實踐。

多媒體數據相似性檢索可以簡單理解為用不同媒體素材將其進行特徵表達，然後在相應的特徵空間里進行查找和排序。特徵表達有兩種方式：一種是通過傳統方法提取的視覺特徵，比如關鍵點特徵、顏色直方圖等；另一個是基於深度學習提取它的底層基礎特徵或高層語義特徵（深度特徵）。美圖DeepHash是基於深度哈希技術的大規模多媒體數據檢索系統。系統依託于海量多媒體數據，分為演算法和服務兩大模塊。

DeepHash 系統

本文以美拍短視頻業務為例，介紹美圖在海量多媒體內容分析和檢索方面的探索和實踐。具體來說，我們針對美拍短視頻內容特性，從標籤制定，數據處理到演算法網路設計等層面提出一系列定製化的演算法優化策略。

在討論具體技術方案之前，我們先來思考一個問題：如何來描述一個視頻？在使用視頻哈希技術之前，我們採用的是用標籤體系來描述視頻。圖 1 所展示的是美拍最常見的標籤體系，音樂、寵物、舞蹈、教程等，用標籤體系描述視頻的缺陷是：標籤主要是對視頻內容進行概括、描述性的辭彙，包含信息量較少，一些細節的信息是無法體現的，標籤是離散型的描述。而人類是如何描述一個視頻呢？以左上角視頻截圖為例，人類看了會說：它是兩個穿著淡藍色衣服的小女孩在彈著吉他唱歌。由此可發現人類是用視覺特徵來描述視頻，所包含的信息豐富、維度多樣，是連續型的描述，顯然這是一種更合理的描述方式。

圖1

進一步看用標籤具體來說，用標籤來描述視頻存在以下問題。

1.信息表達能力弱，無法體現更細粒度的信息。如圖 2 所示的視頻截圖，是一個穿著綠色漢服的女生在公園裡跳舞。它的內容標籤是舞蹈，很難通過標籤讀取出其他信息。如果嘗試更複雜的標籤體系，比如加上場景、物體、性別等維度，可以發現很難窮舉出所有的狀況，即使做到標註成本也非常大。

圖 2

2.很難比較信息之間的相似性，信息難以度量。如圖 3 所示的三個視頻標籤都是「狗」，很難通過標籤去辨別哪兩個視頻更相似，如果用視覺特徵很容易就發現左邊的視頻與右上角的視頻更相似。當然我們可以用狗的種類和數量來計算兩幅圖之間的相似性，但是當圖片內容比較複雜，物體較多時，這種方式難以適用。

圖 3

使用特徵表達視頻

視頻哈希演算法使用視覺特徵來描述視頻，它具有以下幾個特性：

1.多樣性。特徵包含更多維度的信息，信息量更多，可表達的內容是多樣的；

2.魯棒性。如果兩個視頻比較相似，它們表達出來的特徵也比較相似，提取出來的特徵也應該是穩定的；

3.距離可計算。特徵之間是可以計算距離的，用距離描述兩個特徵的相似性，距離越小，視頻內容越相似。

基於特徵的視頻檢索技術的應用場景廣泛，如視覺相似視頻推薦，特定視頻檢索，視頻審核，視頻去重等等；此外，還可以利用提取的視頻特徵進行特徵聚類和內容挖掘，挖掘其中的熱點內容和發現新類。

特徵表達方式

常用特徵表達方式有兩種：浮點型特徵和二進位特徵。

二進位特徵在存儲、檢索速度兩方面有顯著優勢：使用二進位存儲，十分高效；計算距離使用漢明距離，檢索速度更快。而浮點型特徵距離計算一般使用歐式距離或餘弦距離，計算複雜度較高，檢索速度較慢；另外浮點特徵還存在極值干擾的問題，會影響距離計算。二進位特徵都是 0 和 1，特徵較為穩定。基於以上情況，我們業務中採取了基於二進位形式的特徵表達方式。

哈希特徵提取

圖 4

視頻哈希特徵的一般提取流程為：卷積神經網路提取視頻特徵，將特徵映射成固定長度的浮點型特徵，在浮點型特徵後面接sigmoid層映射到[0,1]區間範圍內，通過閾值化量化為二進位形式。

用於提取哈希特徵的網路模型的訓練可以分為有監督和無監督兩種形式。有監督學習基於有標籤的數據進行訓練，加以特定的損失函數提升特徵的表達能力。它的特點是特徵表達是可控的，可以通過標籤來告訴這個網路重點學習哪些特徵；無監督學習基於無標籤數據進行訓練，通常通過圖像自身變換學習特徵表達能力，所以特點就是特徵表達不好控制，較難干預網路應該學習哪種特徵。無監督學習目前還處於學術研究階段，業務難以直接應用。因此，我們當前採用的方案也是基於有監督的視頻哈希演算法。

圖 5

美拍視頻哈希演算法流程主要分為五個模塊：標籤、數據、網路、訓練和預測。對於每個模塊，我們都基於美拍的數據特點和業務邏輯做出了一些定製化的優化策略。下面分別介紹這五個模塊的相關工作。

標籤

美拍有上百類的標籤體系用於內容運營，涵蓋了美拍短視頻常見的內容和類別。但這些現業務標籤並不適合直接拿來做演算法的訓練，主要存在以下問題：

1.數據量不均衡

圖 6 是美拍熱門視頻的標籤分布，可以看出各個類別數據量極度不均衡。而在演算法訓練的時候如果有一些類別數據量比較小，那麼網路就很難學習到這些類別的特徵學習表達能力。

圖 6

2.視覺不可分

業務標籤體系沒有針對視覺特性進行劃分，造成不同類別的視頻在視覺上不可分。直接拿這種標籤進行訓練就會造成很多誤分，網路難以學到各個類別之間的特點。

圖 7

3.維度單一

業務標籤體系是針對最主要語義內容上的劃分，無法體現其它維度的信息。如服飾、場景、性別等維度不能通過這個標籤體系來體現。通過這個標籤體系訓練網路無法學習到其它維度的特徵表達。

針對以上三個問題我們提出了多維度多級標籤體系。「多維度」指可以根據業務需求給標籤體系增加維度；「多級」體現在它是分級的，建立第一層級時要在視覺上是可分的，如刺繡、美妝、手指舞等這些類別在視覺上都和自拍比較相似，就將這些類別在第一層級分為一個類，保證視覺可分性。

但是，多維度多級標籤體系會帶來一些新的問題。首先，海量數據都進行多維度打標，標註成本太高。其次，我們採取的模型網路結構是級聯的方式，每個第一層級的類別都有相應的第二層級模型進行特徵提取，模型數量很多，計算複雜度也會很高。為解決這兩個問題，我們在數據標註和網路設計兩方面進行了優化。

數據

數據方面我們採用自動標註的方法，降低標註成本。如對一批已經標註了內容標籤的視頻數據，我們需要對它進行服飾維度的打標。那麼自動標註的流程是：

1.標註少量的數據。

2.用少量數據訓練單獨的分類器，通過調整置信度等方式使分類器的準確率在 99%以上，即該分類器輸出結果置信度高於某閾值則結果是可信的。

3.用這個分類器對數據進行自動標註，置信度高的部分保留它們的服飾標籤。置信度低的這部分由於不確信服飾標籤是否準確，所以服飾標籤統一記為－1。在網路更新的時候這部分數據只更新內容標籤的損失，不更新服飾標籤損失。

網路

為了使視頻特徵可以包含多維度的信息，訓練時採用多標籤聯合訓練的方法，減少多維度的模型複雜度。

圖 8

針對上文提到的二級模型計算複雜度高的問題，我們採用共享特徵的方法進行優化。即對視頻網路提取共享的基礎特徵，共享特徵先送入一級類目模型進行分類和特徵提取，根據一級類目模型分類結果調用相應的二級類目模型進行特徵提取。採用MobileNet作為基礎網路，每個視頻提取5幀數據，推理兩級模型，在 Titan X 上可以到達100視頻每秒的處理速度為s。

訓練

在網路訓練的階段採取 Triplet loss 的方式增強特徵的表達能力。Triplet loss會拉近相似視頻之間特徵的距離，拉遠不相似視頻間的距離。

圖 9

訓練 Triplet loss 的時候如何有效選取正負樣本對是一個比較關鍵的問題。我們通過提取間隔幀的方式選取正樣本視頻，假設一個視頻提取 10 幀，其中第 1、3、5、7 、9幀作為目標視頻截幀，第 2、4、6、8、10 幀作為正樣本視頻截幀，而負樣本視頻截幀來自不同類別的其它視頻。這樣做的好處有兩點：1.正樣本視頻與目標視頻比較相似，容易收斂；2.無需標註，減少標註成本。

預測

在得到特徵哈希碼之後，我們通過類別掩碼的處理方式提高檢索準確率。類別掩碼的作用是隱去低貢獻度的特徵位，保留重要的特徵位。

圖 10

如圖 10 所示，我們認為特徵不同的位置之間存在分工。而找到重要特徵的比特位置所需要的信息保存在網路最後一層的權重參數里。

圖 11

圖 11 展示了類別掩碼的提取方法，中間部分是網路的分類層權重參數。它的形狀等於類別個數乘以特徵長度，權重的每一列都代表著相應的類別。當我們把視頻輸入到網路里得到它的類別後就可以找出相對應的類別權重，對這列權重值取絕對值，進行從大到小的排序，我們發現這些絕對值比較大的權重位置就是哈希特徵中比較重要的位置。

圖 12

圖 12 展示了網路的整體流程。首先訓練的時候採用多標籤聯合訓練的方式，加上 Triplet loss 提升表達能力，網路結構採用級聯模型以及共享特徵的方法。最後採用類別掩碼提高檢索精度。

關於類別掩碼的細節描述可參考論文《Deep Hashing with Category Mask for Fast Video Retrieval》
論文地址：https://arxiv.org/pdf/1712.08315.pdf

效果

圖 13

圖 13 展示了該模型的準確率和檢索效果圖。其中檢索效果圖裡左上角的視頻為目標視頻，其後為檢索結果。

DeepHash 多媒體檢索服務

前面提到 DeepHash 系統包含兩大模塊：演算法和服務。前面以美拍視頻為例，介紹了我們視頻哈希特徵提取演算法。接下來我們介紹 DeepHash 系統的服務部分。

DeepHash 服務分為離線任務和在線任務。離線任務負責生成海量視頻數據的哈希碼，作為目標特徵庫。具體內容包括模型訓練和特徵生成兩個模塊。UGC 短視頻數據具有較強的時效性，不同時間段的視頻主題內容不同，所以業務上需要使用最新數據定期訓練並更新模型。在得到新的網路模型之後，需要批量處理之前的歷史數據生成的新的哈希碼，並更新到目標特徵庫中。

在線任務負責實時處理檢索請求，並將相似結果返回給調用方。當一個檢索請求過來，查詢模塊會先去海量目標特徵庫中查詢當前請求的視頻哈希是否存在，如果存在，則使用當前哈希碼，與目標特徵庫的哈希碼計算距離，返回top相似結果；如果不存在，那麼服務會調用預測模型，提取該視頻的哈希碼，使用該哈希碼到目標庫里檢索，同時將預測得到的哈希碼加入目標特徵庫。

架構演化

DeepHash 服務從最初的單庫熱門池視頻支持到最新版本能支撐全量視頻檢索，經歷了三個階段的版本迭代和優化。

圖 14

V1.0 最初版本運行在單節點上，只對於特徵庫進行分片、並行查找的優化，該版本支持百萬以內的基礎特徵庫檢索。

V2.0 版本支持更多形態的媒體數據的檢索，在這個版本我們接入了音頻特徵提取演算法。同時支持視頻和音頻兩種形式的相似檢索。為了支持多種類型的媒體特徵，V2.0進行了索引統一，對於基礎特徵庫進行分組分片(分組：分類，先定位到類別，再進行數據分片查詢)，同時提高檢索穩定性。視頻截幀採用非同步調用方式減少 IO 阻塞。

V3.0 是目前正在開發的版本，運行在容器化集群上，同時進行了檢索集群化的優化，目標是支持億級的海量特徵基礎庫的實時檢索。

圖 15

圖 15 是檢索集群的業務邏輯分層結構。其中，代理層負責請求分發，高並發時可無狀態擴容；業務層對數據進行預處理包裝、調用數據層的檢索服務，並把結果封裝成用戶可讀的形式；數據層運行檢索演算法，分片載入特徵庫數據，進行並行檢索，保證檢索的時效性、穩定性；

性能

接下來我們展示 DeepHash 系統的檢索性能。存儲性能上，使用一個 128 位的哈希碼錶示一個視頻，存儲 1 億條視頻，需要的存儲空間只有不到 1.5 GB。檢索速度上，運行 8 個實例，對 100 萬的基礎特徵庫進行全量視頻檢索，需要 0.35 S；使用 50 個實例，對 3 億的基礎特徵庫進行全量視頻檢索，只需要3秒。