用圖片搜索視頻是一種什麼樣的技術？

02-19

各大搜索引擎已經先後推出了以圖搜圖的功能，它可以實現輸入與圖片名稱或內容相似的關鍵字就可以檢索到相應的圖片，例如電商購物、微信掃一掃以及百度識圖等都使用了這一技術。但是，隨著視頻內容的走紅，業界又衍生出了一種新的技術——以圖搜視頻，即你能夠通過這一技術在海量視頻中搜索到目標視頻。

那麼問題來了，這又是一種什麼樣的技術？它和以圖搜圖的區別在哪？有什麼技術難點？

為此我們邀請了圖麟信息科技CEO魏京京來為大家解答這些疑惑。

魏京京：中國科學技術大學計算機專業本科/碩士，畢業後就職於IBM北京研發實驗室和美國矽谷研發實驗室，擔任工程師和產品經理，隨後就職於諮詢公司和投資公司，曾在同創偉業做過4年的風險投資，擔任投資總監。現為圖麟信息科技CEO。

簡單介紹下圖麟科技？

魏京京：圖麟科技的核心技術團隊在圖像處理、識別領域有十幾年的經驗。現在主要專註于海量圖像/視頻的搜索、識別、智能分析處理，核心演算法團隊來自於全球前沿的圖像視頻處理技術研究機構，具有超過15年的圖像視頻研究經驗。

在以圖搜視頻領域，我們開創了以視頻為單位來提取特徵，並實現以圖搜視頻技術的實際商用。

以圖搜視頻是用什麼樣的技術方式實現的？它解決了什麼樣的問題？應用場景有哪些？

魏京京：先說作用，以圖搜視頻解決了當前針對海量視頻內容的精準快速檢索的硬傷。

隨著圖片和視頻等數據在我們日常生活中、實際應用中海量爆發，就像當年文字互聯網的爆發一樣，我們需要一個有效的方式對圖像和視頻內容進行快速篩選和獲取，為了達到這個目標，海量視頻檢索就是一個非常必要的工具。

相對於視頻鑒黃，以圖搜視頻實現的是針對通用物體在海量視頻中的快速精準視頻檢索。

再來談談它的核心技術。

以圖搜視頻的技術包括經典的模式識別、深度學習領域相關技術，其原理是通過經典的模式識別技術和深度學習技術的融合，達到海量視頻搜索在精準度、速度上的最佳組合。

而應用場景就很好理解了。

視頻搜索的應用場景覆蓋很多我們生活和工作中的方方面面，簡單來說，大家目前在各大互聯網視頻網站、電影視頻網站搜索自己感興趣視頻的時候，只能通過文字關鍵字來搜索。

而如果集成了以圖搜視頻的技術，就可以通過某個電影場景、片段、海報等等直接的圖片內容來進行搜索。

另外，在互聯網安全領域，目前對圖像、視頻內容的審核，都無法做到自動審核，還很大程度上要依賴人力，通過以圖搜視頻技術，可以自動審核圖片或者視頻中的包含的內容信息，這就提高了互聯網安全領域的圖像以及視頻內容的過濾和審核效率。類似的應用場景還存在於安防、電視媒體、個人圖片以及視頻管理應用等諸多領域。

以圖搜圖與圖像識別，物體識別的區別是什麼？

魏京京：其實，「圖像/視頻檢索」和「圖像/物體識別」是一對孿生兄弟，在某些時候，這兩類技術是可以相互通用的，比如，為了達到物體識別，你可以先進行圖像檢索，再進行圖像識別來達到識別的效果；為了達到圖像檢索，也可以先進行識別物體，然後再進行檢索來達到圖像檢索的效果。

當然，它們之間也有很多差異，為了達到通用範圍的圖像/視頻檢索，目前經典的圖像/視頻檢索演算法，是沒有加入圖像識別技術，這主要有幾方面原因：

一、沒有加入圖像識別，可以有效的降低物體遮擋造成的無法識別的問題，圖像/視頻檢索可以通過物體的局部特徵進行有效的匹配並準確查找到目標伍，即使該目標物體大部分都被遮擋也不會妨礙搜索的準確性。

二、為了達到通用物體的搜索，目前還無法加入萬事萬物的識別，即使隨著深度學習技術的迅猛發展，我們仍然無法對所有物體進行有效識別。因此，為了檢索的準確性，依賴對萬事萬物的識別也是不現實的。視頻鑒黃也是只能對一類特徵目標物體來進行識別，但是我們需要實現的是所有通用物體的檢索，因此無法現在就能加入識別技術。

但是隨著深度學習技術的發展，非常好的趨勢就是把深度學習技術和過去經典的圖像/視頻檢索技術進行結合。圖麟科技的做法有兩方面：

1.通過把識別技術和檢索技術進行有效的統一，真正把原來兩步過程（檢索、識別分成兩個單獨的步驟）變成統一的一個過程來做檢索。這涉及到演算法每一個步驟的兩類技術的融合統一，包括特徵提取、比對等等細節過程。

2.在某些可以限定的較寬泛的領域，通過識別問題來確定範圍，然後在有效識別的子類中進行快速圖像/視頻檢索。視頻鑒黃只是其中某一類場景，還有包括很多客戶特定的應用場景，這一方式可以快速有效的進行優化融合，把識別和視頻搜索技術快速有效結合。

以圖搜視頻的相比以圖搜圖，技術上存在哪些區別與難點？

魏京京：視頻的本質就是圖像序列，所以以圖搜視頻，面臨的一個最直接問題，就是數據量非常龐大，一秒鐘的視頻就相當於25-30張圖片，因此需要一個非常好的方法來把這些圖像序列的特徵進行緊湊快速有效的融合，而不是簡單的把每幀圖片分別進行特徵提取然後採用以圖搜圖的方式實現視頻搜索。

簡單來說，相比較以圖搜圖，以圖搜視頻，必須要通過視頻為單位來進行特徵提取，才能在實際應用中達到可實施的可能。這就是相對於以圖搜圖，以圖搜視頻的區別和難點。

再補充一下，為了實現以視頻為單位進行特徵提取，這中間還會涉及到視頻內容本身的認知及演算法，這方面會超出以圖搜圖中單幅圖像比對的範疇，演算法複雜度和難點較高。

那麼以視頻搜視頻又有什麼樣的技術特點呢？

魏京京：以視頻搜視頻，我們堅信這一定是未來的一個趨勢。因為目前以圖搜視頻還是基於單幅圖像來進行搜索，相對還有局限性。

用圖麟科技舉個例子，我們正在實現的以視頻搜視頻技術，結合的還是之前提到的以視頻為單位進行特徵提取的演算法基礎，可以對用戶輸入的這段視頻進行有效的特徵提取，通過演算法判斷用戶對視頻中某類物體或場景感興趣，從而快速的在海量視頻中查找到相似的視頻片斷。

綜合來講，以視頻搜視頻，這中間的核心技術，也是之前提到的以視頻為單位的特徵提取和比較。這與針對單幅圖像作為目標來進行搜索相比，更往前了一步。

這樣的優勢具體體現在哪裡？

圖麟科技演算法負責人張工：現在視頻的檢索很多時候大家還是把視頻作為孤立的幀來使用，也就是，先提取多幀的特徵，最後來一對一匹配。

這樣做看起來很精細，但會導致資料庫過於龐大，而且實際上除了效率不高，精度也不好。圖麟的做法就是從視頻級，而不是幀級來組織資料庫，在效率上、精度上都有相應的提升。

上述不同種類的圖像處理技術應用前景如何？

魏京京：正如前面提到的，以圖搜圖、以圖搜視頻和以視頻搜視頻直接解決了目前我們對圖片/視頻內容本身的快速獲取和過濾。

類似於2000年左右，網路文字信息的爆發，直接催生了文字檢索過濾等功能的訴求。而目前我們所處的工作生活領域，圖片和視頻的獲取，就像當年我們輸入文字一樣便捷。

這直接導致了我們所接觸到的是圖片/視頻的海量存量信息，同時隨著基礎硬體的不斷提高，圖片和視頻的處理也變得越來越便捷和經濟，所以視頻檢索就會在將來的各個領域變成一個剛需。具體的應用場景之前的回答中也涵蓋了很多方面，這裡不再贅述。

精彩問答：

Q：視頻檢索現在主要是用在公安，安防這一塊，那麼未來有沒有新的發展方向？

A：從我們目前接觸的客戶訴求，公安、安防只是其中一個比較小的領域，大批量具有很多圖片、視頻存量的企事業單位，都表現出很直接的對以圖搜視頻的緊迫需求。
目前的很多公司，已經在圖片、視頻上積累了很多數據，但是這些數據本身他們沒有辦法進行有效的交互和獲取，這些都是視頻檢索的用武之地，類似於廣電、互聯網、文化、營銷等等。

Q：您認為以圖搜視頻技術在機器人技術方面有沒有應用可能呢，或者說您對這項技術在機器人方面的有沒有什麼想法？

A：以圖搜視頻本身涵蓋的底層技術面比較多，包括了圖像識別、深度學習、模式識別、視頻檢索，從大類來看，這些都是CV領域很重要的底層技術，他們也都可以直接應用在機器人視覺方面，簡單來說，機器人的視覺所需要的物體識別、室內導航視覺模塊、圖像/視頻比對技術，都已經在視頻檢索中部分得到體驗。
以視頻搜視頻，其實跟機器人場景結合的就很密切，機器人通過攝像頭進行視頻輸入後，可以快速有效的定位他所處的場景，並做出行為反饋。其他關於識別方面相信大家都很了解了。

Q：「從視頻級，而不是幀級來組織資料庫」，這個可以詳細解釋下嗎？

A：這麼說吧，如果一個視頻有100個小時的話，目前市面上很多視頻檢索系統，可能資料庫是存儲單幀的，這樣總共有100*3600*25幀，資料庫是這麼大。但是如果以視頻內容來分級，可能只有幾個獨立的視頻剪輯，這樣就小很多了，檢索起來也快。

Q：您經常逛那些技術論壇以及社區？

A：我個人喜歡看一些頂尖的國際論文，例如CVPR，ICML，ICLR。

來源：硬創公開課程弢