幫助音樂人在 YouTube 維權的 Audiam 如何掃描和排查海量音樂數據？

12-12

Audiam於6月中旬在海外市場推出服務，並已準備好將在7月末與美國其他藝術家展開合作。音樂家們可以免費進行註冊，將他們的歌曲發送到Audiam，將YouTube音樂使用授權的許可權交予該公司。Audiam會對YouTube龐大的視頻庫進行掃描，找出使用那些音樂的視頻。 via 音樂家們另闢新徑：在YouTube收取音樂使用費

謝邀。

既然樓主邀請的都是數據分析方面的人來回答問題，那你感興趣的應該不會是如何使用Audiam等實用問題吧。

那既然對背後的原理和數據處理感興趣，就必須要向你首先聲明一點：Audiam不是一個視頻分析的軟體，而是一個借用youtube視頻分析工具進行二次分析的軟體。

youtube有如此海量的視頻，掃描排查全部視頻肯定是很困難的事情，但另一方面，同樣會存在大量的侵權行為。但是去年，鳥叔的江南style在youtube網站上的廣告費分成就達到了800萬，這個廣告費分成是隨意定的一個數嗎？實際上，關於在視頻網站上掃描和排查視頻、保障音樂人的權益，youtube有著非常成熟的技術方法，音樂人可以通過這些方法獲得應得的利益，但前提是：必須與youtube簽約。對於那些無法與youtube簽約的自由音樂人來說，Audiam解決了他們的一個權利保護的難題。那Audiam是怎麼做的呢？

Audiam與音樂人簽訂合約，音樂人根據自己的需要將自己的一些作品列入保護合約之中；之後，Audiam借用youtube本身的內容ID軟體，去辨別海量視頻中其客戶的作品。客戶獲得利益後，Audiam會有25%的提成。

樓主是否非常想知道youtube本身的內容ID軟體是怎麼識別視頻的。那我覺得，對你最有價值的信息其實就是「怎麼對視頻進行比較，確定其是否被引用」。

1.視頻文件md5值
每個視頻文件里都保存有一個md5值，可以認為是這個視頻文件的基因。視頻文件md5是最直接、掃描排查最先進行的一步，通過這一步，大部分引用視頻都會被發現。但視頻文件一經轉碼後md5值就會變化，無法處理一些用戶刻意把視頻轉碼後再上傳的情況；

2.視頻的文本信息
文本的比較，是計算機中比較成熟的技術。視頻的文本信息包括用戶在上傳視頻時會生成標題、描述和標籤等，對其中的關鍵詞進行比較，是方法1的重要補充。但是對於youtube這樣的海量視頻進行分析，有上億的文本信息需要比較，所以比較文本的效率會很低。因此，視頻最重要的文本信息——時間，就起到了重要的作用。統計發現，在用戶生成內容的視頻網站中，視頻的長度集中在1到10000秒範圍內，如果將每一秒作為一個範圍，就可以將龐大的視頻資料庫分成一萬個區間，這樣每個區間里就只有萬數量級的視頻，使用文本信息比較的效率就會大大提高；

但這些還不夠！

如果視頻被剪切、深度處理了，上面的方法都會失效。

3.視頻分割+關鍵幀+圖像識別
目前最先進的技術是基於視頻內容進行直接比較。眾所周知，視頻由很多幀連續變化的圖像組成，而一段視頻中總是會有一些截然不同的場景，這就為對視頻進行分割、提取關鍵幀來代表整個視頻提供了基礎。將一個視頻提取成幾個關鍵幀，再根據圖像識別對關鍵幀進行比較（通過顏色、紋理、其他特徵等）。這樣就可以通過視頻內容對視頻進行比較了~

對於youtube，它管理著世界上最大的視頻資料庫，它在視頻識別的技術一定是非常先進的，所以對於Audiam這個新興公司來說，借用youtube的技術絕對是最為省錢甚至是唯一可行的方法。而youtube的視頻識別技術，一定在新上傳視頻的信息提取、時間區域的智能劃分、關鍵幀的選取、圖形比較以及不同方法的綜合使用等方面有自己獨到且超前的技術。

最後，我們談談未來視頻識別的發展吧。在我看來，未來的發展方向可以概括為三個字：智能化。這也是現在文本信息識別的發展方向（谷歌等搜索引擎發展的方向）。未來的視頻識別不僅能識別視頻本身的引用，同時可以根據圖像之間的邏輯關係，來識別是否引用了客戶視頻作品中的創意、內容。舉個例子，當我看到一個用大量長鏡頭拍攝而成的視頻，非常喜歡，這時youtube不僅會給出引用了這個視頻的其他視頻，還會給出一些同樣使用長鏡頭的視頻、一些同樣主題的視頻。甚至，youtube根據我喜歡長鏡頭，推測我是一個什麼性格的人，根據性格確定一些特性，將符合這些特性的視頻推薦給我。
看！未來的視頻識別會讓人們多麼幸福~

數據分析，其實就是對一個實體進行分析，提取特點、標籤，然後數據化這些標籤，通過數據的對比，最終達到對實體分析、預測、管理的作用。數據分析正在改變每一個人的生活~

謝邀。正好大學畢業論文做的是音視頻文件搜索的題目，對原理略知一二，但這已經是幾年前的事情了，如有錯誤請指出。
原始的音頻檢索是依靠元數據進行的，簡單來說就是人工對音頻進行標註，打上作者、專輯、採樣率、歌詞等等描述音頻特徵的標籤，然後用戶對標籤進行檢索。但這種方式無法直接對音頻本身進行搜索（比如，你聽到首歌不錯，但你還得記下歌詞歌名再去檢索，不能直接對著電腦唱兩句讓搜索引擎幫你找）。
所以，不少公司都致力於將音頻轉換為文字，或相反的工作，這樣可以給用戶更直接的搜索體驗（你可以對著電腦唱一段讓它幫你找你唱的歌）。但在這個問題里，我估計使用的是聲音對比技術，也就是通過將音頻轉成專門編碼的方式，來對比兩段音頻轉換後的編碼是否相似，如果相似那自然會認定有侵權行為。
重申下，我知道的還是幾年前的知識，只做個原理介紹，可能與Audiam實際用的方式有所區別。有錯誤求指教。

對視頻領域和這個公司的業務不是很了解。所以只能從數據處理和分析思路上給一些想法
1：如果對如果找到音樂對應的視頻，這個數據查找的方法並不難，海量數據主要是可以格式化的，有可以匹配的規則，上億級別的匹配也可以進行；演算法，類似數據表的欄位join操作；當然這是簡化模型，具體演算法要結合視頻數據的格式進行；
2：關於業務，匹配出音樂對應的視頻最關鍵的可能是匹配規則：也就是怎麼定義這個音樂被某個視頻使用了，以及如何定義使用次數；這裡就涉及到直接使用和間接使用的問題，類似數據分析里廣告效果的計算，不同的視角會有不同的計算規則；這也是業務模式的核心；

不知道有沒有幫助，如果能給出更多的業務細節，數據分析會更有落地點