想讓視頻網站乖乖幫你推內容?看看這位小哥是如何跟YouTube鬥法的
編譯 | AI科技大本營(rgznai100)
參與 | reason_W
當下視頻網站的火熱程度大家都是有目共睹的,因此也產生了一些網紅視頻博主,比如深受營長喜愛的papi醬以及papitube的各位po主。
那麼,這些網紅是怎樣使自己的視頻迅速走紅的,網站是通過哪些標準向廣大吃瓜群眾推薦視頻的,其中使用了什麼演算法呢?
在視頻網站不公開演算法的情況下,上傳視頻的各大網紅如何才能抓住視頻分發過程中的套路,長期穩定地生產高品質視頻內容?這裡面到底有沒有一條真正可行的路徑?還是真的只能靠三俗內容來不斷挑戰廣大觀眾的下限?
歡迎來到我們解析YouTube演算法的第一部分。我們將從YouTube的一個動畫視頻製作商如何跟YouTube演算法的長期鬥法開始說起,看一看他在對YouTube演算法一無所知的情況下,如何從數個月的運營推廣經驗中逆向推導出影響YouTube演算法的幾大因素:觀看時長, 訪問量、訪問速度、訪問時長、啟動會話、上傳頻率、持續會話時間、結束會話時間,等等。
現在,就讓我們跟著本文作者Matt Gielen,一起來探索YouTube推薦視頻背後的六個秘密。
正文:
無論是故事片、舞台劇、電視節目,還是當前在線播放的各種視頻,只要你是在為某種形式的發行機構創作內容,它的分發機制就能在很大程度上決定你作品的成敗。
比如,你在做一部電視劇,你肯定期待它能成功。那你最好清楚什麼時候插播廣告最好、如何做宣傳更有效果、哪個頻道更契合你的內容以及該頻道的收視人數能有多少等等諸如此類的問題。
然而,如果你是在YouTube上發布視頻,那就比較難了,因為其分發機制上最有價值的點是YouTube演算法的工作原理。畢竟,與演算法相關的一切事情都比較難懂。更何況,YouTube根本沒公開哪些變數是它的演算法會考慮進去的因素。
但哪怕能獲得的數據非常有限,為了弄清楚它是如何工作的,我們也想對這個巨大的黑箱一探究竟。有些數據對演算法影響很大,拿到它們(如縮略圖和標題印象,用戶訪問歷史記錄和行為,觀看時長等)就能在很大程度上提高演算法對透明度。但很可惜,我們沒辦法拿到。
不過我們還是儘可能地利用了能拿到手的數據。我和我的前同事Jeremy Rosen花了六個多月的時間來研究Frederator所擁有並運營的頻道數據,想儘可能多地搞明白YouTube的演算法。
在開始之前還有一些事兒我得說明下。在這篇文章中,我們會把YouTube的很多推廣演算法(如推薦(Recommended),建議觀看(Suggested),相關視頻(Related),搜索(Search),評分(MetaScore)等)統稱為「YouTube演算法」。它們之間存在很多差異,但在一點上是一致的,就是優化目標都是「觀看時長」(=瀏覽人數×平均觀看時長)
關於「觀看時長」,可以參考作者另一篇文章
http://www.tubefilter.com/2016/05/12/youtube-watch-time-metric-algorithm-statistics/
眾所周知,視頻的成功與否在於觀眾的觀看時長。本文中,我會就影響「觀看時長」的幾個核心變數,詳細聊聊我的心得體會。
觀看時長
首先,「觀看時長」並不意味著觀看的分鐘數。跟我們之前討論的一樣,觀看時長是以下幾個項目的組合:
- 訪問量和訪問速度
- 訪問時長
- 啟動會話
- 上傳頻率
- 持續會話時間
- 結束會話
基本上,這些項目中的每一個都關係到你的頻道和視頻表現的好壞:觀眾是不是經常來訪問(開始一次頁面訪問會話),以及他們是不是會停留很長時間。
為了讓你的頻道跟視頻在演算法中累計下任何變數值(譯者註:起碼得讓變數值不為0吧),你首先需要獲取訪問量。為了讓這些視頻「成功」(即在前30天內訪問量實現等於或大於訂閱者的50%的觀眾),你需要在視頻發布開始的前數分鐘、數小時、數天內獲得大量的訪問次數,我們將其稱為訪問速度。
接下來,我們先來看看兩個變數的作用。
訪問量和訪問速度
在分析Frederator的「訪問速度」時,我們發現隨著前48小時訂閱用戶訪問百分比的增加,視頻的平均累計訪問量也在呈指數增長:
根據這個發現,我們進行了一些更深入的挖掘:如果用這個「訪問速度」的規律去預測視頻是否會表現良好,能達到92%的準確率。
其實,視頻的平均累計訪問量和前72小時訂閱用戶訪問百分比的相關性更大。
這些圖和相關性充分表明,「訪問量」和「訪問速度」對於視頻和頻道的整體成功有著直接而重大的影響。
此外,有證據表明,這個影響反過來也很明顯:「訪問速度」低不僅對當前視頻有負面影響,對前一個視頻和後一個視頻也有負面影響。
下面這個圖顯示,如果Frederator上一次上傳的視頻在前48小時內的「訪問速度」低(低的定義是指訂閱用戶訪問百分比不到5%),則下一次上傳也將受到負面影響。
該數據證實了馬修·帕特里克在視頻(https://www.youtube.com/watch?v=HLJQ0gFHM8s)中提到的理論。他的理論表明,如果你的某個視頻沒有被大量訂閱者點擊,YouTube就不會賦給你的下一次上傳內容很大的訂閱者推薦比重。或者是因為你的前期上傳工作做得不好,使得頻道的訪問量變低,這反過來會導致分發機制將你的內容分發給更少的觀眾。但不管原因是哪個,悲催的結果是一樣的。
有證據表明,低「訪問速度」對新上傳內容的另一個重要影響是,它也損害了你的視頻庫的整體訪問量。
下面的第一張圖表中,藍線是前48小時訂閱用戶訪問量,紅線是前48小時訂閱用戶訪問量與頻道整體訪問量的七天滾動平均百分比。 第二個圖表顯示了當天視頻的訪問次數與頻道整體訪問次數的百分比。
這兩個圖表都表明了一件事:當訂閱用戶訪問你的新上傳視頻和/或頻道庫視頻的百分比下降時,頻道整體訪問次數也會下降。
也就是說,通過這樣的演算法,YouTube會積極推廣那些能吸引該頻道核心觀眾的頻道,同時積極懲罰不能吸引觀眾的頻道。
訪問時長
我們發現,對演算法有重大影響的下一個最大變數是「訪問時長」。訪問時長表示觀眾停留在單個視頻頁面上的時長。
這個變數有很大的權重。在我們的數據中,可以看到有一個明顯的轉折點:在Frederator頻道今年的數據上,平均訪問時長超過八分鐘的視頻在頭30天內的訪問次數比那些訪問時長在五分鐘以下視頻的訪問次數高350%。
下圖顯示了Frederator頻道上視頻的平均累計訪問量與這些視頻的平均訪問時長的關係。
注意:這裡沒考慮視頻持續時間大於8分鐘的視頻數據(因為這樣只要看完視頻,訪問時長就大於8分鐘了)。
我們還發現,訪問時間越長,視頻表現也會更好。
下圖顯示了視頻訪問時長不到五分鐘(1),五分鐘到十分鐘(5)和10分鐘以上(10)的視頻前七天的平均訪問次數:
下圖這張圖也是這個意思,不過從7天拉長到整個生命周期了。
除了這些發現之外,我們還有個不太確定的結論,延長視頻時間能提高訪問數據的表現。
Frederator有一個兒童樂園的頻道,每周會上傳三到四個視頻(時長分別是3分鐘,10分鐘,30分鐘和70分鐘)。我們注意到,即使是上傳頻道庫的一些舊視頻,70分鐘時長視頻的前48小時訪問量也遠遠高於其他視頻。除此之外,70分鐘時長的視頻與該頻道上其他任何時長視頻的平均訪問時長相同。
我們建議他們每周只上傳70分鐘時長的視頻。採取了我們的策略之後,兒童樂園頻道每日的平均訪問次數增加了50萬次,同時在過去6周內的視頻上傳量卻減少了75%。這讓人很驚訝,我知道。
啟動會話,持續會話時間和結束會話
這項研究大部分是基於我之前發表的研究,WTF Is Watch Time?!
http://www.tubefilter.com/2016/05/12/youtube-watch-time-metric-algorithm-statistics/
具體請參考我以上研究,在此不做贅述,只簡單回顧一下三個概念。
啟動會話是指從你的某部視頻開始,進入YouTube頁面,正式開始頁面訪問會話的人數(譯者註:可以理解成看到了你的某個視頻才讓用戶想起來打開Youtube)。
這說明了為什麼你的訂閱用戶的前72小時的訪問量如此重要。訂閱用戶是在第一天就可以觀看你的視頻的人。他們也最可能點擊該頻道的縮略圖,因為他們熟悉你的品牌。
持續會話時間是用戶觀看你的視頻以及觀看完後在頁面上逗留的時間長短。
結束會話是指在觀看你的某個視頻時或看完後離開YouTube,結束頁面會話的頻率。
演算法理論
YouTube的演算法關注頻道的推廣效果,而不是個人視頻的效果。
YouTube的演算法表明了他們對頻道的期望:
- 能讓人們經常回到平台
- 能讓人們長時間停留在平台上
下面的三張圖給出了這個理論的證據。
第一張圖是48小時訂閱者訪問次數百分比和個人視頻7天訪問次數。它告訴我們,如果有很多用戶是從你的視頻開始的Youtube頁面會話(即啟動會話),你的視頻就會獲得很多的訪問量。如果訂閱者的訪問次數達到某個閾值,訪問量就會變為指數增長:
第二個圖表顯示平均每日訪問次數和頻道的五天滾動訂閱用戶訪問百分比關係。
這意味著如果你能持續地獲得大量用戶啟動會話(五天滾動平均),演算法就會增加你的視頻發送到該頻道整個視頻庫的日訪問量。
最後一張圖是平均日訪問次數占訂閱者的百分比和頻道的五天滾動訪問次數百分比的關係。
這表明,頻道的持續性和訪問量之間存在相關性,而訪問量又表現為訂閱用戶訪問的百分比。
所以,假設你有一個擁有10萬訂閱用戶的遊戲頻道,每天上傳6個視頻,並且每個視頻的訂閱用戶訪問百分比能達到5%。那麼,你的滾動平均值將是穩定且適中的5%。這意味著你將在每天獲得約30%的訂閱用戶訪問量(或每天3萬訪問量或每月60萬訪問量)。如果我們假設你有1百萬訂閱用戶的話,那這些數字將變成每天30萬次訪問量,每月600萬訪問量。
我們認為這一段數學運算沒有騙人。這意味著,YouTube在根據某些確定性指標來選擇頻道進行推廣,然後隨著演算法對該頻道的推廣,就會帶來相應多的訪問量。
但注意,以上分析純屬理論!
評分演算法
這裡我們將對這些演算法進行逆向破解,並進行重建。通過15個變數和對其權重的最佳估計,我們創建了一個評分演算法。
以下是我們使用的變數:
這些變數用於開發評分演算法的演算法因子。
下面這些圖是這些因子的實際效果。
下面這張圖展示得更加詳細。
知道你好奇,下面這張圖就是我們對演算法各項變數權重的一個(非常)粗略的估計:
然而,因為沒有更多的數據,我們還不能確定在計算相關性中該使用哪種類型的回歸。
對YouTube(當前)演算法的分析
根據我們的數據,至少可以得到6個秘密:
1.YouTube通過演算法決定了每個視頻和頻道能獲得多少訪問量。
2.成功的頻道專註於某個特定的內容類型/想法。
3.頻道一旦確立起成功的內容類型後,就不應該再進行太多探索。
4.高價內容製作者在YouTube平台上永遠不會取得成功,因此這部分群體也絕不會完全接受
Youtube。
5.個性化的節目/頻道將永遠是平台上的主要內容類型,因為它們就是人們要看的「特定的內容
類型」。
6.新建立的頻道,如果不能從YouTube站外導流進去的話,想要提高訪問量會很不容易。
總而言之,我們認為,該演算法旨在推廣那些能夠聚攏並保持觀眾粉絲群的頻道。
如果你想在YouTube上取得成功,我們給你的最佳建議是,你應該專註於某個特定群體利益的市場,並儘可能對單個話題製作出長達10分鐘或更長的視頻。
需要提醒你的是,以上是我的私人筆記,YouTube因為它的演算法遭受了很多批評,但我希望他們別將我的這篇心得體會看成一篇負面稿。
通過整個研究,我對YouTube演算法工程師的了解加深了。畢竟,他們每個月都要努力應對全球10億多興趣各不相同的人。當你停下來從全局審視這一切,就會驚嘆Youtube演算法的精妙,這些設計在出色完成YouTube業務發展目標的同時,還防止了人們的濫用,保護了平台的健康發展。
(本文作者Matt Gielen,曾擔任Frederator Networks前副總裁,主管編程和觀眾發展。 Matt管理團隊建立了世界上最大的動畫網路——Frederator Networks頻道。此外, 他還領導了團隊進行YouTube上Frederator Networks運營頻道的製作和編程。本篇即為其通過數據研究分析的心得體會。)
更多內容敬請關注我的公眾號:AI科技大本營(rgznai100),一個專註於發布人工智慧前沿信息的敬業狗。
推薦閱讀:
※如果說,沒有一個NP完全問題有多項式時間演算法,那麼為什麼這個問題能被稱為NP完全問題?
※matlab如何產生只有0與1的長度為n的所有不重複序列?
※Facebook廣告系統背後的Pacing演算法
※網格沉思-遊戲中的網格系統