數據挖掘系列篇(19):視頻網站個性化推薦Hulu&土豆

——————————————禁止轉載————————————————————

最近事情實在是比較多,要給幾家公司做一下數據化運營的培訓,另外還有不少金融投資領域的研究報告要交。有合作的需求可以發郵件到784414374@qq.com郵箱。和BOSS直聘的總監聊了下,了解到現在的BOSS很多對數據部門或者數據崗位的定位都不太清楚,準備策劃一期圍繞數據化運營的線下活動。

現在有家創業公司想做類似視頻頭條的這樣idea,所以也是正好有機會在一起交流下這塊的內容。主要圍繞的就是短視頻(新聞熱點&秒拍&topic主題分類的短視頻)的個性化推薦,之前是用過今日頭條的視頻,優點就是沒有廣告&同一topic的可以推很多,缺點作為我使用的體驗來說就是一些內容質量上不夠優質(比如看車展類的,一些主流媒體的推的很少)。

而作為視頻類的網站國外有netflix、hulu這些做的比較好的,產品、架構、數據、演算法這些思路上都有一些經驗總結,13年的時候鄭華介紹了hulu的產品、數據、演算法、框架,這裡沒有移動端的數據。

hulu提供的內容都是premium content,數據是和youtube等以UGC內容為主的網站是截然不同。對推薦系統來說,這既是一個挑戰同時也是一個機遇。大概提供5000個左右的title,20萬個video,4萬個小時的內容,大體上可以分為兩類,一種是已經下線的叫做library content,包括比較老的一些電視劇比如Prison break, 24, Lost, X檔案,Friends等和一些電影比如這個殺手不太冷,戰爭之王等,另外一種是現在還在電視台上播放的tv show,比如絕望的主婦,Lie

to me, House以及火影忍者疾風傳等。從統計圖表上可以看出來,我們90%都是library show,on

air show僅佔10%,這個也是可以理解的,所有的正在播的tv show可能也就幾百部,在中國這個數目可能更少。但是從流量上看,on air show卻占我們總流量的74%,on air show代表了更大的價值,同時library show也代表了我們還有很大的機會。

給用戶推薦的第一步是要了解用戶。需要收集用戶的行為從中了解用戶的興趣.Hulu的用戶從總體上來看並不是很活躍,新註冊用戶會有demographic和他們自己favorite show和movie, 可以用來作為冷啟動;一般的用戶在hulu上至少會有觀看和搜索行為,高級一點的用戶會有subscribe和queue行為,再資深一點的用戶會vote,

分享和tag,評論他們自己感興趣的東西,基本上這些就是使用的所有的用戶行為,各種行為會有不同的權重。並且從時間上也把這些行為分成長期的行為和短期的行為,短期行為反應了用戶最近的興趣,也會有更高的權重。用戶看到我們的推薦結果,也會有不同的顯式或隱式反饋,也會使用用戶的這些反饋來作為推斷他的興趣。

從演算法的角度講,使用了基於item cf,content,topic model和demographics的混合推薦; 其中在item cf中的一個體會是數據量的大小決定了生成的item 相似度矩陣的質量,拿數據舉例子,儘管vote行為可能更能反應用戶的喜歡程度,但是他的量遠遠不如watch行為,watch行為生成的矩陣質量是更高的。(質量高是有manual的測試集測試了coverage能夠的和precision)。在介紹item特點的時候也介紹了,很多的on air show是超級popular的,比如SNL, family guy在計算item similarity的時候很容易出現 harry

porter現象,hulu也通過refine相似度公式對popular進行了一些懲罰,實際使用的時候效果還不錯。Content相關主要使用了item的genre, title, company, tag和年代信息;還從用戶的行為中(user – document; show – word; cluster

show, extract common tags)用LDA演算法聚合了一些topic,代表了不同的緯度,比如有日本武士片,英國喜劇等,在實際使用的時候效果還不錯。

最後就是hulu的流量來源50%都是來自推薦系統,還是蠻給力的。多樣性和相關性之間需要做一些平衡,多少位置放相關的視頻,但也要保障有一些其他的內容來推薦。

先睡了!

有什麼問題給我發email:784414374@qq.com

——————————————禁止轉載————————————————————

微信公眾號:datafa(數據分析聯盟)

微信群:加V 784414374

QQ群:252805327

新書鏈接:

【數據分析俠 《人人都會數據分析》20萬字書籍】m.tb.cn/h.AJEkoq 點擊鏈接,再選擇瀏覽器打開;或複製這條信息¥fSnh09F0Vpy¥後打開 手淘


推薦閱讀:

有哪些關於推薦系統的前沿資料或者文獻值得推薦?
很多人在講微博時間線排列的弊端,比如信息過載,很難找出我最想看的,很多有價值的微博會被湮滅等。信息個性化,應該怎麼做?
論文引介 | Version-Aware Rating Prediction for Mobile App Recommendation
為什麼豆瓣的評價只有5顆星呢?而不是類似Mtime電影的10顆星呢?

TAG:个性化推荐 | 数据挖掘 | Hulu |