標籤:

Netflix與推薦系統

最近,看到光腚總菊在6月30日又發布了老百姓喜聞樂見的通知【蘋果中國區所有遊戲需要廣電總局審批才可上架】,不禁感嘆中國媒體遊戲行業的命途多舛,莫非以後下遊戲都要上淘寶買個美國的Appstore賬號?這不科學!

光腚的屠刀最初是砍向國內電影的,眾所周知一部電影要在院線上映,必須經過光腚的審核,而這種審核又極其的主觀和不透明,導致了國內電影市場充斥了各種主旋律電影和被閹割過的國外電影。

審核,導致了中國電影創新的不足,以及與民眾喜好的脫節。

反觀國外,用電影分級制度取代審核,很好地保證了電影創作者的自由,各種電影公司很早就開始了數據調研,各方面收集觀眾數據,確保拍出的電影,能夠最大限度迎合觀眾的喜好。

這種自下而上,從觀眾喜好出發拍電影電視劇的公司,佼佼者是拍出了《紙牌屋》的Netflix

Netflix不是一家傳統的媒體公司,他是一家純正的互聯網公司1998年Netflix在美國矽谷創立,兩個創始人 Marc RandolphReed Hastings 都有IT行業背景。

Reed Hastings 原本是一個數學老師,在1991年創立了一家叫 Pure Software 的公司,主要的產品是開發一種給Unix和C程序員使用的調試工具。1997年Hastings將公司作價7億美元賣給了另外一家軟體公司,使他擁有了創立Netflix的原始資本。

Marc Randolph 最初是英國最大的電腦和IT設備零售商 MicroWarehouse 的聯合創始人。

創始人的IT背景,讓 Netflix 這家公司走的路,非常的與眾不同,而他最與眾不同的地方,在於他的電影推薦系統 Cinematch

國內上Netflix需要翻牆,Netflix採用付費會員制,會員按月付費,付完就可以無限制地觀看上面各種連續劇和電影(包括很多Netflix自製和獨播的視頻)。

香港的Netflix月付會員分基本、標準、高級三種,不同的地方在於是否可觀看高畫質的視頻,以及是否可在多個屏幕(電視、PC、手機)觀看。

購買會員後第一次登陸,會讓你選擇三個喜歡的影片,作為 Cinematch(Netflix的電影推薦系統)的初始數據源。

選擇完會有一個緩衝頁面,這時應該是在運行他們後台的推薦演算法。

緩衝完需要選擇是誰在觀看影片,這也是一個 Cinematch 的初始數據輸入,根據觀看用戶不同,推薦的結果也不一樣。

整個頁面非常簡單,分為26行,裡邊涉及到推薦的主要是 給俊的最佳推薦、與《蝙蝠俠-夜神起義》類似影片 (我選擇的三部電影之一)、與《紙牌屋》類似影片(我選擇的三部電影之一)、與《心靈捕手》類似影片(我選擇的三部電影之一)這4行。

其他都是一些公共的,如熱門選擇、驚悚影片、喜劇片等。

Netflix的訂閱用戶數目前已超過1億,並且以每天幾十萬的速度在增長。

他的推薦系統 Cinematch 的數據源主要有以下8個:

上百億的用戶對視頻的評分數據,並且每天以千萬的規模增長,這是個很重要的輸入數據,用戶對視頻的主觀評分,反映用戶的喜好。

每天上千萬的播放數據,這些數據包括用戶的播放時長、播放時間點、設備類型等。

如將視頻添加進我的片單、將視頻添加進播放列表等操作數據,反映著用戶的喜好。

用戶與網頁的交互,包括滑鼠點擊、頁面停留時長、滑鼠軌跡等。

用戶播放的視頻的屬性數據,包括導演、演員、類型、評論等。

Netflix與Facebook等社交網站打通,可以取到用戶關聯的Facebook賬號的社交數據,如取到他們好友的播放記錄,可實現基於好友的推薦。

每天上千萬的搜索請求,包括用戶輸入的搜索關鍵字,以及最終用戶選擇的搜索結果等數據。

外部電影網站的數據,如影片票房、影評等。

Cinematch在上線前,會經過2輪的測試,分別是線下測試線上測試

Netflix內部叫 Top10 Marathon(前十的馬拉松比賽),為期10周,線下不涉及用戶地快速地檢測數十種演算法,提升前10個推薦結果的精準度。不同的人被邀請到一起,貢獻想法,並編程實現。

線下測試的評價指標主要是統計上的指標,如預測的評分與真實評分相差的均方根等。

線上測試就是A/B Testing,通常會平行多個A/B Testing,同時實驗幾個演算法和一些激進的功能改進。

線上測試的評價指標主要有3個,包括視頻播放時長、用戶停留時長、用戶留存率。如果新的演算法可以提升這3個指標,那麼會認為新演算法優於舊演算法。

整個測試流程的圖示:

從2006年開始,Netflix一直在舉辦Netflix大獎賽,這是一個機器學習與數據挖掘的比賽,目的是在全球徵集演算法,提升電影的評分預測準確度。

對於能將Cinematch系統的準確率提升10%的獲勝團隊,能獲得100萬美元的獎金。

Netflix積累了龐大的用戶數據,這些數據讓他成為世界上最了解用戶的電影公司,也讓Netflix從影片租賃、視頻流媒體服務走上了自製劇的道路。

Netflix的《紙牌屋》風靡全球,而《紙牌屋》的誕生,也是基於數據挖掘。

在《紙牌屋》誕生之前,Netflix在對用戶喜好數據的挖掘中,發現1990年BBC播出的英劇版《紙牌屋》在過去了幾十年後的今天,依然廣受影迷歡迎,用戶播放數據居高不下。

並且發現這批觀看英劇版《紙牌屋》的用戶,觀看最多的電影的導演是大衛·芬奇,演員是凱文·史派西,因此投入巨大的資金,押寶《紙牌屋》的重製,並且邀請大衛·芬奇作為第一季的導演,邀請凱文·史派西飾演第一男主角下木(Underwood)同志。

最終,重製的《紙牌屋》獲得了9項艾美獎的提名,包括最佳劇集、最佳男主角、最佳女主角等。並且第一季度的《紙牌屋》,幫助Netflix新增了200多萬個新的訂閱用戶。

從DVD租賃,到視頻流媒體服務,到自製劇,Netflix依靠數據挖掘,成為世界上最獨特的電影公司,也讓他成為一家年銷售額接近70億美金,凈利潤達到1.3億美金的巨無霸公司。

親,如果覺得我講的還OK,請給我點贊哦 ( ^___^ )y

推薦閱讀:

如何快速入門數據分析
機器學習的學習筆記(0)
初識Python
2018年一定要收藏的20款免費預測分析軟體!
python基礎篇之小白滾躺式入坑

TAG:數據分析 |