Netflix與推薦系統
光腚的屠刀最初是砍向國內電影的,眾所周知一部電影要在院線上映,必須經過光腚的審核,而這種審核又極其的主觀和不透明,導致了國內電影市場充斥了各種主旋律電影和被閹割過的國外電影。
審核,導致了中國電影創新的不足,以及與民眾喜好的脫節。
反觀國外,用電影分級制度取代審核,很好地保證了電影創作者的自由,各種電影公司很早就開始了數據調研,各方面收集觀眾數據,確保拍出的電影,能夠最大限度迎合觀眾的喜好。
這種自下而上,從觀眾喜好出發拍電影電視劇的公司,佼佼者是拍出了《紙牌屋》的Netflix。
Netflix不是一家傳統的媒體公司,他是一家純正的互聯網公司。1998年Netflix在美國矽谷創立,兩個創始人 Marc Randolph 和 Reed Hastings 都有IT行業背景。
Reed Hastings 原本是一個數學老師,在1991年創立了一家叫 Pure Software 的公司,主要的產品是開發一種給Unix和C程序員使用的調試工具。1997年Hastings將公司作價7億美元賣給了另外一家軟體公司,使他擁有了創立Netflix的原始資本。
而 Marc Randolph 最初是英國最大的電腦和IT設備零售商 MicroWarehouse 的聯合創始人。
創始人的IT背景,讓 Netflix 這家公司走的路,非常的與眾不同,而他最與眾不同的地方,在於他的電影推薦系統 Cinematch。
國內上Netflix需要翻牆,Netflix採用付費會員制,會員按月付費,付完就可以無限制地觀看上面各種連續劇和電影(包括很多Netflix自製和獨播的視頻)。香港的Netflix月付會員分基本、標準、高級三種,不同的地方在於是否可觀看高畫質的視頻,以及是否可在多個屏幕(電視、PC、手機)觀看。
購買會員後第一次登陸,會讓你選擇三個喜歡的影片,作為 Cinematch(Netflix的電影推薦系統)的初始數據源。選擇完會有一個緩衝頁面,這時應該是在運行他們後台的推薦演算法。緩衝完需要選擇是誰在觀看影片,這也是一個 Cinematch 的初始數據輸入,根據觀看用戶不同,推薦的結果也不一樣。整個頁面非常簡單,分為26行,裡邊涉及到推薦的主要是 給俊的最佳推薦、與《蝙蝠俠-夜神起義》類似影片 (我選擇的三部電影之一)、與《紙牌屋》類似影片(我選擇的三部電影之一)、與《心靈捕手》類似影片(我選擇的三部電影之一)這4行。
其他都是一些公共的,如熱門選擇、驚悚影片、喜劇片等。
Netflix的訂閱用戶數目前已超過1億,並且以每天幾十萬的速度在增長。
他的推薦系統 Cinematch 的數據源主要有以下8個:
上百億的用戶對視頻的評分數據,並且每天以千萬的規模增長,這是個很重要的輸入數據,用戶對視頻的主觀評分,反映用戶的喜好。
如將視頻添加進我的片單、將視頻添加進播放列表等操作數據,反映著用戶的喜好。
用戶與網頁的交互,包括滑鼠點擊、頁面停留時長、滑鼠軌跡等。用戶播放的視頻的屬性數據,包括導演、演員、類型、評論等。Cinematch在上線前,會經過2輪的測試,分別是線下測試和線上測試。
Netflix內部叫 Top10 Marathon(前十的馬拉松比賽),為期10周,線下不涉及用戶地快速地檢測數十種演算法,提升前10個推薦結果的精準度。不同的人被邀請到一起,貢獻想法,並編程實現。
線下測試的評價指標主要是統計上的指標,如預測的評分與真實評分相差的均方根等。
線上測試就是A/B Testing,通常會平行多個A/B Testing,同時實驗幾個演算法和一些激進的功能改進。線上測試的評價指標主要有3個,包括視頻播放時長、用戶停留時長、用戶留存率。如果新的演算法可以提升這3個指標,那麼會認為新演算法優於舊演算法。
整個測試流程的圖示:
從2006年開始,Netflix一直在舉辦Netflix大獎賽,這是一個機器學習與數據挖掘的比賽,目的是在全球徵集演算法,提升電影的評分預測準確度。
對於能將Cinematch系統的準確率提升10%的獲勝團隊,能獲得100萬美元的獎金。
Netflix積累了龐大的用戶數據,這些數據讓他成為世界上最了解用戶的電影公司,也讓Netflix從影片租賃、視頻流媒體服務走上了自製劇的道路。
Netflix的《紙牌屋》風靡全球,而《紙牌屋》的誕生,也是基於數據挖掘。
在《紙牌屋》誕生之前,Netflix在對用戶喜好數據的挖掘中,發現1990年BBC播出的英劇版《紙牌屋》在過去了幾十年後的今天,依然廣受影迷歡迎,用戶播放數據居高不下。
並且發現這批觀看英劇版《紙牌屋》的用戶,觀看最多的電影的導演是大衛·芬奇,演員是凱文·史派西,因此投入巨大的資金,押寶《紙牌屋》的重製,並且邀請大衛·芬奇作為第一季的導演,邀請凱文·史派西飾演第一男主角下木(Underwood)同志。
最終,重製的《紙牌屋》獲得了9項艾美獎的提名,包括最佳劇集、最佳男主角、最佳女主角等。並且第一季度的《紙牌屋》,幫助Netflix新增了200多萬個新的訂閱用戶。
從DVD租賃,到視頻流媒體服務,到自製劇,Netflix依靠數據挖掘,成為世界上最獨特的電影公司,也讓他成為一家年銷售額接近70億美金,凈利潤達到1.3億美金的巨無霸公司。
親,如果覺得我講的還OK,請給我點贊哦 ( ^___^ )y
推薦閱讀:
※如何快速入門數據分析
※機器學習的學習筆記(0)
※初識Python
※2018年一定要收藏的20款免費預測分析軟體!
※python基礎篇之小白滾躺式入坑
TAG:數據分析 |