Netflix 是如何判斷《紙牌屋》這樣的劇是符合其觀眾口味並且能夠拉動付費用戶增長的?
在美國這個市場上(盜版難找,DVD昂貴,網上下載容易惹麻煩且很難找種子,再加上網宅多)能一口氣看完一部新劇,怎麼可能不帶來新的受眾呢?作為公關手段非常有用,美國觀眾是非常容易因為一個熱點而跟風付費的。一旦付了第一個月的9.99(不知道是不是漲價了),要退就需要很大的毅力……
憑良心說這部劇劇本寫的一般,跟AMC HBO的幾部熱門劇比質量還是差一點,用的是大明星製作成本又很高,加上有點腥,放在cable network上估計pilot通不過。說《紙牌屋》本來就會紅的人其實是錯誤的,這部劇放到別的地方根本沒有出頭之日。Hulu也曾經投資過第四季的The Thick of It,所以網路電視投資劇集製作不新鮮,新鮮的是一季放到底。其實我感覺他們還是走錯了一步棋,應該像中國電視一樣一天放一集,放兩個禮拜,肯定hype更好更大更完美。====2014年更新答案====
Netflix現在的演算法已經不再主要是機器挖掘進行分類,而是人工手動定義電影標籤。如果大家想看可以看這篇文章:How Netflix Reverse Engineered Hollywood比如一個電影可以屬於:獲得奧斯卡獎的有關被禁止的愛情的情感倫理片
或者屬於 1980年年代的,懸疑+暴力的動作片而用戶有多喜歡這些標籤則依然是計算機演算法計算出來的
這篇文章里還提到通過這些標籤,都可以編造出一些其實不存在的電影,例如:
1.世界末日之後有關友誼的喜劇2.根據中東家庭真實故事改編的,海下王國父親與兒子的故事你說Netflix如果不去編電影,就簡直是浪費了這麼逆天的演算法了~~
====之前的文章====
《Netflix的大數據挖掘與紙牌屋》答者註:我只是從一個側重點去講了Netflix是如何通過了解用戶讓《紙牌屋》暢銷的,一部電視劇的成功有諸多理由,更多時候是人的判斷。但對於用戶數據的深度挖掘正是Netflix與其他Producer的差別。===回歸正文===
如果有人邀請你去看一場電影,你第一個問題,很有可能是,什麼電影?你可能會聽信你的朋友的力薦,或者是新聞上公布的票房,或者是豆瓣上的評分,或者就憑自己的直覺。然而如果有一位朋友特別了解你的喜好,基本上每次給你推薦看的電影你都非常喜歡,而且他可以讓你在家裡看,比電影院便宜很多,你是不是覺得太好了。這個朋友就是Netflix。Netflix推出《紙牌屋》的一個來源是靈感和完美的執行,但相比較其他電視劇則是Netflix優異的數據分析能力。這是因為他有世界上最好的推薦系統,對於用戶的了解甚至比任何導演都清楚。下面由我以技術的角度來分析一下Netflix到底優勢是怎麼體現出來的。
個性化推薦演算法(百度百科:個性化推薦系統),也被稱作協同過濾,是大數據挖掘的一部分。
對於不懂數學的人來講,就是當電腦了解到成百上千人對於成百上千個電影的喜好之後,電腦又了解了你所喜歡的幾十個電影,然後推薦給他猜你會喜歡的電影。補充一下:
有朋友可能就會問,用戶信息挖掘,其實找個數學家統計一下用戶信息就行了,個性化推薦有那麼大必要嗎?其實是天壤之別,用戶信息挖掘的區別就像做心理測試和天氣預報的差別一樣大——心理測試,一般來講是不用負責任的,而天氣預報,是有確定的答案的,你要麼算得對,你要麼算得不對。個性化推薦也同樣,你推薦給用戶的電影,要麼他喜歡(然後買單了),要麼他直接pass了。所以說,個性化推薦是一種具有實驗檢驗性質的用戶挖掘。最後被Netflix利用到最高境界:沒有拍攝的電影,Netflix都可以預測這個電影會受歡迎。==== 學過線性代數歡迎踩過華麗的分割線 =====
其基礎的數學就是,有n個電影,和m個用戶。那麼評價就可以放在一個n*m大小的矩陣里,歸一化後,觀眾對於一部電影的評價分布在0~1之間。 而且通常來講,不會告訴你有個人或者電影的任何細節信息(人的性別,年齡,喜好,電影的導演,演員,風格,都沒有給矩陣)
現在問,如果隱藏一部分數據的話,是否能夠推算出其他的數據。對於隨機的矩陣,這個是毫無價值的,但這個矩陣並不是隨機的,下面我們來分析一些裡面的規律。
先從最基本的排行榜的角度來看,人們喜歡排行榜前幾名的幾率要遠大於後面默默無聞的,這也很正常,電影之間拍攝水平也不同。然後從觀眾喜好來講,喜歡《美麗心靈》的同學喜歡《Big bang theory》的可能性也會更大,喜歡《卧虎藏龍》的同學喜歡《醉拳》的可能性也大。這就是經常某一個商品底下我們會看到,喜歡該商品的朋友還推薦XXX商品還有一種可能性就是看你喜歡的電影是否類似另外的某一個用戶——如果想像,並且他有喜歡的電影你缺沒看過,那麼你很有可能也會喜歡。以上幾個方法可以做到一定準確率的個性化推薦,然而想再提升則需要更大的本領了。
Netflix公司為了提升推薦演算法的準確率,2006年推出了Netflix Prize 百萬美元大獎,就是讓大家找到能夠提升其推薦演算法10%的高級方法。這裡有兩篇博文有詳細的介紹:Netflix 推薦系統:第一部分Netflix 推薦系統:第二部分其中最核心的部分是SVD(奇異值分解) ,其核心思想又與Topic Model(主題模型)又密切相關。下面我們來簡要介紹一下這個的核心思想。
實際中的人,是很複雜的一個狀態,電影也是很複雜的一個狀態——而之前的每一種模型都認為每一個人喜歡同一個電影的原因是完全一樣的。那麼我們可以引入一個全新的概念叫做電影的主題/Topic或者叫電影的「口味」/aspect張三不再是只是喜歡某一個具體的電影,而是張三有三個喜歡的分支,一個是喜歡各種武俠動作電影,另一個是喜歡黑幫動作電影,還有一個是喜歡梁朝偉演的各種電影。而李四,則或許酷愛日本的愛情片,動作片和梁朝偉出演的各種電影。
而倒過來,比如《七武士》可能包含一定成分的武俠,又是日本的動作片。這部電影可能張三和李四都喜歡,但是喜歡的理由卻可能完全不同。所以問題就轉化成,如何對於一個矩陣進行分解。將原有n*m的矩陣分解成一個n*k的人-主題矩陣和一個k*m主題-電影矩陣。用矩陣表達就是 其中k是主題的個數,epsilon是一個很小的誤差值這個工作則正好與屬性值的奇異值分解有巨大關係,感興趣的同學不妨看看這篇文章:推薦系統相關演算法(1):SVD 由於口味k的數量要遠小於人數或者電影數,所以這也是一種主成分分析(PCA):最顯著的k個特徵向量被抽取出來,形成了電影特定的口味。當然如果事情有這麼簡單,早就有人拿獎了。SVD是一個很好的模型,但是依舊很粗糙,全世界的各個不同人在SVD的基礎之上,添加了自己的獨門秘笈,有人加了概率里的貝葉斯統計(比如pLSA, LDA, CTM),有人加了物理模型,有人加了神經元網路演算法,有人加了馬爾可夫鏈,有人加了決策樹,也有人加了自己秘制手動調節的參數。由於Netflix每次評判,參賽人並不能夠看到評判數據,而只能看到自己的評判結果,實際過程中,許多模型已經到後來失去了其科學模型,而更像是調雞尾酒那樣湊出一個解。
最後2009年獲得大獎的是來自三個強力團隊的「雞尾酒」他們將自己的結果勾兌之後終於以10.05%改進分數成為第一個超過的終點線的團隊(The Ensemble緊隨其後),網址在這裡:BellKor"s Pragmatic Chaos 還有許多相關鏈接在這裡:BellKor Home Page再補充一個小花絮:
中獎的演算法是由上百個模型勾兌出來的,而如果Netflix真的採用了如此複雜的模型,是非常不划算的。所以最終的結果是Netflix竟然沒有採用那個提高10%的演算法(謝謝@wello提醒),而是只應用了最核心的奇異值分解(SVD)和受限玻爾茲曼機(RBM,一個物理模型)。除此以外,Netflix並不希望給你推薦10部風格完全一樣的電影,而是要保證一定的多樣性(Diversity)。感興趣的同學歡迎繼續讀:The Netflix Tech Blog: Netflix Recommendations: Beyond the 5 stars (Part 1)====低調的分割線===
這一切跟我的關係是,BPC獲獎的時候,我正在大學畢設研究Topic Model理論(不算研究,只算是學習),我當時感覺Netflix的獎終於2009年頒發在全球轟動了。畢業後,我才知道,大多數人都沒有聽說過Netflix,更沒有聽說過Topic Model,甚至勉強理解什麼叫做個性化推薦演算法。以至於我當時想以畢業時研究的個性化推薦找一個工作都找不到(當然現在不一樣了,現在許多電商網站都招這樣的人)。我想和大家分享自己對於Netflix這個百分之十的個人體會。如果你的網站是剛剛起步,你所賣的東西同類電商有數十家,你又在前三名之後,或許你要研究的不是提高轉化率,而是如何更多獲得用戶。而當你的用戶只要有1%的轉化率提高就能夠給你帶來百萬的收入時,10%的個性化提升對於你則是如虎添翼(Netflix則是看起來佔了一個大便宜,只花很少的錢卻讓全世界的科學家幫他賺錢)。一般來講,SVD驅動的個性化推薦還是適合在後期才上線,初期有一個商品排行榜,後來增加一個「瀏覽該商品的朋友最終購買XX「的欄目就能夠有不錯的效果了。畢竟推薦演算法只是提高增長的一個辦法,然而可以預料在不久的講了,越來越普遍的開源推薦演算法會對目前信息爆炸,商品過多,人們無從挑選的困境帶來一定的幫助,為電商優秀的用戶體驗添彩。
====回歸到《紙牌屋》====另一個答案的提供者@鄭紫陽 在他的回答里說Netflix 的高層一年前告訴 Salon,他們通過分析數據,才決定翻拍廣受大眾(包括他們的用戶)歡迎和評論家讚賞的 1990 年 BBC 迷你劇 House of Cards,而且他們還發現,喜歡這個劇集的人也非常喜歡有 Kevin Spacey 參演,或者 David Fincher 導演的作品。也因此,他們才有了結論,決定斷然投資一億美元翻拍一部兩季共計 26 季有 Spacey 和 Fincher 參加的同名劇。
《紙牌屋》的受歡迎正是大數據時代的一個經典案例。Netflix通過對於大量電影/電視劇的數據挖掘,真正了解到觀眾的喜好,也從影視租賃商逐漸轉化為影視提供商。這種轉換就可以類比是,由於京東極度了解用戶的喜歡信息,而轉化開始自己產家電,並且大受歡迎。這種大數據的方式正是互聯網公司相比較傳統公司的一大優勢。
所謂紙牌屋的大數據文章基本是PR 如果真這麼神 那投資拍的其他《鐵杉樹叢》、《發展受阻》、《女子監獄》沒見這麼火……紙牌屋真正帶來的影響是作為網路播放渠道的netflex打破了傳統的美國電視媒體壟斷地位 跟他們搶製作和首播 以前netflex都是他們的下游而已 當然 netflex本身的數據分析還是很牛的 也只有他能收集到這麼詳細的用戶觀看數據 但內容創作如果能完全通過數據解決的話 還要藝術家幹嘛呢?
以下是轉載的紙牌屋背後的真實緣由:
"翻拍《紙牌屋》的創意來自於製片方MRC公司。該公司的實習生在飛機上看了這部老劇並且推薦給她老闆莫迪·維克茨,當時正值MRC想從電影向電視劇的轉型時期,MRC遂向英國買下了該片的版權。《紙牌屋》編劇Beau Willimon表示,在Netflix買下這部劇集以前,故事情節和演員陣容就都已敲定。MRC投入啟動資金後讓主創開始撰寫試播集劇本,並由David Fincher 親自執導,因為導演的關係,Kevin Spacey 加盟。但最終Netflix決定買入該劇與其數據並非完全無關。Netflix首席內容官Ted Sarandos 是個電影迷,他曾經在音像店做店員,他會根據顧客的租借歷史推薦電影。當時,MRC公司正在建立《紙牌屋》的分銷渠道,美國的各大電視台要求看完該劇導演David?Fincher導航集後,再來考慮是否預定這部劇。Sarandos及時研究Netflix 的數據,去了解多少人觀看政治劇,多少人是David Fincher 和Kevin Spacey 的粉絲。之後,他果斷提議Netflix 將會出資1 億美元,預定兩季的電視劇。
大數據的確在Netflix的這個關鍵決策中發揮了作用,但利用大數據指導編劇,則過於神化。除了《紙牌屋》,Netflix旗下的劇還有《鐵杉樹叢》《發展受阻》《女子監獄》等,均對大數據閉口不提。
鏈接在這裡
張朝陽談《紙牌屋》:大數據沒那麼神http://news.xinhuanet.com/info/2014-02/20/c_133129818.htm
很多人都強調Netflix的大數據,但是我想提的質疑是,如果大數據真的有效,netflix出的每一部劇應該都是精品、或者都是成功的,《鐵杉樹叢》、《發展受阻》、《女子監獄》《德里克》,這些都是netflix推出的自製劇,請問諸位聽說過哪個?看過哪個?感受如何?是否如紙牌屋般成功?至少這些劇還沒有掀起紙牌屋般的話題和收視浪潮。為何同樣大數據分析下的電視劇差距如此之大?大數據的影響真有這麼大嗎?
所以我的觀點是,電視劇製作是很複雜的事情,成功與否只能靠實踐檢驗。
第一財經上有一篇專門說這個 BBC 史派西 大衛林奇的受眾有交叉 基於大數據分析 就自己造劇了
我對這個不熟悉,沒法回答這個問題,謝謝
機器學習,並不是人工判斷某個劇是否會熱門,Netflix掏了100萬美金來舉辦比賽,第一個能將他們的推薦準確率提高10%的獲勝,加州理工學院電氣工程和計算機科學教授Yaser Abu-Mostafa在網易公開課上第一課有提及這件事加州理工學院公開課:機器學習與數據挖掘
推薦閱讀:
TAG:美劇 | Netflix | 推薦系統 | 大數據 | 紙牌屋HouseofCards |