為什麼大數據在預測《黃金時代》票房時不靈了？

06-07

截止到10月16日，《黃金時代》的累計票房為4698萬（已上映16天），如此成績對於片方、媒體和公眾而言都是出乎意料，畢竟滿滿的七天國慶黃金檔是一個日產斗金的高產值檔期，無論是湯唯還是馮紹峰都已是炙手可熱的有極高票房號召力的大明星（《北京遇上西雅圖》《後會無期》票房均超過5億），此役失利堪稱冷門。

但最令人啞然的恐怕還是影片上映前百度為其背書的票房預測，當時很多媒體還認為百度的預測太過保守。在百度百發的新聞發布會上，當宣布預測票房為2.0~2.3億後，全場只有安靜，畢竟對於這個為期七天的黃金檔期對於擁有湯唯和馮紹峰的電影而言，只預計這個數字略顯保守了——但如此謹慎的預測，在今天看來竟顯得過於「樂觀」。

其實百度很早就開始研究並在內部測試票房預測了，在今年7月18日愛奇藝影業宣布成立的新聞發布會上，愛奇藝首席內容官馬東就曾透露，目前在愛奇藝內部，基於百度大數據的票房預測已經能夠做到80%以上的準確率，未來將會在適當的時候對外發布票房預測。顯然，針對《黃金時代》的百度百發（娛樂眾籌產品）發布就成為了百度票房預測發布的適當時候，但只可惜出師未捷。

為什麼中國最有能力做大數據預測的百度，竟會「意外」馬失前蹄？虎嗅君為此採訪了愛夢娛樂大數據創始人雷鳴、樂視影業數據及策略中心總監凌毅、凡影調研客戶總監王舒及搜狗搜索事業部。

（虎嗅註：搜狗搜索事業部——「深思」是搜狗搜索正在嘗試做的一個社會化預測系統，據搜狗方面介紹，命名為「深思」，是希望在不同領域進行趨勢預測，通過這個綜合系統來發現隱藏在大數據背後的奧秘，而電影票房這一方向的預測是「深思」最先進行探索的領域。）

歷史沉澱數據嚴重不足

雷鳴和王舒都認為，在國內做電影票房預測存在一個根本性的「疏漏」，就是中國電影市場的歷史數據沉澱嚴重不足。我國有詳細、清楚和準確的票房記錄是從2012年開始。

當年2月，全國電影票務綜合信息系統（簡稱新平台）上線。該平台共規划了信息速遞、行業組織管理、影院管理、影片管理、票房數據接收、放映數據接收、監控管理、專資收繳管理、專資使用管理、查詢統計、分析預測、GIS綜合展示、安全認證、系統管理、SSL應用共15個模塊，77項功能。從技術上才實現了能夠準確統計全國的票房、場次、排片等影院端生成的數據。

在此之前，除了年底由國家電影專資辦統計出具的權威票房數據外，其他每周、每月票房的數據多是由專業人士根據抽樣樣本的統計進行的估算。

雷鳴和王舒都提到了，好萊塢從1930年代前後即開始進行票房數據的調查、統計和披露。虎嗅君查到可能是好萊塢最早的票房數據調研公司之一的QUIGLEY出版公司（QUIGLEY PUBLISHING COMPANY, INC.），該公司創立於1915年。根據其官網介紹，該公司每年向公眾出版《全球電影票房年鑒》（ Internationl Motion Picture Almanac），年鑒內包含電影公司的信息、當年出品電影片目、票房統計數字、獲獎情況等電影行業的製片、發行及放映方面的統計資料。

由於包括QUIGLEY公司在內的第三方調研公司經年累月的數據統計，好萊塢能夠在近百年的時間裡積累了大量的歷史統計數據，這些數據的沉澱並經過當代計算機數字技術的結構化才形成了如今好萊塢電影大數據預測的基礎。

搜狗方面坦言，他們並未對《黃金時代》進行票房預測，問及百度的失利原因，他們認為，「就票房預測本身而言，這是一件很複雜困難的事情，所以預測不準確這件事情是很正常的。」搜狗方面也重點提到了關於歷史數據不足量是目前做大數據預測的重要困難，「票房預測模型較為依賴歷史數據，但通過歷史數據積累學習比較難，（我國）有數據可查的片子數量也只有數百部，可用來學習規律的歷史數據積累其實十分有限。」

雷鳴介紹，愛夢娛樂大數據為了彌補公開的票房數據資料不足，自己做了大量的「臟活、累活」，對2010年以來的國產影片單片的投資額、票房、演員陣容等進行了儘可能的資料發現和統計，並進行了標籤化的整理，從而形成自己的具備一定沉澱量的結構化數據。

王舒還特別提到了，從2012年有詳盡票房統計以來的統計數據並不足夠有參考價值以作為票房預測的基礎，因為中國電影產業自2012年以來連續地進入了一段爆髮式的增長期，從百億迅速跨越到了兩百億元，甚至今年有望衝擊300億元。

「穩定性是做趨勢性預測的基礎。」王舒認為，「高速增長是破壞性的，如果根據這樣的數據進行預測，則必須做出實時的調整才能相對準確。」就王舒看來，只有等到中國電影的票房產值進入到一個穩定的平台期，電影的消費習慣趨於穩定，趨勢性的預測才可能基於統計分析「準確」做出。

難以排除的數據「噪音」——「臟數據」

根據媒體對當時百度百發推出時的報道顯示，「據百度大數據部產品規劃負責人祖崢介紹，百度票房預測基於百度每日60億次的搜索查詢數據，1億規模的微博數據以及10年電影行業數據，通過百度大數據引擎將數據進行整合、建模和清洗，輸出針對特定電影的搜索指數、社交指數、演員指數、導演指數等，最終可以導齣電影總票房預測和7日票房預測等數據。」

雷鳴認為，百度的搜索排名以及搜索結果導出的各類指數都會有大量的「結果」來自於片方及其宣傳公司的購買，即非自然形成的人為推高——這在電影行業的宣傳里司空見慣，當然也是百度的競價排名等與搜索結果有關的收費服務所提供的「宣傳空間」。

如果是這些「結果」，則本身由此就會存在大量的誤導，這在雷鳴的描述里被稱作統計上的「噪音」，亦被稱作「臟數據」。雷鳴認為，不排除《黃金時代》存在這些「噪音」，而百度方面很有可能因為沒有能夠剝離這些「臟數據」，從而「被自己欺騙了」。

百度方面是否有能力清理這些「臟數據」以便讓數據更真實，讓基於這些數據的票房預測成為靠譜的趨勢判斷呢？

搜狗方面認為技術上應該是可以的，就搜狗的「深思」而言，「我們會用多個來源的數據互相校驗，比如搜索數據、各個社交媒體的數據，也會有一些過濾策略，應該能夠減少這些行為的影響。」搜狗方面也相信，「同為搜索引擎，百度在整合數據的過程中也會有相應的過濾策略。」

但如果這些「臟數據」成為構成指數的大部分甚至是絕大部分數據呢？特別是當一部偏小眾、偏安靜的文藝青年所期待的電影，他們本身對於這些數據的貢獻有限甚至微弱的情況下，一旦洗乾淨了數據是否會存在可供分析或生成指數的數據也就所剩無幾了呢？而這些失去統計價值的數據是否仍能作為票房預測的依據呢？

這種矛盾或許也是百度的票房預測模型和數學家們所困擾的吧。

預測模型還處在初級階段：變數遺漏和樣本偏差

關於百度預測模型，媒體公開的資料顯示，「這一產品結合百度搜索數據、新浪微博數據，以及中國電影過去5年的歷史票房數據，可以從演員熱度、導演熱度、電影關注度、上映時間等多個維度對一部電影進行票房預估。」

凌毅認為，僅從披露的信息看，模型內包含的數據維度並不足夠多，「或許該模型還處在初級階段。」凌毅提到了從媒體公布的資料看，特別是忽略了檔期內其他競爭影片這一重要的參考維度。而據其分析，該片之所以會票房失利，與影片對國慶檔期的錯判，特別是該檔期內觀眾的消費心理錯判有很大的關係。凌毅介紹，樂視影業內部對於電影項目的數據決策模型中，基於同檔期競爭影片的數據分析是十分重要的數據維度。

搜狗方面亦對此深為認同，「影響票房的未知因素多：導演、演員、劇本、宣傳、首映時間、影片檔期、同期競爭的影片、CPI、經濟周期、天氣情況、影院的排片率、上座率、票價、是否3D等等。此外，《黃金時代》與多部電影同步上映，互相影響。而很多數據都是基於單部電影，對多部電影相互影響的作用並不好分析預判。百度票房預測基於百度搜索數據、新浪微博數據，以及中國電影過去10年的歷史票房數據，數據的來源和覆蓋人群還是非常廣的，只是如上所述，預測過程中充滿了不確定性，特別是一些不可預期的變數會對預測結果產生比較大的影響，這點在部分電影中表現會比較明顯，也是不可避免的。」

在王舒看來，變數遺漏和樣本偏差是做統計性趨勢分析的最大敵人。前者即是凌毅提到的問題，維度的不夠豐富，不僅可能是因為疏漏而導致沒有納入到統計口徑內，還可能是因為互聯網內的數據目前仍然存在「門戶」壁壘——無法打通一些關鍵的大數據，譬如說微博數據與微信數據打通，譬如百度的搜索引擎內沉澱的數據與騰訊在QQ、微信上沉澱的用戶數據打通，譬如淘寶、京東、貓眼等電商或O2O平台內的數據之間打通，這些具有強關聯性的數據目前還難以實現數據的分享，而這些數據不能打通，則任何一方對於「人」的消費行為描述、消費心理觀察都必然會有相當程度的偏頗，變數遺漏也就在所難免了。

樣本偏差指的是，「在沒有嚴格遵循隨機的原則時，所覆蓋的樣本越大反而會導致誤差越大。」另外由於搜索只是一種表示興趣的行為，如果僅以一小部分人的興趣來推測全體的購票決策，準確度有限是難免的。

影院經理仍然是迄今為止最好的票房預測專家

雷鳴在介紹愛夢娛樂大數據的票房預測模型時，特彆強調了行業情報對於票房預測的不可替代性。雷鳴認為只有基於對於行業的深刻理解，再加之以大數據才可能做出誤差較小的票房預測。雷鳴方面在此次國慶檔期的票房預測中，對《心花路放》《痞子英雄2》及《親愛的》的預測基本準確，偏差較小，但也在《黃金時代》上出現了「較大失誤」。

雷鳴告訴虎嗅君，「沒想到影院經理這麼快就徹底放棄了《黃金時代》」，經過復盤分析後，發現整個9月，全國票房大盤整體疲軟，到了中下旬更是堪稱蕭條，每日大盤經常出現少於5000萬甚至是兩三千萬的低迷狀況——影院經理們「飢餓」了一整個月，在暑期檔繁榮的背影下，九月幾乎令人哀傷。正因為如此，影院經理對於《心花路放》的「暴飲暴食」也就順理成章，此消彼長的情況下對於《黃金時代》的「容忍」期也就只有上映首日和次日，隨後的排片量當然也就銳減——想想影院經理們的獎金、工資都指望著這七天呢。

這當然是行業情報的一部分，還包括對於同檔期競爭影片的形勢掌握，一個或許比《黃金時代》更典型的例子是《絕命逃亡》。

虎嗅暑期時與該片片方有過溝通，我們對該片選在國慶黃金檔持保留意見，但片方方面顯示出了特別的樂觀，唯一認為能夠形成競爭的對手就是《心花路放》——直到檔期臨近的最後一天，《絕命逃亡》似乎才看清了競爭形勢，上演了一出絕命逃亡——撤檔。

搜狗方面坦言：「由於未知因素比較多，且不可控，在計算過程中，很多因素無法量化或者引入進來。因此只能把握幾個最主要的因素，儘可能控制影響，預測本身即存在局限性。」而這些未知因素，也正是大量基於人腦才能收集和判斷的情報，無法數據化的進入數字化的計算範圍。

王舒告訴虎嗅君，在她了解的範圍內，他認為，迄今為止，影院經理仍然是能夠做出最準確票房預測的專家。他們對於檔期內的競爭情報和影片內容的了解最全面，他們對於服務的觀眾的消費行為、消費心理掌握最透徹，因此也最能夠做出較小誤差的票房預測——但只是針對所經營影院的各片成績。如果有能力對影院經理們做逐一的統計，或是合理取樣，可能比互聯網平台的數據更接近觀眾。

票房預測沒有意義，電影領域談大數據尚言之過早

「大數據不實用。」王舒認為，「做這種預測，對於電影票房並沒有直接的幫助。這是一個無法證偽，也無法證實的預測。」映前的票房預測如果預測高了，片方也不會就不作為，乾等勝利成果，那麼預測後所進行的努力就成了對於票房最終結果的助力，從而也就無法證實彼時的預測與此時的成績之間是否可以稱作是準確。反之亦然，預測低了，片方當然會盡最大努力調整營銷策略，那無論最終準確與否都無法判斷彼時預測的結果究竟對與否。因此，除了為影片增加噱頭外，票房預測可以說沒有價值。

凌毅告訴虎嗅君，樂視影業內部的數據及策略中心，會在電影的投資階段，便參與到對項目的市場評估，幫助影片在製作上做調整。而在電影進入到發行階段之後，更會基於對本體、檔期、競品等的數據分析，來制定相應的市場策略，包括通過對實施效果的實時監測，來修正和調整營銷策略。凌毅強調，數據分析更像是一個工具，它能修正經驗及主觀意識的偏見，幫助片方在營銷上少做錯誤的決策，但絕不是包治百病的萬靈丹。

「目前，電影領域談大數據，還有一點為時過早。」凌毅認為，電影行業仍然還是傳統產業，從製造到消費都是線下完成，即便現在有電商介入購票環節，但是絕大部分的線下行為都無法數據化導入到線上，從而形成具有因果關聯性的大數據沉澱。「包括在樂視影業內部，目前數據對我們最具意義的部分，其實在於它是一套培養良好思維習慣的工具，大數據的前景在將來。」

王舒與凌毅觀點相似，他認為大數據儘管不同於過去強調因果關係的統計分析，但強調關聯性的大數據並非無需因果，仍然需要有因果關係的數據導入——否則，全世界發生的事情都只要用「蝴蝶效應」來解釋就足矣。

僅就電影行業的大數據而言，一方面需要較長時間的歷史沉澱數據——王舒認為是十年後，另一方面需要有大量的第三方公司參與到行業中來，幫助打通各個陣營、領域、行業中「孤立」的數據，關聯才是大數據中「大」的真正價值。因此，沉澱票房的歷史數據以及與電影行業有關的其他數據才是當務之急，經年累月後，這些大數據能夠產生巨大的分析價值——不止於票房預測。

來源：虎嗅網