票房預測那些事兒

每年全球都有數以千計的影片上映,影片的票房收入則是衡量一部影片是否成功的重要指標,高票房的影片不僅能帶來巨額的利潤,也體現了影片導演、主演及製作方的高水準。但是觀眾對於影片的品味卻是難以預測的,導致電影公司對新影片的投資存在巨大的風險。因此,電影票房預測是電影行業較為關注的一個研究方向,尤其是能否儘早給出準確的票房預測。如果能儘早的對票房做出預測,影片製作方和發行方可以根據票房預測的數據,對影片的製作和發行做出適當的調整,更合理的使用預算,以獲得更高的利潤。

本文將對目前票房預測的研究工作進行簡單梳理,主要從兩個方面入手:

  1. 票房預測演算法

  2. 特徵分析

票房預測演算法

在電影票房預測研究中,主要使用四類模型:

  1. 基於統計學習的模型,

  2. 概率模型,

  3. 基於擴散的模型,

  4. 基於機器學習的模型。

在基於統計學習的模型中,線性回歸模型是最常用的模型。最早運用線性回歸做票房預測的是Littman,他也是電影票房分析的先驅。早在1983年,Littman基於影片的故事類型、MPAA分級、明星、成本、發行公司等作為特徵,使用線性回歸對票房進行預測,儘管預測模型的R方僅為0.485,但Littman系統地對影響影片票房的因素進行了詳細的分析,為後面的研究工作提供了重要的參考。之後,研究人員使用線性回歸模型對票房進行預測,他們也嘗試了加入更多的特徵,包括熒幕數、預算、口碑等。但需要注意的是,大部分的預測工作都是預測上映當天的票房而不是總票房,這就極大的限制了票房預測的作用。

概率模型最早被Sawhney和Eliashberg用於票房預測,提出了BOXMOD-I模型。他們假設票房有三種模式,在上映前三周中,每周都基於當前的數據進行票房預測。儘管上映當天的票房預測誤差非常大,平均誤差為71%,但當第一周數據加入預測模型後,誤差就下降了7.2%。隨後,研究人員也嘗試加入與口碑相關的一些特徵,對模型進行改進和提高。

基於擴散的模型在時間序列分析中非常流行,其目標是解釋一個新產品或新服務在市場中是如何被消費者接受的,因此有研究人員嘗試利用擴散模型來預測影片票房。由於影片票房很大一部分是在上映後極短的時間內取得的,因此可以嘗試指數衰減模型進行票房預測。而巴斯模型則是另一種比較常見的基於擴散的模型。Dellarocas等人利用巴斯模型,基於影片類別、MPAA分級、明星影響力、觀眾評價等特徵進行預測。他們的模型在上映前的預測誤差為24%,在上映三天後,隨著加入上映期間的數據,模型預測誤差下降到了10%。儘管基於擴散的模型在預測效果上非常好,但他們有自身的短板,即預測只能基於票房歷史數據,而沒有將一些外源因素考慮進來。

利用機器學習的方法進行票房預測在近幾年取得了一些成果,但大部分工作是將票房預測從回歸問題轉化為了分類問題,即預測影片票房在某一區間或是是否高於某個數值,只有少部分研究工作是利用回歸的方法對票房進行預測的。採用分類方法來預測票房會損失很多信息,這也就對預測結果的使用造成了極大的限制。通常使用ANN、決策樹等分類演算法對票房進行預測,也有使用貝葉斯信念網來對票房數值進行預測的。研究結果表明,在同樣的特徵下,機器學習的方法要優於線性模型。由此可見,利用機器學習的方法對票房進行預測,尤其是進行回歸分析,仍有很大的研究空間。

特徵分析

預測電影票房所使用的特徵可分為兩種:基於影片的特徵和基於社交網路的特徵。基於影片的特徵包括熒幕數、演員、導演、獲獎情況、預算、類別、檔期、評分等;基於社交網路的特徵則是從Twitter、微博等社交網路上提取的與影片相關的信息,也被稱作口碑(WOM)。

熒幕數是在電影票房預測中經常用到的一個特徵,不僅因為它直接反映了影片所能提供的觀影量,同時這個數據也能從一些可靠的數據源獲得。通常,將影片的每日熒幕數或每周熒幕數作為特徵,對票房進行預測。研究中發現,無論使用什麼演算法進行預測,熒幕數總能在預測中顯現出非常重要的作用。

影片的類別和評分是兩個經常被考慮到的基於影片的特徵,因為它們決定了潛在的市場規模。但這兩個特徵的作用在眾多的研究中卻沒有一個統一的定論,有些研究認為它們對票房預測有幫助,而有些則認為它們基本不起作用。

演員也是一個被廣泛使用的特徵,但目前還沒有一個統一量化的方法。有些使用一個變數來表示演員是否足夠出名、是否能提升影片的商業價值,通常的依據是該演員是否出現在一些時尚雜誌評選的著名演員列表中。另一些則使用一個變數來表示該演員是否在一些電影節上獲獎或被提名。由於明星在學術或商業上沒有一個明確的定義,因此研究人員嘗試自己制定衡量標準。由於衡量標準不同,且在不同時期、不同市場下,所得出的結論也會有所不同,這就造成對於演員這個特徵的重要性有不同的觀點。

除了演員,導演和發行公司也是兩個比較類似的特徵。對於導演,其處理方法與演員的類似,也有一些研究中使用專業人士的評價作為導演的特徵。對於發行公司,通常採用一些指標來衡量,如發行公司是不是國內的主要的發行公司。此外,也有將發行公司一段時間內發行影片的數量來作為特徵的。就目前看來,研究人員認為導演和發行公司還沒有顯示出對票房產生重大的影響。

影片預算和廣告費用是兩個和成本相關的特徵。預算主要反映了影片的製作成本,廣告費用則有多重衡量方法,如廣告的頻率、首周上映的影院數等。顯然,影片預算和廣告費用能為票房預測提供十分有用的信息,但從實際出發,這兩個特徵又非常難獲得,因為這些屬於電影製作方和發行方的商業機密。目前僅能從維基百科上獲得一些國外影片的預算,而且還是估計值,國內影片的預算還無法獲得;廣告費用也僅能從投放效果和排片上間接估算得到,具有很大的不確定性,會對預測產生較大影響。因此,這兩個特徵目前還沒有被廣泛使用在票房預測中。

口碑相關的特徵是基於社交網路的特徵,包括兩部分:認同和偏好,認同表示影片在觀眾中的受歡迎程度,偏好表示觀眾對影片的喜愛與否。早期的研究中,直接用累計觀影人次來表示影片在潛在觀眾中的接受程度。隨著互聯網技術的發展,研究人員有更多口碑數據的來源,包括對影片的評論數、用戶關於影片的發帖等。儘管在一些研究中顯示用戶對影片的評分和專業影評間的相關性非常低,但口碑數據的加入確實提高了預測準確率。此外,有研究發現影片在博客中出現的次數與票房會相互影響,博客中大量提到影片時,當周票房會相應提高,並反過來提高影片在博客中出現的次數。大部分的研究都認為,觀眾認同度是票房預測的一個關鍵因素,因此越來越多的票房預測研究嘗試從社交網路中挖掘口碑特徵。

以上從票房預測演算法和特徵兩個方面梳理了當前針對票房預測的研究情況,可以看出研究人員使出「十八般武藝」(多種演算法和多種特徵)對票房進行預測。但票房預測目前仍處於探索階段,研究人員還在嘗試挖掘新的特徵、提出新的演算法,梳理影響票房的重要因素,實現對電影票房更加準確、更加超前的預測。


推薦閱讀:

20180226上周文章更新匯總
django系列七:用戶註冊
人人都是數據科學家?Airbnb數據大學開課了
用簡單線性回歸分析學習時間與考試分數間的相關性

TAG:電影票房 | 數據分析 |