利用大數據做電影票房預測

一、背景

隨著中國電影市場發展成熟,電影成為我們日常文化生活重要的一部分,豐富了我們的業餘生活。通常,業界以電影的票房收入作為評價一步電影是否成功或優秀的指標。近些年來,有許多影片在票房上取得了空前的成功,例如2011年上映的《變形金剛3》、《功夫熊貓2》,2012年上映的《泰囧》,2014年上映的《捉妖記》、《速度與激情7》等。一部電影的票房收入不僅僅是大家津津樂道的談論話題,更是電影投資方確保投資回報的保障。

因此,電影票房的預測一直具有重要的意義,本文將針對國內電影市場介紹一種利用大數據做電影票房預測的方法。

二、票房影響因素

電影票房會受到多種因素的共同影響,國內外很多學者和研究機構都對票房的影響因素做過分析工作,其中比較著名的是上世紀80年代,美國的巴里·李特曼(Barry Litman)的票房分析模型。李特曼以80年代在美國上映的電影為樣本,對票房的影響因素進行研究,將影響因素分為創意、發行和營銷能力三類。其中創意因素指電影本身的一些信息,如影片類型(冒險、喜劇、犯罪、科幻等),MPAA分級(G、PG、R等),故事熟悉程度(是否改變自小說等其他媒介),生產成本等;發行因素指與電影發行上映相關的因素,如是否為大發行商發行,發行檔期(聖誕檔、暑期檔等),發行模式等;營銷能力因素指發行公司的營銷能力,以及影片是否獲得過一些獎項或提名等。

通過對這些因素進行分析,李特曼發現一部影片的明星演員、頂級導演、大發行公司、科幻片等因素會對影片的票房產生較大的影響。本文的票房預測也將基於李特曼的研究結果來選擇國內票房的影響因素。

我們從互聯網上收集到2013年到2015年已上映的2200部影片信息,包括影片名、導演、主演、上映時間、觀眾評分、類型等。針對這2200部電影,我們還收集到了其中1036部電影的上映的周數、上映首周的票房收入和場均人次以及最終的票房收入。基於獲取到的這1036部影片的數據,我們參考李特曼的票房預測模型選擇國內電影票房的影響因素,包括:

1) 電影評分,範圍為1-10,由觀影觀眾給出,數值越大表示影片越受歡迎;

2) 電影時長,一部電影的放映時長;

3) 是否為改編,影片是否來自小說或漫畫的改編;

4) 上映檔期,是否在賀歲檔、暑期檔、五一檔或國慶檔上映;

5) 電影類型,是否為喜劇、驚悚、劇情或科幻;

6) 電影上映周數,電影在影院放映的周數;

7) 上映首周平均日票房,由上映首周的票房收入和首周上映天數得到;

8) 上映首周的場均觀影人次,上映首周內平均每場的觀影人次;

三、電影票房預測模型

以上選取的因素為特徵,作為票房預測的自變數,以電影總票房作為因變數。從數據中抽取這些特徵生成訓練集和測試集,訓練集和測試集的數據比例為8:2。本文採用線性回歸模型和決策樹回歸模型來分別訓練票房預測模型,利用訓練集訓練得到模型,然後利用測試集對模型預測效果進行評價,主要通過R2來評價模型擬合效果,其數值越接近1表示模型的擬合效果越好。

經過訓練,線性回歸模型和決策樹回歸模型的R2都達到了0.87,表明兩個模型對於實際票房的擬合程度都較好。但在實際預測效果方面,如下圖所示為票房預測模型的預測值與實際值的誤差,可以看出決策樹回歸模型所得預測值與實際值的誤差要小於線性回歸模型的預測誤差,一般情況下決策樹回歸模型所得的預測誤差在10%-40%之間。

下面兩張表分別是線性回歸模型和決策樹回歸模型在一些電影票房預測的結果(票房單位為萬元),同樣可以看出決策樹回歸模型的預測效果要好於線性回歸模型。

表1 線性回歸模型預測結果

表2 決策樹回歸模型預測結果

四、總結與展望

本文從互聯網上獲取國內電影市場的影片信息和票房數據,基於李特曼的分析並針對國內電影市場的特點提取特徵值,利用線性回歸和決策樹回歸模型對電影票房進行預測,獲得了與實際情況擬合程度較高的預測模型,利用該模型對電影的國內票房可以做出相對準確的判斷,供大家參考。

然而,影響電影票房的因素有很多,但我們現有的模型特徵更偏向於影片本身的信息。受限於互聯網上數據的不全面等原因,諸如發行公司實力、營銷能力等電影發行、營銷方面的因素沒有完全加入到我們的預測模型中。顯然,這些因素也會對票房收入產生重大的影響。因此這也是我們今後在票房預測方面努力的方向——通過更全面的數據集來進行更準確的票房預測。

(以上僅為個人探索,不妥之處歡迎批評指正~)


推薦閱讀:

《戰狼2》票房為何首播突破3個億?
劉亦菲什麼時候變成票房毒藥了?
票房注水、涉嫌傳銷,電影《壞爸爸》要「壞」了?丨無路可套
《捉妖記》票房為什麼這麼高?
星球大戰8內地首映,為何票房遇冷?

TAG:電影票房 | 大數據 | 預測 |