標籤:

電影票房預測入門:讀懂影響票房預測的因素 【一文】NO.83

隨著中國電影市場的發展,關於票房預測的討論近些年也同時成為熱點。電影人是一個擁有強烈好奇心的族群,運作電影項目又是一個以目標為導向的工作,因此對未來的窺探和揣測便成為一個很難迴避的議題,延綿不斷的存在於北京各地的咖啡館、飯桌上以及床頭(當夫妻兩人都在電影業)。

那麼,除卻日常的揣測和談資之外,在嚴謹的科學研究領域,電影市場的票房該如何預測,究竟哪些因素是影響市場的決定性變數,今天凡影將進行一次系統的梳理,幫助大家做一個較為全面的了解。

首先,我們用年度票房規模的預測公式來鎮樓

圖1:年度整體市場票房規模預測公式

如果把整個公式改變成敘述性的語言,可以這樣描述:

年度總票房與觀眾收入變化,票價高低,出行是否方便,影院賣品貴不貴有直接的聯繫。其中,觀眾收入越高,票房越高,其他因素的價格越高,票房則越低。

數學不好的藝術家們可能看起來比較頭大,沒關係。以各位藝術家們的思維特點,其實只要明白影響票房的幾個核心因素到底是什麼,在日常中稍加留意,相信就可以建立一種對趨勢變化的直觀感覺。

在上面每個指數中,所包含的細節是更多的,比如在「市內交通成本價格指數」這個變數中,還包含著天氣變化、停車費用的影響,在「消費者額外食物的價格指數」這個變數中,也可以包含與電影有直接關聯的其他消費的價格變化。

將這些來自於各個方向的影響轉變為公式的好處是,能夠整理出一個相對穩定的觀察方法,並且可以根據實際情況的變化及時調整每一個因素的重要性。也就是說,當我們想要預測某個事物的發展趨勢時,因素的選擇要謹慎和穩定,在確定了之後便盡量不做增減,而演算法可以不斷摸索調整,這樣才能最終建立出一個比較穩定可靠的模型。

上面這句話非常重要,建議抄在小本本上,因為這會讓我們更好的去理解下面的內容。

電影票房預測的初始(1915 - 1960): 對變數(因素)的摸索

電影史上最早關於票房預測的摸索,需要追溯到「電影宮」時期,也就是好萊塢1915年「黃金時代」開始之後,當時有兩個原因促使製片廠需要對票房進行一定的預判,其一是拷貝的價格非常昂貴,另一方面分城市的逐級發行制度,使得製片廠可以根據觀眾反饋實時調整在各個城市的策略。

一部新片,在紐約這種大城市的核心影院首映後,製片廠可以在長片的中場休息,或短片的映後快速詢問觀眾的意見,從而決定是否加大拷貝的數量,投放到其他城市。不過,當時因為從製作到放映都是由大製片廠壟斷,電影又是一種最為時尚的娛樂消費,擁有供不應求的市場熱度,因此這樣嚴謹的市場操作並不是一個主流行為。

直到「大蕭條」時代的來臨,受到經濟危機牽連的電影業在1931年同樣跌入谷底,大製片廠第一次發現原來觀眾是可以不看電影的,於是開始高度重視對觀眾的研究。經濟危機結束後,作為當時最知名的民意調研公司,「蓋洛普」聯手電筒影業對影響票房的因素進行了深入的探索,希望清楚的了解到是哪些「變數」影響了觀眾買票的決定。

1. 片名:

在六七十年代以前,電影預告片並沒有承載著太過重要的作用,因此海報加上片名對觀眾的影響遠遠大過於今天,「蓋洛普」甚至認為,電影票房的1/4是由影片片名的影響力造就的。

2. 故事:

在1937年,「蓋洛普」操作了一次電影業的大範圍調研,46%的觀眾認為故事對他們的購票有著決定性的影響,於是蓋洛普公司甚至嘗試了一種用故事大綱進行票房潛力預判的方法。

3. 演員:

通過向觀眾出具只有一組明星姓名,或不同明星組合,以及還包含故事構思、完整明星組合的問卷,在對比三種情況的反饋之後,對明星的價值可以進行一定的預判。

4. 宣傳:

這一「變數」的影響,蓋洛普稱之為「宣傳穿透」,意思是觀眾在接觸宣傳後,必須清楚的記住電影的陣容以及關於故事的一些基本信息,這些觀眾屬於被「穿透」的人群,這個人群的規模大小將決定票房。

以上四個因素便是當時「蓋洛普」所總結的核心變數,在這些變數的基礎上,米高梅的市場分析專家,電影研究局的創始人里奧?漢德爾又做了一定的補充和調整,增加了「口碑」這一要素,以及開展了關於預告片影響力的測試。

漢德爾還放寬了「宣傳穿透」的範圍,將僅僅聽過電影名稱但對電影表示興趣的人群整理成「潛在觀眾指數」進行分析。漢德爾關於電影票房的分析方法和結論均收錄在1950年發表的《好萊塢如何讀懂觀眾》一書中,感興趣的可以去自行查閱中文版(凡影周刊註:感謝後浪出版社2014年翻譯引進)。

電影票房預測發展期(1980–2006):複雜因素分析模型的建立

70年代,電視的迅猛發展逼迫著電影在大片效應上走入一條不歸之路,市場風險激增。同時現代媒介的發展,居住環境的變化,出行方式的改變使得美國觀眾了解電影信息的渠道也發生了諸多改變,關於票房分析的研究急待新的理論支撐。

在這樣的背景下,誕生了一批全新的分析方法,其中以巴里?利特曼的票房預測模型最為著名。

巴里?利特曼的票房分析模型

密歇根州立大學經濟學家巴里?利特曼(Barry Litman)專註於娛樂領域的研究,在80年代提出了一個極具參考價值的電影票房分析模型,他把影響電影在商業上成功的變數劃分為三大部分:創意、發行/上映時間以及電影營銷

圖2:利特曼票房模型中的因變數及操作表

接著,利特曼將圖2中所述自變數與因變數(電影收入)進行層次回歸的分析方法,得到的了一個回歸方程式:

Y=-28.482×106+7.232×106頂級導演+14.846×106明星+11.818×106科幻+13.858×106續集+24.932×106奧斯卡提名-4.966×106劇情+6.972×106影評+3.814×106大發行公司。

根據這個方程式,利特曼對當時上映電影的票房進行了相對準確的推算,這個模型也是後來各種票房預測多元回歸模型的基礎,包括利特曼自己也進行過微調。

需要注意的是,在整個公式中,唯有劇情這個變數是負分,也就是說利特曼認為「劇情片」這一元素會形成票房的阻礙,而另一個類型元素「科幻片」在利特曼的模型中,則是加分項。

賈斯汀·懷亞特的「高概念」電影票房預測模型

1991年,為了有針對性的研究當時影響力越來越大的「高概念」電影,在分析了1983-1986年票房總額超過100萬美元的512部電影之後,賈斯汀·懷亞特(Justin Wyatt)提出了在製作方面要對電影進行區隔的研究模型。他將當時所流行的「高概念電影」定義為:強烈依賴於外在風格和廣泛市場營銷的電影。認為這一類電影和其他電影有著本質上的差異。

在針對「高概念」電影的分析中,懷亞特認為那些同步向市場推齣電影原聲大碟、原著書籍、紀念海報和紀念玩具的電影更有優勢,同樣,如果一部電影是重拍、續集或者系列片,也應該擁有更多的市場機會。但是,懷亞特無法確定的是,該如何根據電影風格準確定義「高概念」,為什麼XX電影是高概念,而另一部就不是,這是整個模型的遺憾之處。

斯格特·蘇凱的競爭市場預測模型

1994年,斯格特·蘇凱(Scott Sochay)在利特曼模型的基礎上又增加了一個非常重要的參考項——市場集中度,指在不同檔期內的市場競爭強度,計算方法是:用排名前四或者排名前十電影的一周票房除以當周所有電影的總票房。如果得到的百分比越大,說明前幾位電影的市場佔有率越高,在這個檔期里的競爭環境也越激烈。

在這個模型中,重點研究的是不同競爭環境以及上映周期對電影票房的影響,雖然最終的研究結果顯示,某些因素和實際票房的直接相關性並不明顯,但仍然拓寬了在票房研究上的思路。

以上三個票房預測模型的研究所參考的重點元素各有不同,為了便於大家理解,我們進行了匯總的整理:

圖3:電影票房預測發展期的主要研究要素

機器學習模型BPNN

2006年,美國的兩位學者Ramesh Sharda以及Dursun Delen利用神經網路技術,創建了另外一種票房預測的方法,也就是國內最近這幾年才在互聯網行業經常聽到的「機器學習演算法」。

他們選擇了1998-2002年的834部電影,統計它們的票房結果,並將票房收入按照規模劃分為9個等級,採用了下圖中的7個自變數作為分析要素,為計算機建立了一個訓練集,然後讓計算機自己學習在不同變數組合的情況下,電影可能會落入到哪一檔的票房規模中。

圖4:BPNN模型中的自變數總結表

雖然在十年前便做出這樣的嘗試,非常有科學價值,但該模型計算出的準確率卻令人堪憂,只有36.9%,於是後續研究便沒有繼續深入。「機器學習」從互聯網時代的一開始便被應用在天氣預測、經濟預測還有圖像識別領域,而在電影票房預測上就會有大材小用的感覺,因為在票房預測發展的第三階段,隨著各種互聯網傳播媒介的興起,出現了一系列更為簡單的方法。

電影票房預測成熟期(2006–2013):採用單一數據源為核心的分析

1.基於博客的票房預測模型(2006)

口碑對票房的影響在各種研究中均得到認可,但是分歧在於,部分學者認為關於電影的討論量對票房會產生影響,而口碑的正負向對票房的影響忽略不計,而另一部分學者則認為兩個參數都很重要。於是,2006 年,Gilad Mishne 和 Natalie Glance 在二人所建的博客票房預測模型中,對比了兩個因素在票房預測中的能力。

他們利用博客搜索引擎Blogpulse收集了2005年2月至8月期間上映的49部電影的相關博文,並進行了情感傾向上的分析和統計。最終結論是,在上映前,帶有情感性的評價與票房的關聯大於討論量,而上映後,討論量和票房的關聯大於情感評價。

不過,有待商榷的是,研究人員自己認為上映前和上映後的變化,有可能是上映後的影評內容相對比較具體,讓語義分析的難度加大,或許會影響分析模型的準確。

2. 基於新聞報道的票房預測模型(2009)

成功的商業電影往往伴隨著明星、導演、電影本身的新聞曝光,因此,2009 年,Wenbin Zhang 和 Steven Skiena 提出了一個結合新聞報道進行分析的票房預測模型。該種預測方法使用了兩類數據:電影相關變數和電影新聞。電影相關變數會從IMDB這類的傳統電影網站中收集,而電影新聞數據則是從Lydia中獲得。

圖5:新聞分析法使用的兩種電影數據

新聞分析法在使用回歸模型的同時,還採取了K-NN分析模型進行對比分析,最終將所達到的R2成功提高到0.788,超過了之前的諸多研究,並且獲得了一些有意思的結論:

  • 時間段:上映當周新聞數據與票房的相關性最強,月數據和季數據的相關性依次降低。

  • 新聞對象:導演的新聞計數與票房的相關性最低,片名和演員的新聞計數與票房的相關性相對較高。

  • 高票房電影:高票房電影配角的新聞引用數據與票房的相關性更高,而低票房電影只要關注前三位演員的新聞即可。

3.基於Twitter進行票房預測的模型

2010年,惠普實驗室的Sitaram Asur和Bernardo A.Huberman發表了一篇論文,嘗試用Twitter來解析電影的票房,在當時準確率高達90%。

他們選擇了2009年11月到2010年2月期間上映的電影共24部,抓取了289萬篇推文,他們認為電影上映前一周到電影上映後兩周是影響票房的關鍵時期。

通過分析模型,基於Twitter的票房預測帶來了兩個重要的結論:

在眾多的電影中,總是由小部分的作者貢獻了大部分的內容,同時大部分的作者討論的是一小部分的電影,因此意見領袖和電影票房都擁有較高的集中度。

電影發行方在電影宣傳期間發布的宣傳物料(圖片,預告片等)的轉發量佔總數的比率並不大,原因是人們更喜歡在Twitter上描述自己的看法。而且,宣傳物料的轉發量與影片的最終票房結果並沒有很大的關聯性,宣傳物料能否激發起觀眾表達出自己的看法,才是更重要的。

4.基於google搜索引擎的預測模型

2013年Google那份名為《Quantifying Movie Magic withGoogle Search》的白皮書相信業內很多朋友都看過,該模型主要利用搜索、廣告點擊數據以及院線排片來預測票房,Google宣布其模型預測票房與真實票房的吻合程度達到了94%,但並未見其公開未上映電影的預測結果。

同時,Google通過分析自身的數據還發現,在上映前四周時,大部分電影的預告片都是這個時間發布並開始密集的投放廣告,因此,這個階段的用戶搜索信息與票房的相關性會更加緊密。

圖6:預告片搜索、搜索總量與票房預測的關係

5. 基於維基百科的預測模型

同樣是在2013年,三位研究人員,Marton Mestyan, Taha Yasseri和Janos Kertesz發布了利用維基百科內容進行票房預測的模型,維基百科和百度百科一樣,其中關於電影的詞條都是由用戶自行生成。

研究者們採用了2010年在美國上映的312部電影作為樣本,以詞條頁面的用戶編輯頻次、訪問數以及編輯時的嚴密性等要素作為變數,最後得出結論,認為上映前30天時從維基中獲取的數據和票房的關聯性最高。但是,維基模型的準確性在高票房電影中體現的要更為明顯,因為高票房電影往往擁有更多忠實的觀眾,這些觀眾在編輯詞條時也更加活躍。

結語:

綜上所述,為了數據獲取上的方便,我們可以看到在票房預測發展的第三階段,大部分的研究都是通過用戶在互聯網上所沉澱的公開行為進行分析,摸索結論。這在科學研究以及模型探索上的價值,要遠遠大於計算結果的實際應用。

因為從市場操作的角度來說,無論分析模型是否準確,相關性怎樣,也不代表兩者之間就一定是因果關係。這就好比每天新聞聯播時段,太陽便會下山,新聞聯播和太陽下山具備非常強的相關性,但不代表某天新聞聯播停播了,太陽則不會下山。

比如在Twitter的那個研究模型中,當上映之後,Twitter平台上討論熱度的變化和票房之間會有著非常強的相關性,但這並不代表去影響Twitter的討論熱度便會影響票房。而實際情況是,在上映後投放在其他平台上的廣告促使票房提高時,會同時拉動Twitter的討論熱度,但如果直接將廣告投放在Twitter上反而對票房的影響效果欠佳。因此,什麼是因,什麼是果,市場操作該如何進行,光有相關性的分析還遠遠不夠。

不過,在票房預測模型上的探索,仍然有一個很重要的價值是,讓我們可以了解到更多影響票房的因素,從而通過控制這些因素實現目標與結果之間的營運管理。80年代之後,利特曼的模型、懷亞特的研究,都直接影響了後來好萊塢電影的製作思路和發行策略,同時也間接的影響到了全球電影市場。

而今天,凡影相信基於更大維度的數據研究,一定能夠幫助到中國電影業朝向更積極健康的方向發展,但數據背後的探索,依然是一條任重道遠之路。因此,整理這篇文章的原因,也是對紛紛擾擾的國內票房預測熱潮做一次外圍的剖析,希望大家注意到這些前人曾經走過的彎路,避免誤入歧途。

特別鳴謝:重慶大學王雪娟的碩士論文《電影票房預測研究發展史簡論》對本文的整理有決定性的幫助。此人居然還是一名小編劇,業內朋友如果偶遇了,記得幫凡影說聲謝謝。

參考資料:

[1].web.stanford.edu/class/

[2].www3.cs.stonybrook.edu/

[3].citeseerx.ist.psu.edu/v

[4].quantifying-movie-magic_research-studies

[5].為什麼大數據在預測《黃金時代》票房時不靈了?

[6].Predicting The Future With Social Media

[7].電影票房預測研究發展史簡論


推薦閱讀:

你怎麼預測《後會無期》票房?
大聖歸來你刷了幾遍?
為什麼《環太平洋》的票房在日本這麼差?
82年《少林寺》累計票房多少?內地票價1毛一張,票房1億?
為什麼 90 年代末期國內電影票房那麼慘淡?

TAG:票房 | 预测 |