評析:觸不到的大數據

最近這幾年,我們可以聽到很多關於大數據在影視方面的案例,Netflix 這個詞估計大家都快聽到耳朵起繭了,另外英國的一家做劇本語義分析的公司Epagogix也成為一個小熱詞,頻繁被提及。神秘的大數據與神秘的影視行業,結合在一起之後,便有了玄學一般的色彩,似乎你今天在社交媒體上打了一個噴嚏,正在擔心自己是不是感冒了,我明天就能做出一部關於禽流感的恐怖片,並且讓你有不得不去看的衝動。

事實上所謂《紙牌屋》式的成功,在視頻行業的人都知道,與其當做一個技術發展案例來分析,不如將它作為一個公關案例來學習。原本在華納工作的CMO Kelly Bennett 和來自迪斯尼的CCO Jonathan Friedland 通過《紙牌屋》這一事件讓Netflix 變得更像一個電視台,而不是互聯網企業,這其實是讓Netflix 的想像空間變大了,因為互聯網已經有了一家Youtube,但是還沒有一家HBO 或者Showtime 。

至於將大衛·芬奇、凱文·史派西,以及1990年的《紙牌屋》組合在一起,可以產生奇妙的化學反應,這種充滿誘惑的想法一看便知是好萊塢經紀公司的手段,而不是屬於大數據的語言體系。

在《紙牌屋》的背後,編劇兼製片鮑爾·威利蒙和凱文·史派西同屬一家經紀公司,這部電視劇的主要推手,是好萊塢的影子幕僚之一CAA 以及製作方MRC ,Netflix能夠加入只是因為他們比有線電視台出錢更多。大數據在整部劇集中的作用,不會比在2008年將英劇《紙牌屋》推薦給MRC 聯席董事長Modi Wiczyk 的那個實習生,所產生的價值更大。

至於Epagogix ,所提供的服務也並不新鮮,好萊塢有上千名劇本醫生,又便宜又好用。80年代之後,好萊塢的觀眾結構和觀影偏好逐漸趨於穩定,對觀眾喜好的判斷並不是個難題,目前在北美普遍採用的焦點訪談形式,所能獲得的反饋也要更為具體和實用。

從某個角度來說,好萊塢並不缺少好創意和好劇本,將文字轉換成影像的過程,所存在的不可控要比一些娛樂報道中的公開信息複雜的多。如果單純基於劇本和演職員搭配的角度,就可以預測未來高枕無憂,就好比我們是通過分析母雞的體格,然後去判斷一盤西紅柿炒雞蛋的受歡迎程度,它們二者之間必然互有相關,但是這種相關性不足以用來證明一名以泡麵為生的宅男,為何會頓時愛上為他炒雞蛋的MM。

大數據為何近幾年大熱?

人類進入大數據時代,類似於生物學迎來了顯微鏡,天文學發現瞭望遠鏡,因為網路傳輸和計算機存儲運算能力的提高,交給了我們一把信息放大鏡,從此我們對現象的觀察進入一個新的領域。

在網路與終端的支撐下,雖然我們身處的時空沒有任何變化,但是通過更加碎片化的信息,我們可以將時間與空間的分割從以往的單位中進一步細分,這就相當於原本一個9寸蛋糕切四塊,現在可以切成六百四十塊。所能夠建立的觀察維度,更加接近於無窮大,觀察的基準點,更加趨向於無限小。這有點像是搭積木的遊戲,當積木的數量足夠多時,你最終所能搭出的形狀也足夠複雜,如果隨便交給你一個圖形,擁有更多的積木當然更有可能組合出結果。

關於多維度數據的挖掘,自古就有,曆法的制定過程或許可以作為一個很好的例證,江湖上現在偶爾也會有關於林元帥諸葛軍師的傳說,自從計算機技術誕生之後,對數據的利用和處理一直在同步發展中,無論是分布處理還是並行處理,並不是一天就蹦躂到今日的技術高度,我們很多科學發現都是在近三十年之間才完成,正是得益於此。

但為何在這幾年「大數據」忽然大熱,甚至你一個做火燒做煎餅做包子的,如果不說兩句大數據,大家看你的眼神就和看一個死人沒啥區別。原因其實很簡單,全球智能手機的普及。

隨著移動終端信息處理能力的提升,與用戶的交互界面不僅更加具備黏性,並且實現了全方位全時段互動,此時每個人的移動終端實際上就變成了一個數據記錄儀。它比PC所能獲取到的信息更加個人化,不僅暴露這個人的生活細節,位置動向,同時也記錄著它的消費習慣,人類第一次擁有了這麼多數據的生產者。每一個元數據都可以直接掛鉤一份具體的支出額度,每一個數字都可以被貨幣量化,大數據的商業價值與各個企業的營收幾乎都可以直接掛鉤。所以,圍繞「大數據」來說故事迅速成為當下的主流。

但是揭開媒體的那些噱頭背後,你會發現,國內對複雜系統的研究,仍然是處於概念大於應用的階段,大部分行業對線性、封閉系統內的數據關係都沒辦法掌握,更不用說將大數據轉化成有價值的信息。而在影視行業,工業化體系處於剛剛起步的階段,很多從業人士連財務報表這種基礎數據都看不明白,去理解大數據的價值更是有些不可想像了。

大數據於國內影視行業的意義:

大數據技術作為一種工具,其應用方向,無非三個方面,一是對過於和曾經的理解,二是對以後和將來的認知,三是對當下進行判斷並進行實時處理,影視行業大數據技術的應用如果想要有長足的發展,那麼在這三個方面都會面臨著一些需要解決的問題。

  • 對過去和曾經的理解

既然是對已發生的進行判斷,就會涉及到數據採集,這個部分往往會引發爭論,中心議題是到底多大才叫大,GB還是TB,PB還是EB?

如果我想要知道《致我們終將逝去的青春》這部差一點就可以歸類到文藝片的電影,為什麼能在2013年上半年收穫僅次於《西遊降魔篇》的票房,我是應該僅以社交媒體的傳播效率來進行數據的挖掘,還是要追溯到原著小說里的青春,以及被電影宣傳所喚起的記憶?

將數據挖掘的範圍放在社交媒體的範疇,那麼通過對一部電影推廣過程的梳理,其實我們很容易就可以通過數據制定出一張細化到分鐘的參考,以及觀眾會被什麼樣的宣傳內容所吸引,但是它仍然只是在描述現象。

用腳趾頭想一想也知道,將觀察只停留在眼前,無法找到最終的因果,必須對推動現象發生的機制進行論證,那麼我們該用什麼樣的體量來儲存和分析觀眾們的記憶,從而找到個人經歷和集體共鳴之間的關係?

在這個方面,如果只用社交媒體的數據進行相關性的分析,其實和我們日常所做的感性推導沒有太大區別,甚至還不如感性推導靈活,很容易因為數據的不夠全面犯下「黑天鵝」式的錯誤(在發現澳大利亞之前,西方認為只有白天鵝)。必須要追溯到成因階段更龐大的外部數據,比如主要觀眾群十年間的消費偏好及社會經歷,以及對他們觀影之前的心理活動進行統計分析。會不會太複雜?但是從數據挖掘的角度來說,只有在這個方向上進行努力才可能會提供實質性的價值。

或者說,我們也可以簡單粗獷一些,如麥特的負責人陳礪志所言,《致青春》的成功最主要的因素是因為趙薇的敬業與投入,以及她個人在行業的積累。

大家可以繼續用腳趾頭想一想,以上三個角度,哪個會更容易接近整個事件的核心。

  • 對以後和將來的認知

大數據技術雖然可以讓人類對現象的理解進行更深入的探究,但是當對國產的影視項目前景進行預測,首先需要面對的問題是,我們仍然處於一個觀眾群體持續波動的時期。

在北美市場,貢獻50%票房的觀眾約佔人口的10%,也就是3000萬左右,這部分群體基本上結構相當穩定。上世紀70年代末,當北美電影的平均製作預算開始攀升到1000萬美元以上,宣發費用達到500萬以上時,對觀眾的監測從階段性的調研逐漸轉變成常態性的監控。在計算機還只是個神話的時期,「好萊塢」是用人工+信件的形式,建立了最早的大範圍觀眾研究模型,這些歷史數據通過幾十年的積累,已經讓一部電影與觀眾之間的聯繫變得非常透明。但即使是如此嚴謹的市場監控,近幾年也因為受到移動互聯的影響,觀眾的觀影行為隨機性逐漸提高,導致傳統的觀眾研究模型頻頻出現一些問題。

反觀國內電影市場,差不多有三分之二的銀幕是在近三年之內才出現的,2010年時,我們所擁有的現代化銀幕不過才6223塊,而如今,這個數字差不多是17000。可想而知,影院目前所迎來的觀眾,基本上是近三年才開始逐漸培養去影院觀影的興趣,這種行為暫時還不能稱之為習慣。

所以說,中國電影市場目前的波動很難通過現有的技術手段完成監測,會因為存在有其他我們不可知的變數,而導致結果南轅北轍,這在統計學的回歸分析上被稱之為「變數遺漏偏差」,大數據技術目前所能覆蓋到的範圍並不能幫我們解決這個問題。我們還需要時間來不斷修正對市場數據的理解,觀眾也需要時間來不斷培養在影院觀影的習慣。

2013年上半年,幾乎所有從業者都對有動作元素的電影過於樂觀,而下半年,所有從業者包括我個人又會對以愛情元素為主的電影過分看好。從一些公司的大數據監測上來看,這種觀眾消費行為的變化已經反饋在可以被抓取的數據中,但是我們並不知道它所形成影響究竟該如何定量。也就是說我們可以看到趨勢,但是很難確定結果。

大數據對於預測的貢獻,其實和它本身的特性一樣,主要是增強客觀性。無論是1936年,初出茅廬的蓋洛普對羅斯福當選的預測,還是2012年,Nate Silver預測對了美國大選所有50個州的選舉結果,其背後的方法論仍然是來自於1763年的貝葉斯,幾百年來,我們只是將這個事情不斷的細化了而已。

那麼,在如今的中國電影市場中,於其期待大數據讓我們成為一名百曉生,不如將大數據技術的應用方向,轉移到可以讓我們規避哪些操作上的錯誤,或許更具有現實意義。

  • 對當下進行判斷並進行實時處理

現在對大數據的理解,往往會糾纏於第一個字「大」,而忽視了它的另外一個重要特徵「細」,其實後者才是最重要的,因為它會創造大數據真正的實用價值。

基於社交媒體的數據挖掘,其實已經可以做到讓我們將觀眾的分類從簡單的年齡、性別、職業等維度,落實到區域、活動空間以及性格特徵等等更為豐富的細節,在這樣的基礎上,我們要做的就是怎樣給觀眾提供個性化的影響,而不再是以電影為本位的共性宣傳。

舉例來說,當一名男性觀眾在某個媒介上看到的電影海報,可能是大長腿和小翹臀,但一個女性觀眾同時接觸這個媒介時,所看到的可能是一個賣萌的大叔。當陣地宣傳中的預告片貼片到一部好萊塢大片之前時,它可能主要是用來渲染情感或者突出搞笑,但同樣的一分多鐘,在視頻網站所上線的預告片,則被分成數個版本,用來對應每一個點擊背後用戶的個人資料。這樣,觀眾便會加入到生產的過程中,通過對觀眾偏好的快速處理,最終創造更適合於傳播的信息。

目前,數據調研公司參與電影推廣的過程,所做的仍然只是一個統計的工作,決策是在片方或者是公關公司,其實可以將決策機制與數據同樣進行細化,成為實時的互動,減少時間的損耗,提高電影推廣的效率。我們以前在電影的推廣中,常常會為如何照顧到大部分觀眾的興趣而頭疼,那麼換一種思路,用現有的觀眾數據進行群體的細分,給不同的觀眾群提供不一樣的信息,海納百川比光芒四射或許更符合當下社會化營銷的要義。

不過,這一切其實都只是理想化的願景,現實的情況是,中國的電影產業目前仍然是處於一個極其原始的狀態。

僅從電影投資成本的角度來說,目前所公映的電影,平均投資約在3000萬人民幣以內,不足500萬美元,這樣的投資規模在不考慮通脹以及觀眾收入的情況下,只相當於北美70年代初期的水平。面對這樣的市場現狀,很多議題其實都顯得比較空洞,因為拍腦袋做決策雖然有著莫大的風險,但畢竟成本很低。

最後,打個小廣告,我正在找一家大數據公司,希望能共同對影視行業的大數據應用進行研究和探索,歡迎有興趣的企業和朋友與我交流。

推薦閱讀:

《鎮魂街》跨次元人靈大戰展開熱血與中二的蜜汁魅力
小丑(Joker)和漢尼拔(Hannibal)這兩個角色是如何讓大家迷醉其中的?
如何評價《帝國的毀滅》?
被誤解的東方史詩——《無極》

TAG:大数据 | 数据挖掘 | 电影 | 数据分析 | 影视 | 中国电影 |