豆瓣5.3的《長城》,水軍力量到底有多強大

文 | blogchong

來源 | 博客蟲巢(ID:blogchong)

號稱今年最後一部華語大片—《長城》於12月16日正式上映,截止12月18號上午10時,我用爬取豆瓣數據。豆瓣5.3分,累計評價人數47225。

爬取了截止12月18號上午10時,電影《長城》的所有相關數據,包括評分,評分分布,所有短評(去重後累計20191條),以及對應短評的評分,所有長影評(去重後累計2458條),以及對應長影評的相關屬性。

並且,我們對所有影評中的情感特徵(褒、貶、哀、怒、懼、驚)進行了提取,且對影評中涉及的相關演員,當然還有張藝謀大導演的姓名特徵進行了提取。

我想通過數據的角度:

挖一挖豆瓣影評中水軍的力量到底有多強大?

挖一挖吃瓜群眾的槽點在哪裡?

挖一挖吃瓜群眾最吐槽的主演是哪位(景甜姑涼,還有TF小男孩是不是已經預感到了不妙)

挖一挖吃瓜群眾最不care的主演是哪個?

我們先來挖一挖影評中到底有多少的水軍在「摸魚」,或許這5.3依然摻水不少?

我們先來看三組佔比圖,分別為豆瓣整體評分佔比、豆瓣短評評分佔比、豆瓣長影評評分佔比。

從整體評分(所有進行打分的記錄) ,到短評(字少的評價),到號稱經典的長評(長文影評),5星評分佔比一路飆高,通過各個評分計算的整體評分,從5.3到6.0,再到6.7(後兩個是通過計算得出),一路飆高。

趨勢變化異常之詭異,說好的這個電影很差的呢?!

怎麼看影評都好評如潮了都,寫長評的竟然有30.7%的佔比了,莫非給一星的吃瓜群眾都懶得去吐槽了?

不著急,我們再來看一組數據,這回,我們結合影評後面的頂踩(即有用、沒用的按鈕),來進一步深挖(要知道,影評可以作假,但是吃瓜群眾這麼多,隨手的頂踩量總難作假吧)。

這是一個有意思的分析數據,參與長影評點贊互動的人數為27347,大概是撰寫長評人數的10倍多點,參與短評點贊互動的人數是89758,大概是撰寫短評人數20191的4.5倍。

從長影評的反饋中,計算的評分應該是7.3分,即使單純看長評數據計算的評分也有6.7,相對於整體的5.3,儼然不是一個級別的了。

從這裡看,是進行長評的人中混雜了大量的水軍?還是說吐槽的人都懶得寫長評進行吐槽?

再來看看短評數據,單純的從評論數據計算出來的5.9,再加以點贊的人數進行評分修正,最終獲得的評分是5.1,低於整體評分的5.3,比重從22.58%下降到12.19%。

再對比長評的計算的評分情況,是長評區的水太深,還是說短評中吃瓜群眾參與的太多,暴露了最終的分數質量本質,5.1?

由於長評和短評的意見已經難以統一了,所以我們把長評和短評的特徵拆開來對比分析一下。

正面特徵提取

左側為長評的正面評價特徵,右側為短評的正面的評價特徵(只取前100的特徵詞 )。

我們可以看出短評的正面評價總體偏口語化的正面評價居多,如數量最多的「不錯」、「喜歡」、「值得」等詞,而長評中的正面詞則偏向於類價值觀的正面評價較多,諸如「英雄」、「震撼」、「相信」、「信任」、「拯救」等。

我們再來看一下吃瓜群眾的吐槽情況,同樣把長評和短評分開進行分析。

負面特徵提取

同樣,左側為長評的吐槽特徵,右側為短評的吐槽特徵(只取前100的特徵詞)。

長評中整體槽點也不少,但是整體相對偏委婉、理智,諸如「失望」、「不好」、「不行」、「不夠」、「強行」等。

但短評中槽點整體偏情緒化,除了「不好」、「失望」等,諸如「噁心」、「弱智」、「傻逼」、「莫名其妙」、「無聊」等情緒化明顯的特徵詞佔據了不少的比重,其頻度也不低。

對比上面兩組分析特徵,其實是可以看出豆瓣長評與短評的兩類評論的特點的,不管是正面評價還是負面評價,長評中整體更趨向於理智的看待影片,而短評中更趨於情緒化的觀點表達。

整體來說,長評中正面評價偏多,更多的基於《長城》的價值觀進行評析,並且給予正面反饋,而短評中則負面評論特徵佔據略多,並且整體表現的比較劇烈,更情緒化,甚至在特徵的長尾分布中,各種具有中國特色的「國罵」都出現了,精彩絕倫。

我們再來看看吃瓜群眾們關注的那些大主演們,在影評中的出境率如何。

涉及人物影評出鏡率

排在狀元位以及榜眼位的老謀子與景甜姑涼基本壟斷了影評區,分別被提及了7K多次,而且大部分都是被吐槽。

吐槽老謀子的更多的是對影片的失望,而景甜姑涼基本和面癱划上等號了,說到面癱,還有一位王俊凱小男孩,據說台詞加起來不到10句,不過在影評中居然還有這麼多人討論他,是吐槽?還是小男孩的粉絲?

熊士兵鹿晗排第三位,並且與沒活過半集的張涵予的提及次數拉開了一定的差距,顏值經濟果然還是有一定效果的,而張涵予雖然「早死」,但也可以瞑目了,最起碼是被吃瓜群眾記住了。

至於我們的絕對第一主角,馬特呆萌,這個影評出鏡率,真是有點對不起他的大豬腳的名頭,看來呆萌被《長城》毀的不輕,奧斯卡還有望么?

接下來就是以彭于晏、劉德華領銜的醬油陣容了,基本來說一改往日影片主角定位的風格,在《長城》中打了一手好醬油,所以基本影評中也涉及的比較少。

黃軒除了跟著將軍們完成了三句半和「遵命」的和聲和一句 ,打仗的時候感覺就直接消失了,但也有可能因為扮演的是速度最快的鹿軍,快到鏡頭都拍不到。

快到鏡頭都拍不到,所以吃瓜群眾估計在影評中僅有的少數討論就是:欸,黃軒呢,黃軒哪去了?~~

而對於吃瓜群眾來說,最沒有存在感的三人:佩德羅·帕斯卡、威廉·達福、余心恬。

余心恬就算了,估計也沒有幾人認識,但佩德羅·帕斯卡與威廉·達福作為《長城》中戲份數一數二重的配角,吃瓜群眾對他們竟然毫不關心,實在是存在感略低。

從12月18日的排片,和客單價來看,整體的上座率大概在40%左右,並且與17日的票房來看,直接下降了24%左右,這也注意見證了水軍


推薦閱讀:

R 包 `ezdf`的講解
用戶畫像—打用戶行為標籤
推薦系統中的矩陣分解技術
決策樹實戰:Titanic 生還預測
《Python數據挖掘》筆記(二)關聯規則挖掘

TAG:長城 | 數據挖掘 |