爛片還怪豆瓣「綁票和敲詐」?——對電影《李雷和韓梅梅》豆瓣評分的分析
更新於2017年6月26日,在第二部分數據探索時,根據@Radon的建議,為了消除極值對結果的影響,在統計比例前去除了離群點(outliers)的用戶。
前言
是的,繼《擺渡人》後豆瓣又被《李雷和韓梅梅》製作方控訴了。
電影《李雷和韓梅梅》出品人陳永寧發出的公開信稱,《李雷和韓梅梅》在上映後獲得諸多影評人、著名專家學者如饒曙光、尹鴻、周黎明、史航等人的認可,已經獲得了三千萬票房,但在「阿北」「領導下的豆瓣」該片得分只有4.2分,陳永寧表示「已經出離憤怒」,他認為豆瓣已經成為「綁票和敲詐的現場」。
作為豆瓣7年忠實用戶,我覺得這個帽子扣的很不講道理呀,出於探索精神,我去看了下這部電影的豆瓣頁面。
粗粗一看,這不就是很典型的被譽為「絕世爛片」的L型電影嘛!
數據搜集及處理
首先,應該從具體的評分和評分用戶入手。因此,我決定抓取我們所能看到的評論信息。
截至到我開始爬數據的時候,在一萬多的用戶里有5938人撰寫了觀後的短評。所以我開始抓取這些人的評論以及個人信息。數據包含的欄位如下(後來補上了一個評論時間):
這其實是一個兩層抓取,首先抓取在電影頁面上的評論,然後再針對每一條評論,轉到該評論用戶的個人頁面,抓取他的其他信息。最後得到了1838條數據,也就是說普通用戶在網站上能看到的關於這部電影的評論只有1838條,還有一部分是被豆瓣給隱藏了。
問題一:豆瓣是否有故意隱藏評分高的評論而展示評分低的評論的行為?
在1838條數據中,只有1765條數據是有打分,剩下的是評論了但是沒有打分,我對這1765條數據計算了所佔比例,如下:
我們可以看出來,在我們所能看到的短評中,5星人數有9%,4星人數有7%,而1星所佔的比率降到了50%。也就是說,在短評展示頁面里,在我們所能看到的有限的短評里,3星及以上評論的人數的比例是超過了整體的評分情況。第一個問題的答案也就不言而喻。
另外如果按照短評打分情況來算電影評分的話,李雷和韓梅梅應該可以再稍微高一點,整體分會在3-4分左右。我覺得公開信中提到的4.2分是比較接近真實評分。
問題二:究竟是哪些人打了分?
根據用戶信息,在去掉離群點後的用戶中,平均每個人標記「看過」電影63部,標記「想看」電影3部,平均註冊時間為 2015年4月29日。針對不同打分等級以及不同的特徵,得到如下圖表:
從以上三張圖表我們可以看出,其中打5星和4星的用戶,無論是「看過」,「想看」,還是「註冊日期」上,達到所有用戶中平均水平的人數比例都相當之低。由此可得,在5星和4星評分中,充斥著「標記影片數量少,註冊日期晚」的用戶。而反過來看打分低的用戶,其中打2星的用戶有42% 的人所標記的「看過」電影數量高於整體平均水平,五個檔次中比例最高,其次是3星和1星。值得注意的是,在註冊時間上,打1星的用戶註冊時間早於2015年4月29日的達到了40%,和5星的最低比例21%形成了強烈的反差,這類用戶屬於「註冊時間早,標記影片數量多」,的確都較多集中在了低分檔。為了更加直觀表現用戶分類,我們可以看下面這張數據透視圖:此時,我們大概知道給《李雷和韓梅梅》這部電影評分的用戶是怎麼樣子的了:打五星的用戶,以豆瓣新用戶為主,他們註冊時間比較短,使用豆瓣次數比較少,標記「看過」和「想看」的電影也比較少。打一星和二星的用戶以豆瓣老用戶為主,豆瓣重度使用者,經常標記看過的電影,部分用戶「看過」電影的數量驚人。
不過,由於在製片方控訴豆瓣後,有部分義憤填膺的用戶湧入評論區,給電影打1分出氣,所以1星用戶情況可能和現實有點差距,個人認為2星到4星分布的用戶特徵比較符合實際的情況(即,如果沒有這件「控訴」事,這部電影自然的打分情況)
問題三:究竟有沒有非正常評分用戶混在評論群體中?
豆瓣CEO在上一次評分風波中寫了一篇文章,豆瓣電影評分八問,比較客觀的介紹了豆瓣目前打分機制以及對水軍的預防機制。
水軍是有的,但豆瓣評分很難刷得動。
豆瓣這兩年的原則是「所有能判斷屬於非正常評分的一概不算」,不分高低貴賤顏色。
這時候我就在想,我們所能看到的1765條評論中,是否如豆瓣所說,非正常評分評論一概不算,不會顯示出來。為此,我們需要利用數據分析的方式對其做一個簡單粗略的檢測。
為了檢測出是否有「非正常評分用戶」的存在,我給他們下了大致的定義(我所理解的定義),比如只看過一兩部電影,其中就包括《李雷和韓梅梅》,或者註冊時間很短,豆瓣除了一部電影的內容,再無其他,沒有「想看」標記,豆瓣活躍度極低,或者是好幾個評論時間出現在差不多的時候而且都給了最高分或者最低分,還有一部分就是惡意打分,噴子這類。比如這些:
- 這是一個我認為比較有代表性的「非正常評分用戶」,兩個月註冊無動態,看過和想看的內容有重複,評論矛盾。
- 這是另外一個疑似「非正常評分用戶」,註冊當天即評論,而且評論標點符號使用詭異。
- 這也是另外一個「非正常評分用戶」,註冊即評論,無頭像,除了這部電影外沒有其他內容。
- 像這個就是屬於正常評分用戶,雖然給這部電影打了五星高分,但是從其他信息我們還是能看出來他並不是「非正常評分用戶」。
- 根據註冊時間,註冊名字,觀影數量來看,這是一個真實的用戶,還是李易峰的粉絲。
當然我不可能一個個去識別識別水軍,這時候就要機器學習出馬了!
具體怎麼做呢?(註:本操作不具有科學性,僅供參考)
我隨機從1765個樣本中隨機抽取了200個樣本(其實並不是隨機,由於非正常用戶數量比例肯定較少,我用一些已經預判為非正常用戶的數據替換了部分樣本),人工對他們進行了是否為正常用戶的判斷,主要將每個樣本分為「正常評分用戶」和「非正常評分用戶」兩類,不過對於那些模稜兩可我實在無法判斷的用戶,將其標記為「疑似非正常評分用戶」,就這樣我完成了200個樣本的構建,用於訓練模型。
在訓練前,我選取了四個特徵值,分別是「看過」的電影數,「想看」的電影數,「註冊日期」和「評論日期」。並且對數據做了標準化。
這次用到的模型是決策樹模型,200個樣本我選取了80個作為測試集,120個作為訓練集,用了crossvalidation,擬合了一下,準確率達到了90.6,基本可以了,然後應用的到了所有的數據集,最後結果如下:
從結果來看,的確還是有「非正常評分用戶」混跡在評分中,不過如果按照我的定義,給電影打1星的「非正常評分用戶」的比例小於給電影打5星的「非正常評分用戶」,7%對16%。
此外,還有一個值得注意的是根據這個結果,在打分為2星的用戶中,非正常評分用戶和疑似非正常用戶所佔的比例最小,這似乎也從另一個方面印證了前面我所提到的「打兩星的用戶是比較正常的」。這其實也是比較符合邏輯,一般這種惡意刷分的行為或者「非正常評分行為」要麼給電影最高星,要麼給電影最低星,中間的檔一般都顧不上。
總結和局限性
通過對三個問題的分析,基本可以坐實豆瓣沒有故意對這部電影進行打壓,以及也沒有大規模的非正常用戶對電影評分進行影響,評分的結果還是比較接近豆瓣用戶對這部電影的看法——爛片無疑。
本次數據分析簡單應用了機器學習,其實還是有很多水分,比如特徵值比較少,沒有很強的說服力,不過這也給之後的研究提供了一個思路,我們可以通過提取用戶個人主頁一切所能提取的特徵,然後再對其進行身份識別,最後這個識別水軍的模型肯定是越來越準確。
推薦閱讀:
※《但丁密碼》中的藝術線索|地獄和天堂都長什麼樣?
※《岡仁波齊》:一群人的朝聖
※神會原諒怎樣的懺悔?
※電影《可愛的骨頭》:當惡魔在我們身邊
※《搖擺少女》里的指導老師……