豆瓣5.6分的《西遊伏妖篇》評論有水軍嗎?
抓取的數據:截至1月30日14點,西遊伏妖篇豆瓣短評共計40105條,對數據進行清理刪除之後還有36409條短評,包含短評發出的作者id、時間、內容等。
判斷是否存在水軍的思路有如下:- 是否存在有時間段五星評價數量多並且很集中
- 給五星評價的用戶中新註冊用戶比例是否很高
- 相似言論是否過多
根據已經抓取的數據,我決定先從是否存在時間段五星評價很集中,豆瓣把時間戳隱藏在了每個評論中,時間戳可能進行了修改,我這裡沒有把它還原出來直接用了原始的數據,因為就算時間偏移,時間的間隔是沒有變化的,還是能看出時間段的評分頻率。
注意時間是錯位的,根據時間戳換算的數據最新的一天是2006/04/03應該對應到2016/01/30,以後所有日期可以換算得到。
我把時間精確到短頻數量較多的這幾天,並且把時間間隔調到分鐘,現在只看這些短評數量較多的這幾日是否有異常。從整體的短評數量來看,是比較正常的,數據波動不是很大,剛上映兩三天評論數量暴增,而後開始有下滑趨勢。既然整體的短評數量沒有問題,那我們需要看兩個點:- 是否存在一星短評的集中點
- 是否存在五星短評的集中點
我們先按照短評給出的各種星級分別進行劃分統計查看隨著時間數量的波動。
單獨提出0星和1星的短評進行統計,如下圖1星的短評數量隨時間的波動幾乎與整體短評數量波動保持一致,沒有某一特定時間節點1星短評突然上升之後又突然下降的情況。
再單獨提出5星的短評進行統計。
五星短評數量隨時間波動較為很明顯,並且沒有隨著總體的波動而波動。甚至在一個時間段2006/03/20~03/21的時間點,準確來說是03/20下午2點到03/21上午12點之間,五星評價數量十分多,之後的五星短評的數量又猛地下降,異常值來了。當然光從數量上沒有說服力,我們可以再進一步看每個時間點五星短評的占所有短評的比例。
這樣一來是不是更加明顯了,五星短評在上述時間內不僅數量多而且佔有比例非常高,並且在過了時間段之後基本上趨於平穩,現在我們需要去探索一下上述所說的時間點的評論是不是來自水軍呢?我們繼續去一探究竟。下面就把這個時間段的所有的五星短評都拉出來看看。
截取部分內容如下(用戶ID為發出此評論的人):
光是此階段有772條短評部分如上所示,怎麼樣?什麼感受?短時間內高度重複的幾個內容甚至使用一些相同的詞語,讚美之詞溢於言表,不是水軍是什麼呢?這僅僅是此階段的一些五星短評,可能其他時間段還有一些,這裡也不再去一一探索,結論已經得出:顯然,豆瓣的這部電影還有不少的水軍在,豆瓣並沒有清理乾淨。
最後的彩蛋我們看看這些大兄弟都怎麼說:
超兄弟都這麼說:
雙王兄弟都這麼說:
恭喜你看完彩蛋,但是還沒有結束,正如評論區以及知乎社區各位知友所持有的態度一樣,對於這種的爭議比較大的影片,達不到五星的標準並且沒有差到一星那麼低的情況下,我們可以把所有的一星以及五星短評全部去掉之後綜合評分。
先把星級分為兩組:015星級高低分組,234星級普通分組
先是綜合兩個分組所有星級:總分50分,總得分33.96分
去掉高低分組所有星級,保留普通分組:總分50分,得分31.73分
--2017.02.02更新,感謝@江漢臣 --
很多評論說之前的給出的時間段的評論給的不全,評論並不是千篇一律的好評內容一致,這裡在丞兄的指導下,做了文本聚類。紅色表示的是疑似水軍評論時間段的所有評論,綠色代表的是整體的評論。發現紅色的時間段評論內容特徵更加趨於一致,而整體的評論相對分散,因此水軍的短評必定是使用了一些統一的模板。
...更多文章,關註:知乎專欄 - 學習編程
推薦閱讀:
※豆瓣閱讀新增英文原版書店
※8 月之鹽 | 許瀚文、MJ 勺子、采銅與清流新書上架
※豆瓣電影對國產電影打分偏低嗎,為什麼?