爬取豆瓣電影短評做中文分詞與數據分析
來自專欄 學習python網路爬蟲建設智慧時空資料庫
中國電影最近幾年突飛猛進,越來越多的人走進電影院了,各個大盤影片輕輕鬆鬆就能突破幾十億票房,但是隨著電影消費的增加,大家對電影質量和製作水平的要求也提高了很多,想要繼續斬獲高票房,就得把握好消費者的喜好,製作出符合市場期待的電影。
1,研究目的
至於怎麼才能了解到消費者的偏好,這個就很簡單了,你可以在網路上找到很多關於電影的評論、排行、評分等等,比如,優酷、愛奇藝等視頻網站上的評論留言,特別是有了彈幕後,大家在網上留言得更加熱烈了,但是,在國內要評價一部電影的質量,大家都會去看豆瓣評分,說明豆瓣是最有參考價值的平台之一,所以下面會用豆瓣電影《美人魚》的短評,來分析一下評價傾向、話題焦點。
2,數據收集
通過gooseeker的快捷採集應用——數據DIY,一共爬到了43148條數據,爬取方法可以去看另一篇文章《用GooSeeker爬取豆瓣電影短評,不用寫代碼,一鍵式操作》
3,中文分詞處理
訪問gooseeker的在線分詞打標應用,把要分詞處理的評論內容這一列單獨放到一個Excel表裡,然後導入進去,就會自動分詞,可以得到分詞效果表和切詞表。
後面要繪製詞雲圖,切詞表裡會有一些單字、英文、數字等無效詞,直接用效果不好,所以下面要用到篩選詞語功能,這裡是按詞頻大小排序的,可以一邊看著樣本數據,一邊勾選出有用的詞語;
另外,對於沒有切分出來的詞,可以人工添加補充進去,最後就能得到選詞表和打標結果表,做詞雲圖就要用到下面的選詞表;
根據星級打分可以把豆瓣影評自動分成好中差3類,所以就沒做情感分析,如果你要做情感分析,也可以利用上面的篩選詞語功能,把具有情感傾向的詞語篩選出來,然後在打標結果表裡可以看到每條原數據所包含的打標詞,再整理一下哪些詞語組合在一起所表達的情感傾向,就可以判斷出原數據的情感傾向;
4,數據分析
4.1 評論數量走勢
按照評論日期統計了每天的評論量,如上圖,發現在電影上映時間2016-02-08之前也有零星的評論,才想起來美人魚好像調過上映檔期,這個不多說了,在上映一周內,評論量呈現快速上升趨勢,在2月14日情人節達到頂峰,那天剛好是周日,估計很多情侶去看這部電影了,之後就是回落趨勢,在2月21日有一個小高峰,也是周日,說明節假日會促進消費。
4.2 各級評分數量
統計電影《美人魚》各個星級的數量,從上圖看出,以3星、4星評分最多,其次是5星,說明大家對電影的總體評價是中等偏好的。
4.3 各級評分走勢
按時間統計各個星級的打分數量,如上圖,可以看出從《美人魚》上映以來,3星、4星一直是大眾的主流評分, 但是上映之前有幾條評論是5星的,說明大家對電影一開始期望比較高,但看完電影后應該是有點失望,所以才會導致評分低於預期。
4.4 話題焦點分析
從上面的詞雲圖可以看到,大家討論最熱烈的話題就是星爺,可以說大家去看這部電影大多數是沖著周星馳去的,都說欠星爺一張電影票,還有很大一部分,把《美人魚》和周星馳近兩年來的電影做了對比,比如西遊、長江七號,評價好壞參半,無論怎樣,大家最後都給了星爺一張電影票的支持,說明個人影響力和號召力對票房的貢獻真的可以很大;
其次,大家對主演討論得也很多,從影評里可以看到,鄧超的演技、張雨綺的聲音都飽受爭議,另外,大家對電影題材、劇情這些都有討論,最後是電影感受,尷尬、搞笑、喜歡、哭、不錯等等是大多數人對電影的評價。
推薦閱讀:
※數學之美第四章談談分詞
※jieba源碼解析(一)——中文分詞
※分詞 | jiebaR 常用函數
※中文分詞演算法簡介
※中文分詞評測