標籤:

用 Python 解析李小璐的微博,驚呆了!

2018 年的開始就被娛樂圈李小璐事件刷爆網路,對於這件事我們用數據說話。我們就運用 Python,來看看各大媒體,是怎麼談論這個事情的,運用 Python 抓取新浪微博,根據關鍵字「李小璐 PGONE」,能夠搜索到700 條熱門微博(這個並非一切的,而是當前新浪微博可查詢的)。

下面我們來看新浪微博媒體發布數據截圖

熱門微博生成的詞雲

從詞雲中,我們能夠看出,這個事件中,涉及到的人物有李小璐、PGONE、賈乃亮、王思聰、卓偉、馬蘇,其中,最無辜的是李小冉同學,由於姓名相似,也被網友火熱光臨了一把。

涉及的人物詞頻

李小璐回復該事件的微博

直接抓取轉發的 4.5 萬用戶談論,然後計算詞頻繪製詞雲,如下圖所示:

網友談論詞雲

能夠看到,網友們的態度主要是會集在厭惡、出軌以及相信、喜愛這兩種態度上,但是呢,在網友的詞頻裡面,竟然很少提及到 PGONE,也就是說,在李小璐的微博下面,我們都是在討論李小璐和賈乃亮的愛情啊。

下面給大家講一個利用 Python實現新浪微博爬蟲的例子。第一個模塊,模擬登陸 sina 微博,創建 weiboLogin.py 文件,輸入以下代碼:

就分享到這個。

Python開發

原文鏈接:t.cn/RHkrlkW

小月兒


推薦閱讀:

透過數據看 Github
python與numpy使用的一些小tips(3)
How to use UTF-8 to fix the GBK encoding Errors !
對一些盲目想從事大數據的朋友的警示。
xpath 使用教程

TAG:Python |