Python爬取並分析虎嗅網 5 萬篇文章

分析內容

分析虎嗅網 5 萬篇文章的基本情況,包括收藏數、評論數等

發掘最受歡迎和最不受歡迎的文章及作者

分析文章標題形式(長度、句式)與受歡迎程度之間的關係

展現近些年科技互聯網行業的熱門辭彙

基本環境配置

版本:Python3

系統:Windows

資料庫:MongoDB

相關模塊:

pyspider

Matplotlib

WordCloud

Jieba

pyspider 爬取並分析虎嗅網 5 萬篇文章?

www.makcyun.top

pyspider 介紹

pyspider 的架構主要分為 Scheduler(調度器)、Fetcher(抓取器)、Processer(處理器)三個部分。Monitor(監控器)對整個爬取過程進行監控,Result Worker(結果處理器)處理最後抓取的結果。

抓取數據

CMD 命令窗口執行:pyspider all 命令,然後瀏覽器輸入:localhost:5000/ 就可以啟動 pyspider 。

新項目建立好後會自動生成一部分模板代碼,我們只需在此基礎上進行修改和完善,然後就可以運行爬蟲項目了。現在,簡單梳理下代碼編寫步驟。

通過 callback 參數定義一個 index_page() 方法,用來解析 crawl() 方法爬取 URL 成功後返回的 Response 響應。在後面的 index_page() 方法中,可以使用 PyQuery 提取響應中的所需內容。具體提取方法如下:

成功得到所需數據,然後就可以保存了,可以選擇輸出為 CSV、MySQL、MongoDB 等方式,這裡我們選擇保存到 MongoDB 中。

數據清洗處理

首先,我們需要從 MongoDB 中讀取數據,並轉換為 DataFrame。

不同時期文章發布的數量變化

具體代碼實現如下:

最高產作者 TOP20

平均文章收藏量最多作者 TOP 10

推薦閱讀:

TAG:Python | python爬蟲 |