Python爬取並分析虎嗅網 5 萬篇文章

03-01

分析內容

分析虎嗅網 5 萬篇文章的基本情況，包括收藏數、評論數等

發掘最受歡迎和最不受歡迎的文章及作者

分析文章標題形式（長度、句式）與受歡迎程度之間的關係

展現近些年科技互聯網行業的熱門辭彙

版本：Python3

系統：Windows

資料庫：MongoDB

相關模塊：

pyspider

Matplotlib

WordCloud

Jieba

pyspider 爬取並分析虎嗅網 5 萬篇文章?

www.makcyun.top

pyspider 的架構主要分為 Scheduler(調度器)、Fetcher(抓取器)、Processer(處理器)三個部分。Monitor(監控器)對整個爬取過程進行監控，Result Worker(結果處理器)處理最後抓取的結果。

抓取數據

CMD 命令窗口執行：pyspider all 命令，然後瀏覽器輸入：http://localhost:5000/ 就可以啟動 pyspider 。

新項目建立好後會自動生成一部分模板代碼，我們只需在此基礎上進行修改和完善，然後就可以運行爬蟲項目了。現在，簡單梳理下代碼編寫步驟。

通過 callback 參數定義一個 index_page() 方法，用來解析 crawl() 方法爬取 URL 成功後返回的 Response 響應。在後面的 index_page() 方法中，可以使用 PyQuery 提取響應中的所需內容。具體提取方法如下：

成功得到所需數據，然後就可以保存了，可以選擇輸出為 CSV、MySQL、MongoDB 等方式，這裡我們選擇保存到 MongoDB 中。

首先，我們需要從 MongoDB 中讀取數據，並轉換為 DataFrame。

不同時期文章發布的數量變化

具體代碼實現如下：

最高產作者 TOP20

平均文章收藏量最多作者 TOP 10