Python爬取並分析虎嗅網 5 萬篇文章
03-01
分析內容
分析虎嗅網 5 萬篇文章的基本情況,包括收藏數、評論數等
發掘最受歡迎和最不受歡迎的文章及作者
分析文章標題形式(長度、句式)與受歡迎程度之間的關係
展現近些年科技互聯網行業的熱門辭彙
基本環境配置
版本:Python3
系統:Windows
資料庫:MongoDB
相關模塊:
pyspider
Matplotlib
WordCloud
Jieba
pyspider 爬取並分析虎嗅網 5 萬篇文章pyspider 介紹
pyspider 的架構主要分為 Scheduler(調度器)、Fetcher(抓取器)、Processer(處理器)三個部分。Monitor(監控器)對整個爬取過程進行監控,Result Worker(結果處理器)處理最後抓取的結果。
抓取數據
CMD 命令窗口執行:pyspider all 命令,然後瀏覽器輸入:http://localhost:5000/ 就可以啟動 pyspider 。
新項目建立好後會自動生成一部分模板代碼,我們只需在此基礎上進行修改和完善,然後就可以運行爬蟲項目了。現在,簡單梳理下代碼編寫步驟。
通過 callback 參數定義一個 index_page() 方法,用來解析 crawl() 方法爬取 URL 成功後返回的 Response 響應。在後面的 index_page() 方法中,可以使用 PyQuery 提取響應中的所需內容。具體提取方法如下:
成功得到所需數據,然後就可以保存了,可以選擇輸出為 CSV、MySQL、MongoDB 等方式,這裡我們選擇保存到 MongoDB 中。
數據清洗處理
首先,我們需要從 MongoDB 中讀取數據,並轉換為 DataFrame。
不同時期文章發布的數量變化
具體代碼實現如下:
最高產作者 TOP20
平均文章收藏量最多作者 TOP 10推薦閱讀: