演示利用爬蟲監測網頁評論

03-07

輿情監測和管都是從信息的獲取入手。和使用代碼（例如Py）自己寫爬蟲相比，沒有代碼基礎的人一些可視化工具，也可以實現一樣的效果。下面就以八爪魚為例演示爬蟲監控網友數據採集評論的全過程。

先概括說一下具體步驟：

1、準備好爬蟲並執行，並建立對應的資料庫表

2、制定更新計劃

3、對評論進行可視化、文本語義等分析

這樣三步，即完成了數據的獲取、存儲和管理、分析。

第一步：準備好爬蟲，並建立對應的資料庫表

以某新聞網站為例。要採集某個關鍵詞相關的所有新聞文章下的網友評論，只需要準備好文章列表即可：

重新播放完整動圖

上面的小，演示了從某個新聞網站，搜索「壓歲錢」相關的所有文章列表，爬蟲實現自動翻頁、自動抓取每一篇文章的標題、網址、發布時間。全程未剪輯用時1分半鐘。

是不是比PY寫代碼來得快多了。

這次採集結果，建一個對應的資料庫表，包括標題、網址、發布時間的欄位。設置「網址」一列為unique，每次更新採集列表，只收錄最新的文章。

好了，這樣文章列表搞定，只要再採集其中的評論，就完成了評論的批量獲取。

重新播放完整動圖

演示中以某一篇新聞文章讀者評論為例。從規則到完成採集耗時約1分10秒，實現了全部評論數據欄位的循環抓取和自動翻頁的效果。

實際使用中，可以在第一步填入多條網址批量處理（上萬OK的）。比如，把上面文章列表中的URL複製過來，一次獲取所有文章評論。這份評論數據，就是對於這個關鍵詞的觀點的匯總，可以拿來做輿情分析使用。

ps: 有時候採集不準確、點不準的，校準一下XPATH都能搞定。

有些人可能覺得獲取評論要分兩步走很麻煩，「自動一次完成」的更方便。也是可以實現的。只要在採集文章列表的時候，同時

進去每篇文章，同時採集評論就可以。只是這樣，採集流程中會嵌套很多層，首先是列表的循環翻頁、文章的循環打開、評論的循環翻頁、評論的循環採集。這樣執行一次，會花費比較長的時間，萬一中徒出現任何異常（比如遇到網站防爬等），迫使中斷，是無法續採的。

分兩步走，可以在文章列表層面分析數據（比如每天新增文章數）、可以間接地實現斷點續采、雲採集還可以分線程加速執行。有條件的話建議分開兩步實現。

演示利用爬蟲監測網頁評論

第二步：制定更新計劃

可以每天採集一次列表，或者幾天、一周都可以，根據具體的需要。

每次更新，先花一點時間，快速獲取最新的文章列表，並導入資料庫中。

如果只需要監控最新文章的評論，可以只導出最新文章的網址，並填入評論採集爬蟲中執行。

如果需要監控全部文章的評論，就導出所有文章網址，進行採集。有些網站，對於頻繁訪問可能有防爬措施，八爪魚內置了 IP資源、自動切換IP、UA、自動識別驗證碼、速度等功能。

如果只想監測最新的網友評論觀點，可以把「評論內容」列設置為unique，自動去重。

第三步：對評論進行可視化、文本語義等分析

重新播放完整動圖

如上圖，採集結果導入「智能分析」，可以一鍵可視化，提取關鍵詞等。非常方便。

以上，就是一次爬蟲技術獲取網友評論、簡單的資料庫管理技術、可視化智能分析使用數據的全程演示，希望對大家有幫助。