演示利用爬蟲監測網頁評論
輿情監測和管都是從信息的獲取入手。和使用代碼(例如Py)自己寫爬蟲相比,沒有代碼基礎的人 一些可視化工具,也可以實現一樣的效果。下面就以八爪魚為例演示 爬蟲監控網友數據採集評論的全過程。
先概括說一下具體步驟:
1、準備好爬蟲並執行,並建立對應的資料庫表
2、制定更新計劃
3、對評論進行可視化、文本語義等分析
這樣三步,即完成了數據的獲取、存儲和管理、分析。
第一步:準備好爬蟲,並建立對應的資料庫表
以某新聞網站為例。要採集某個關鍵詞相關的所有新聞文章下的網友評論,只需要準備好文章列表即可:
重新播放完整動圖
上面的小 ,演示了從某個新聞網站,搜索「壓歲錢」相關的所有文章列表,爬蟲實現自動翻頁、自動抓取每一篇文章的標題、網址、發布時間。全程未剪輯用時1分半鐘。
是不是比PY寫代碼來得快多了。
這次採集結果,建一個對應的資料庫表,包括標題、網址、發布時間的欄位。設置「網址」一列為unique,每次更新採集列表,只收錄最新的文章。
好了,這樣文章列表搞定,只要再採集其中的評論,就完成了評論的批量獲取。
重新播放完整動圖
演示中以某一篇新聞文章讀者評論為例。從 規則到完成採集耗時約1分10秒,實現了全部評論數據欄位的循環抓取和自動翻頁的效果。
實際使用中,可以在第一步填入多條網址批量處理(上萬OK的)。比如,把上面文章列表中的URL複製過來,一次獲取所有文章評論。這份評論數據,就是 對於這個關鍵詞的觀點的匯總,可以拿來做輿情分析使用。
ps: 有時候採集不準確、點不準的,校準一下XPATH都能搞定。
有些人可能覺得獲取評論要分兩步走很麻煩,「自動一次完成」的更方便。也是可以實現的。只要在採集文章列表的時候,同時
進去每篇文章,同時採集評論就可以。只是這樣,採集流程中會嵌套很多層,首先是列表的循環翻頁、文章的循環打開、評論的循環翻頁、評論的循環採集。這樣執行一次,會花費比較長的時間,萬一中徒出現任何異常(比如遇到網站防爬等),迫使中斷,是無法續採的。
分兩步走,可以在文章列表層面分析數據(比如每天新增文章數)、可以間接地實現斷點續采、雲採集還可以分線程加速執行。有條件的話建議分開兩步實現。
演示利用爬蟲監測網頁評論
第二步:制定更新計劃
可以每天採集一次列表,或者幾天、一周都可以,根據具體的需要。
每次更新,先花一點時間,快速獲取最新的文章列表,並導入資料庫中。
如果只需要監控最新文章的評論,可以只導出最新文章的網址,並填入評論採集爬蟲中執行。
如果需要監控全部文章的評論,就導出所有文章網址,進行採集。有些網站,對於頻繁訪問可能有防爬措施,八爪魚內置了 IP資源、自動切換IP、UA、自動識別驗證碼、 速度等功能。
如果只想監測最新的網友評論觀點,可以把「評論內容」列設置為unique,自動去重。
第三步:對評論進行可視化、文本語義等分析
重新播放完整動圖
如上圖,採集結果導入「智能分析」,可以一鍵可視化,提取關鍵詞等。非常方便。
以上,就是一次 爬蟲技術獲取網友評論、 簡單的資料庫管理技術、可視化智能分析使用數據的全程演示,希望對大家有幫助。
推薦閱讀:
※編程小白如何寫爬蟲程序
※一、Requests庫
※爬蟲的矛與盾
※NodeJs爬蟲抓取古代典籍,共計16000個頁面心得體會總結
TAG:網頁爬蟲 |