新浪微博採集-大神教你5分鐘配置一個微博爬蟲
介紹使用八爪魚7.0採集新浪微博數據的方法
採集網站:
https://weibo.com/1875781361/FhuTqwUjk?from=page_1005051875781361_profile&wvr=6&mod=weibotime&type=comment#_rnd1503315170479
使用功能點:
l Ajax滾動載入設置
l 分頁列表詳情頁內容提取
步驟1:創建採集任務
1)進入主界面選擇,選擇自定義模式
2)將上面網址的網址複製粘貼到網站輸入框中,點擊「保存網址」
3)保存網址後,頁面將在八爪魚採集器中打開,紅色方框中的信息是這次演示要採集的內容
步驟2:設置ajax頁面載入時間
l 設置打開網頁步驟的ajax滾動載入時間
l 找到翻頁按鈕,設置翻頁循環
l 設置翻頁步驟ajax下拉載入時間
1)在頁面打開後,當下拉頁面時,會發現頁面有新的數據在進行載入
所以需要進行以下設置:打開流程圖,點擊「打開網頁」步驟,在右側的高級選項框中,勾選「頁面載入完成向下滾動」,設置滾動次數,每次滾動間隔時間,一般設置2秒,這個頁面的滾動方式,選擇直接滾動到底部;最後點擊確定
注意:這裡的滾動次數及間隔需要針對網站進行設置,測試方法可以參考八爪魚7.0教程——AJAX滾動教程
2)將頁面下拉到底部,找到下一頁按鈕,滑鼠點擊,在右側操作提示框中,
選擇「循環點擊下一頁」
由於頁面使用了ajax載入技術,當採集時候,網站總需要重新載入,所以對翻頁步驟需進行上面打開網頁步驟中的設置
步驟3:採集微博內容
l 選中需要採集的微博時間,創建循環點擊列表
l 進入微博頁創建採集列表
1)如圖,移動滑鼠選中列表中商家的名稱,右鍵點擊,需採集的內容會變成綠色
然後點擊「選中全部」
注意:點擊右上角的「流程」按鈕,即可展現出可視化流程圖。
2)然後點擊「循環點擊每個鏈接」
3)網頁會跳轉到詳情頁中,移動滑鼠選中要採集的內容,右鍵點擊,
選擇「採集該鏈接的文本」
4)滑鼠右鍵點擊需要採集的文本欄位,點擊「選中全部」
注意: 滑鼠放在提示框中的欄位上會出現一個刪除標識,點擊即可刪除該欄位。
5)修改採集欄位名稱,點擊下方紅色方框中的「保存並開始採集」
步驟4:數據採集及導出
1)根據採集的情況選擇合適的採集方式,這裡選擇「啟動本地採集」
說明:本地採集佔用當前電腦資源進行採集,如果存在採集時間要求或當前電腦無法長時間進行採集可以使用雲採集功能,雲採集在網路中進行採集,無需當前電腦支持,電腦可以關機,可以設置多個雲節點分攤任務,10個節點相當於10台電腦分配任務幫你採集,速度降低為原來的十分之一;採集到的數據可以在雲上保存三個月,可以隨時進行導出操作。
2)採集完成後,選擇合適的導出方式,將採集好的數據導出
希望這篇文檔的介紹,能讓你掌握新浪微博網頁數據採集,你可以試著上八爪魚官網http://www.bazhuayu.com下載八爪魚最新版本客戶端,也可以關注八爪魚官方微信了解到更多教程案例。
八爪魚·三分鐘就上手的網頁數據採集軟體·而且是免費軟體
點擊鏈接進入官網
八爪魚採集器 - 最好用的網頁數據採集器
推薦閱讀:
※DAY25:10行代碼搞定簡單python爬蟲核心
※全球值得關注的5大爬蟲專業博客網站
※python爬蟲之scrapy掃盲:搜集美圖信息之多層掃描(2)
※Python爬取圖蟲網站照片
※Python3安裝scrapy相關問題(windows平台)