輕鬆學會採集鏈家網房源信息的爬蟲技巧
介紹使用八爪魚7.0採集鏈家房源數據的方法(以深圳出租房為例)
採集網站:
https://sz.lianjia.com/zufang/
示例規則下載:http://esf.sz.fang.com
使用功能點:
l 分頁列表頁信息採集
步驟1:創建採集任務
1)進入主界面選擇,選擇自定義模式
2)將上面網址的網址複製粘貼到網站輸入框中,點擊「保存網址」
3)保存網址後,頁面將在八爪魚採集器中打開,紅色方框中的列表內容,就是演示採集數據
步驟2:創建翻頁循環
l 找到翻頁按鈕,設置翻頁循環
1)將頁面下拉到底部,找到下一頁按鈕,滑鼠點擊,在右側操作提示框中,
選擇「循環點擊下一頁」
步驟3:房源信息採集
l 選中需要採集的欄位信息,創建採集列表
l 編輯採集欄位名稱
1)如圖,移動滑鼠選中列表中標題的名稱,右鍵點擊,需採集的內容會變成綠色
注意:點擊右上角的「流程」按鈕,即可展現出可視化流程圖。
2)移動滑鼠選中紅色方框里任意文本欄位後,列表中所有適配內容會變成綠色,在右側操作提示框中,查看提取的欄位,可以將不需要的欄位刪除,然後點擊「選中全部」
注意: 滑鼠放在該欄位上會出現一個刪除標識,點擊即可刪除該欄位。
3)點擊「採集以下數據」
4)修改採集欄位名稱,點擊下方紅色方框中的「保存並開始採集」
5)根據採集的情況選擇合適的採集方式,這裡選擇「啟動本地採集」
說明:本地採集佔用當前電腦資源進行採集,如果存在採集時間要求或當前電腦無法長時間進行採集可以使用雲採集功能,雲採集在網路中進行採集,無需當前電腦支持,電腦可以關機,可以設置多個雲節點分攤任務,10個節點相當於10台電腦分配任務幫你採集,速度降低為原來的十分之一;採集到的數據可以在雲上保存三個月,可以隨時進行導出操作。
步驟4:數據採集及導出
1)採集完成後,會跳出提示,選擇「導出數據」
2)選擇合適的導出方式,將採集好的數據導出
希望這篇文檔的介紹,能讓你掌握鏈家網信息網頁數據採集,你可以試著上八爪魚官網http://www.bazhuayu.com下載八爪魚最新版本客戶端,也可以關注八爪魚官方微信了解到更多教程案例。
八爪魚·三分鐘就上手的網頁數據採集軟體·而且是免費軟體
點擊鏈接進入官網
八爪魚採集器 - 最好用的網頁數據採集器
推薦閱讀:
※網易雲音樂-聽見好時光
※Python爬蟲練習——爬取圖片並保存
※python爬取1024某工廠資源
※python 爬取煎蛋網妹子圖
※DAY25:10行代碼搞定簡單python爬蟲核心