爬蟲開發實用小工具匯總

作者:Zarten

知乎專欄:Python爬蟲深入詳解

知乎ID: Zarten

簡介: 互聯網一線工作者,尊重原創並歡迎評論留言指出不足之處,也希望多些關注和點贊是給作者最好的鼓勵 !

概述

在做爬蟲開發中,有一些實用的小工具可以幫助我們事半功倍,正所謂:「欲善其事必先利其器」。

工具介紹

1.httpbin

官網:

httpbin.org

此網站可以用作爬蟲的測試(http和https),會返回爬蟲機器的一些信息,也可以做在線測試。具體用法可查看官網,一目了然,這裡不做闡述。

2.curl to python

官網:

Convert cURL command syntax to Python requests, Node.js, R, PHP, Strest, Go, JSON, and Rust code

此網站可以將curl命令快速轉為python的requests請求(其他語言也可以),而curl命令可以通過瀏覽器開發者工具快速獲取。

  • 獲取curl命令

  • 轉換成python的requests

3.XPath Helper

此工具是chrome的擴展程序,用於輔助分析和調試xpath

  • 獲取Xpath

  • 利用XPath Helper調試

4.JavaScript Toggle On and Off

此工具為chrome擴展程序,用於檢測目標網站哪些元素是通過JS載入的。

  • 使用方法

點擊圖標後會顯示帶紅色叉,表示網頁禁止載入js,可以直截了當的看到哪些元素是js載入生成的。再次點擊重新載入網頁,不會阻止js載入。

呈現結果:

5.代理ip檢測

官網:(此網站需要翻牆)

proxyhttp.net/check

做爬蟲時,很多時候需要用到代理ip,此網站可以查看代理是否可用,代理ip的匿名程度,地點等信息

6.EditThisCookie

官方文檔:

Getting Started with EditThisCookie

此工具為chrome擴展程序,可對目標網站的cookies進行任意的操作,具體詳細的用法可查看上面提供的官方文檔

7.Postman

官網:

Postman

官方推薦使用本地應用程序代替chrome的擴展程序,因此只需在官網下載安裝包即可。

Postman是一款web調試和測試的工具,請求參數完全由自己控制,可模擬幾乎所有類型的http請求。

8.抓包工具fiddler

fiddler專門用來捕獲http和https協議的抓包工具,一般用於windows系統。IOS常用Charles工具,若需要抓取更多協議的信息,可使用wireshark工具。

官網:

telerik.com/fiddler

9.Python爬蟲相關包

這些python爬蟲相關包來自github的awesome項目

官網:

lorien/awesome-web-scraping

網址(中文):

156個Python網路爬蟲資源,GitHub上awesome系列之Python爬蟲工具-雲棲社區-阿里雲


推薦閱讀:

TAG:python爬蟲 | 網路工具 | 網頁爬蟲 |