【Python3網路爬蟲開發實戰】3.1-使用urllib
02-26
在Python 2中,有urllib和urllib2兩個庫來實現請求的發送。而在Python 3中,已經不存在urllib2這個庫了,統一為urllib,其官方文檔鏈接為:https://docs.python.org/3/library/urllib.html。
首先,了解一下urllib庫,它是Python內置的HTTP請求庫,也就是說不需要額外安裝即可使用。它包含如下4個模塊。
request
:它是最基本的HTTP請求模塊,可以用來模擬發送請求。就像在瀏覽器里輸入網址然後回車一樣,只需要給庫方法傳入URL以及額外的參數,就可以模擬實現這個過程了。error
:異常處理模塊,如果出現請求錯誤,我們可以捕獲這些異常,然後進行重試或其他操作以保證程序不會意外終止。parse
:一個工具模塊,提供了許多URL處理方法,比如拆分、解析、合併等。robotparser
:主要是用來識別網站的robots.txt文件,然後判斷哪些網站可以爬,哪些網站不可以爬,它其實用得比較少。
這裡重點講解一下前3個模塊。
本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)
推薦閱讀: