【Python3網路爬蟲開發實戰】3.1-使用urllib

02-26

在Python 2中，有urllib和urllib2兩個庫來實現請求的發送。而在Python 3中，已經不存在urllib2這個庫了，統一為urllib，其官方文檔鏈接為：https://docs.python.org/3/library/urllib.html。

首先，了解一下urllib庫，它是Python內置的HTTP請求庫，也就是說不需要額外安裝即可使用。它包含如下4個模塊。

request：它是最基本的HTTP請求模塊，可以用來模擬發送請求。就像在瀏覽器里輸入網址然後回車一樣，只需要給庫方法傳入URL以及額外的參數，就可以模擬實現這個過程了。
error：異常處理模塊，如果出現請求錯誤，我們可以捕獲這些異常，然後進行重試或其他操作以保證程序不會意外終止。
parse：一個工具模塊，提供了許多URL處理方法，比如拆分、解析、合併等。
robotparser：主要是用來識別網站的robots.txt文件，然後判斷哪些網站可以爬，哪些網站不可以爬，它其實用得比較少。

這裡重點講解一下前3個模塊。

本資源首發於崔慶才的個人博客靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)