【Python3網路爬蟲開發實戰】3.1-使用urllib

在Python 2中,有urllib和urllib2兩個庫來實現請求的發送。而在Python 3中,已經不存在urllib2這個庫了,統一為urllib,其官方文檔鏈接為:docs.python.org/3/libra

首先,了解一下urllib庫,它是Python內置的HTTP請求庫,也就是說不需要額外安裝即可使用。它包含如下4個模塊。

  • request:它是最基本的HTTP請求模塊,可以用來模擬發送請求。就像在瀏覽器里輸入網址然後回車一樣,只需要給庫方法傳入URL以及額外的參數,就可以模擬實現這個過程了。
  • error:異常處理模塊,如果出現請求錯誤,我們可以捕獲這些異常,然後進行重試或其他操作以保證程序不會意外終止。
  • parse:一個工具模塊,提供了許多URL處理方法,比如拆分、解析、合併等。
  • robotparser:主要是用來識別網站的robots.txt文件,然後判斷哪些網站可以爬,哪些網站不可以爬,它其實用得比較少。

這裡重點講解一下前3個模塊。


本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder

weixin.qq.com/r/5zsjOyv (二維碼自動識別)

推薦閱讀:

TAG:Python | 爬蟲計算機網路 |