【Python3網路爬蟲開發實戰】3-基本庫的使用

02-26

學習爬蟲，最初的操作便是模擬瀏覽器向伺服器發出請求，那麼我們需要從哪個地方做起呢？請求需要我們自己來構造嗎？需要關心請求這個數據結構的實現嗎？需要了解HTTP、TCP、IP層的網路傳輸通信嗎？需要知道伺服器的響應和應答原理嗎？

可能你不知道無從下手，不過不用擔心，Python的強大之處就是提供了功能齊全的類庫來幫助我們完成這些請求。最基礎的HTTP庫有urllib、httplib2、requests、treq等。

拿urllib這個庫來說，有了它，我們只需要關心請求的鏈接是什麼，需要傳的參數是什麼以及可選的請求頭設置就好了，不用深入到底層去了解它到底是怎樣傳輸和通信的。有了它，兩行代碼就可以完成一個請求和響應的處理過程，得到網頁內容，是不是感覺方便極了？

接下來，就讓我們從最基礎的部分開始了解這些庫的使用方法吧。

本資源首發於崔慶才的個人博客靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)