【Python3網路爬蟲開發實戰】3-基本庫的使用

學習爬蟲,最初的操作便是模擬瀏覽器向伺服器發出請求,那麼我們需要從哪個地方做起呢?請求需要我們自己來構造嗎?需要關心請求這個數據結構的實現嗎?需要了解HTTP、TCP、IP層的網路傳輸通信嗎?需要知道伺服器的響應和應答原理嗎?

可能你不知道無從下手,不過不用擔心,Python的強大之處就是提供了功能齊全的類庫來幫助我們完成這些請求。最基礎的HTTP庫有urllib、httplib2、requests、treq等。

拿urllib這個庫來說,有了它,我們只需要關心請求的鏈接是什麼,需要傳的參數是什麼以及可選的請求頭設置就好了,不用深入到底層去了解它到底是怎樣傳輸和通信的。有了它,兩行代碼就可以完成一個請求和響應的處理過程,得到網頁內容,是不是感覺方便極了?

接下來,就讓我們從最基礎的部分開始了解這些庫的使用方法吧。


本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder

weixin.qq.com/r/5zsjOyv (二維碼自動識別)

推薦閱讀:

作為一個Python程序員,電腦上應該具備哪些軟體?
數據科學--Pandas基本使用
如何優化 Python 爬蟲的速度?
Python爬蟲利器之PyQuery的用法
黃哥定期更新Python免費學習資料

TAG:Python | 爬蟲計算機網路 |