【Python3網路爬蟲開發實戰】3-基本庫的使用
02-26
學習爬蟲,最初的操作便是模擬瀏覽器向伺服器發出請求,那麼我們需要從哪個地方做起呢?請求需要我們自己來構造嗎?需要關心請求這個數據結構的實現嗎?需要了解HTTP、TCP、IP層的網路傳輸通信嗎?需要知道伺服器的響應和應答原理嗎?
可能你不知道無從下手,不過不用擔心,Python的強大之處就是提供了功能齊全的類庫來幫助我們完成這些請求。最基礎的HTTP庫有urllib、httplib2、requests、treq等。
拿urllib這個庫來說,有了它,我們只需要關心請求的鏈接是什麼,需要傳的參數是什麼以及可選的請求頭設置就好了,不用深入到底層去了解它到底是怎樣傳輸和通信的。有了它,兩行代碼就可以完成一個請求和響應的處理過程,得到網頁內容,是不是感覺方便極了?
接下來,就讓我們從最基礎的部分開始了解這些庫的使用方法吧。
本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)
推薦閱讀:
※作為一個Python程序員,電腦上應該具備哪些軟體?
※數據科學--Pandas基本使用
※如何優化 Python 爬蟲的速度?
※Python爬蟲利器之PyQuery的用法
※黃哥定期更新Python免費學習資料