Python爬蟲實戰入門二：從一個簡單的HTTP請求開始

01-28

無論我們通過瀏覽器打開網站、訪問網頁，還是通過腳本對URL網址進行訪問，本質上都是對HTTP伺服器的請求，瀏覽器上所呈現的、控制台所顯示的都是HTTP伺服器對我們請求的響應。

以打開我的個人網站為例，我們在地址欄輸入「zmister.com」，瀏覽器上呈現的是下圖：

我們按F12打開網頁調試工具，選擇「network」選項卡，可以看到我們對http://zmister.com的請求，以及http://zmister.com給我們的響應：

請求與響應

響應消息主體

通常HTTP消息包括客戶機向伺服器的請求消息和伺服器向客戶機的響應消息。這兩種類型的消息由一個起始行，一個或者多個頭域，一個指示頭域結束的空行和可選的消息體組成。

我們看上面對http://zmister.com的HTTP示例來說明：

Request URl:表示請求的URL

Request Method：表示請求的方法，此處為GET。除此之外，HTTP的請求方法還有OPTION、HEAD、POST、DELETE、PUT等，而最常用的就是GET和POST方法：

Status Code：顯示HTTP請求和狀態碼，表示HTTP請求的狀態，此處為200，表示請求已被伺服器接收、理解和處理；

狀態代碼的第一個數字代表當前響應的類型，HTTP協議中有以下幾種響應類型：

Accept：表示請求的資源類型;

Cookie:為了辨別用戶身份、進行 session 跟蹤而儲存在用戶本地終端上的數據;

User-Agent:表示瀏覽器標識;

Accept-Language:表示瀏覽器所支持的語言類型；

Accept-Charset:告訴 Web 伺服器，瀏覽器可以接受哪些字元編碼；

Accept:表示瀏覽器支持的 MIME 類型；

Accept-Encoding:表示瀏覽器有能力解碼的編碼類型；

Connection:表示客戶端與服務連接類型；

基本的HTTP介紹就結束了，如果需要更加詳細的HTTP知識，推薦一本HTTP入門書《圖解HTTP》

下面，我們用Python來實現一個簡單的HTTP請求

這裡繼續用我的個人網站http://zmmister.com 作示例

打開代碼編輯器，輸入以下代碼：

#coding:utf-8nimport requestsnnurl = "http://zmister.com"ndata = requests.get(url)n

這樣，就完成了一個簡單的對http://zmister.com的HTTP請求。

我們看看這個請求的狀態碼：

data.status_coden

結果返回的是：200

再看看響應的主體消息：

data.content

結果返回了一大串編碼了的HTML源碼，這些HTML源碼未經解碼和解析，看上起很是凌亂

對這些凌亂的html源碼進行處理，就需要使用到BeautifulSoup模塊了，下一章咱們繼續。

====================================================================

微信公眾號：州的先生不定期更新爬蟲、網路數據採集、數據分析