解讀爬蟲中HTTP的秘密(基礎篇)
作者:xiaoyu
微信公眾號:Python數據科學在學習爬蟲的過程中,相信大家對HTTP
這個詞已經不陌生了,它好像從未離開過我們的視線。被迫所需,我們每次都要使用開發者工具去查看請求頭
,響應頭
,以及頭中的各個欄位
,使用別人封裝好的模塊填入信息,敲幾行代碼就解決了。面對簡單的爬取任務,我們也許根本不用管它是什麼,但可能等我們真正遇到問題的時候,卻無從下手。
認識並深刻理解HTTP對於爬蟲的實現過程是非常有幫助的。為了更好的讓大家理解爬蟲中的HTTP,博主將分為兩篇對HTTP進行講述,<基礎篇>
和 <高階篇>
。本篇為基礎篇,將從以下幾個部分進行闡述。
- 什麼是HTTP
- 一個完整的HTTP請求過程
- HTTP請求報文
什麼是HTTP?
<HTTP的介紹>
引自百度百科的權威回答:
超文本傳輸協議
是互聯網上應用最為廣泛的一種網路協議。所有WWW文件都必須遵守這個標準。(HTTP,HyperText Transfer Protocol)
設計HTTP最初的目的是為了提供一種發布和接收HTML頁面的方法。
1960年美國人TedNelson構思了一種通過計算機處理文本信息的方法,並稱之為超文本(hypertext),這成為了HTTP超文本傳輸協議標準架構的發展根基。TedNelson組織協調萬維網協會(World Wide Web Consortium)和互聯網工程工作小組(InternetEngineering Task Force )共同合作研究,最終發布了一系列的RFC,其中著名的RFC 2616定義了HTTP 1.1。HTTP協議是用於從WWW伺服器傳輸超文本到本地瀏覽器的傳輸協議。
它可以使瀏覽器更加高效,使網路傳輸減少。它不僅保證計算機正確快速地傳輸超文本文檔,還確定傳輸文檔中的哪一部分,以及哪部分內容首先顯示(如文本先於圖形)等。
<HTTP的模型>
HTTP採用了瀏覽器/伺服器這種請求/響應
模型,瀏覽器永遠是HTTP請求的發起者,伺服器為響應者。
這樣在瀏覽器客戶端沒有發起請求的情況下,伺服器是不能主動推送消息給客戶端的。
<HTTP的定位>
HTTP是一個應用層協議
,是我們想從伺服器端獲取信息的最直觀的請求。比如,在爬蟲中使用的<urllib模塊>
,<requests模塊>
等都是封裝了HTTP協議,作為一個HTTP客戶端
實現了博文,圖片,視頻等信息源的下載。
但是HTTP也不是直接就可以用的,它的請求是建立在一些底層協議的基礎上完成的。如TCP/IP協議棧
中,HTTP需要TCP的三次握手連接成功後才能向伺服器發起請求。當然,如果是HTTPS
的話,還需要TSL
和SSL
安全層。
一個完整的HTTP請求過程
既然HTTP協議
需要建立在其它底層協議基礎上,我們來看看一個完整的HTTP請求是什麼樣的。
當我們點擊一個鏈接或者輸入一個鏈接的時候,整個HTTP的請求過程就開始了,然後經過以下步驟得到最後的信息,我們這裡簡單介紹一下前四個步驟,旨在了解HTTP。
- 域名解析:首先會搜索各種本地
DNS緩存
,如果沒有就會向DNS伺服器
(互聯網提供商)發起域名解析,以獲取IP地址
。 - 建立TCP連接:當獲取IP後,將創建套接字socket連接,也就是
TCP的3次握手
連接,默認埠號80
。 - HTTP請求:一旦TCP連接成功後,瀏覽器/爬蟲就可以向伺服器發起HTTP請求報文了,報文內容包含
請求行、請求頭部、請求主體
。 - 伺服器響應:伺服器響應,並返回一個HTTP響應包(如果成功會返回狀態碼
200
)和請求的HTML代碼。
上面的步驟<3>
和<4>
可以簡單的示意如下,更方便大家理解。其中,請求和響應都包含特定格式的信息,具體我們接下來會繼續解讀。
響應HTTP請求會返回響應狀態碼
,根據狀態碼可以知道返回信息的狀態。狀態碼規定如下:
1xx: 信息響應類,表示接收到請求並且繼續處理
100——必須繼續發出請求 101——要求伺服器根據請求轉換HTTP協議版本2xx: 處理成功響應類,表示動作被成功接收、理解和接受 200——交易成功201——提示知道新文件的URL202——接受和處理、但處理未完成
203——返回信息不確定或不完整204——請求收到,但返回信息為空205——伺服器完成了請求,用戶代理必須複位當前已經瀏覽過的文件206——伺服器已經完成了部分用戶的GET請求3xx: 重定向響應類,為了完成指定的動作,必須接受進一步處理300——請求的資源可在多處得到301——刪除請求數據302——在其他地址發現了請求數據303——建議客戶訪問其他URL或訪問方式304——客戶端已經執行了GET,但文件未變化
305——請求的資源必須從伺服器指定的地址得到306——前一版本HTTP中使用的代碼,現行版本中不再使用307——申明請求的資源臨時性刪除4xx: 客戶端錯誤,客戶請求包含語法錯誤或者是不能正確執行400——錯誤請求,如語法錯誤401——未授權402——保留有效ChargeTo頭響應403——禁止訪問404——沒有發現文件、查詢或URl405——在Request-Line欄位定義的方法不允許
406——根據發送的Accept,請求資源不可訪問407——用戶必須首先在代理伺服器上得到授權408——客戶端沒有在指定的時間內完成請求409——對當前資源狀態,請求不能完成410——伺服器不再有此資源且無進一步地址411——伺服器拒絕用戶定義的Content-Length412——一個或多個請求頭欄位在當前請求中錯誤413——請求的資源大於伺服器允許的大小414——請求的資源URL長於伺服器允許的長度415——請求資源不支持請求項目格式
416——請求中包含Range請求頭欄位,在當前請求資源範圍內沒有range指示值,請求也不包含If-Range請求頭欄位417——伺服器不滿足請求Expect頭欄位指定的期望值,如果是代理伺服器,可能是下一級伺服器不能滿足請求長。5xx: 服務端錯誤,伺服器不能正確執行一個正確的請求500——內部伺服器錯誤501——未實現502——網關錯誤
HTTP請求報文
相信你已經對HTTP的請求過程有了大致的了解了,下面我們來詳細介紹HTTP請求的報文信息
。
請求行、請求頭部、請求主體
。下面我們來看一下通過開發者工具請求https://www.baidu.com/網址截取下來的HTTP請求報文內容,對比一下上面的標準格式。
我們發現請求報文的格式與上面基本一致,正式我們想要的。那麼,接下來我們將要逐個的介紹以上各個信息。
請求行
<GET>
是HTTP的請求方式之一,HTTP/1.1協議中共定義了8種方法與伺服器交互,有 GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT,其中比較常用的是<GET>和<POST>方法了。
- HEAD: 從伺服器得到除了請求體與GET請求一樣的響應
- GET:通過URL獲取查詢資源信息(爬蟲特定URL爬取)
- POST:提交表單(爬蟲中的模擬登錄)
- PUT:上傳文件(瀏覽器不支持)
- DELETE:刪除
- OPTIONS:返回伺服器對特定資源支持的HTTP請求方法
- TRACE:返回伺服器收到的請求,用於測試或診斷 CONNECT:預留給管道連接方式的代理服務
GET請求方法後URL(這裡是/)和版本1.1,別忘了空格
。
請求頭
HTTP的頭域包括通用頭
、請求頭
、響應頭
和實體頭
四部分。因為在爬蟲過程中,我們經常會提交headers
請求頭信息用於偽裝,所以我們這裡對請求頭著重講解一下。
請求頭是請求報文特有的,它向伺服器提交了一些額外的信息,例如通過Accept欄位信息,我們客戶端可以告訴伺服器我們接受一些什麼類型的數據。而我們其實可以把這些欄位信息就當成<鍵值對>對待。
下面我們看看這些欄位都代表了什麼意思?
Accept
內容:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8 含義:告訴瀏覽器我們接受MIME的類型
Accept-Encoding
內容:gzip, deflate, br
含義:如果有這個欄位,則代表客戶端支持壓縮將內容編碼,去掉後會支持任意編碼。注意:爬蟲時一般不要把它加上,博主最開始就是不懂全都複製過來,結果因為這個就是不好使卡住好長時間。
Accept-Lanague
內容:zh-CN,zh;q=0.9
含義:告訴伺服器能夠接受的語言,沒有則代表任何語言Connection
內容:keep-alive
含義:告訴伺服器需要持久有效的連接狀態(HTTP1.1默認會進行持久連接)Host
內容:http://www.baidu.com
含義:客戶端指定自己想訪問的web伺服器域名/IP地址和埠號Cache-control
內容:max-age=0
含義:(引自百度百科)Cache-Control
是最重要的規則。這個欄位用於指定所有緩存機制在整個請求/響應鏈中必須服從的指令。這些指令指定用於阻止緩存對請求或響應造成不利干擾的行為。這些指令通常覆蓋默認緩存演算法。緩存指令是單向的,即請求中存在一個指令並不意味著響應中將存在同一個指令。網頁的緩存是由HTTP消息頭中的「Cache-control」來控制的,常見的取值有private、no-cache、max-age、must-revalidate等,默認為private。
但是HTTP請求和響應的Cache-Control是不完全一樣的。
常見的請求Cache-Control
取值有<no-cache>, <no-store>, <max-age>, <max-stale>, <min-fresh>, <only-if-cached>
。響應的Cache-Control取值有<public>, <private>, <no-cache>, <no- store>, <no-transform>, <must-revalidate>, <proxy-revalidate>, <max-age>
。
我們這裡主要介紹請求時的常見Cache-Control取值。
<1>max-age<=0
本例中使用max-age=0
,表示每次請求會訪問伺服器,通過Last-Modified
來判斷文件是否被修改,如果被修改,返回狀態碼200並得到最新文件,否則將返回304狀態碼並讀取緩存文件。<2>max-age>0
表示會直接從瀏覽器提取緩存。<3>no-cache
表示不會在瀏覽器緩存進行提取,而是強制的向伺服器發出請求,這樣可以保證客戶端能夠收到最權威的回應。<4>no-store
所有內容都不會被緩存到緩存或Internet臨時文件中。Upgrade-Insecure-Requests
內容::1
含義:表示瀏覽器/爬蟲可以處理HTTPS協議,並能自動升級請求從HTTP到HTTPS。User-Agent
內容:Mozilla/5.0 (Windows NT 6.1; WOW64) ..Safari/537.36
含義:(這個是爬蟲中最常用了)用於偽裝成瀏覽器身份請求網頁。它的意思自然就是表示瀏覽器的身份,說明是用的哪種瀏覽器進行的操作。Cookies
含義:(這個也是爬蟲中很重要的了,通常用於模擬登錄)
Cookies是用於維持服務端的會話狀態,由伺服器端寫入,然後在後續請求中,供伺服器讀取使用。以上就是本例中出現的所有欄位信息內容。當然,還有其它一些常用欄位信息,這裡也一起說明一下。
其它請求頭欄位信息
Referer
含義:(這個也是爬蟲常用到的,防盜鏈
)
Accept-Charset
含義:(這個也是爬蟲常用到的)
表示瀏覽器可接受的字符集,可以是utf-8
,gbk
等
If-Modified-Since
內容:Thu, 10 Apr 2008 09:14:42 GMT
含義:請求的內容在指定日期以後一旦被修改就被返回對象內容,否則返回「Not Modified」Pragma
含義:
Pragma頭域用來包含實現特定的指令,最常用的是Pragma:no-cache。在HTTP/1.1協議中,它的含義和Cache-Control:no-cache相同。
Range
:
含義:告訴瀏覽器自己想取對象的哪個部分。例如,Range: bytes=1173546
總結
本篇內容介紹了HTTP的基本概念,主要包含了以下幾點:
- 什麼是HTTP
- HTTP的模型、作用和定位
- 一個完整的HTTP請求過程
- HTTP請求頭信息
- HTTP請求頭常用欄位信息
下篇將會分享一些HTTP的高級內容,包括如下內容:
- Cookie
- Sesssion
- HTTPS
最後,歡迎大家給我留言,我們可以一起討論,共同學習爬蟲技術。博主也是不斷的學習中,並會在學習中持續分享。
可以關注微信公眾號Python數據科學,讓一切用數據說話。
推薦閱讀:
※拉勾網_數據分析師崗位:Python爬蟲
※基於cookie登錄爬取豆瓣舌尖短評信息並做詞雲分析
※一個Python小白5個小時爬蟲經歷
※初識Scrapy,在充滿爬蟲的世界裡做一個好公民
※python爬取QQ音樂