Python網路爬蟲（一）- 入門基礎

02-09

Python網路爬蟲（一）- 入門基礎
Python網路爬蟲（二）- urllib爬蟲案例
Python網路爬蟲（三）- 爬蟲進階
Python網路爬蟲（四）- XPath
Python網路爬蟲（五）- Requests和Beautiful Soup
Python網路爬蟲（六）- Scrapy框架
Python網路爬蟲（七）- 深度爬蟲CrawlSpider
Python網路爬蟲（八） - 利用有道詞典實現一個簡單翻譯程序

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
Python學習網路爬蟲主要分3個大的版塊：明確目標，抓取，分析，存儲

明確目標 (要知道你準備在哪個範圍或者網站去搜索)
爬 (將所有的網站的內容全部爬下來)
取 (去掉對我們沒用處的數據)
處理數據（按照我們想要的方式存儲和使用）
網路爬蟲要做的，簡單來說，就是實現瀏覽器的功能。通過指定url，直接返回給用戶所需要的數據，而不需要一步步人工去操縱瀏覽器獲取。

推薦一篇文章：關於反爬蟲，看這一篇就夠了

1.通用爬蟲 VS 聚焦爬蟲

1.通用爬蟲：搜索引擎使用的爬蟲系統

目標：儘可能把互聯網上所有網頁下載來，才能在本地伺服器上，形成備份
實施：將網頁以快照的形式保存在伺服器上，進行關鍵字提取和垃圾數據剔除，提供用戶一個訪問的方式
3.操作：爬取網頁->存儲數據->內容處理->提供檢索

4.搜索引擎排名——PageRank值——根據網站的流量進行順序排名

1.1. 爬取流程

1.選擇已有的url地址，將url地址添加到爬取隊列

2.從提取url，DNS解析主機IP，將目標主機IP添加到爬取隊列

3.分析網頁內容，提取鏈接，繼續執行上一步操作

1.2.搜索引擎獲取新網站URL地址

1.主動推送URL地址->提交URL地址給搜索引擎->百度站長平台

2.其他網站的外鏈

3.搜索引擎和DNS服務商共同處理，收錄新的網站信息

1.3.通用爬蟲限制：Robots協議【約定協議robots.txt】

robots協議：協議指明通用爬蟲可以爬取網頁的許可權
robots協議是一種約定，一般是大型公司的程序或者搜索引擎等遵守

1.4. 缺陷：

只能爬取和文本相關的數據，不能提供多媒體（圖片、音樂、視頻）以及其他二進位文件（代碼、腳本等）的數據爬取
提供的結果千篇一律，提供給所有人通用的一個結果，不能根據具體的人的類型進行區分

2. 聚焦爬蟲：

為了解決通用爬蟲的缺陷，開發人員針對特定用戶而開發的數據採集程序

特點：面向需求，需求驅動開發

2.HTTP & HTTPS

HTTP：超文本傳輸協議：Hyper Text Transfer Protocal
HTTPS： Secure Hypertext Transfer Protocol 安全的超文本傳輸協議
HTTP請求：網路上的網頁訪問，一般使用的都是超文本傳輸協議，用於傳輸各種數據進行數據訪問，從瀏覽器發起的每次URL地址的訪問都稱為請求，獲取數據的過程稱為響應數據
抓包工具：在訪問過程中，獲取網路上傳輸的數據包的工具稱為抓包工具，抓包：網路編程中專業術語名詞，指代的是對網路上傳輸的數據進行抓取解析的過程。我之前用的是Wireshark，其他專業抓包工具如Sniffer,wireshark,WinNetCap.WinSock ,現在用的是Fiddler 抓包，Fiddler 下載地址。

Fiddler 抓包簡介
1）. 欄位說明

2）. Statistics 請求的性能數據分析
3）. Inspectors 查看數據內容
4）. AutoResponder 允許攔截制定規則的請求
5）. Filters 請求過濾規則
6）. Timeline 請求響應時間
Fiddler 設置解密HTTPS的網路數據
Fiddler 抓取Iphone / Android數據包
Fiddler 內置命令與斷點

瀏覽器設置代理進行數據抓包——建議使用谷歌的插件快捷設置不同的代理——Falcon Proxy

3.urllib2

urllib2是python中進行網頁數據抓取的一個操作模塊，urllib2可以當作urllib的擴增，比較明顯的優勢是urllib2.urlopen可以接受Request對象作為參數，從而可以控制HTTP Request的headers,進而實現模擬瀏覽器、模擬登錄等操作。
在python3中，對urllib2進行了優化和完善，封裝成了urllib.request進行處理。
Python 標準庫 urllib2 的使用細節
urllib：

編碼函數：urlencode()
遠程數據取回：urlretrieve()

urllib2：

urlopen（） Request()

urllib2第一彈——urlopen()-urlopen()->response->response->read()抓取網頁數據->response->info() 抓取網頁請求報頭信息->response->geturl()抓取訪問地址->response->getcode()抓取訪問錯誤碼

註解：

urllib2庫裡面的urlopen方法，傳入一個URL，協議是HTTP協議,urlopen一般接受三個參數，urlopen(url, data, timeout)

第一個參數url即為鏈接，
第二個參數data是訪問url時要傳送的數據，
第三個timeout是設置超時時間。

response對象有一個read方法，可以返回獲取到的網頁內容，即response.read()
urlopen參數可以傳入一個request請求,它其實就是一個Request類的實例，構造時需要傳入Url,Data等等的內容

代碼操作一

# -*- coding:utf-8 -*-#引入import urllib2response=urllib2.urlopen(https://www.baidu.com)content=response.read()print(content)

Paste_Image.png

1.headers的屬性介紹

User-Agent : 有些伺服器或 Proxy 會通過該值來判斷是否是瀏覽器發出的請求

Content-Type : 在使用 REST 介面時，伺服器會檢查該值，用來確定 HTTP Body 中的內容該怎樣解析。
application/xml ：在 XML RPC，如 RESTful/SOAP 調用時使用
application/json ：在 JSON RPC 調用時使用
application/x-www-form-urlencoded ：瀏覽器提交 Web 表單時使用
在使用伺服器提供的 RESTful 或 SOAP 服務時， Content-Type 設置錯誤會導致伺服器拒絕服務

注意：使用正則匹配替換^(.*):(.*)$ --> "1":"2",

隨機添加/修改User-Agent

可以通過調用Request.add_header() 添加/修改一個特定的header 也可以通過調用Request.get_header()來查看已有的header。

# urllib2_add_headers.pyimport urllib2import randomurl = "http://www.itcast.cn"ua_list = [ "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ", "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ", "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ", "Mozilla/5.0 (Macintosh; Intel Mac OS... "]user_agent = random.choice(ua_list)request = urllib2.Request(url)#也可以通過調用Request.add_header() 添加/修改一個特定的headerrequest.add_header("User-Agent", user_agent)# 第一個字母大寫，後面的全部小寫request.get_header("User-agent")response = urllib2.urlopen(req)html = response.read()print html

代碼操作二,偽裝瀏覽器訪問

# -*- coding:utf-8 -*-#引入import urllib2from urllib2 import Request#偽裝瀏覽器訪問my_header={User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.108 Safari/537.36 2345Explorer/8.7.0.16013}request=Request(https://www.baidu.com,headers=my_header)response=urllib2.urlopen(request)content=response.read()print(content)

偽裝瀏覽器的頭部可以從審查元素中獲取

2.Referer (頁面跳轉處)

Referer：表明產生請求的網頁來自於哪個URL，用戶是從該 Referer頁面訪問到當前請求的頁面。這個屬性可以用來跟蹤Web請求來自哪個頁面，是從什麼網站來的等。

有時候遇到下載某網站圖片，需要對應的referer，否則無法下載圖片，那是因為人家做了防盜鏈，原理就是根據referer去判斷是否是本網站的地址，如果不是，則拒絕，如果是，就可以下載；

3.Accept-Encoding（文件編解碼格式）

Accept-Encoding：指出瀏覽器可以接受的編碼方式。編碼方式不同於文件格式，它是為了壓縮文件並加速文件傳遞速度。瀏覽器在接收到Web響應之後先解碼，然後再檢查文件格式，許多情形下這可以減少大量的下載時間。

舉例：Accept-Encoding:gzip;q=1.0, identity; q=0.5, ;q=0

如果有多個Encoding同時匹配, 按照q值順序排列，本例中按順序支持 gzip, identity壓縮編碼，支持gzip的瀏覽器會返回經過gzip編碼的HTML頁面。如果請求消息中沒有設置這個域伺服器假定客戶端對各種內容編碼都可以接受。

4.Accept-Language（語言種類）

Accept-Langeuage：指出瀏覽器可以接受的語言種類，如en或en-us指英語，zh或者zh-cn指中文，當伺服器能夠提供一種以上的語言版本時要用到。

5. Accept-Charset（字元編碼）

Accept-Charset：指出瀏覽器可以接受的字元編碼。

舉例：Accept-Charset:iso-8859-1,gb2312,utf-8

ISO8859-1：通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字元，英文瀏覽器的默認值是ISO-8859-1.
gb2312：標準簡體中文字符集;
utf-8：UNICODE 的一種變長字元編碼，可以解決多種語言文本顯示問題，從而實現應用國際化和本地化。
如果在請求消息中沒有設置這個域，預設是任何字符集都可以接受。

6. Cookie （Cookie）

Cookie：瀏覽器用這個屬性向伺服器發送Cookie。Cookie是在瀏覽器中寄存的小型數據體，它可以記載和伺服器相關的用戶信息，也可以用來實現會話功能，以後會詳細講。

7. Content-Type (POST數據類型)

Content-Type：POST請求里用來表示的內容類型。

舉例：Content-Type = Text/XML; charset=gb2312：

指明該請求的消息體中包含的是純文本的XML類型的數據，字元編碼採用「gb2312」。

7.服務端HTTP響應

HTTP響應也由四個部分組成，分別是：狀態行、消息報頭、空行、響應正文

4.常用的響應報頭(了解)

理論上所有的響應頭信息都應該是回應請求頭的。但是服務端為了效率，安全，還有其他方面的考慮，會添加相對應的響應頭信息，從上圖可以看到：

1. Cache-Control：must-revalidate, no-cache, private。

這個值告訴客戶端，服務端不希望客戶端緩存資源，在下次請求資源時，必須要從新請求伺服器，不能從緩存副本中獲取資源。

Cache-Control是響應頭中很重要的信息，當客戶端請求頭中包含Cache-Control:max-age=0請求，明確表示不會緩存伺服器資源時,Cache-Control作為作為回應信息，通常會返回no-cache，意思就是說，"那就不緩存唄"。
當客戶端在請求頭中沒有包含Cache-Control時，服務端往往會定,不同的資源不同的緩存策略，比如說oschina在緩存圖片資源的策略就是Cache-Control：max-age=86400,這個意思是，從當前時間開始，在86400秒的時間內，客戶端可以直接從緩存副本中讀取資源，而不需要向伺服器請求。

2. Connection：keep-alive

這個欄位作為回應客戶端的Connection：keep-alive，告訴客戶端伺服器的tcp連接也是一個長連接，客戶端可以繼續使用這個tcp連接發送http請求。

3. Content-Encoding:gzip

告訴客戶端，服務端發送的資源是採用gzip編碼的，客戶端看到這個信息後，應該採用gzip對資源進行解碼。

4. Content-Type：text/html;charset=UTF-8

告訴客戶端，資源文件的類型，還有字元編碼，客戶端通過utf-8對資源進行解碼，然後對資源進行html解析。通常我們會看到有些網站是亂碼的，往往就是伺服器端沒有返回正確的編碼。

5. Date：Sun, 21 Sep 2016 06:18:21 GMT

這個是服務端發送資源時的伺服器時間，GMT是格林尼治所在地的標準時間。http協議中發送的時間都是GMT的，這主要是解決在互聯網上，不同時區在相互請求資源的時候，時間混亂問題。

6. Expires:Sun, 1 Jan 2000 01:00:00 GMT

這個響應頭也是跟緩存有關的，告訴客戶端在這個時間前，可以直接訪問緩存副本，很顯然這個值會存在問題，因為客戶端和伺服器的時間不一定會都是相同的，如果時間不同就會導致問題。所以這個響應頭是沒有Cache-Control：max-age=*這個響應頭準確的，因為max-age=date中的date是個相對時間，不僅更好理解，也更準確。

7. Pragma:no-cache

這個含義與Cache-Control等同。

8.Server：Tengine/1.4.6

這個是伺服器和相對應的版本，只是告訴客戶端伺服器的信息。

9. Transfer-Encoding：chunked

這個響應頭告訴客戶端，伺服器發送的資源的方式是分塊發送的。一般分塊發送的資源都是伺服器動態生成的，在發送時還不知道發送資源的大小，所以採用分塊發送，每一塊都是獨立的，獨立的塊都能標示自己的長度，最後一塊是0長度的，當客戶端讀到這個0長度的塊時，就可以確定資源已經傳輸完了。

10. Vary: Accept-Encoding

告訴緩存伺服器，緩存壓縮文件和非壓縮文件兩個版本，現在這個欄位用處並不大，因為現在的瀏覽器都是支持壓縮的。

響應狀態碼

響應狀態代碼有三位數字組成，第一個數字定義了響應的類別，且有五種可能取值。

常見狀態碼：

100~199：表示伺服器成功接收部分請求，要求客戶端繼續提交其餘請求才能完成整個處理過程。
200~299：表示伺服器成功接收請求並已完成整個處理過程。常用200（OK 請求成功）。
300~399：為完成請求，客戶需進一步細化請求。例如：請求的資源已經移動一個新地址、常用302（所請求的頁面已經臨時轉移至新的url）、307和304（使用緩存資源）。
400~499：客戶端的請求有錯誤，常用404（伺服器無法找到被請求的頁面）、403（伺服器拒絕訪問，許可權不夠）。
500~599：伺服器端出現錯誤，常用500（請求未完成。伺服器遇到不可預知的情況）。

Cookie 和 Session：

伺服器和客戶端的交互僅限於請求/響應過程，結束之後便斷開，在下一次請求時，伺服器會認為新的客戶端。

為了維護他們之間的鏈接，讓伺服器知道這是前一個用戶發送的請求，必須在一個地方保存客戶端的信息。

Cookie：通過在客戶端記錄的信息確定用戶的身份。

Session：通過在伺服器端記錄的信息確定用戶的身份。

作者：_知幾 Python愛好者社區專欄作者，請勿轉載，謝謝。
簡書主頁：http://www.jianshu.com/u/9dad6621d2a0
博客專欄：_知幾的博客專欄
配套視頻教程：Python3爬蟲三大案例實戰分享：貓眼電影、今日頭條街拍美圖、淘寶美食 Python3爬蟲三大案例實戰分享

公眾號：Python愛好者社區（微信ID：python_shequ），關注，查看更多連載內容。