學習爬蟲的同學看過來,爬蟲原理講解,附User-Agent大全

學習爬蟲的同學看過來,爬蟲原理講解,附User-Agent大全

來自專欄 Python大神進階之路24 人贊了文章

爬蟲是什麼?

向網站發起請求,然後獲取資源數據

通過程序來模擬人的請求,獲取諸如json,圖片,源碼,文字等等這樣的數據,然後進行分析使用,當然也包括通過一些請求,讓網站做出一些改變(如,搶票,刷課等等)

爬蟲基本流程。

方式1:提交請求->下載網頁代碼->進行解析

方式2:模擬發送請求->拿到網頁代碼,提取數據->將數據存放於資料庫中

  1. 發起請求

    使用http庫向目標站點發起請求

    Request包含:請求頭、請求體等

    Request模塊缺陷:無法載入JavaScript和css樣式
  2. 獲取響應內容

    如果伺服器能正常響應,則會得到一個Response

    Response包含:可能是HTML代碼,也可能是json數據,或者是圖片,視頻等文件
  3. 解析內容

    解析html數據:最常用也最強大的便是正則(re)了,但是夠方便,另外還有如beautifulsoup,xpath這樣的模塊

    解析json數據:requests自帶json直接解析,另外可以使用json模塊

    解析二進位數據:可以以二進位形式寫入文件中,另外也可以使用requests.content,一般圖片和視頻都是以這種形式保存
  4. 保存數據

    資料庫(MySQL,Mongdb、Redis)

http協議 請求與響應。

  1. Request:模擬瀏覽器將數據,請求發送給伺服器。
  2. Response:伺服器接收請求,分析用戶請求,然後返回相應的數據

附帶一波User-Agent大全:

safari 5.1 – MAC

User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

safari 5.1 – Windows

User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

Firefox 4.0.1 – MAC

User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Firefox 4.0.1 – Windows

User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Opera 11.11 – MAC

User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11

Opera 11.11 – Windows

User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11

Chrome 17.0 – MAC

User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11

其他的以及移動端的就不一一打出來了,如果有需要的朋友可以私信一下我。

整理不易,大家如果喜歡可以點贊收藏,如果想要學習爬蟲,可以加一下我的q-u-n,719-139-688,么么噠。


推薦閱讀:

今日芯聲 | 懶人黑科技再現!打傘竟不用手!
聚賢納才 | 工享家講師招募中
哪個沒心沒肺的人,沒有一段為某人掏心掏肺的曾經 | 酷聽科技
Adobe計劃明年將在iPad上推出Photoshop專業版
為何不投資谷歌等科技股 2012年05月12日

TAG:爬蟲計算機網路 | 科技 | Python |