學習爬蟲的同學看過來,爬蟲原理講解,附User-Agent大全
來自專欄 Python大神進階之路24 人贊了文章
爬蟲是什麼?
向網站發起請求,然後獲取資源數據
通過程序來模擬人的請求,獲取諸如json,圖片,源碼,文字等等這樣的數據,然後進行分析使用,當然也包括通過一些請求,讓網站做出一些改變(如,搶票,刷課等等)
爬蟲基本流程。
方式1:提交請求->下載網頁代碼->進行解析
方式2:模擬發送請求->拿到網頁代碼,提取數據->將數據存放於資料庫中
- 發起請求
使用http庫向目標站點發起請求
Request包含:請求頭、請求體等Request模塊缺陷:無法載入JavaScript和css樣式 - 獲取響應內容如果伺服器能正常響應,則會得到一個ResponseResponse包含:可能是HTML代碼,也可能是json數據,或者是圖片,視頻等文件
- 解析內容
解析html數據:最常用也最強大的便是正則(re)了,但是夠方便,另外還有如beautifulsoup,xpath這樣的模塊
解析json數據:requests自帶json直接解析,另外可以使用json模塊解析二進位數據:可以以二進位形式寫入文件中,另外也可以使用requests.content,一般圖片和視頻都是以這種形式保存 - 保存數據資料庫(MySQL,Mongdb、Redis)
http協議 請求與響應。
- Request:模擬瀏覽器將數據,請求發送給伺服器。
- Response:伺服器接收請求,分析用戶請求,然後返回相應的數據
附帶一波User-Agent大全:
safari 5.1 – MAC
User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
safari 5.1 – Windows
User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Firefox 4.0.1 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Firefox 4.0.1 – Windows
User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Opera 11.11 – MAC
User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11
Opera 11.11 – Windows
User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11
Chrome 17.0 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11
其他的以及移動端的就不一一打出來了,如果有需要的朋友可以私信一下我。
整理不易,大家如果喜歡可以點贊收藏,如果想要學習爬蟲,可以加一下我的q-u-n,719-139-688,么么噠。
推薦閱讀:
※今日芯聲 | 懶人黑科技再現!打傘竟不用手!
※聚賢納才 | 工享家講師招募中
※哪個沒心沒肺的人,沒有一段為某人掏心掏肺的曾經 | 酷聽科技
※Adobe計劃明年將在iPad上推出Photoshop專業版
※為何不投資谷歌等科技股 2012年05月12日