數據採集技術指南 第一篇 技術棧總覽
01-27
從事爬蟲雖然時間不長,但是經歷的項目都具有特例性,從億級數據採集到各種偽造隱藏技術,從極驗驗證碼破解到淘寶百度等反爬蟲破解,從分散式架構部署到多種ip跟換技術,從普通請求到js破解和自動化模擬,這些主流技術都有親身經歷。因此不才去嘗試寫這份技術指南。
因在公司有需求培養新人從爬蟲技術入手,因此特地製作本系列教程,學技術重在廣而精,因此先綜述爬蟲技術的技術棧,之後對需要分析以及靈活的技術進行樣例演示解說。
技能樹總圖:
紅色為常用 ,爬蟲技能樹-總覽圖.graffle(可以拿到鏈接)我是由mac中omnigraffle軟體創建的
總結而言,常用的一系列工具為:
分析工具:
- xpath測試chrome插件xpath helper
- 請求頭偽造chrome插件 Modify Headers for Google Chrome
- post和參數調節工具 postman
- scrapy 的shell
- 開發者工具
請求工具:
- requests 網路包
- urllib2 網路包
分散式工具:
- redis 基於內存的資料庫
- mysql 資料庫
- docker 部署工具,
數據抽取工具
- re 正則表達式
- lxml xpath抽取
模擬瀏覽器
- phantomjs
- selenium
- ghost
非同步
- threading
- Twisted
ip更換技術
- 代理,adsl,tor,vpn,加速器
因為ppt主要是列舉,然後口頭現場表達和演示,沒有詳細的說明,以後的分享文會專心於技術內容,而不是今天的技術棧概述。
附錄:
ppt和思維匯總圖下載 採集技術分享第一期
博客網址:數據採集技術指南 第一篇 技術棧總覽-附總圖和演講ppt
github代碼乾貨:luyishisi/Anti-Anti-Spider
推薦閱讀:
※校長,我要上車——python模擬登錄熊貓TV
※從零開始寫Python爬蟲 --- 3.1 Selenium模擬瀏覽器
※Trip: 給Requests加上協程,一百份網路請求一份時間
※如何在瀏覽器中高效抓包分析數據?
※Scrapy爬圖片(一)