數據採集技術指南 第一篇 技術棧總覽

從事爬蟲雖然時間不長,但是經歷的項目都具有特例性,從億級數據採集到各種偽造隱藏技術,從極驗驗證碼破解到淘寶百度等反爬蟲破解,從分散式架構部署到多種ip跟換技術,從普通請求到js破解和自動化模擬,這些主流技術都有親身經歷。因此不才去嘗試寫這份技術指南。

因在公司有需求培養新人從爬蟲技術入手,因此特地製作本系列教程,學技術重在廣而精,因此先綜述爬蟲技術的技術棧,之後對需要分析以及靈活的技術進行樣例演示解說。

技能樹總圖:

紅色為常用 ,爬蟲技能樹-總覽圖.graffle(可以拿到鏈接)我是由mac中omnigraffle軟體創建的

總結而言,常用的一系列工具為:

分析工具:

  • xpath測試chrome插件xpath helper
  • 請求頭偽造chrome插件 Modify Headers for Google Chrome
  • post和參數調節工具 postman
  • scrapy 的shell
  • 開發者工具

請求工具:

  • requests 網路包
  • urllib2 網路包

分散式工具:

  • redis 基於內存的資料庫
  • mysql 資料庫
  • docker 部署工具,

數據抽取工具

  • re 正則表達式
  • lxml xpath抽取

模擬瀏覽器

  • phantomjs
  • selenium
  • ghost

非同步

  • threading
  • Twisted

ip更換技術

  • 代理,adsl,tor,vpn,加速器

因為ppt主要是列舉,然後口頭現場表達和演示,沒有詳細的說明,以後的分享文會專心於技術內容,而不是今天的技術棧概述。

附錄:

ppt和思維匯總圖下載 採集技術分享第一期

博客網址:數據採集技術指南 第一篇 技術棧總覽-附總圖和演講ppt

github代碼乾貨:luyishisi/Anti-Anti-Spider


推薦閱讀:

校長,我要上車——python模擬登錄熊貓TV
從零開始寫Python爬蟲 --- 3.1 Selenium模擬瀏覽器
Trip: 給Requests加上協程,一百份網路請求一份時間
如何在瀏覽器中高效抓包分析數據?
Scrapy爬圖片(一)

TAG:Python | 爬虫 | Python入门 |