數據採集技術指南第一篇技術棧總覽

01-27

從事爬蟲雖然時間不長，但是經歷的項目都具有特例性，從億級數據採集到各種偽造隱藏技術，從極驗驗證碼破解到淘寶百度等反爬蟲破解，從分散式架構部署到多種ip跟換技術，從普通請求到js破解和自動化模擬，這些主流技術都有親身經歷。因此不才去嘗試寫這份技術指南。

因在公司有需求培養新人從爬蟲技術入手，因此特地製作本系列教程，學技術重在廣而精，因此先綜述爬蟲技術的技術棧，之後對需要分析以及靈活的技術進行樣例演示解說。

技能樹總圖：

紅色為常用，爬蟲技能樹-總覽圖.graffle（可以拿到鏈接）我是由mac中omnigraffle軟體創建的

總結而言，常用的一系列工具為：

分析工具：

請求工具：

分散式工具：

數據抽取工具

模擬瀏覽器

非同步

ip更換技術

因為ppt主要是列舉，然後口頭現場表達和演示，沒有詳細的說明，以後的分享文會專心於技術內容，而不是今天的技術棧概述。

附錄：

ppt和思維匯總圖下載採集技術分享第一期

博客網址：數據採集技術指南第一篇技術棧總覽-附總圖和演講ppt

github代碼乾貨：luyishisi/Anti-Anti-Spider

數據採集技術指南 第一篇 技術棧總覽