如何能有效地檢測分散式爬蟲?

本人現在給公司做爬蟲監測

單ip源的部分已經有多個措施了:

1。最基本的user-agent,cookie,refer等

2。限制訪問頻率,統計單ip在一段時間的訪問次數,按多個時間區間的訪問頻率進行限制。

3。js埋點,網站上有多個每次刷新訪問一定會提交的js請求,用於排查沒考慮完善的爬蟲

4。行為統計,根據網站的不同請求類型進行統計,php,js,搜索api等按比例統計

5。誤殺大招,爬取網上公開代理ip網站的所有ip做成黑名單,加以限制

6。無頭瀏覽器可以檢測滑鼠焦點、軌跡等

但是,在做5的時候,我也使用了多個ip代理來成功規避了代理網站的反爬措施,爬取的ip代理幾乎是隨機分布的,沒有規律可言。如果爬蟲通過不斷更換ip的方式來爬取,基於ip的統計肯定無效。

所以想請問下大牛們,有什麼更高級的技術能夠檢測這種無法統計的爬蟲?


對於這種肯定有什麼規律但是人類無法很好的描述的,題主可能需要學習一下deep learning


加一些用戶不會去點的鏈接,就是只有解析html時候才能方便得到的鏈接,這些地址一訪問,就知道是爬蟲了。

要更好防住,只有把內容做成註冊登錄才可訪問,註冊登錄則需要諸如手機驗證之類的,增加註冊多賬號的成本,然後限制一個賬號訪問頻率。但這只是增加對方成本,還是不能100%防住。沒有爬不下來的網站,只要你是開門做生意的。


謝不邀,用戶瀏覽會有入口,不斷點啊點,爬蟲呢,基本不會有入口來路,自己發揮吧。


謝邀。

先說結論:並沒有100%防止爬蟲的辦法。

一般來說,反爬只需要做到前4條就可以了。

5和6,你自己的成本開支也不小,所謂殺敵一千,自損八百。

5和6做多了,正常用戶會被誤傷,得不償失了。


何必呢


我買了一堆代理ip,用selenium模擬瀏覽器操作,獲取數據,你怎麼防?呵呵,貓捉老鼠的遊戲


題主和各位答友給出的方案夠細了,我們做網路爬蟲的快沒有生路了,爬蟲和反爬一直在較勁,兩方各自評估投入產出比,所以這不是一個單純的技術問題


只要web還存在,只要人類還要瀏覽網頁

爬蟲就可以偽造人類訪問行為

想消滅爬蟲?消滅萬維網先


推薦閱讀:

網路安全產品現在有什麼新的方向和創意?
已經有那麼多安全防護軟體,安全工程師有必要存在嗎?
什麼是 TLS 中間人攻擊?如何防範這類攻擊?
工控網路和普通網路在安全防護上有哪些不同?工控網路中有哪些常用的、知名的安全設備?
各網站使用同一套賬戶名,郵箱,密碼,風險大嗎?

TAG:網路安全 | 計算機網路 | 爬蟲計算機網路 | HTTP |