如何能有效地檢測分散式爬蟲？

12-29

本人現在給公司做爬蟲監測
單ip源的部分已經有多個措施了：
1。最基本的user－agent，cookie，refer等

2。限制訪問頻率，統計單ip在一段時間的訪問次數，按多個時間區間的訪問頻率進行限制。
3。js埋點，網站上有多個每次刷新訪問一定會提交的js請求，用於排查沒考慮完善的爬蟲
4。行為統計，根據網站的不同請求類型進行統計，php，js，搜索api等按比例統計
5。誤殺大招，爬取網上公開代理ip網站的所有ip做成黑名單，加以限制

6。無頭瀏覽器可以檢測滑鼠焦點、軌跡等
但是，在做5的時候，我也使用了多個ip代理來成功規避了代理網站的反爬措施，爬取的ip代理幾乎是隨機分布的，沒有規律可言。如果爬蟲通過不斷更換ip的方式來爬取，基於ip的統計肯定無效。
所以想請問下大牛們，有什麼更高級的技術能夠檢測這種無法統計的爬蟲？

對於這種肯定有什麼規律但是人類無法很好的描述的，題主可能需要學習一下deep learning

加一些用戶不會去點的鏈接，就是只有解析html時候才能方便得到的鏈接，這些地址一訪問，就知道是爬蟲了。

要更好防住，只有把內容做成註冊登錄才可訪問，註冊登錄則需要諸如手機驗證之類的，增加註冊多賬號的成本，然後限制一個賬號訪問頻率。但這只是增加對方成本，還是不能100%防住。沒有爬不下來的網站，只要你是開門做生意的。

謝不邀，用戶瀏覽會有入口，不斷點啊點，爬蟲呢，基本不會有入口來路，自己發揮吧。

謝邀。

先說結論:並沒有100%防止爬蟲的辦法。

一般來說，反爬只需要做到前4條就可以了。

5和6，你自己的成本開支也不小，所謂殺敵一千，自損八百。

5和6做多了，正常用戶會被誤傷，得不償失了。

何必呢

我買了一堆代理ip，用selenium模擬瀏覽器操作，獲取數據，你怎麼防？呵呵，貓捉老鼠的遊戲

題主和各位答友給出的方案夠細了，我們做網路爬蟲的快沒有生路了，爬蟲和反爬一直在較勁，兩方各自評估投入產出比，所以這不是一個單純的技術問題

只要web還存在，只要人類還要瀏覽網頁

爬蟲就可以偽造人類訪問行為

想消滅爬蟲？消滅萬維網先