如何能有效地檢測分散式爬蟲?
12-29
本人現在給公司做爬蟲監測
單ip源的部分已經有多個措施了:1。最基本的user-agent,cookie,refer等2。限制訪問頻率,統計單ip在一段時間的訪問次數,按多個時間區間的訪問頻率進行限制。
3。js埋點,網站上有多個每次刷新訪問一定會提交的js請求,用於排查沒考慮完善的爬蟲4。行為統計,根據網站的不同請求類型進行統計,php,js,搜索api等按比例統計5。誤殺大招,爬取網上公開代理ip網站的所有ip做成黑名單,加以限制6。無頭瀏覽器可以檢測滑鼠焦點、軌跡等
但是,在做5的時候,我也使用了多個ip代理來成功規避了代理網站的反爬措施,爬取的ip代理幾乎是隨機分布的,沒有規律可言。如果爬蟲通過不斷更換ip的方式來爬取,基於ip的統計肯定無效。所以想請問下大牛們,有什麼更高級的技術能夠檢測這種無法統計的爬蟲?
對於這種肯定有什麼規律但是人類無法很好的描述的,題主可能需要學習一下deep learning
加一些用戶不會去點的鏈接,就是只有解析html時候才能方便得到的鏈接,這些地址一訪問,就知道是爬蟲了。
要更好防住,只有把內容做成註冊登錄才可訪問,註冊登錄則需要諸如手機驗證之類的,增加註冊多賬號的成本,然後限制一個賬號訪問頻率。但這只是增加對方成本,還是不能100%防住。沒有爬不下來的網站,只要你是開門做生意的。
謝不邀,用戶瀏覽會有入口,不斷點啊點,爬蟲呢,基本不會有入口來路,自己發揮吧。
謝邀。
先說結論:並沒有100%防止爬蟲的辦法。一般來說,反爬只需要做到前4條就可以了。
5和6,你自己的成本開支也不小,所謂殺敵一千,自損八百。
5和6做多了,正常用戶會被誤傷,得不償失了。何必呢
我買了一堆代理ip,用selenium模擬瀏覽器操作,獲取數據,你怎麼防?呵呵,貓捉老鼠的遊戲
題主和各位答友給出的方案夠細了,我們做網路爬蟲的快沒有生路了,爬蟲和反爬一直在較勁,兩方各自評估投入產出比,所以這不是一個單純的技術問題
只要web還存在,只要人類還要瀏覽網頁爬蟲就可以偽造人類訪問行為想消滅爬蟲?消滅萬維網先
推薦閱讀:
※網路安全產品現在有什麼新的方向和創意?
※已經有那麼多安全防護軟體,安全工程師有必要存在嗎?
※什麼是 TLS 中間人攻擊?如何防範這類攻擊?
※工控網路和普通網路在安全防護上有哪些不同?工控網路中有哪些常用的、知名的安全設備?
※各網站使用同一套賬戶名,郵箱,密碼,風險大嗎?