robots.txt 能夠封禁網路爬蟲嗎?

比如我的爬蟲叫xiaopapa001,發現xiaopapa001在某站的robots.txt里封了,我就改名叫xiaopapa002,總之你若封,我就改,拿我有轍么?

由此問題引申:http://www.zhihu.com/question/19883804


一般的搜索引擎(比如谷歌)都會遵守規則,當然不排除有不要臉行為(比如百度)。
維基百科:

  • Robots.txt協議並不是一個規範,而只是約定俗成的,所以並不能保證網站的隱私。

可以遵守,也可以不遵守。


本身robots.txt只是一個約定,是道德約束,一般的搜索引擎爬蟲都會遵守這個協議的,否則如何在這個產業混下去。而且robots.txt一般也是站點為了更好被搜索引擎收錄所準備的。

真正的封禁不可能靠user-agent來封禁,因為spider如果攜帶正常瀏覽器的UA理論上和普通瀏覽器發出的請求是一模一樣的,只能通過ip和請求次數等因素判定某請求究竟是來自真實用戶還是spider。

此外,百度spider是遵守robots協議,一方面來說對於通用搜索引擎,少收錄站點不願意被索引的內容不會帶來什麼損失。對於有價值的內容,也不需要繞過robots協議,可以通過合作等方式獲取。


這不是封爬蟲的。劉一丁解釋很到位。君子協定,對流氓無效。


這個只是一個道義上約定俗成的東西,沒有技術約束力


robot.txt只是爬蟲禁抓協議,user-agent表示禁止哪個爬蟲,disallow告訴爬出那個禁止抓取的目錄。
如果爬蟲夠友好的話,會遵守網站的robot.txt內容。


君子協定,主要看你自己了!


搜索大站都守規矩吧。。


防君子不防小人


那個東西只是個君子協定,他封你,你User-Agent改成IE或firefox唄。。


推薦閱讀:

如何設計一個定向Web爬蟲?
為什麼知乎的搜索功能如此之爛?
網頁如何判斷一個請求來自於爬蟲?又應該如何繞過?
未來移動互聯網的應用搜索相比當前的移動搜索最大的優勢是什麼?
搜索引擎優化(SEO)10大假裡面,你能理解幾個是假的?

TAG:爬蟲計算機網路 | robotstxt | 搜索引擎 |