robots.txt 能夠封禁網路爬蟲嗎？

12-29

比如我的爬蟲叫xiaopapa001，發現xiaopapa001在某站的robots.txt里封了，我就改名叫xiaopapa002，總之你若封，我就改，拿我有轍么？

由此問題引申：http://www.zhihu.com/question/19883804

一般的搜索引擎（比如谷歌）都會遵守規則，當然不排除有不要臉行為（比如百度）。
維基百科：

可以遵守，也可以不遵守。

本身robots.txt只是一個約定，是道德約束，一般的搜索引擎爬蟲都會遵守這個協議的，否則如何在這個產業混下去。而且robots.txt一般也是站點為了更好被搜索引擎收錄所準備的。

真正的封禁不可能靠user-agent來封禁，因為spider如果攜帶正常瀏覽器的UA理論上和普通瀏覽器發出的請求是一模一樣的，只能通過ip和請求次數等因素判定某請求究竟是來自真實用戶還是spider。

此外，百度spider是遵守robots協議，一方面來說對於通用搜索引擎，少收錄站點不願意被索引的內容不會帶來什麼損失。對於有價值的內容，也不需要繞過robots協議，可以通過合作等方式獲取。

這不是封爬蟲的。劉一丁解釋很到位。君子協定，對流氓無效。

這個只是一個道義上約定俗成的東西，沒有技術約束力

robot.txt只是爬蟲禁抓協議，user-agent表示禁止哪個爬蟲，disallow告訴爬出那個禁止抓取的目錄。
如果爬蟲夠友好的話，會遵守網站的robot.txt內容。

君子協定，主要看你自己了！

搜索大站都守規矩吧。。

防君子不防小人

那個東西只是個君子協定，他封你，你User-Agent改成IE或firefox唄。。