豆瓣robots.txt為什麼只專門提到豌豆莢的useragent?
User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /trailer/
Disallow: /doubanapp/card
Sitemap: http://www.douban.com/sitemap_index.xml
Sitemap: http://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5User-agent: Wandoujia Spider
Disallow: /
是在廣告自己的爬蟲遵守協議嗎?
也許是豌豆莢很暴力流氓,也許只是其他利益糾葛,我先搬個小板凳來坐著了。
也許是針對豌豆莢的一個應用:豌豆莢一覽吧,這貨會抓取文章…
同病相憐,這兩家公司都慢半拍呢~啊哈哈
User-agent: Wandoujia Spider
Disallow: /
不對。。這樣 不讓豌豆莢爬應該是屌絲看不起屌絲了,不然就是羨慕豌家的爬蟲寫的好咯
要麼特別流氓,要麼就是特別影響性能……猜測
豌豆莢會看嗎?
豌豆莢也有爬蟲?會遵循robots規則么
這是爬蟲黑名單?
Disallow: /中的Disallow是允許的意思?
嚇得我抱起了抱著抱著抱著小鯉魚的我的我的我
推薦閱讀:
※只精通爬數據這個技能,以後能有大的發展嗎?
※如何獲取鬥魚直播間的彈幕信息?
※有免費的網路爬蟲軟體使用嗎?
※豆瓣是如何屏蔽爬蟲的?
※python爬蟲中文編碼的問題?