標籤:

爬蟲爬去簡書網站上面文章,get不到,求教原因?

代碼如下:

header={
"Host": "www.jianshu.com",
"Connection": "keep-alive",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8",
"Cookie": "read_mode=day; default_font=font2; signin_redirect=http%3A%2F%2Fwww.jianshu.com%2Fp%2F79c80cee94cc; _gat=1; CNZZDATA1258679142=2010760406-1477912684-https%253A%252F%252Fwww.baidu.com%252F%7C1477918447; _ga=GA1.2.849312008.1477916393; _session_id=VkFGUFpGVms5bU1kckdUQmEyZnRaVGdxVXdxVVpYUm8yVzJxQ0FwUFFmellybkszNVhXZVV5VVFkb2k1YWYwc2crK0tIQnFFTE1YZ0dxSElFV0sxOGxLZWx2WWRNQll2akV1aFZTeHJsdmxwZnlwQmdaNHR4RzI3S3ZYNTcySUU5Z1RGaHAzR1BGMDlOQy9rK2NjbjcxbFhTQmo4N2VpaGN2K0UxQUd5dlNEMUViSHJQamN3RjczdTRZbG5LakhRTDJKcUpaZUU0TmxaUDREcjByQ1FDMi9rQXRkOGZ2VUp5YVgzSGI2Nm5jS3AwbmxoUzFUTVpaamRGTzh3Y1BTZnloM0VzYzlEZzNWS2ZGSlNlclJkSnZGM0IyTndrc0MxdnNlWEVRQ3pQRXUzYVcrdFkzcytFMjZjQnVnUnJhalZBbFFRSWU5R2JubnpiVFVabEJCU29nWElzWVhuQlorcjU2YWpDZGdONlJ4ajdrV28zSzUyUDQzSWxCeXJIN2RuZC9mU2dObzhSS1ZwME45emx4VFlnQT09LS0ybUYrdk9XdHRNOFNKS2VoQWNyQUNRPT0%3D--685685a82b0f437515ed7f52fce7b94253aa3fae"}
print header
pagecontent = requests.get("/p/79c80cee94cc", headers = header)
#pagecontent = requests.get("www.jianshu.com/p/79c80cee94cc", headers = header)
#兩種鏈接方式都不行

錯誤信息:

wireshark抓到的請求報文:


不邀自來,剛好看到順手試了一下,也講一下怎麼去檢測網站反爬蟲特性吧。

對一個新網站一般 直接用scrapy shell 來測試基礎特性

scrapy shell http://www.jianshu.com/p/79c80cee94cc

然後返回信息是:

這403並不是說找不到,一般對面不讓你訪問到這個資源。
這個時候再用requests帶上header和cookie來試一下
這個應該會吧,結果如題主。現在簡單採集就不算了,直接上一級大招。
代碼在:Anti-Anti-Spider/phantomjs/get_page_Source_Code at master · KCPClub/Anti-Anti-Spider · GitHub
使用phantomjs 無界面瀏覽器(需要安裝換)使用方式:

phantomjs request.js http://www.jianshu.com/p/79c80cee94cc &> jianshu.html

過一會瀏覽器打開這個html文件,

得出結論,簡單的js能力檢測網站。
以後有這類不好採集的可以@ 我,最近在寫開源的反反爬倉庫。可以來互相借鑒。
GitHub - KCPClub/Anti-Anti-Spider: 越來越多的網站具有反爬蟲特性,有的用圖片隱藏關鍵數據,有的使用反人類的驗證碼,建立反反爬蟲的代碼倉庫,通過與不同特性的網站做鬥爭(無惡意)提高技術。(歡迎提交難以採集的網站)


推薦閱讀:

請問這個熱力圖是怎麼製作的呢?
C# 都有哪些爬蟲框架?
怎樣用Python設計一個爬蟲模擬登陸知乎?

TAG:網頁爬蟲 |