爬蟲爬去簡書網站上面文章，get不到，求教原因？

12-28

代碼如下：
header={ "Host": "www.jianshu.com", "Connection": "keep-alive", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8", "Cookie": "read_mode=day; default_font=font2; signin_redirect=http%3A%2F%2Fwww.jianshu.com%2Fp%2F79c80cee94cc; _gat=1; CNZZDATA1258679142=2010760406-1477912684-https%253A%252F%252Fwww.baidu.com%252F%7C1477918447; _ga=GA1.2.849312008.1477916393; _session_id=VkFGUFpGVms5bU1kckdUQmEyZnRaVGdxVXdxVVpYUm8yVzJxQ0FwUFFmellybkszNVhXZVV5VVFkb2k1YWYwc2crK0tIQnFFTE1YZ0dxSElFV0sxOGxLZWx2WWRNQll2akV1aFZTeHJsdmxwZnlwQmdaNHR4RzI3S3ZYNTcySUU5Z1RGaHAzR1BGMDlOQy9rK2NjbjcxbFhTQmo4N2VpaGN2K0UxQUd5dlNEMUViSHJQamN3RjczdTRZbG5LakhRTDJKcUpaZUU0TmxaUDREcjByQ1FDMi9rQXRkOGZ2VUp5YVgzSGI2Nm5jS3AwbmxoUzFUTVpaamRGTzh3Y1BTZnloM0VzYzlEZzNWS2ZGSlNlclJkSnZGM0IyTndrc0MxdnNlWEVRQ3pQRXUzYVcrdFkzcytFMjZjQnVnUnJhalZBbFFRSWU5R2JubnpiVFVabEJCU29nWElzWVhuQlorcjU2YWpDZGdONlJ4ajdrV28zSzUyUDQzSWxCeXJIN2RuZC9mU2dObzhSS1ZwME45emx4VFlnQT09LS0ybUYrdk9XdHRNOFNKS2VoQWNyQUNRPT0%3D--685685a82b0f437515ed7f52fce7b94253aa3fae"} print header pagecontent = requests.get("/p/79c80cee94cc", headers = header) #pagecontent = requests.get("www.jianshu.com/p/79c80cee94cc", headers = header) #兩種鏈接方式都不行
錯誤信息：

wireshark抓到的請求報文：

不邀自來，剛好看到順手試了一下，也講一下怎麼去檢測網站反爬蟲特性吧。

對一個新網站一般直接用scrapy shell 來測試基礎特性

scrapy shell http://www.jianshu.com/p/79c80cee94cc

然後返回信息是：

這403並不是說找不到，一般對面不讓你訪問到這個資源。
這個時候再用requests帶上header和cookie來試一下
這個應該會吧，結果如題主。現在簡單採集就不算了，直接上一級大招。
代碼在：Anti-Anti-Spider/phantomjs/get_page_Source_Code at master · KCPClub/Anti-Anti-Spider · GitHub
使用phantomjs 無界面瀏覽器（需要安裝換）使用方式：

phantomjs request.js http://www.jianshu.com/p/79c80cee94cc &> jianshu.html

過一會瀏覽器打開這個html文件，

得出結論，簡單的js能力檢測網站。
以後有這類不好採集的可以@ 我，最近在寫開源的反反爬倉庫。可以來互相借鑒。
GitHub - KCPClub/Anti-Anti-Spider: 越來越多的網站具有反爬蟲特性，有的用圖片隱藏關鍵數據，有的使用反人類的驗證碼，建立反反爬蟲的代碼倉庫，通過與不同特性的網站做鬥爭（無惡意）提高技術。（歡迎提交難以採集的網站）