Python爬蟲之微博好友圈
感覺很久沒爬蟲了,今天就爬下移動端的微博好友圈信息。
代碼
import requestsimport jsonheaders = { Cookie:xxxxxxxx, User_Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36}f = open(C:/Users/LP/Desktop/weibo.txt,a+,encoding=utf-8)def get_info(url,page): html = requests.get(url,headers=headers) json_data = json.loads(html.text) card_groups = json_data[0][card_group] for card_group in card_groups: f.write(card_group[mblog][text].split( )[0]+
) next_cursor = json_data[0][next_cursor] if page<50: next_url = https://m.weibo.cn/index/friends?format=cards&next_cursor=+str(next_cursor)+&page=1 page = page + 1 get_info(next_url,page) else: pass f.close()if __name__ == __main__: url = https://m.weibo.cn/index/friends?format=cards get_info(url,1)
代碼分析
1.提交cookie模擬登陸微博
2.好友圈的信息也是非同步載入,如圖為第一頁的url
看下返回的數據中,這個next_cursor很重要!!!!
往下翻頁,如圖,可以看出第二頁的url中也有next_cursor,剛好是第一頁返回的!!!!!
這樣就可以構造多頁url,爬取數據啦
詞雲
最後,jieba分詞做了一個詞雲,除了二哈,感覺全是群主的,被刷屏了。
作者:羅羅攀 Python愛好者社區專欄作者 Python爬蟲愛好者,請勿轉載,謝謝。
博客地址:http://www.jianshu.com/u/9104ebf5e177出處:Python爬蟲之微博好友圈配套視頻教程:Python3爬蟲三大案例實戰分享:貓眼電影、今日頭條街拍美圖、淘寶美食 Python3爬蟲三大案例實戰分享 公眾號:Python愛好者社區(微信ID:python_shequ),關注,查看更多連載內容。加小編個人微信:tsdatajob ,跟作者互動,一起探討。
推薦閱讀:
※Stack Overflow 2016年度 20個最佳Python問題(一)
※如何批量獲取年報中數據?
※為機器學習愛好者推薦一本書《貝葉斯方法:概率編程與貝葉斯推斷》
※爬豆瓣電影名的小案例(附視頻操作)