【造數採集站】爬取微博數據
用簡單的造數,採集微博數據
首先我們需要採集的網址是微博移動端,入口是 https://weibo.cn/
登陸之後,就可以正常刷微博了。
最近鹿晗比較火,我們想採集評論數據,首先來到微博的頁面 評論 ,網址是
https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1
我們直接使用造數打開,發現微博提示登錄,所以我們需要使用高級模式。(在這裡是無法登陸的)
打開開發者工具,刷新,找到Network,複製cookie
在造數中使用高級姿勢,開始爬取
此時可以正常選取數據,但是會出現錯行現象,這個後期可以處理。
下一步就是尋找翻頁規律了。
第一頁:https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1n第二頁:https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1&page=2n第三頁:https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1&page=3n第四頁:https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1&page=4n
很明顯就是末尾數字,那麼第一頁是 page=1 嗎,打開發現符合規律。所以翻頁規律就是:
https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1&page={{1-50}}n
下一步就可以執行任務了。其實是用造數就是這幾個流程,首先需要尋找數據的鏈接,查看是否需要登錄;然後用造數打開,滑鼠選取數據;最後尋找翻頁規律,更多的還有深度爬取和定時任務等等。
推薦閱讀:
※如何看待鹿晗的粉絲組織刷《某時某刻Catch Me When I Fall》油管但效果甚微?什麼原因?
※為什麼鹿晗不多宣傳宣傳他的歌曲等作品?
※鹿晗在當今樂壇的地位如何?
※滿屏都是鹿晗關曉彤,看到這些也就明白鹿為什麼招架不住了!