【造數採集站】爬取微博數據

用簡單的造數,採集微博數據

首先我們需要採集的網址是微博移動端,入口是 weibo.cn/

登陸之後,就可以正常刷微博了。

最近鹿晗比較火,我們想採集評論數據,首先來到微博的頁面 評論 ,網址是

weibo.cn/comment/hot/Fp

我們直接使用造數打開,發現微博提示登錄,所以我們需要使用高級模式。(在這裡是無法登陸的)

打開開發者工具,刷新,找到Network,複製cookie

在造數中使用高級姿勢,開始爬取

此時可以正常選取數據,但是會出現錯行現象,這個後期可以處理。

下一步就是尋找翻頁規律了。

第一頁:https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1n第二頁:https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1&page=2n第三頁:https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1&page=3n第四頁:https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1&page=4n

很明顯就是末尾數字,那麼第一頁是 page=1 嗎,打開發現符合規律。所以翻頁規律就是:

https://weibo.cn/comment/hot/Fpp6ImeOh?rl=1&page={{1-50}}n

下一步就可以執行任務了。其實是用造數就是這幾個流程,首先需要尋找數據的鏈接,查看是否需要登錄;然後用造數打開,滑鼠選取數據;最後尋找翻頁規律,更多的還有深度爬取和定時任務等等。

推薦閱讀:

如何看待鹿晗的粉絲組織刷《某時某刻Catch Me When I Fall》油管但效果甚微?什麼原因?
為什麼鹿晗不多宣傳宣傳他的歌曲等作品?
鹿晗在當今樂壇的地位如何?
滿屏都是鹿晗關曉彤,看到這些也就明白鹿為什麼招架不住了!

TAG:鹿晗 | 新浪微博 | 爬虫计算机网络 |