BiliBili爬取數據簡單分析

BiliBili爬取數據簡單分析

4 人贊了文章爬蟲介紹:從1號直播間爬取發彈幕人賬號,當時在線人數有五萬左右,但到8000多時每3s發彈幕的新用戶已經很少了,所以我就以這8000多人為起始點,將其放入隊列中,取出一個,獲得其關注人數,粉絲數,並將其關注的人放入隊列中。

我介紹爬蟲的目的是,說明從爬取的方式來數據具有偏向性,偏向有關注的用戶,對於沒有關注者的人只可能在那8000多人中才會被爬到。

對於用戶信息,我爬取了,id,name,sex,地址,粉絲數,關注數,等級,出生日期。

對於這些數據雜訊非常大,特別是出生日期,另外還具有時效性,至於粉絲數一天之內可以變化很大,這也是為什麼在我對於一些數據分析不怎麼熟悉情況下,寫這篇文章的原因,還須大家指點。

Python+Mysql,隊列中有20w,但時間太長,我存入資料庫8w。

圖表用的文圖。

一、對性別比例分析

1.全部

從圖中看出男性比例很大,這也是好多人戲稱,B站,大型同性交友網站。。。

此圖忽略「保密」。

2.有一定粉絲數用戶

第一張圖引起我的好奇,我在B站首頁,那些直播間女主播較多,為什麼,粉絲數多的,男性佔大多數?

我分析有兩點:

  • 由BiliBili自身因素。男性基數大,內容方面偏向男性,雖然有直播,但直播這種形式興起時間對於BiliBili發展時間看,不算很長,因此,可以說女性處於崛起階段(由後兩張可看出)。
  • 團體組織,性別填男較多。比如暴走漫畫,萬合天宜,嗶哩嗶哩番劇等。

二、地域分布

排名情況:

三、粉絲數排名

由於數據的時效性,粉絲數統計數據會變化較大。

對於出生日期,還須進一步處理後,才能用於分析。

希望請教的問題:

  • python 爬取,我是多線程爬取,但速度還是很慢,怎麼加快速度?
  • 我是 sql統計+文圖輸入數據畫圖 ,怎樣更優雅的進行分析?

希望大家不吝賜教~謝謝!

別人建議補充:

  • stark 顯示各種數據歷史曲線。(比如用戶增長,女主播粉絲增長)

推薦閱讀:

關於網易雲音樂爬蟲開發和API的一個小總結
GitHub 上有什麼值得學習,簡單的,易讀的 Python 項目?
個人的python小工具(1:list降維)
如何使用Python求導?
多線程爬蟲實現(上)

TAG:爬蟲 | Python | 數據分析 |