BiliBili爬取數據簡單分析
07-16
BiliBili爬取數據簡單分析
從圖中看出男性比例很大,這也是好多人戲稱,B站,大型同性交友網站。。。
4 人贊了文章爬蟲介紹:從1號直播間爬取發彈幕人賬號,當時在線人數有五萬左右,但到8000多時每3s發彈幕的新用戶已經很少了,所以我就以這8000多人為起始點,將其放入隊列中,取出一個,獲得其關注人數,粉絲數,並將其關注的人放入隊列中。
我介紹爬蟲的目的是,說明從爬取的方式來數據具有偏向性,偏向有關注的用戶,對於沒有關注者的人只可能在那8000多人中才會被爬到。
對於用戶信息,我爬取了,id,name,sex,地址,粉絲數,關注數,等級,出生日期。
對於這些數據雜訊非常大,特別是出生日期,另外還具有時效性,至於粉絲數一天之內可以變化很大,這也是為什麼在我對於一些數據分析不怎麼熟悉情況下,寫這篇文章的原因,還須大家指點。
Python+Mysql,隊列中有20w,但時間太長,我存入資料庫8w。
圖表用的文圖。
一、對性別比例分析
1.全部
此圖忽略「保密」。
2.有一定粉絲數用戶
第一張圖引起我的好奇,我在B站首頁,那些直播間女主播較多,為什麼,粉絲數多的,男性佔大多數?我分析有兩點:
- 由BiliBili自身因素。男性基數大,內容方面偏向男性,雖然有直播,但直播這種形式興起時間對於BiliBili發展時間看,不算很長,因此,可以說女性處於崛起階段(由後兩張可看出)。
- 團體組織,性別填男較多。比如暴走漫畫,萬合天宜,嗶哩嗶哩番劇等。
二、地域分布
排名情況:
三、粉絲數排名
由於數據的時效性,粉絲數統計數據會變化較大。對於出生日期,還須進一步處理後,才能用於分析。
希望請教的問題:
- python 爬取,我是多線程爬取,但速度還是很慢,怎麼加快速度?
- 我是 sql統計+文圖輸入數據畫圖 ,怎樣更優雅的進行分析?
希望大家不吝賜教~謝謝!
別人建議補充:
- stark 顯示各種數據歷史曲線。(比如用戶增長,女主播粉絲增長)
推薦閱讀:
※關於網易雲音樂爬蟲開發和API的一個小總結
※GitHub 上有什麼值得學習,簡單的,易讀的 Python 項目?
※個人的python小工具(1:list降維)
※如何使用Python求導?
※多線程爬蟲實現(上)