知乎用戶群分析--又雙叒叕一隻爬蟲爬了知乎20萬用戶
01-25
一直想趁著知乎還比較開放爬點數據做分析,因為懶延期至今。
爬蟲由Java實現,放在伺服器上跑了三四天,可以說是龜速了,畢竟爬蟲和反爬蟲就是應該友好相處的嘛,反反爬蟲和反反反爬蟲互相傷害就沒意思了。
從我的關注列表向外爬了兩圈,數據是上周(2017,9.11)的,所以下面的報道可能和實時數據有些偏差。
本來想做圖論分析,但是應該就是個簡單的小世界網路,結果也不好可視化,所以就只做了一些簡單的數值分析。
放上源碼,代碼邏輯在Readme里有寫
Github:pokerfaceSad/ZhihuSpider
1.男女比例
還是漢子占多數
2.用戶獲得贊同數量分布
仰望贊同數大於100萬的12位大佬
3.獲得贊同數Top10
- @張佳瑋 3881887
- @Seasee Youl 1577849
- @馬前卒 1490940
- @vczh 1470443
- @唐缺 1468457
- @鬼木知 1371725
- @肥肥貓 1368270
- @朱炫 1295927
- @ze ran 1269743
- @豆子 1225418
4.粉絲數Top10
- @張佳瑋 1426823
- @李開復 1013888
- @黃繼新 809900
- @周源 777401
- @yolfilm 768063
- @丁香醫生 755301
- @張亮 720349
- @張小北 666883
- @李淼 662630
- @朱炫 652258
5.回答Top10
- @Phil 17909
- @vczh 16373
- @王若楓 13111
- @浪琴 12764
- @李東 11808
- @柴健翌 11281
- @zhen-liang 11164(已被知乎停用,看了下回答,可能是某個搞機器學習的大佬弄出來的機器人)
- @趙鋼 11137
- @另一隻襪子 10146
- @luvian zhang 9833
6.提問Top10
- @阿混 3154
- @David Chang 2685
- @玉簫沙 2535(已被封號,據說是被續了)
- @Howard Dominic 2528
- @圖靈Don 2178
- @歆鹽 2060
- @程瀚 1756
- @張亮 1755
- @張醒 1656
- @fudanboy 1530
還有一些沒有可視化的數據
7.文章數Top10
- @撲克投資家-林輝 1639
- @王佳倫 1620
- @馬力 1507
- @張十三 1390
- @軍旗獵獵 1364
- @陳希 1181
- @不鳥萬如一 1170
- @耿懷民 1155
- @嘶吼RoarTalk 1096
- @周永 1082
8.被收藏數Top10
- @寺主人 1805631
- @下廚房 1625157
- @張佳瑋 1194602
- @曾少賢 177151
- @肥肥貓 1026440
- @惡膜的奶爸 992186
- @warfalcon 804395
- @Jennyyy 747445
- @白詩詩 736685
- @朱炫 678335
Github
Github:pokerfaceSad/ZhihuSpider
求Star
推薦閱讀:
※[偶拾] 技術是拿來用的......
※代碼直播寫啥程序比較好?
※如何看待SaRo在鬥魚直播寫python代碼?
※Android Package Name vs. Application ID