知乎用戶群分析--又雙叒叕一隻爬蟲爬了知乎20萬用戶

一直想趁著知乎還比較開放爬點數據做分析,因為懶延期至今。

爬蟲由Java實現,放在伺服器上跑了三四天,可以說是龜速了,畢竟爬蟲和反爬蟲就是應該友好相處的嘛,反反爬蟲和反反反爬蟲互相傷害就沒意思了。

從我的關注列表向外爬了兩圈,數據是上周(2017,9.11)的,所以下面的報道可能和實時數據有些偏差。

本來想做圖論分析,但是應該就是個簡單的小世界網路,結果也不好可視化,所以就只做了一些簡單的數值分析。

放上源碼,代碼邏輯在Readme里有寫

Github:pokerfaceSad/ZhihuSpider

1.男女比例

還是漢子占多數

2.用戶獲得贊同數量分布

仰望贊同數大於100萬的12位大佬

3.獲得贊同數Top10

  1. @張佳瑋 3881887
  2. @Seasee Youl 1577849
  3. @馬前卒 1490940
  4. @vczh 1470443
  5. @唐缺 1468457
  6. @鬼木知 1371725
  7. @肥肥貓 1368270
  8. @朱炫 1295927
  9. @ze ran 1269743
  10. @豆子 1225418

4.粉絲數Top10

  1. @張佳瑋 1426823
  2. @李開復 1013888
  3. @黃繼新 809900
  4. @周源 777401
  5. @yolfilm 768063
  6. @丁香醫生 755301
  7. @張亮 720349
  8. @張小北 666883
  9. @李淼 662630
  10. @朱炫 652258

5.回答Top10

  1. @Phil 17909
  2. @vczh 16373
  3. @王若楓 13111
  4. @浪琴 12764
  5. @李東 11808
  6. @柴健翌 11281
  7. @zhen-liang 11164(已被知乎停用,看了下回答,可能是某個搞機器學習的大佬弄出來的機器人)
  8. @趙鋼 11137
  9. @另一隻襪子 10146
  10. @luvian zhang 9833

6.提問Top10

  1. @阿混 3154
  2. @David Chang 2685
  3. @玉簫沙 2535(已被封號,據說是被續了)
  4. @Howard Dominic 2528
  5. @圖靈Don 2178
  6. @歆鹽 2060
  7. @程瀚 1756
  8. @張亮 1755
  9. @張醒 1656
  10. @fudanboy 1530

還有一些沒有可視化的數據

7.文章數Top10

  1. @撲克投資家-林輝 1639
  2. @王佳倫 1620
  3. @馬力 1507
  4. @張十三 1390
  5. @軍旗獵獵 1364
  6. @陳希 1181
  7. @不鳥萬如一 1170
  8. @耿懷民 1155
  9. @嘶吼RoarTalk 1096
  10. @周永 1082

8.被收藏數Top10

  1. @寺主人 1805631
  2. @下廚房 1625157
  3. @張佳瑋 1194602
  4. @曾少賢 177151
  5. @肥肥貓 1026440
  6. @惡膜的奶爸 992186
  7. @warfalcon 804395
  8. @Jennyyy 747445
  9. @白詩詩 736685
  10. @朱炫 678335

Github

Github:pokerfaceSad/ZhihuSpider

求Star

推薦閱讀:

[偶拾] 技術是拿來用的......
代碼直播寫啥程序比較好?
如何看待SaRo在鬥魚直播寫python代碼?
Android Package Name vs. Application ID

TAG:爬虫计算机网络 | 数据分析 | 编程 |