大數據報告:1800萬知乎用戶的簡單分析(一)

大數據報告:1800萬知乎用戶的簡單分析(一)

4 人贊了文章

爬取工具:使用python+scrapy+redis+mongo

爬取數據統計:18,037,764個用戶;1,627,302篇文章;7,309,906個提問,42,825,840個回答。

知乎用戶的主要屬性有以下幾方面:

1:性別,學校+專業,行業,單位+職位,城市,是否機構用戶,是否廣告用戶

2:回答總數,文章總數,提問總數,舉辦live總數,參與公共編輯總數,分享數量,收藏總數

3:關注專欄總數,關注的用戶總數,關注的收藏總數,關注的問題總數,關注的話題總數

4:粉絲總數,被收藏總數,知乎收錄總數,獲得的感謝總數,獲得的贊同總數

個人不擅長數據分析,僅此拋磚引玉,對以上進行簡單分析統計,如擅長數據分析又有興趣進一步分析的朋友,請私信。本次參考以下文章:

1:參考<民間版知乎分析報告第二期——贊同背後的秘密>

2:參考<爬取知乎60萬用戶信息之後的簡單分析>

注意:由於絕大部分用戶是沒有填寫相關資料的,因此以下分析依據來自用戶填寫。


首先,看看總體性別分布

學校 top10:浙江大學,北京大學,武漢大學,華中科技大學,清華大學,中山大學,上海交通大學,南京大學,復旦大學,四川大學

附上10-30,差距並不大

學校 top10-20:同濟大學,中國人民大學,吉林大學,山東大學,電子科技大學,華南理工大學,廈門大學,哈爾濱工業大學,東南大學,中南大學

學校top20-30:北京航天航空大學,北京郵電大學,南開大學,重慶大學,天津大學,中國傳媒大學,鄭州大學,西安電子科技大學,大連理工大學,武漢理工大學

專業top30分布:這裡必須說明,由於專業是用戶隨意填寫的,存在相似/籠統,這裡並沒有對此進行清洗,因此這裡僅放一張圖。毫無疑問,計算機及相關專業遙遙領先,其次為金融。


行業top10:互聯網,計算機軟體,高等教育,電子商務,金融,高新科技,財務,創意藝術,臨床醫療,法律

行業top10-20:教育,基礎教育,地產建築,房地產,信息傳媒,銀行,通信,電子遊戲,廣告,政府

行業top20-30:汽車,機械設備,廣播電視,計算機硬體,電子電器,人力資源,證券投資,科研,諮詢分析,進出口貿易

值得注意的是, 高等教育+教育+基礎教育=241932,超越計算機軟體的212883躋身第二。


公司/單位top10:騰訊,百度,阿里巴巴,華為,網易,京東,新浪,自由職業,新東方,IBM

同樣附上top10-20:美團網, 微軟(Microsoft),中國平安,搜狐,中國移動, 谷歌 (Google), 奇虎 360, 知乎,清華大學,中國科學院

top20-30:中國電信,北京大學, 普華永道, 小米科技,淘寶網,浙江大學,國家電網,鏈家,中國銀行,去哪兒(Qunar)

這裡必須說明,去除用戶填寫的,學生,大學,保密,銀行,醫院,律師事務所等數據,因此,這裡附上此類數據的詞雲(大學:13622):

職位top10:產品經理,學生,CEO,創始人,工程師,經理,總經理,運營,軟體工程師,項目經理

同時附上top10-20:設計師,客戶經理,銷售,教師,前端工程師,聯合創始人,編輯,職員,程序員,律師

top20-30:銷售經理,實習生,前端開發,產品運營,運營總監,人力資源(HR),合伙人,運營經理,記者,PM


城市的數據進行了部分清洗,先根據城市分組,共156221組 ,再對同一地區40以上數據清洗,再統計244個五線以上城市,結果如下

城市top10:北京,上海,深圳,廣州,杭州,成都,武漢,南京,西安,重慶

再附上大陸城市詞云:

再附上港澳台及海外的詞云:

這裡說明一下,香港:13305,在總體排名中超越福州(排名22);而美國僅 美國+紐約+洛杉磯+舊金山+波士頓+西雅圖=26499,已經超越長沙(排名12)

知乎用戶第一類屬性分析統計到此結束( 機構用戶、廣告用戶將另開新章分析統計)。如果哪位朋友有什麼建議,歡迎指正。謝謝!

這裡再次聲明,以上資料來自用戶填寫,而絕大多數用戶是沒有填寫資料的。接下來將分析知乎統計的數據,即第2,3,4類知乎用戶屬性

轉載須知

  1. 轉載須註明出處、作者以及原文鏈接,且禁止任何形式的增/刪/改

  2. 非商業用途隨意轉載,無需通知;微信公眾號/商業用途須獲授權並付費轉載

推薦閱讀:

TAG:知乎用戶 | 用戶分析 | 爬蟲 |