知乎核心用戶大數據報告:你知道知乎的男女比例是多少嗎?

最近寫了個爬蟲,將知乎3W核心用戶的公開資料爬了下來。雖然知乎聲稱註冊用戶有6500萬,日活躍用戶有1850萬,但其中很大一部分用戶是三無用戶。由於該部分用戶公開的數據並不多,再且新版知乎伺服器對於單IP最大請求量有限制(大概每秒一次左右),所以我只爬了最核心的3W用戶。

我的爬蟲規則是這樣的:從關注量上萬的知乎大V中隨機抽取10個作為種子,依次爬取其關注的人,再從其關注的人爬取關注的人的關注的人,如此遞歸。也就是說爬蟲的規則保證了進入資料庫的每一個人至少有一個關注者。以下的數據分析均來自於爬蟲所得到的資料,所以要是報道上面出了偏差,還請大家見諒。

首先是對知乎用戶的職業描述進行詞雲分析,列出前一百的高頻詞,結果如下。

在職業描述中進行高頻詞分析,「互聯網」以4552次頻率完勝,然後是」大學「緊隨其後,其頻率是2163。這和我們平時所看到的互聯網從業者和名校學生佔領內容輸出的主力一致。這一百個高頻詞也囊括了知乎用戶的興趣,居住地等信息,不過這些我們以後還會仔細分析。

我們先來看看知乎的各種「最」。最高贊同數,最多關注者,寫得最多答案,分別是哪些呢?

首先是最高贊同數的排行榜

在贊同數上面,@張佳瑋 老師以一己之力超越了第二名一倍不止,可謂是穩拿的冠軍。然後前五名是@肥肥貓 ,@朱炫 ,@唐缺 ,@馬前卒 。輪子哥排在了第六名。

然後我們來看最多關注者排行榜

在關注者排行榜上,@張佳瑋 老師還是遙遙領先於@李開復 老師。再往後走就是知乎的大佬@黃繼新 和@周源 ,再往後是@yolfilm 。

我們再來看寫的答案最多排行榜

@Phil 以極高的產量勇奪答案數最高Top1,而素有」輪帶逛「之稱的@vczh 只能屈居第二。排行前五的有@王若楓 、@柴健翌 、@zhen-liang 等大V。

再來看看提問最多排行榜

@David Chang 以2684個提問排行第一,以未來知識圖譜聞名的@圖靈Don 排行第二。排行前五的還有@歆鹽 ,@程瀚 、@張亮 。

然後是BAT三廠的員工數量比較,這個比較基於爬取到的的用戶職業描述詞頻進行統計。

可以看到鵝廠員工在知乎比例最高,阿里次之(詞頻:0.004554),熊廠稍稍落後。

都說知乎是985/211滿天飛的地方,那麼清北復交浙到底哪家強呢?

可以看到北京大學和清華大學的詞頻不相上下,後面那三位還需加把勁啊。

在移動智能時代,Android、iOS、WEB前端工程師在當今軟體開發中簡直大放異彩。那麼知乎哪一種程序員最多呢?

結果是前端詞頻遠高於Android和iOS,其實差那麼一點點就是Android和iOS的和了。這麼說吧,你可能是堅定喬布斯less is more信念的果粉,也可能是擁抱開源的Android粉,可是所有人都需要瀏覽網頁,不是嗎:)

然後我還比較好奇知乎用戶的普遍興趣愛好是什麼。

結果發現健身獨佔鰲頭般佔領榜首。看來知乎上還是普遍推崇健身提高顏值提高自身吸引力。可是為什麼閱讀的比例是最底的呢?為此我只能假設知乎上的同學學習效率都比較高,在完成基本的閱讀任務後去了另外的領域探索更大的世界。又或者說閱讀,相對於旅遊健身攝影來說,對於提升自身的價值性價比並不是很高,因而大家更傾向於去健身房,去旅遊,去拍照吧。

知乎用戶地域分布

詞頻集中分布在北上廣深杭四川浙江江蘇等地方。和個人的主觀印象是相似的。畢竟以上顏色較深的都是互聯網行業比較發達的省份。

然後就是大家最關心的知乎男女比例問題了。

在爬到的用戶數據中,男性比例佔了67.8%,女性只佔了32.2%。也就是說男女比例比2:1還要大。

看到這裡,你可能會反駁我說知乎初始用戶的性別就是男性啊,這樣子搞個大新聞是不行的。我也覺得挺有道理的,於是進一步篩選了核心中的核心部分用戶,篩選條件為粉絲數大於200且贊同數大於400的用戶,這下採樣應該準確了吧。然後有了下圖。

女性的比例降到了30.1%,男性比例相應為69.9%。這個數據比之前的數據更為不平衡。所以說女性用戶在知乎更為稀缺,也顯得更為珍貴。

所以,與其說知乎是一個高質量的問答社區,還不如說:

感謝BDP(BDP個人版-零門檻數據分析平台)提供數據分析支持。

臨走前扔上項目的Github地址:github.com/hating/Zhihu

歡迎大家來Star~~~

<EOF>
推薦閱讀:

TAG:大数据 | 爬虫 | 知乎 |