一個知乎重度用戶眼中的知乎
玩知乎很久了,在知乎上學到不少知識,也學到不少抖機靈的技巧。作為一個知乎重度用戶兼技術宅,簡單抓取了一下知乎的一點數據,力求看到一個儘可能真實的知乎社區。
數據抓取
知乎沒有可以一頁一頁翻取用戶資料的列表頁,而且用戶首頁URL也沒有規律可循,完全是用戶自定義的。考慮到我不準備拿下全部知乎用戶,只希望取到一批質量不錯的優質用戶,我的抓取策略是這樣的:用一個知乎大牛入手,抓取他的關注列表,然後進入他的關注列表,抓取每個人的資料後再抓取這這些人關注的列表,依次走下去。
這裡我選取的入口是大名鼎鼎的輪子哥,輪子哥對我影響很深,甚至我的昵稱xlzd也是模仿他的vczh而來的。令我欣慰的是,從輪子哥的關注列表出去,幾分鐘之後就抓到了我自己的信息。
程序運行了3天,一共抓取了1,008,071用戶的數據,從他/她們的詳情頁獲取到每個人的信息之後,又接入了FacePlusPlus的API,對每個人的頭像進行了人臉識別。
對於數據抓取,剛好前幾天得到一台阿里雲的免費試用VPS,用來當做資料庫伺服器,然後在我的樹莓派和洛杉磯用來翻牆的VPS上分別部署了一個單線程的爬蟲。至於為什麼是單線程的爬蟲,原因有二:- 情懷:知乎提供一個免費的優質社區平台,我不想佔用它太多的資源。
- 技術:知乎的robots.txt禁止抓取/people下的數據,爬取太快容易被封。
到今天下班前,阿里雲的機器馬上到期了,我停掉了所有爬蟲,從阿里雲導出了數據。現在先是一些簡單的統計信息。
知乎top榜
知乎話題關注度top10:
- 電影
- 旅行
- 互聯網
- 創業
- 科技
- 健身
- 設計
- 美食
- 自然科學
- 經濟學
知乎粉絲最多top3:
- 李開復
- 黃繼新(知乎聯合創始人)
- 周源(知乎CEO/001號員工)
知乎的用戶怎麼樣
從知乎的用戶地域分布開始吧,下面是知乎的大概地理分布信息:
北上廣深是知乎用戶最集中的地區了,大概是由於知乎用戶大多是計算機行業,而這幾個城市又是中國計算機行業最繁榮的城市了。
接著是知乎用戶的公司分布情況:
除了學生群體,知乎用戶的重要聚集地就是各大互聯網公司了。當然不難想像,學生群體中,計算機相關專業也有著非常大的佔比。
下面的圖是知乎用戶職業TOP20:
很難想像,知乎用戶中的產品經理佔比竟然如此之高!!!是程序猿沒有時間刷知乎,還是當今互聯網已經發展到了一個程序猿接受N個產品經理的摧殘,還請產品經理站出來說點什麼。另一個令人意外的是,知乎竟然有接近1.03%的用戶是CEO,1.407%的用戶是創始人或者聯合創始人,知乎作為無數國內社區中逼格最高的社區,當之無愧~~~剩下的TOP20榜中,幾乎被互聯網從業群體包攬了。
然後接下來的這張圖是知乎用戶大學學校分布圖:
由圖知,知乎用戶的受教育水平相當高,這也進一步夯實了其作為逼格最高的中國互聯網社區。可是,在下這種沒有上過大學的互聯網搬磚民工,拿什麼跟你們一起愉快的玩(zhuang)耍(bi)~~~
還有就是知乎用戶的專業分布情況:
計算機科學與技術和軟體工程穩穩地將其他專業甩在了在可預見的將來無法超越的遠方。壯哉~~~
最後是知乎用戶的性別分布:
總體來看,知乎用戶男性居多,但是男女比例相較一切社交平台而言並不是非常懸殊,一小部分用戶沒有填寫性別。
總結
廢話就不贅述啦,從上面的信息結合日常生活經驗,我的一些想法:
- 理論基礎:
- 互聯網從業人群男女比例97:3。
- 知乎大致男女比例5:4(不算那6.6%沒有標註性別的)。
- 知乎男性用戶群體中,互聯網從業人員比例相當高。
- 知乎整體用戶受教育水平相當高。
- 結論:
- 在中國所有社區中,知乎的逼格無人能出其右。這裡沒有不轉不是中國人,這裡何炅韓庚也沒有與韓國人打賭。這裡大家都在認真討論問題或者假裝認真討論問題。
- 作為先現實生活工作中接觸異性比較少的互聯網從業者,可以考慮來知乎試試。尤其是考慮到這裡的互聯網從業人員數量,對技術宅有興趣的女同學們也可以來碰碰運氣。所以建議我周圍還沒有女朋友的同胞們,去知乎試試,要知道90後男性已經比女性少了1/6(以及由於男女比例失衡帶來的影響王尼瑪這期大事件已經算過了),知乎的比例已經很不錯了,一般人我不告訴他。
- 在知乎,找工作/招人/找女朋友/找男朋友都是不錯的(我收到過至少5個工作邀約,雖然或禮貌或粗魯的回絕了)。
- 由於知乎開放註冊的緣故,用戶質量已經大大降低(很多0回答0贊0感謝用戶)了。
- 這裡每100人中就有2.4個人左右是CEO/創始人/聯合創始人,不多說意味著什麼。
- 感謝知乎,在這裡我學到了如何學習,如何假裝學習,如何變成計算機大神,如何假裝計算機大神,如何抖機靈,......。
如上~~~
推薦閱讀:
※最大子數組問題——分治策略
※Web Crawler with Python - 08.模擬登錄 (知乎)
※爬蟲必備——requests