標籤:

知乎大V何明科827個回答的數據分析

一、背景:

自從打算自學數據分析後,自己的很多業餘時間都泡在網上尋找大神的指引,而何明科就是我在知乎上關注的第一人。於我而言,他就是神一般的厲害,下面我就簡要介紹下,讓大家感受下他的逼格。

何大神從2011年上知乎至今,他的個人足跡及成就如上,他的文章和回答共斬獲了30萬+的贊數,被收藏次數達到35萬+,獲得了7萬+次感謝,被知乎收錄了133個回答30篇文章,關注粉絲數達20萬+,其中他的專欄數據冰山就有16萬+的人關注,可謂是碩果累累、人氣爆棚!

看了上面的介紹,有沒有感覺到牛氣轟轟?基於我對何大神的膜拜,於是就產生了想進一步了解的細節,比如他的回答了什麼行業的問題,高贊回答有多少,在知乎的人氣到底有多旺等等。

二、數據來源:

我打算從何大神827個回答(截止到2017年12月6日)著手,抓取每個答案的贊同數、關注著數、瀏覽量、答案標籤,評論數量、被收藏數量、轉載數量、發布或編輯日期、內容這9個信息,來分析了解何大神。

利用爬蟲工具web scraper爬取我想要的信息,導出成excel預覽如下:

三、數據處理:

顯然上面的數據還需要進一步處理才可用於分析,於是我用到了excel的查找/替換、分列、Vlookup、len函數等功能,處理成為我最終想要的數據形式,包括對評論數、收藏數、點贊數進行分類以及對回答內容統計字數等方面,分類規則和導入spss後預覽如下:

四、數據分析:

1.關於行業

對答案標籤的高頻詞做詞雲分析:

排名前10位行業高頻詞繪製成柱形圖是這樣的:

顯然,何大神的答案中涉及到最多的行業是互聯網、創業、汽車、諮詢等方面,這與他的工作背景相符,另外回答也涉及到社會、歷史、教育、心理、電影等方面,可以看出何大神是個涉獵廣泛很生活化的一個人,要是有幸遇到他,可以有的聊~

2.回答受歡迎程度簡要分析

在spss軟體中,對贊數、關注數、評論數、授權轉載次數、被收藏數、回答字數進行描述統計:

何大神827個回答共獲得了266702個贊,平均每個回答獲得贊數322個, 回答獲得贊數最多的是17104個,這個回答是男生宿舍發生過哪些「驚為天人」之事?

這些回答共有24648條評論,平均每個回答的評論大約有30個,獲得評論數最多的回答是哪些你曾認為愚蠢至極的觀點,最後發現居然有一定道理?,有920個,同時這也是一個高贊數回答,共獲得了10533個贊。

回答被收藏的總次數是240130,平均每個回答的收藏次數為290個(真的好高啊,都是精華了啊),收藏次數最多的回答是Excel 有哪些可能需要熟練掌握而很多人不會的技能?,為22608次,但是這個回答只有6000多個贊。哦,難道收藏次數最多不應該獲贊數最多的嗎?這個問題留到後面再解析。(福利:文末會貼何大神收藏數排前10位的回答及鏈接)

827個回答,內容總字數達到100萬+,平均每個回答的字數超過1000,其中字數最多的回答是Palantir Technologies 究竟是做什麼的?它的機制是什麼?有12589個字。說到這裡,讓我這個從小懼怕寫作的人一頭汗啊,難怪畢業這麼多年,我只能是職場小透明,要想成為大v,先要練就過硬的碼字功夫吧。

問題的關注者數、被瀏覽量就不討論了,個人認為與何大神關係不大,授權轉載次數只有4次,也不討論啦。

3.回答受歡迎程度詳細分析

①回答頻率分析

將何大神的回答頻次按照年月的時間軸作柱形圖:

可以看出,何大神第一個回答是在2011年8月,剛開始幾年他並沒有回答太多問題,直到2015年3月,回答開始增多,甚至在2015年6月和12月兩個月的回答數超過30個了。

而2016年是何大神入知乎以來回答產量最高的一年,如上圖綠色條形圖顯示,有7個月回答數大於30個,集中在2016年1月~2016年7月,並且有連續兩個月(2016年1月和2月)每月回答數超過60個,汗!就是說在這段時間裡,每天都回答2個問題以上。

到了今年2017年,何大神每月的回答頻率看上去比較均勻了,平均回答數大約在20個左右吧。

對年份的頻率做描述統計、餅圖和平均折線圖:

2016年的回答數為429個,佔比超過50%,在2015年以前的3年回答量只佔到2.7%;2016年平均月回答數44個,2015和2017年平均回答數都大於20個。

綜上所述,何大神2011年一開始入知乎並沒有太大回答問題的熱情,姑且稱之為與知乎的接觸了解狀態;3年後,於2015年開始回答數有所增多,我稱為進入慢熱的戀愛狀態吧;在2015年12月至2016年7月連續8個月的時間,花費大量的時間在知乎上回答問題,稱之為與知乎的熱戀狀態;進入2016年9月至今,每月回答數變得比較均衡,與知乎的相處進入冷靜穩定的結婚狀態。

②對點贊數、評論數、被收藏數分析

對點贊數、評論數、被收藏數分類後作條形圖及餅圖如下:

點贊數越多的回答,數量便越少,並且723個回答點贊數都<500個,佔到87%,而>2000個贊的回答僅有17+4=21個,佔到2.5%。

778個回答的評論數<100條,佔比達94%,只有49個回答的評論條數大於100。

收藏數跟點贊數類似,收藏數越多的回答,數量也越少,<100次收藏數的回答有610個,約佔全部回答的74%,收藏數>1000的回答有45個,僅佔5.44%。

③點贊數與收藏數有關係嗎

前面提到,點贊數和收藏數越多的回答,數量便越少,那麼真相真的是這樣的嗎?對這兩個變數做相關分析如下:

顯然,pearson相關係數是0.817,顯著性水平0.000,那麼答案是肯定的,點贊數與評論數的數量確實顯性相關,即點贊數越多的回答,很可能被收藏的次數也越多。上文提到的收藏次數最多的文章Excel 有哪些可能需要熟練掌握而很多人不會的技能?只是個別的離群值啦。

五、分析總結

分析到這裡,對何明科應該有了大致的了解吧,他不僅僅事業牛逼,他也興趣廣泛熱愛生活,幾乎毫無保留、非常熱心於在知乎給眾多小白解答互聯網、創業、汽車,諮詢、數據等多方面的問題。

下面發福利,收藏次數排前10位的回答鏈接(毫無疑問,都是技術領域方面的乾貨):

1.Excel 有哪些可能需要熟練掌握而很多人不會的技能? 22608次收藏

2.做投行、行研、諮詢等金融崗位,有沒有什麼好用的找數據技巧呢? 22378次收藏

3.有哪些小技能是可以通過閑暇時間學到的? 19420次收藏

4.你是通過什麼渠道獲取一般人不知道的知識和信息的? 14471次收藏

5.Excel 到底有多厲害? 8778次收藏

6.商業分析能力是怎樣煉成的? 5975次收藏

7.Excel 的 VBA 現在還算是辦公利器嗎? 5916次收藏

8.一周之內真的能摸清一個行業嗎?如果能,該如何做? 5366次收藏

9.Excel VBA 如何快速學習? 5296次收藏

10.有哪些網站用爬蟲爬取能得到很有價值的數據? 4499次收藏

推薦閱讀:

數據分析社群第二關作業——遲遲未交出的作業
用戶畫像就是這樣簡單
kaggle項目:IMDB電影數據分析
怎樣理解時間序列一

TAG:數據分析 |