簡書=雞湯?爬取簡書今日看點:1916篇熱門文章可視化

一、前言

最近寫得兩篇關於簡書的數據可視化文章:《簡書推薦作者風雲榜(爬取簡書app數據)》、《我的簡書一月記:數據可視化》在簡書反響都還不錯,因而將繼續針對簡書進行數據分析和可視化。鑒於此前爬取手機app效率較低,本次重新回歸網頁數據的爬取。

爬取的對象是:今日看點專題下的「熱門」文章數據。一篇文章被編輯收入「今日看點」,即意味著作品將立刻登上首頁,得到很好曝光,為更多用戶所閱讀和喜歡。而本專題「熱門」一欄里,收錄著簡書上至今為止最炙手可熱、獲贊數最多的文章,針對這部分數據進行研究和分析,可以得知哪類文章最受簡書用戶喜歡,哪些作者創作了「高質量」的作品等信息。

二、數據獲取

上圖可知,目前今日看點收錄了148618篇文章, 共有30194人關注。原本想獲取所有的文章,但發現爬取到1900+篇時,就再也無法得到更多數據,可能簡書方面限制和保護了數據。

但根據這1916篇文章獲贊數降序可知,排名第一的文章,獲贊數為:17076;排名最後的為488。由此可見,簡書上最熱門的文章應該都已經獲取到了(後來發現其實並沒有,僅是部分,臉疼),基於此後續研究可以繼續展開。

三、數據可視化

1、年度月份分布情況

首先,我們來看看,截止目前,這些簡書上最熱門的文章都發布在何年何月?作為一名來到簡書一個多月的小透明,一直不知道簡書是何時「橫空出世」的,@簡叔、@簡寶玉可否解答下。

由下圖可知,最早的熱門文章出現於2014年5月,是@CNFeat創作的《如何搭建一個獨立博客——簡明Github Pages與Hexo教程》一文。(間接知道了簡書起碼是在三年前就已經存在了)。之後逐年遞增,猜測可能是新增用戶基數越來越多,平台越來越為人所知,而且作品越來越好?所以熱門文章出現的越來越多。從2016年7月起,出現較大漲幅,並持續到2017年3月,每月熱門文章均在110篇以上。在今年的4月份起,持續四個月相對回落了許多。這部分不知道原因何在,難道是太熱了,大家創作慾望低迷?

2、24小時分布情況

接著看看發布時間情況,11點鐘文章最多,覺得蠻奇怪的,作為一隻喜歡在晚上發布文章的小透明,原本覺得晚上才是創作的大好時光啊,11點鐘已經屬於飯點,難道是上午潛心創作,一天之計在於晨,將當天的寫作任務早早的完成,一身輕鬆?再是24小時都有人發布文章並成為熱點,可見鳥兒大了,什麼林子都有啊。逃......

3、2017年熱門文章

看了那麼多歷史的數據,那麼到底今年有哪些熱門文章?到底作為一名普通的作者,該如何寫出廣受好評的文章呢?

篩選下本年度按獲贊數降序的文章,如圖,簡單瀏覽下標題,發現非常多設問的句式,想誘導人點擊閱讀,哪能不用「問號」呢!很多作者的經驗分享,或者稱作「教做人」的文章?而偏技術性的文章幾乎沒有,當然原因可能很多,個人也有個人的看法。不過對我來說,倒是可以努力寫寫數據分析和可視化的文章殺進去,佔得一席之地。

4、閱讀數、喜歡數與評論數

一篇文章的熱門程度,直觀地體現在喜歡數和評論數里,當然前提是有被大量閱讀。如圖可知,有一篇文章閱讀數遠遠高於所有的文章,那就是@簡叔的《簡友常見問題匯總》,作為簡書新手向的使用手冊,有此數據,也屬正常,雖然不知簡叔有多少用戶,但86w+的閱讀量估計是前無古人後無來者了。

再將目光移動到這篇官方文章之外,首先就能看到第二梯度,20w+閱讀量的文章也有近十篇,也是非常難以企及的戰績,雖然其中好幾篇的獲贊數稍顯「平庸」,(手動滑稽)。

換個角度,再看一遍。局部放大,看不到那些討人厭的神級數據後,覺得神清氣爽多了,努力努力應該還是有機會躋身其中的。

5、文章作者

有留心上文CSV截圖的,可以對這些文章都是誰寫的有了初步的了解。對所有作者進行統計,文章數量靠前的每人貢獻的情況如下,也是牛逼壞了。

第一名屬於簡書一哥@彭小六,共收錄了106篇文章。看來分析簡書數據永遠都避不開的一哥。

並列第二名的是@懷左同學和@韓大爺的雜貨鋪,均收錄了41篇文章。

所有799名作者都有一席之地,按照收錄文章數直觀的貢獻情況如下,最左邊和最上邊即為排名前十幾的作者情況:

切換成曲線圖,按降序排列,可見有一條貼近橫坐標,長長的曲線。大多數人無法貢獻熱門文章,能貢獻的人里大多數也只能有一兩篇驚艷之作。

799名作者中有84名為簽約作者,共貢獻625篇文章。不過不知道簡書現在到底有多少名簽約作者。單看此數據,熱門文章里非簽約作者佔比也還是蠻大。

其他715名為非簽約作者,共貢獻1291篇文章:

將這1916篇文章對應的799名作者生成如下詞雲,假如今日頭條想像簽走知乎300大V一樣來簽走簡書大V,大概可以參考此圖。逃......

單人貢獻5篇及以上熱門文章的,共有69名作者。

6、文章標題

不知道有多少人覺得簡書的文章太過雞湯,或者不熟悉簡書的人,是否直接就認為「簡書=雞湯」?那到底是不是這樣的呢,看看熱門文章都有哪些大概就能知道一二了。標題的數據上文CSV也有不少了,此處將所有標題直接丟一個在線詞雲網站,看看都有哪些詞出現了:

什麼、如何、書、英語、大學、推薦、自己、人、堅持、努力......這些詞所形成的語境,可以照見背後點贊的簡書用戶組成還是偏於年輕。雖然可能傷到一些人,但個人感覺一個不完全知道自己喜歡什麼、有什麼愛好、對學習和生活都沒有好的把控的人,或許更會汲汲於閱讀這些文章,當然這可能是每個人成長中必須經歷的過程,看這些文章可能也會有收穫,對自己有所指導,但是否又有很多人其實只是點個贊、收藏下,該如何的生活依舊如何的生活,下次看到類似的文章,依舊點進去,依舊退出來呢?

上面的詞雲還是太過簡單粗暴,調用玻森NLP的API,獲取所有標題的詞頻排名前100的關鍵詞,返回結果如下:

沒有了雜亂無章的文字後,在精簡的詞雲里,更可以看出,出現最頻繁的詞有:你、乾貨、寫作、英語、推薦、大學、努力、書、讀書、人生、堅持、方法......嗯。

四、小結

所有假如你是一名非簡書用戶,看到這些詞雲和標題,你覺得簡書是否等同於雞湯呢?

又或者,你已經是一名簡書用戶,日常看到的文章,首頁上呈現的文章,對你來說又意味著什麼呢?

非引戰,歡迎評論,共同探討想法。

推薦閱讀:

數據科學導論:探索性數據分析
R語言可視化——散點圖及其美化技巧!
可能是比Python更方便的詞雲製作了
亮瞎雙眼的Power BI自定義可視化圖表(2017最新版)
大數據可視化引擎 DHAgency:多樣數據,實時展示

TAG:python爬虫 | 数据可视化 | 简书 |