用Python、Excel分析《哆啦A夢》收錄情況

之前在一篇文章中,我這樣說道:

(單行本)每卷基本是按時間順序排列的。也即是說,一般編號越靠後,漫畫創作時間越晚。

這種說法比較簡單粗暴,但還是存在不少問題,比如第1卷到第6卷其實是幾乎不存在時間順序的。為了得到一個更精確的關係,我決心從哆啦A夢wiki日本站上把每一話的發布時間統計下來。

本來是打算手動複製的,然而被800多話的工作量嚇到了……後來一想,我之前不是接觸了一點Python嗎?雖然沒有實戰經驗,但可以邊做邊學嘛。

事實證明Python真是個好東西,連我這種菜鳥竟然都成功提取了數據!人生第一個爬蟲啊!我那個激動啊……

其實原理很簡單,正則表達式是這樣的:

(?<=<li>)S+d{4}S+(?=)n

然而我還是太天真了,由於網站數據不全,加上我寫的程序不夠完善,還是有幾十話是我手打的……你能感受到那種從800多行一行行對比的絕望嗎……

但是,這篇本應該兩星期完成的文章還是被我一個星期寫完了。 為什麼?因為太有趣了!這可以說是我註冊知乎以來寫過的最享受的文章了!

閑話少說,整理後的結果還是很有意思的,大家慢慢往下看——

第一個登場的是折線圖,反映了單行本卷數與漫畫發表在雜誌上的時間、單行本發售時間的關係。可以看到時間大致呈增長趨勢,波動在數年之內,但40卷以後選入的漫畫差別比較大。

第二個是散點圖,反映發表時間和收錄時間的相關性。可以看到大部分作品兩者之間比較接近,越到後期數據的分散程度越大。R^{2} =0.7991,說明回歸直線的擬合效果較好。根據線性關係中R^{2} =r^{2} ,可以看出兩者有較明顯的線性關係。

第三個是直方圖,反映的是連載時間與收錄話數的關係。可以看到數據雖然不完全呈正態分布,但大致是先增後減。並且收錄作品集中在1986年以前。

第四個是柱狀圖,反映了各雜誌收錄話數的情況。可以看到《小學三年生》、《小學四年生》收錄最多,《小學五年生》、《小學六年生》次之,這個年齡段差不多就是《哆啦A夢》的主要受眾。

第五個是餅狀圖,與上圖數據相同。

別看只有這幾張圖,在這些數據上我還是投入了很多精力和時間的。幸虧咱是班上的網管,以權謀私什麼的不在話下╮(╯▽╰)╭……

由於我的統計知識只局限於高中水平,因此有不夠準確或完善的地方是很正常的。如果大家感興趣的話,我可以提供原始數據。如果覺得還有哪些分析可以做,也可以跟我提出來。

尷尬的是PPT里我居然把自己的網名打錯了……算了,懶得改了,大家知道是我就好啦

數據來源:

作品一覧 -ドラえもん Wikia | Fandom powered by Wikia

哆啦A夢漫畫全列表 - 哆啦A夢wiki | Fandom powered by Wikia

使用軟體:

Python 2.7

PyCharm 2016.3 Community

Microsoft Excel 2016

Microsoft Word 2016

Microsoft PowerPoint 2016


推薦閱讀:

胖虎也是天才? 神槍手篇
製片人談《笑面推銷員NEW》製作秘話:可怕與可愛的反差萌
哆啦A夢大長篇——新時代的冒險精神
藤子·F·不二雄畫在哆啦A夢裡的人生
靜香洗澡那點事

TAG:哆啦A梦 | Python | 漫画 |