用Python、Excel分析《哆啦A夢》收錄情況
(單行本)每卷基本是按時間順序排列的。也即是說,一般編號越靠後,漫畫創作時間越晚。
這種說法比較簡單粗暴,但還是存在不少問題,比如第1卷到第6卷其實是幾乎不存在時間順序的。為了得到一個更精確的關係,我決心從哆啦A夢wiki日本站上把每一話的發布時間統計下來。
本來是打算手動複製的,然而被800多話的工作量嚇到了……後來一想,我之前不是接觸了一點Python嗎?雖然沒有實戰經驗,但可以邊做邊學嘛。
事實證明Python真是個好東西,連我這種菜鳥竟然都成功提取了數據!人生第一個爬蟲啊!我那個激動啊……
其實原理很簡單,正則表達式是這樣的:
(?<=<li>)S+d{4}S+(?=()n
然而我還是太天真了,由於網站數據不全,加上我寫的程序不夠完善,還是有幾十話是我手打的……你能感受到那種從800多行一行行對比的絕望嗎……
但是,這篇本應該兩星期完成的文章還是被我一個星期寫完了。 為什麼?因為太有趣了!這可以說是我註冊知乎以來寫過的最享受的文章了!
閑話少說,整理後的結果還是很有意思的,大家慢慢往下看——
第三個是直方圖,反映的是連載時間與收錄話數的關係。可以看到數據雖然不完全呈正態分布,但大致是先增後減。並且收錄作品集中在1986年以前。
第四個是柱狀圖,反映了各雜誌收錄話數的情況。可以看到《小學三年生》、《小學四年生》收錄最多,《小學五年生》、《小學六年生》次之,這個年齡段差不多就是《哆啦A夢》的主要受眾。第五個是餅狀圖,與上圖數據相同。別看只有這幾張圖,在這些數據上我還是投入了很多精力和時間的。幸虧咱是班上的網管,以權謀私什麼的不在話下╮(╯▽╰)╭……
由於我的統計知識只局限於高中水平,因此有不夠準確或完善的地方是很正常的。如果大家感興趣的話,我可以提供原始數據。如果覺得還有哪些分析可以做,也可以跟我提出來。
尷尬的是PPT里我居然把自己的網名打錯了……算了,懶得改了,大家知道是我就好啦
數據來源:
作品一覧 -ドラえもん Wikia | Fandom powered by Wikia
哆啦A夢漫畫全列表 - 哆啦A夢wiki | Fandom powered by Wikia
使用軟體:
Python 2.7
PyCharm 2016.3 Community
Microsoft Excel 2016
Microsoft Word 2016
Microsoft PowerPoint 2016
推薦閱讀:
※胖虎也是天才? 神槍手篇
※製片人談《笑面推銷員NEW》製作秘話:可怕與可愛的反差萌
※哆啦A夢大長篇——新時代的冒險精神
※藤子·F·不二雄畫在哆啦A夢裡的人生
※靜香洗澡那點事