諾貝爾文學獎數據分析

諾貝爾文學獎數據分析

來自專欄從點滴開始做更好的自己

作為曾經懷抱文學夢想的不成功程序員, 今天抽空來分析一下諾貝爾文學獎的相關數據. 當然這個不是簡單的分析, 從數據處理開始, 一直到最終的結論. 所以要有耐心~~

這個想法的緣起, 其實也是知乎上的一個問題, 現在算是來填坑了.

白駒過隙, 一眨眼已經四年過去了….為了向文學致敬, 本文採用倒敘的模式.


3. 結論:

經過漫長而枯燥的分析過程, 可以得到如下結論:

諾貝爾文學獎已經歷經百餘年, 在誕生之初, 該獎影響力有限, 基本上是北歐人民自娛自樂的場所. 但隨著時代變遷, 它的視野終於跨過了波羅的海和北海, 而成為歐洲人民大聯歡. 然後北美洲, 拉美, 東亞逐漸參與進來, 一起見證著全球化的歷程.

不過直到今天, 諾貝爾文學獎也無法擺脫歐洲中心化的指責. 鑒於諾貝爾文學獎連續錯失了托爾斯泰, 普魯斯特, 喬伊斯和卡夫卡這種巨匠, 同時添加了丘吉爾這些頂著文學名義的政治人物, 因此我們在某種意義上, 還是繼續將其視為瑞典人民的年度娛樂活動即可.

如果要使用投胎法來提升獲得諾貝爾文學獎的概率, 那麼有如下建議:

  1. 選擇男性後, 直接投胎在瑞典. 瑞典是人均諾貝爾文學獎獲得者最高的國家之二.
  2. 使用英語寫作. 英語是諾貝爾文學獎第一強勢語言. 如果能學會法語, 並把作品也翻譯成法語版, 那麼又可大大提升獲獎機會.
  3. 長篇小說.

2. 分析數據:

地域分析

首先從地區上看, 西歐人民遙遙領先. 然後居然是北歐. 要知道, 北歐五國現在總人數才2500萬左右. 不及北美區的十分之一, 亞洲的百分之一. 其中人均諾貝爾文學獎獲得者最高的國家是冰島. 獲獎率為35萬分之一. (在美國為三千萬分之一. 在蘇聯, 約為一億分之一. 在中國則是十三億分之一.)

地域趨勢分析

那我們就來看看為什麼. 這個就需要更細粒度的分析, 我們來換成歷史趨勢:

可見諾獎的前二十年, 瑞典皇家文學院對北歐作家異常大方. 我們也很開心地看到, 這些作家現已悄無聲息, 無人記起.

國別分析

數據非常清晰, 可以看到合計2500萬人口的北歐五國那都是榜上有名的

其中瑞典對於自己更是毫不客氣, 一口氣頒出8枚獎牌, 我們也很高興地看到, 這些人的名聲也大多隨時間而湮滅.

但是無可否認的是法國文學第一大國的傳統優勢. 英美兩代霸主瞠乎其後.

我們選取其中的Top 11(因為正好有並列的). 從歷史趨勢上看, 法國, 英國, 美國可以認為是傳統強國. 當然還有有作弊嫌疑的瑞典. 總體而言這些國家的佔比正逐漸降低, 也說明了諾貝爾文學獎日益多元化的趨勢.

語言分析

這回盎格魯撒克遜終於可以揚眉吐氣. 大英帝國集聯邦之力, 外加合眾國一起, 合力拿下了語言排行榜的第一名. 而且直接拉開第二名法語一倍之多.

從趨勢上看, 英語的勢頭絲毫不衰. 而法語則風光不再. 德語成了意外贏家, 德國的獲獎人次明明只有7次.

到底還有誰用德語呢?

原來是瑞士和奧地利這兩個德語國家. 不過居然還有英國人……

體裁分析

體裁上看, 敘事文學那叫一騎絕塵. 甩開第二名詩歌兩倍之多. 但敘事文學分成小說(通常指長篇小說), 戲劇劇本和短篇故事(通常指短篇小說集), 多少分散了力量.

從時間趨勢上看靠前的幾種體裁還是表現穩定的, 散文略有上升的趨勢.

作者性別分析

最後我們來關心一下作者. 很多人可能不清楚, 在上個世紀初, 女性歧視其實非常嚴重. 直到1928年, 英國的婦女才獲得和男人相同的選舉權. 而法國則要推遲到1944年.

那這個必然也要反映在諾獎獲得者身上. 總共114名諾文獎得主, 其中男性居然佔了足足一百名.

從趨勢上看倒是日漸樂觀, 從七八十年代起, 女性作家的佔比有顯著提升.

至此分析完結.


1. 數據準備

閑話不表, 我們先下載諾貝爾獎的獲獎名單:

zh.wikipedia.org/wiki/%

複製, 粘貼放到Excel裡面:

這簡直是一鍋粥嘛. 看著先要刪掉所有的圖片, 沒用. 先用」定位條件」把圖片都選中, 然後按下delete.

刷刷刷~

再處理掉空行, 去掉所有的超鏈接. 看著清爽一些.

本人不止一次強調過, 不要隨便使用」合併後居中」這個東西, 現在如果看到了, 就順道拆成兩行. 方便後續處理.

最重要的是這部分:

Hoho, 這種格式的數據簡直是垃圾中的垃圾, 必須要好好清洗的, 否則基本沒法用.

我一般是把它們整理成不同的列, 然後出現了就填寫1, 沒出現就填寫0, 如此就可以對其進行數據匯總.

然後是思考分析角度, 看一下還能添加什麼樣的維度. 想了想, 添加了三個維度.

OK. 分析此事就可以正式開始了.


推薦閱讀:

自學Excel的VBA,感覺完全無法入門啊,腫么辦?
怎麼讓excel不轉換為科學計數法?
CEO,財務總監,市場總監,採購總監,生產總監的工作分別是什麼?涉及到的電子表格(EXCEL)又有那些?
Excel里常見的錯誤值分別代表什麼意思?
python如何對excel表格指定內容查找?

TAG:諾貝爾文學獎 | MicrosoftExcel | 數據分析 |