一個玩得停不下來的Google神器:Ngram
這個語料庫是完全對公眾開放的。任何人都可以去Google Books Ngrams Viewer 查詢任何一個或幾個詞在過去500年內在書籍中的出現頻率變化趨勢,有點像Google Trends的圖書版。而專業人士或純粹閑得蛋疼的geek們也可以下載完整的語料庫自行分析:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
作為外行,Google的這個神器真是讓我玩得根本停不下來~ 我來簡單演示一下,把大家帶入坑~
正式開始前先說明幾點:
- 我不知道Google是如何選擇和獲取這6%的圖書的,不確定是否會有系統性選擇偏差,也不確定圖書的倖存者偏差有多嚴重,所以看圖得出的結論並不能隨意外推。
- 語料庫的內容完全來自出版圖書,而不包括未出版圖書或其他形式的文字,也不包括正在指數級增長的網路和電子信息。與Google Trends的高度實時性不同,圖書的滯後性較長,只能在比較大的尺度上看趨勢變化。
- 同一個詞在不同時期的語義、用法和拼寫可能會非常不同,需要謹慎解讀結果。
- 我在這裡選擇以英語而非中文為例。一方面是因為英語的語料庫最大,且英語在最近幾百年來的圖書中的使用率總體看來看是最廣的,比較能夠反映現實世界的一些變化。另一方面,漢語的字、詞識別的難度很高,可能正確率不及英語,而且現代漢語和歷史上不同時期的漢語的語義差異比較大,古文和現代文很多時候很難比較。不過近幾十年的漢語數據應該還是不錯的,我在最後也會放幾個例子。
- 下面每張圖裡橫軸是時間,縱軸是出現率,先給幾個常用詞做個baseline給大家感覺一下:
比如這裡"the"佔了5%,也就是說英語里大約每20個詞里有一個是"the"
----------------------------------------------------------------------------------------------------
正式開始~超多圖預警!
先來看看幾個國家的出現率變化情況:
看點:英國和法國的逐漸沒落、美國的崛起、德國在兩次世界大戰中刷存在感、蘇聯/俄羅斯的崛起和沒落、中國在20世紀下半葉比較穩定的出現率。再看看資本主義和共產主義之爭:
可以講的故事太多了,大家自己腦補吧。君王和人民:
王國、國家和民族:
革命、獨立、殖民:
自由、民主、共和:
《獨立宣言》里的"Life, liberty and the pursuit of happiness"
戰爭與和平:
注意最近二十年的勢頭逆轉了,但這也有可能是因為科技更多更快地轉到網路等平台,而在書籍中出現得相對變少了。
計算機和互聯網相關:
品牌的興衰史:部分學科的發展勢頭:一些平權運動的發展:
健康、環境、污染等問題的關注度越來越高:
天堂和地獄(地獄一直很堅挺啊):
今天,昨天,明天:「明天」在最近幾十年里逆襲了「昨天」,算是好跡象吧,不過"today"好像是20世紀才開始普及的,以前的英語都用什麼詞表示「今天」的呢?...(經評論提醒,似乎以前"today"是寫成"to-day"的,不知道Google有沒有進行相關的修正)發展、進步 vs. 問題、危機
總體來說饑荒和瘟疫的出現率在降低:不過貧窮和不平等的出現率在上升:
「災難」被提到的頻率在增加,而從上世紀50年代開始,洪災多的年份一般旱災少一些,反之亦然:為什麼從1930年左右開始money和economy的出現率是此消彼長的呢?是巧合嗎?
泰坦尼克:
泰坦尼克電影逆襲了泰坦尼克事件本身厄...這個例子可以說明為什麼一個詞的出現率並不一定意味著現實世界的出現率:
現代人吃飽飯沒事幹腦洞真大……動物們:
吃、喝、睡:關於星期和月份的詞相對比較穩定:
「周日」最常用,這自然跟宗教有關,緊接著的是周六,周一和周五其次,周二三四的存在感都很低。月份:
似乎氣候越好的月份出現率一般也越高(May有歧義,沒算進來),不過June和July都可以當人名,所以可能有些虛高。另外,近200年來這些詞的整體升降趨勢也很有意思,不知可以如何解釋。歷史上的名人也很有意思。這裡就舉一下科學方面的例子:
牛頓碉堡了...不過更誇張的是伽利略:
語言本身也有許多很有意思的變化。
比如一些已經基本不用了的英語辭彙:
比如性別相關辭彙:比如各種人稱代詞:最近50年來第一和第二人稱代詞的增長速度特別快。比如句首疑問詞:
當然了,還有一些詞的語義經歷了巨大的變化。
最典型的例子之一就是"gay"這個詞:
gay最開始是「快樂、愉快」的意思。但自從上世紀30年代以後有了「同性戀」的意思,大家由於恐同和避嫌都不敢隨便再用這個詞,於是出現率驟降。之後到了七八十年代以後,逐漸壯大的同性戀平權運動和反同性戀運動讓這個詞的使用率又很快地升到了歷史最高點。再舉個很典型的例子:
這個不用解釋了。還有一個比較奇葩的案例:
誰能告訴我17、18世紀fuck是什麼意思?...----------跑題的分界線----------
自己動手豐衣足食,我去Oxford English Dictionary查了一下fuck的詞源,簡直特么打開了新世界的大門啊!!沒想到18世紀以前的人真的會用fuck這個詞,而且fuck還就是性交的意思,但是當時似乎fuck還是個比較中性的詞,可能像現在的"intercourse"之類的,沒有太多低俗粗鄙的感覺。下面是歷史文獻中真實的「fuck」例句,有些尺度真挺大的,viewer discretion is advised:
1680 School of Venus i, in B. K. Mudge When Flesh becomes Word (2004) 10 Generally both Sexes fuck, and that so promiscuously as Incest is accounted no sin.
a1749 A. Robertson Poems (?1751) 256 But she gave Proof that she could f—k.
a1796 R. Burns Merry Muses (1911) 71 You can f—k whereer you please.1809 Court Martial J. N. Taylor 11-12 Dec. (P.R.O.: ADM 1/5400) Mr Taylor was fucking him behind, his Yard or Penis was in the Arse of the boy.1879 Pearl Oct. 127 He fucked all her toes, Her mouth, eyes, and her nose.1865 『Philocomus』 Love Feast i. 9 My poor pussy , rent and sore, Dreaded yet longed for one fuck more.
1764 J. Wilkes Ess. on Woman 13 Just a few good Fucks, and then we die. (試著想像《權利的遊戲》里小惡魔說這句話,簡直完美)
----------回歸正文的分界線----------
語料庫里連數字也有,所以可以這麼玩:
我看了一下每個年份對應的數字出現的頻率,發現圖書的寫作和出版大約有5年左右的滯後,也就是說1950這個數字在1955年左右出版的書里出現率最高。這個趨勢非常穩定,而且讓我有些驚訝的是最近一百年這個滯後的時間並沒有縮短。再看一下單個出現的數字:
有點像Benford法則(但並不一樣),很有意思的規律。還發現一個關於圓周率的有趣的現象:
兩次世界大戰期間為什麼圓周率的存在感這麼高呢?接下來看幾個中文的例子。既然是中文,就搞幾個有「中國特色」的吧。
非常有時代特徵的一些詞:
當年出版的書籍中,每50個詞就有一個是這種,可見當時語言的單一和匱乏。
比較一下不同時期的重心:
就這樣一張圖就能出一道政治、歷史的論述大題啊,這考試逼格多高~「多研究些問題,少談些主義」:
國際關係:人民:德先生、賽先生和他們的小夥伴們:其他的一些常用詞:
常見姓氏:
誰能告訴我40年代的「李」和20年代前後的「周」是怎麼回事?...
當然了,數風流人物,還看:
甲乙丙:
為什麼在很長一段時間裡甲乙丙的出現概率排序是顛倒的?
吃、喝、睡:
其實「吃」在中文書里出現的頻率和"eat"在英文書里出現頻率差不多,但是中文裡「吃」相對於「喝」、「睡」明顯要重要得多...
英語 vs. 漢語:
東南西北:
誰能解釋一下60年代末南方怎麼了?...---------------------------------------------------------------------------------------------------
再下去又要停不下來了,就先寫到這兒吧~總之這東西有太多的玩法,特別適合kill time~ 大家如果想到或發現什麼特別好玩的詞也可以寫在評論里。
對了,Ngram的搜索中還有各種高級玩法,最基本的比如+,-,*,/等邏輯運算,還能用*進行模糊搜索,還能specify某個詞的詞性(名詞、形容詞、動詞...)和在句子中的位置(句首、句尾),還能對詞形變化(booked,books,booking之類的)進行模糊搜索,還能用:進行跨語言比較,甚至能算兩個詞之間的dependency……簡直黑科技!我怎麼現在才知道?!具體請看:https://books.google.com/ngrams/info#
推薦閱讀:
※- 《殼之少女》填詞:殼
※俄羅斯漁民大叔的深海異形生物又火了,這次抓到的魚竟然有翅膀!
※你們有哪些奇奇怪怪 妙趣橫生 或者腦洞大開的小想法(或者幻想)?
※窺者無知
※古人是怎麼知道肚子里有蛔蟲的?