辭彙量不同不相為謀?高頻詞藏著人類思維基本模式

辭彙量不同不相為謀?高頻詞藏著人類思維基本模式

來自專欄 DeepTech深科技124 人贊了文章

早在 1935 年,美國語言學家喬治·齊普夫 (George Zipf) 就曾有一項非凡的發現。齊普夫對高頻詞與低頻詞之間的關係感到好奇。所以他統計了在日常語言中單詞出現的頻率,並根據使用頻率對單詞進行了排序。

這一統計揭示出了明顯的規律性。齊普夫發現,一個詞的使用頻率與其在頻率排序中的位置成反比。因此,第二常用的單詞的使用頻率似乎是最常用詞的一半。而排名第三的單詞的使用頻率約是最常用詞的三分之一,以此類推。

在英語中,最常用的單詞是 the,占所有單詞的 7%,其次是 and,占 3.5%,以此類推。實際上,約有 135 個單詞占所有單詞出現次數的一半。所以有一些單詞經常出現,而大多數詞則幾乎從不出現。

但這是為什麼呢?一種有趣的解釋是大腦以一種不同的方式處理高頻詞,研究齊普夫分布應該會極大加深我們對於這一大腦活動過程的理解。

但有一個問題: 語言學家並不都認同詞頻的統計分布是認知過程的結果。相反,一些語言學家認為這種分布是由於對低頻詞的統計誤差所產生的,統計誤差也有可能產生類似的分布。

當然,這就需要我們對更多語言進行更大規模的研究。這樣一項大規模的研究將更具統計學意義,得以釐清這些觀點上的分歧。

現在,得益於中國傳媒大學的於水源教授及其同事的工作,我們有了這樣的一項研究。他們從取自包括印歐語系、烏拉爾語系、阿爾泰語系、高加索語系、漢藏語系、德拉威語系、亞非語系等在內的多個語系的 50 種語言中發現了齊普夫定律。

於水源等人表示,這些語言中的詞頻有著共同的結構,該結構和統計誤差結構並不相同。而且,他們還表示,這個結構表明,大腦處理高頻詞的方式確實與處理低頻詞的方式不同,這一概念對於自然語言處理和文本自動生成具有重要影響。

於水源等人的研究方法很簡單。他們從兩個大型文本集合開始,即英國國家語料庫和萊比錫語料庫。這些語料庫中涵蓋了來自 50 種不同語言的樣本,每個樣本包含有至少 30,000 個句子和多達 4300 萬個單詞。

研究人員發現,所有這些語言中的詞頻都遵循一個修正後的齊普夫定律,修正後的齊普夫定律可分為三段。「統計結果表明,齊普夫定律在 50 種語言中都具有三段結構模式,每個分段都表現出獨特的語言屬性,」他們說。

這個結構很有趣。於水源等人試圖用一些模型來模擬這個結構去創建單詞。其中一種模型是猴子打字機模型,在這個模型下,字母隨機出現,只要出現空格就算一個單詞。

這個過程產生了像齊普夫定律那樣的冪律分布。然而,它無法產生於水源等人所發現的三段式結構。而在涉及低頻詞統計錯誤的統計結果中,也無法產生這樣的結構。

然而,於水源等人通過一種叫做雙重加工理論的大腦工作模型複製出了這種結構。這種觀點認為大腦在以兩種不同的方式運作。

第一種方式是快速直觀的思考,幾乎不需要任何推理。通常認為我們進化出的這種思維方式允許人類在受到威脅的情況下迅速作出反應。它通常可以為困難的問題提供良好的解決方案,例如模式識別,但它也很容易被非直觀的情形所欺騙。

然而,人類能做出比這理性得多的思考。第二種思維方式相對慢些,更慎重也更深思熟慮。這種思維方式使我們能更解決更為複雜的問題,例如數學難題等等。

這種雙重加工理論表明,例如 the、and、if 等等高頻詞是被快速、直觀的思考方式處理的,因此使用頻率就更高。這些辭彙構成了句子的主幹。

而像「hyphothesis」、「齊普夫定律」(Zipf』s Law)這樣的低頻詞和短語的使用則需要更多慎重的思考。也因為這樣,這些詞的使用頻率就更低。

實際上,於水源等人在模擬這個雙重加工模型時,發現了 50 種不同的語言中的詞頻分布存在相同的三段式結構。

第一段反映了高頻詞的分布,最後一段反映了低頻詞的分布,而中間段則是前後兩段的交疊部分。「這些結果表明語言中的齊普夫定律是由類似於雙重加工模型這樣的控制人類語言行為的認知機制所驅動的,」於水源等人表示。

這是一項有趣的研究。近年來,人類大腦以兩種不同的方式處理信息的這一觀點有相當大的發展勢頭,特別是因為諾貝爾獎獲獎心理學家丹尼爾·卡尼曼(Daniel Kahneman)的《思考,快與慢》這本書,對這一觀點進行了深入的研究。

以下是一個激發快思考與慢思考的經典問題:

「一個球拍和一顆球共花費了 1.1 美元。其中球拍比球貴 1 美元。請問球多少錢?」

答案當然是 5 美分。但是幾乎所有人的本能都是先想到 10 美分。這是因為 10 美分給人的感覺差不多是對的,它的數量級正確,而且在問題的框架中存在暗示。而這個答案則是從大腦快速、直觀的部分得出的。

但這個答案是錯的。我們需要需要大腦更慢、更慎重的部分進行計算才能得出正確的答案。

於水源等人認為在句子生成的過程中, 也有同樣的雙重加工處理過程。你大腦中快速思考的部分產生出句子的基本結構。而其它詞語則需要大腦更緩慢、更慎重的部分生成。

就是這種雙重加工引出了三段式的齊普夫定律。

這一研究應該會對研究自然語言處理的計算機科學家帶來有趣的影響。這一領域得益於近年來的巨大進步——不僅源於機器學習演算法的進步,還源於像谷歌這樣的公司收集的大型文本資料庫。

但人工生成自然語言仍然十分困難。你只要與 Siri,Cortana,還有谷歌助手聊上一會兒,就會發現他們會話能力還多麼有限。

所以, 更好地理解人類如何生成句子必然會很有用。如果齊普夫還在,一定也會為之神往。


推薦閱讀:

孩子的語言辭彙量不足,那是你這幾點沒做好(媽媽口袋課)
育兒經||孩子說話遲、辭彙量少?不如試試這些方法吧
8000辭彙是怎樣煉成的?
如何在短期內將辭彙量提升到2萬,甚至3萬以上?
推薦10部超贊的電影美劇,練口語增辭彙量必看!

TAG:辭彙量 | 背單詞 | 英語辭彙 |