給文明以漢字,給漢字以文明

我目前在港大研讀計算機科學,最近主攻自然語言處理,課餘喜歡研究一些人類文明史、地緣政治。

以漢語為母語的我,面對繁雜的英文語法,想結合一下漢語的經驗,卻發現漢語更加雜亂無章,我在研究的迷茫與停滯中不由得心生一些感慨,也算是閑的無聊,寫下這篇很昭和的文章,熟人請路過當沒看見啦。

用漢字能寫出《滕王閣序》這樣華麗的駢文,也可以作出《春江花月夜》這樣絕美而且富有人生哲理的長詩,也能用簡短的文字創作出《孫子兵法》這樣的神作,這些古籍的精彩程度不亞於長城和故宮,我們有機會用心去體會這些巧妙的文字,與千年前的古人心靈相通,是非常難得的事情。

宏偉的胡夫金字塔、神秘的獅身人面像,在中國人還在吃土的時候就矗立在這個世界上了,而如今的古埃及象形文字躺在斷壁殘垣上訴說著一個古老文明的故事。

兩河流域的古巴比倫王朝不可一世,楔形文字被成熟地使用於漢莫拉比法典,然而直到二十世紀,這部法典才在石碑上被法國人發現,昔日繁盛的巴格達,固一世之雄也,而今安在哉?

古印度文明,攜其文字,早早地就退出了歷史的舞台,在遭雅利安人入侵後,雅利安人為了維護自身統治而創立的種姓制度,遺毒至今。

中國是一個相較其他三大古國而言晚熟的文明,但卻是跟現代國家相比十分早熟的文明,中國有文字記載的文明只有三千年,但早早在兩千年前,商鞅變法就把中國領入了中央集權的郡縣制時代(可以說郡縣制、文官公務員組成一個中央集權的政府,在兩千多年之後的今天仍不過時,所以稱之為早熟),完成了對很大區域的政治統一和有效管轄,秦朝完成了領土統一(人心尚未統一),漢朝完成了文化統一(平定吳王劉濞,制度上改分封為郡縣),漢字一直伴隨這個過程發展,成為各個地區的通用書面文字。

另外,漢字與很多拉丁文字不同,漢字是表意的,口語體系和書寫體系是分開的,因此兼容性更強,溫州人、廣州人、北京人可以用不同的口音,卻使用相同的書寫體系,漢字的這一特性,是中國分久必合的重要因素,也是中國能有效管轄遼闊的疆土的核心因素之一,政令是靠文字傳播的。如果中國一開始也使用拉丁文字,那麼在某次國家分裂後,很可能各個語系就獨立了,難以再次統一,千年的羅馬帝國最終也分崩離析成很多小國。

四大文明古國,只有中國活了下來,我為其驕傲與自豪,但是也很清醒地意識到,除了祖先們的智慧與勇武,這離不開地緣因素,中國相對封閉的地形,幫助了中華文化的傳承,西有戈壁大漠雪山,南有密布的叢林,東臨大海,唯一的軍事危險來自於北方,於是有了長城。相較中東地區這樣的四戰之地,黃河流域是孕育一個古老文明的搖籃。同時幸運的是,在兩千年前,在當時的科技條件下,恰巧中國存在關中這樣一塊獨特的地緣力量,八百里秦川沃土,東拒函谷潼關,能整合中國的各個勢力,在秦漢時期早早就把中國周邊適宜耕作的土地完成了統一,把法國與德國這樣的國家關係變成了省份關係。

即便如此,中華文明也有好幾次險些斷代,第一次是五代十國時期,但是幸運的是最終統一北方的孝文帝的鮮卑政權實行了漢化改革,第二次是蒙古入侵,一度有「崖山之後無中華」之說,但是蒙古人會打天下無法治天下,對於整個農業國家,還是要靠漢人官員治理(總不能把中國土著農民都殺了,把耕地變成草原,遷牧民去養馬,因此最後農民的孩子還是中國農民),第三次是清軍入關,一度想推行滿文,但是受阻了。所以中國的改朝換代是統治階層易位,小農經濟的基本盤沒有變,整個文化的載體——漢字,沒有變。第四次是抗日戰爭,此處不詳述了。

但是中國相對封閉的地理位置,同時也阻斷了中國與外界的交流,消息閉塞,導致了天朝上國、不思進取等思想的出現,於是有了乾隆皇帝怠慢英國特使,錯失第一二次工業革命,有了屈辱的中國近代史。

以上只是很籠統地概括了一下中華文明和漢字能活到今天的部分客觀因素,篇幅有限,很多點有待補充,皆一家之言,歡迎討論。

漢字是由古老的象形文字演變過來的,表達精簡、幹練,一字多義、一音多字甚至還能一字多音,這些是漢字的特性,漢語的語法也非常奇葩,可以說就幾乎沒有語法,唯一強行找出來的語法規則就是「被把句」和典型的「主謂賓」結構了,此外大量的文字使用方法都是基於「經驗」的,需要在漢語語境里大量練習才能知道怎樣才算地道的表達,比如「打」不僅僅是hit,還可以「打的」、「打工」、「打小」、「打架」、「打包」、「打針」……「吃」不僅僅是eat,還可以「吃驚」、「口吃」、「吃力」、「吃緊」、「小吃」……很多很簡單常用的單個字組合起來就有不同的意思,想背誦基本不可能,這些詞都是先在日常表達里被經常使用後,被加到詞典里的。

中文除了音譯外來詞,還主要靠原有的片語合起來,古人發明漢字的時候沒有火車(train),只有火和車,現代中國人翻譯train的時候把火和車組合起來,畢竟蒸汽機燒煤嘛,有火,本質上又是一種有輪子的像車一樣的東西,於是就叫火車了,火和車都有其本意,但是組合到一起就成了另一種意思,此外,「鑽石」(diamond)、「圖書館」(library)、「大學」(University)、「學院」(college、school、institute)這樣的詞也是一個道理。

這樣我們發現英文里的專有詞太多了,或者說像「大」和「學」這樣的基礎辭彙遠遠超過了漢語的3000個,你第一次學University的時候一定不知道這是什麼意思,但是如果使用中文,只要你知道大和學的意思,就能大概的猜出來這個詞跟學習相關,聯繫上下文語境可能就能猜出來這個詞的意思。有一個說法是說如果你掌握了漢語的日常表達方法,那麼所有用漢語寫的文章你都基本能看懂了。一個外行去看英文的專業文章,看到一堆專業名詞一定是暈乎的,但是我有信心看任何一篇中文文章不用查字典就能大概看個明白,起碼我看到「鈉」這樣的帶金字旁的字能猜出這是某種金屬元素,看到「火車」這個我沒聽說過的詞的時候能猜出這是某種有輪子的車。同時,漢語的閱讀速度也一定是最快的,英語是純一維的語言,線性閱讀,漢語是一點五維的語言,由很多二維的圖形組成一條線。掃過同等長度的句子,漢語信息量通常是大於英語的。

下圖是新加坡公交車上的通告,英語、漢語、馬來語、印地語,同框比較,可見一斑。

這給我們帶來了很大的優勢——我們可以便捷快速地涉獵更廣泛的知識,不必為專業名詞而苦惱。漢字構建的知識體系是相通的,這為我們的跨學科人才提供了絕佳的土壤,漢語的使用大大降低了門檻。

同時,現在的外國人總調侃中國人的數學好,與簡練的數字的發音和小九九的背誦不無關係。用漢語從一念到十和用英語從one數到ten,算算髮出的輔音濁音數量就可以看出來了,而且中國人讀11、12、20都是很直觀的十一、十二、二十,而英國人要讀eleven、twelve、twenty,講道理應該換成直觀的十進位表達方法,讀成ten one、ten two、two ten。這些很基礎的表達方法會影響到一個初學者的數學入門時期對於數字的直觀認識,當然即便英文對於數學這麼不友好,還是不影響牛頓這種的人出現,拉丁文的有一點優勢是漢語無法趕超的。

數學是一切理工學科的基石,很遺憾的是,漢語不能作為數學語言來使用,數學表達需要準確的公式來定量,a^2=b^2+c^2這樣的簡潔的公式,用漢語很難表達,數理化里大量需要的數學公式,漢語的書寫系統十分複雜,用漢語都無法承載,而這些公式里蘊藏著開啟工業革命的密碼。另外,現在的很多學術論文都是英文的,很多語義用英文的各種從句和專有名詞能更精準地表達。計算機語言更是全部使用英文和各種符號來表示,全程邏輯相當嚴謹,一點歧義都不能有。整個中華文化的背景很多都是基於經驗的,都是定性的多,定量的少,寫虛的多,寫實的少,寫詩都講求一種意境,用典、寫意,讓對方猜測自己的意圖,大家都很享受那種互相猜出很隱晦的表達的感覺,這是一種文化人的樂趣。中醫理論也是定性的,什麼陰陽五行說。因此國人曾經更擅長技術,而不是科學,更注重應用和結果,而不是背後的原理,青蒿素就是一個例子。民國時期有人意識到了這一點,要全面拉丁化漢語,全面否定自己,還好沒有順利施行。

前一兩百年,老祖宗落下的東西太多了,整個現代工業知識體系都是用英文搭建起來的,很多的資料、實驗結果都是英文描述的。我的父親是八十年代的大學生,他的畢業設計就是跟著自己的導師,復現了一個德國人的實驗,人家可能一百年前做過的一個實驗,我們中國人要重新做一遍看看結果是不是一樣,驗證一下,一點點地補。

漢語的音和義的分離,以及其獨特的非拉丁化的書寫系統,使其變成世界公認的最難學的語言,海外的華人很多是會說不會寫,再加上我之前提到的漢語需要靠經驗來學習,因此非中國人,能順利讀懂一篇中文文章的外國人少之又少,而能讀懂一篇英文paper的中國人保守估計應該有8位數。這就產生了一種信息不對稱,這意味著什麼我就不多說了。目前世界上幾乎所有的知識,用漢語幾乎都可以搜到,我也努力地寫中文博客貢獻一些自己的力量,而很多語言已經被剝奪了這樣的權利,很多人只能使用英文、法文這種大語種來學習,其語言承載的文明也終將逐漸被人類淡忘。

引入英文,或者準確說是引入一種拉丁化的數學表達語言,讓我們的文明得以再一次涅槃。漢字,是地球上唯一還在被很多人使用的表意文字,是人類文明的瑰寶,是生生不息的中華文化的載體,也曾是中國發展現代科學的羈絆。如今,我們這些雙語、多語使用者,既能讀懂「知己知彼,百戰不殆」,又能理解「Hello World」,應當儘力向前,做點什麼,無愧於這個時代,至少我不想再讓我的孫子在雅思考官面前跟孫子一樣了。


推薦閱讀:

tf.nn.nce_loss 來自一篇古老的文章
RNN基本模型匯總(deeplearning.ai)
嶺回歸-嶺回歸
CRF 小結
為何讀不懂你的那個TA

TAG:漢字 | 歷史 | 自然語言處理 |