中英文的比較
06-05
英文是世界上最普及通用的拼音文字,當前的計算機都是以它作為基礎語言的。中文(漢字)是世界上使用人數最多的象形文字,它最古老而獨特,一度曾被認為不適於信息處理而必須淘汰,後來卻發現它更為有效,將是未來應用最廣的。我們研究比較這兩種文字,目的是:進一步明確漢字的優缺點以便揚長避短,讓漢字也能作為計算機的基礎語言,創造出真正的漢字電腦。本文將從兩方面進行比較研究。性能上的比較會使我們堅信漢字的優越性,結構上的比較將幫助我們找到把漢字植根於電腦的方法。甲、性能上的比較:壹、漢字的短處 一般都認為,英文只要學會26個字母及相應的音素,會拼音,就學會了讀寫,不是文盲了,所以學文化很容易,花一個月的工夫就夠了。中文則不那麼簡單,至少要學會幾千個方塊漢字。而每個字形狀複雜,沒有確切的讀音信息,且一字多音,一音多字,即所謂漢字有「三多五難」(字數多,筆畫多,讀音多;難認、難讀、難寫、難記、難用)。中國孩子要花6~12年的時間學漢字,太落後了,以至連魯迅都說「漢字不滅,中國必亡」。於是從二十世紀三十年代起開始推廣拼音新文字,據試驗,也只要個把月工夫,就可以寫信了。 事實當然不完全象上面說的。中國兒童在中小學裡並不是只學漢字,而拼音文字也不是只要一個月工夫就可學好的。學幾天拼音,能拼出幾句中國話,別人看了,百分之七八十都能猜出大意,這十可能的。但說要能基本掌握一種文字,這是不可能的。只要想一想,方言重的人學普通話,中國人學英文有多麼困難,有些人花幾年幾十年時間都學不會,就可以明白了。說英語的人,學英文也同樣不容易。英語專業自學考試課本《綜合英語I(1)》第4課是美國著名演員悉尼談他學英文的故事。他花了半年工夫跟人學讀英文報紙,以後還經常練習,才學會念台詞。 分析起來,漢字是由30種左右的筆畫(遠比英文字母26*2=52種少)組成的,先組成200~600種字根(字元、偏旁、部首,相當於英文的字干、前綴、後綴),再由它們組成漢字。漢字對應英文字,漢字字典收字最多的是《中華字海》,達85000個,而學生用英文小字典中的英文字都在2萬以上。《新英漢字典》收字已達80000,英文字總數應遠遠超過漢字數目。 漢字唯一的缺點是,缺乏讀音信息,所以有時候會懂一個字的意義,而讀不出或讀不準發音。英文的字母或字母組與音素也不是一一對應,在諸多拼音文字中,發音規則複雜,也會讀錯,不過比漢字要好得多。漢字只有近一半有聲旁(80%有偏旁,其中一半以上是聲旁)。漢語只有417個音節(1369個不同的音調節),84%的音節有聲旁,但只有2成聲旁是唯一的,8成有2個以上不同形的聲旁,甚至有10~29個不同的聲旁。因為漢語音節總數只有400來個,每個平均有3個聲旁,只要認識1000來個聲旁,如果准許「秀才認字讀半邊」,則所有字就都可以讀得出了。但問題是有一半多漢字的偏旁不是聲旁,硬要「讀半邊」就讀錯了。非關鍵字讀錯了不影響交流,多數人長期錯讀,甚至會改變該字的讀音。所以我提議讓「讀半邊」合法化,同時盡量減少多音字,降低錯讀率,提高漢字的語音信息量。以前的文字改革只在簡化字形上下工夫,沒有在讀音上動手術。我覺得在這方面也應該有文章可做,準備在另一個地方討論。 貳、漢字的優勢 除了上面這個短處外,其他都是漢字佔優勢。在漢字輸入瓶頸解決之前,認為漢字不適於信息處理,而現在看得出來的以下優點,主要的是第一條、第三條,反而是在信息處理中更能顯出其優勢: ①.漢字含的信息量大,效率高。計算信息量的大小有一個數學函數:熵H=-ΣPilog2Pi,這裡Pi是事件集合中事件i的出現概率。把漢字和英文字母作為各自的事件集合,其信息量分別為9.71和4.03。雖然漢字高出英文一倍以上,但將幾千漢字和幾十個字母作比較是不恰當的。對詞的概率分布進行計算。漢字詞的信息量為11.46,英文詞(字)則為10.0,不過漢字詞的劃分還是有人為的音素。最形象的比較是:在聯合國的同樣內容的文件中,中文的總比英文的薄得多。隨便拿一本中英對照的書翻一翻,都是英文部分比中文部分厚得多。我進行過統計,一般每頁的行數,中、英文是一樣的;每行的漢字數是英文字母數的一半;在電腦存儲時,一個漢字正好要佔兩個字母的空間。統計結果是,英文的頁數是中文的1.4倍。在電腦中,英文文件要比同內容的中文文件大1.4倍。這樣,中文的存儲效率高,傳輸和處理的速度也就快。 ②.閱讀中文比英文快,用中文進行思考快。按上條可知,用同等大小的字體排印的印刷品,英文的行數比中文行數多1.4倍。另外,英文是拼音文字,必須把線性排列的字母在腦子裡拼成聲音才能理解。而漢字是整體的:閱讀時多不必把它化成聲音,常常掠一下字形就了解其含義,讀得快時被形容成一目十行。所以閱讀同樣內容的文件,速度應快1.4倍以上,用中文進行思考也會快這麼多(有文章說達1.6倍)。趙元任先生早就做過試驗,用英文背九九表(乘法口訣)要花45秒,而用中文只要30秒,快一倍半。 由於閱讀中文快,用中文思考快,想必電腦識別、理解中文也應該快。單從中文存儲、傳輸效率高這點看就應該如此,雖然尚未見到試驗報告。深入分析中文的這種高效率的根源,是在於漢字的雙位元組代碼。因為漢字不能拆分為字母來顯示,只能為每個漢字置一個顯示字模和一個兩位元組的代碼(內碼)。如果也為每個英文字置一個代碼,常用的(大學生用字典)英文字大約有1~2萬個,所以也可以用兩個位元組的代碼。英文字平均長度是4.64個字母,用雙位元組代碼來存儲,就可壓縮一倍以上,這樣一來,英文的存儲傳輸效率反過來成為中文的1.4倍。但是中文的印刷頁比英文少,閱讀快等客觀屬性,是不能用電腦存儲機制的改變來改變的。③.英文的縮略語比起中文的簡稱來,難記,易搞混。隨著社會的發展,概念,因而相應的名詞也增多,專有名詞也越來越長,使用起來太笨拙。英文中就用組成該專有名詞的英文字首字母形成的縮略詞來代替,中文中則採用詞的首字形成簡稱。因為漢字有幾千,簡稱不易重複,詞短,音節少,容易推出其全稱。英文首字母只有26種,所以縮略詞易重複,詞雖短,個別情況下讀音卻不一定短,由縮略詞難以推出正確的全稱,容易搞錯。我隨機抽查了一本《英漢縮略語詞典》當中的532個詞條,無重複釋義的只佔67%,即三分之一縮略詞有2個以上的釋義(全稱),10%以上的縮略詞有5個以上的釋義,只能在特定環境、特定上下文中才有確定的含義。奇怪的是,現在中文報刊,特別是計算機報刊,也喜歡夾用英文縮略詞,一篇文章中這種縮略詞太多,何況有許多縮略詞是新誕生的,沒有詞典可查,也猜不透它的含義,全篇文章就看不懂了。為什麼不使用中文簡稱呢?④.漢字能無限的發展,學漢字能提高智商。中文的簡稱與多字詞無形式上的差別,直接變成普通詞。英文縮略詞則難以變為普通辭彙,因為不是任何字母組合都可以成為有一定讀音的英文字,而一定長度內的英文字數是有限的。電腦源程序中常出現很長的夾雜著大寫的英文字,很笨重,只能在這特定情況下用。縮略詞的混亂上面已說過,這一切表明,英文發展進程中已出現了困難。中文就沒有類似情況,創造新詞和新字的空間還很大。交談時,新名字要求用短音節,萬一有歧義,可補充說明,而寫到紙面上,則總可以用不同的詞或字。人類的感官接受信息最多的是視覺,其次是聽覺。聽覺可區別聲波的線性序列,視覺能鑒別形狀的平面分布。文字的作用是把聽覺信號轉變為視覺信號,本應發展提高。但拼音文字維持信號的線性次序,是限制了自己的提高。據研究,幼兒早學漢字,可以提高智商(參見《漢字優勢與幼兒教育》)。我們的左腦管語言和邏輯思維,使用字母線性排列的拼音文字時,只使用左腦。使用中文就要同時使用管形象思維的右腦,因為左右腦一起用,所以效率高,智商也得到發展。⑤.漢字和中文的藝術表現力強。只有漢字有發達的書法藝術,拼音文字幾乎沒有。中文的詩詞歌賦等文學藝術形式,英文中沒有哪種形式可以比得上,有些形式,例如對聯、歇後語、字謎等,英文中甚至沒有類似的。有人認為,中國之所以沒有得到諾貝爾文學獎,不是沒有高水平得作品,而是因為難以把它們翻譯成英文。英文譯本不能傳達中文種包含的絢麗色彩,她所有的獨特韻味都被抹殺了,這不無道理。 乙、結構的比較 文字是記錄語言的。記錄下來的語言就成為文章。由它的最小的單位組織成的文章的過程中,有許多不同的層次。1985年我首次按這種結構層次,對中英文進行了比較,得出以下的對比表: 文種 第0級(元素) 第1級 第2級 第3西文(拼音) 音素和形素(字母)一一對應,數目少 音節,無顯界 詞(字),有顯界 句 30~60左右,有顯界中文(拼形) 形素(字元)和聲音非一一對應,數目多 漢字,有顯界 詞(2字以上者) 句 約100~600個,無顯界 無顯界 這裡所說的有無顯界,是指能否明顯而自然的分開。漢字的字元以及多字詞的劃分會因人而異,英文的音節的劃分也有類似情況,故定為無顯界。這張表中,劃在同一級中的兩種文字,都是有顯界對無顯界,現在看來是很不對的。現改為:文種 第0級有顯界 第1級無顯界 第2級有顯界 第3級無顯界 第4級有顯界英文 字母共52種,熵=4.03 字干、前綴、後綴 英文字,熵=10.0 片語 句中文 筆畫約30種,熵=3.43 字根、偏旁、部首 漢字,熵=9.7 多字詞 句 這張表的對應關係是很自然很明顯的。只有漢字的筆畫,過去研究得較少。對於我們中國人,筆畫的劃分是很清楚而一定的。不過筆畫的分類歸屬很不統一。簡單的幾乎只劃分為5種:橫豎點撇捺,並已用在漢字字典的檢索和電腦漢字筆畫碼輸入法中。實際上漢字筆畫有30多種。表中所列的漢字筆畫的熵=3.43,是我把筆畫分為25種時統計計算的。為了使筆畫數接近英文字母數,我把一些筆畫歸併了,這使信息量降低了。這樣做不一定正確。關於筆畫的研究,我準備在另一篇文章中討論。另外,關於發音,英文字是多音節的。漢字是單音節的,關於漢字的發音信息,亦準備另寫一篇文章討論。 現在按這張對比表,討論中英文的不同之處。英文的基本元素是字母,中文的基本元素是筆畫,筆畫遠比字母簡單。字母組成英文字時,字母是線形排列的。而筆畫組成漢字時,筆畫是在平面的兩個方向上按一定規則排列。利用空間的不同排列,簡單的筆畫組成了含信息量大,易於快速閱讀和準確辯識的漢字。這是漢字優勢所在之處。我們要研究漢字直接植根於電腦的方法,要研製功能更強的漢字電腦,就該從這裡著手。研究漢字的筆畫,總結筆畫形成平面漢字的規律,使筆畫直接組成漢字,不要龐大的字模字型檔。 按上一節第②點後面的分析,完全排除字型檔加編碼的方法,也是不明智的。漢字的平均筆畫數為7.4,遠比英文字的平均長度4.64長。如果完全用筆畫序列來存儲漢字,則在存儲和傳輸效率上,將會比英文慢7.4/4.64=1.6倍。而且用筆畫碼逐碼輸入,其速度也將會變得不能容忍。所以應該有一個常用字型檔,不過其顯示字模是由筆畫組成的,所以占內存很小。原來開發的各種編碼輸入法仍然有用,只是常用字型檔可以只有一級字型檔那麼大,各種輸入法更可以簡化,降低重碼率。至於對使用頻率很小的非常字,則用筆畫輸入,並直接以筆畫碼或字元碼存儲。這樣雙管齊下,漢字就能保持高效率和高活力,能適應一切情況和未來的發展。
推薦閱讀:
推薦閱讀:
※歷史上有個人曾建議我們拋棄漢語, 全民學英文, 幸虧我們沒聽他的
※馬爾地夫常用簡單中英文對照
※沒有英文名字還自己帶飯,在職場上會死得很慘
※發布丨推進實施《中國製造2025》情況(中英文版)
※不會講英文的人士請用我的赴美指南