中文的尷尬
07-31
中文的尷尬 ·王不留行·中文,又稱漢語、華語,是世界上使用人數最多的語言,除了作為中國大陸、台灣、香港、新加坡等地的官方語言之外,其中的文字也是日語的重要組成部分,在朝韓和越南的歷史上,也發揮過重要作用。中文、漢語或華語,在英文中均稱為Chinese,而實際上,這些概念無論是在字面上還是在意義上都有不少差別。中文,顧名思義,就是中國人所使用的語言,但中國是一個多民族、多語言的國家,有56個民族,80種以上語言,約30種文字。從語言的系屬來看,中國的56 個民族使用的語言分別屬於五大語系:漢藏語系、阿爾泰語系、南島語系、南亞語系和印歐語系。從這個意義上講,中文並不是所有中國人的語言,一般所講的中文是指佔中國人口92%的漢族所使用的漢語。在語言分類上, 漢語屬於漢藏語系,是一種聲調語言;而華語則是指居住在東南亞一帶的華人所使用的漢語。漢語名稱的由來和演變有文獻記載的漢語的歷史已有三千多年之久。但漢語名稱則是到了漢朝才出現。公元前206年,劉邦得天下,國號稱「漢」。當時,中國的北方仍舊被許多少數民族佔據,與漢朝對峙。這些外族人稱漢朝的中原人為漢人,漢人則把這些北方少數民族稱為「胡」人,漢人說的當然是「漢語」,胡人說的就是「胡言」;所以,「漢語」名稱的由來也可以說是由「胡言」而來。到了南北朝時期,北方多個少數民族大規模南下,發生了中國歷史上著名的五胡亂華(五胡是指匈奴、鮮卑、羯、羌、氐五個少數民族),一方面造成了中國社會的大動蕩,另一方面也促成了漢胡民族大融合,胡人到了漢地得學說漢語,說得不好,於是有「胡言亂語」的說法。漢語的發展大致可分成古代漢語、近代漢語和現代漢語三個時期。古代漢語又可以分為兩個階段,一是先秦時代,這個階段是主要是漢語的規範階段,古典詩經書面語言的傳誦,就是一個很好的例子。二是兩漢到隋唐時代,由於社會交流的頻繁,文字的應用變得十分廣泛,尤其是文學作品的大量出現,使得漢語的發展十分迅速, 可以看作漢語的發展階段。近代漢語為宋代至晚清,在口語方面,一種以北方話為基礎的共同語的開始形成,後來稱之為「官話」,在書面語方面,則以與口語結合十分緊密的白話文為代表,特別是明清時期,白話文小說已經發展得十分普及,中國所有著名的古典小說都出現在這個時期。現代漢語一般以1919年的五四運動作為起點。首先是漢語的文體發生了根本的轉變,白話文完全取代了文言文,接著是漢語的語法和辭彙也發生了巨大的變化,由於受到大量的西方翻譯著作的影響,漢語的語法向西方語言靠近,辭彙方面則是大量的複音詞出現。龐大的方言漢語到底有多少方言? 可能沒有人能說得清,用「成千上萬」來形容一點也不過分。在中國的南方, 「十里不同音, 五里不同調」並不是什麼稀罕事。對於漢語方言的劃分,是一件令語言學家十分頭痛的事,存在許多的劃分法,比較常見的是把漢語方言劃成為七大方言:北方方言--北方方言只是一個方言的名稱,並不局限於中國北方,除了指華北、東北及西北地區,也包括中國西南地區、江淮地區、的方言也屬於北方方言。湖北大部、四川、重慶、雲南、貴州、湖南北部、江西沿江地區。使用這一方言的人佔中國人口的三分之二以上。其特點是差別不是很大,大部分地區都能夠彼此通話。北方方言也是現代標準漢語的基礎,粵語--又稱廣東話或白話,以廣州話為代表,主要用於廣東省中西部、廣西南部、香港、澳門等地以及東南亞、北美的華人社區。廣東話是漢語方言里最為西方人所知道的,因為早期的在歐美的海外華人大都來自廣東地區,在世界各地的中國城通行的就是廣東話,那些對漢語不甚了解的老外一般以為中文就是兩種:「Cantonese」(廣東話)和「Mandarin 」。有關「Mandarin」,我下面再談。閩語--又稱福建話。這是一個非常籠統的劃分,因為福建方言可分為閩北方言(以建甌話為代表)、閩東方言(以福州話為代表)、莆仙方言(分布在莆田和仙游一帶)、閩中方言(以永安話為代表)、和閩南方言(以廈門話為代表),這些方言差別非常大,如果以語言標準,有些很難歸入同一系統。客家話--也稱客家語,是中國南方客家人中廣泛使用的方言,客家人居住的地區主要包括廣東東北部、福建西部、江西南部及西北部、廣西東南部、台灣、四川等地。客家人是中國唐宋時期由於戰亂而從北方南下的移民,客家話保留了較多中古中原語言的特點。吳語--有時也稱江浙話,上海話。主要分布在江蘇南部、浙江絕大部分、上海全市、安徽南部部分地區。之所以稱吳語,因為吳語的分布地理範圍與中國古代「吳地 」大致一致。吳語是中國方言中最動聽的語言,其中又以蘇州話最典型,故有人說「寧願聽蘇州人吵架,不願聽無錫人(寧波人/江北人)說話」。其實,無錫話和寧波話也是吳語。湘語--也稱湖南話,主要在湖南使用,廣西、四川境內也有少量分布。湘語同閩語一樣,方言名稱的定義十分不準確,因為湖南的北部是屬於北方方言,而中部長沙、株洲和湘潭一帶(也是湖南的中心)的口音也接近北方方言,只是有些用詞很「土」,至於湖南其它地方,幾乎是一縣一音,差別很大。贛語--贛語是指以南昌話為代表的方言,主要用於江西中北部、安徽西部及南部、湖北東南部、湖南東部靠近江西的地帶。江西省境內除贛語外,還有客家話、吳語和北方方言。贛語的定義與湘語類似,可是有些語言學家認為贛語並不是江西話。如果說湘語等同於湖南話,贛語卻不是江西話,的確是一件令人奇怪的事。談到漢語方言,不得不提到一個有爭議的現象,西方語言學家一般認為,若兩種話語不能直接通話,則兩者為兩種不同的語言;根據這一分類標準,粵語、閩語、客語、吳語、湘語、贛語等漢語方言都是不同的語言,而不是方言。對於這樣一種分法,中國的語言學家當然是同意,否則,中文就七分八裂,成為一種徒有虛名的語言了。所幸的是,這只是語言學家的爭論,否則,這世界上又多了一份不安定的因素。標準語的差異漢語的標準語在大陸稱為普通話,在台灣稱國語,許多人認為,普通話就是國語,國語就是普通話,只是稱呼不同而已。其實,普通話和國語並不完全是一回事,其中的差異除了發音不同外,用詞和語法也有差別,雖然差異不象發音那樣很明顯。在發音方面,一個最明顯的例子就是「和」讀法,在普通話里念「hé」,在台灣國語里為「hàn」。還有就是家人「爸爸、媽媽、哥哥和姐姐」 的稱呼,在大陸,爸爸頭一個字讀四聲,後一個爸念輕聲;媽媽和哥哥的頭一個字是一聲,姐姐第一個字是三聲,第二個字都是輕聲。台灣則一律發三聲,聽起來就是:「靶靶、馬馬、葛葛、解解」。雙方聽對方的發音都會有點怪怪的的感覺,這當然是心理因素在作怪。普通話和國語的差異還有歷史的原因。中國社會早期的標準語以中原雅音為正音,又稱為雅言、雅音或通語,五胡亂華以後,中原雅音南移,分為南北兩支,到了明清時期,雅音被稱為官話,北方官話以北京話為標準,融入了不少北方少數民族的語言,南方官話則以南京話為標準,融入了一些吳語方言。當然,那時的北京話和南京話與現在相比已有很大的變化。在歷史上,儘管官話已成為中國官僚、知識分子階層的通用語,但它並沒有法定的地位,也沒有被統治階級向民眾推廣,讓大多數人通曉。這也是至今中國仍舊有如此多方言的原因之一。1909年,清政府設立了「國語編審委員會」,將當時通用的官話正式命名為國語。這是漢語標準語首次得到官方命名。1913年民國政府召開的「讀音統一大會」決定「以京音為主,兼顧南北」。1949年之後,中國大陸和台灣的漢語標準語就按不同的方向發展,在台灣仍舊稱國語,在原來老式國語的基礎上,融入了台灣大多數人的國語發音,變成了現在台灣的國語。在大陸,1955年相繼召開的「全國文字改革會議」和「現代漢語規範問題學術會議」決定將規範的現代漢語定名為「普通話」,並確定了普通話的定義和標準,是以北京語音為標準。其中「普通」二字的涵義是「普遍」和「共通」,表示對少數民族的語言文字的尊重,避免「國語」這個名稱可能引起的誤解。1982年,第五屆全國人民代表大會第五次會議正式把「國家推廣全國通用的普通話」的條文寫進了《中華人民共和國憲法》。雖然普通話方案是大陸政府創立,但 「普通話」這個名稱,在清末至二三十年代,就已被不少學者使用。至於東南亞華人,他們所講的漢語用「普通話」稱呼當然是不對的,因為漢語在當地並不普通,只在華人的圈子裡使用;用「國語」稱呼則更加不妥,因為他們所居住國家的官方語言並不是漢語,所以只能用「華語」稱呼。華語是一個含糊的定義,其中既包含了漢語的標準語,也包括了在華人中所使用的各種漢語方言。華語的標準語大致繼承了老派國語,但在發音、辭彙甚至語法往往受母語方言和非漢語的影響,與普通話、國語都有一定的差別。舉一個例子,我曾在舊金山的觀光區漁人碼頭工作,有一次看到一位亞洲女子在買小紀念品,她看到那些五光十色的小鑰匙圈不由高興地說,「真美麗呀!」她說的漢語發音可以,句子也地道,但我聽了卻很納悶,搞不清她是不是美籍華人,我不由問她從哪裡來,她告訴我她從馬來西亞來,我才恍然大悟。因為從大陸來的中國人,不會對一件沒有生命的小東西說「很美麗」,一般只會說「好看」,就是對一件很漂亮的衣服也不會說「你的衣服很美麗」。雖然「美麗、漂亮、好看」是同義詞,在很多場合下可以互換,但有時卻不能(許多同義詞都是如此),要問在什麼情況下可以互換,什麼情況下不可以,卻很難解釋。語言是一種習慣,不同的地方習慣也不一樣。所以,當聽人說話時,有時儘管發音很准,語法也沒有問題,但一聽用詞,就知道對方的背景,就象老中講英文或老外講中文,不管說得再好,有時一個用詞不當就露了餡,讓人知道是不同文化背景的人。這就是語言的微妙,它會揭示人的身份。普通話或國語,在英語里都被稱為「Mandarin」,這個單詞是從葡萄牙語而來。由葡文mandar(命令)、mando(權力、命令、軍權、裁決)等派生出來的。早在明朝時,最早和中國官方打交道的歐洲人—葡萄牙人就用此詞來稱呼中國官員,後來這個稱呼又轉變成中國官員講的官話,在西方開始流行。拼讀系統的混亂西方的語言音形義都是三套獨立的系統,例如英語,發音有音標系統,字形有26個字母,然後由字母組成單詞來表達意思。這類似西方政治上的三權分立。給人的提示是西方文化的本身就有民主的因素,在語言上就表現了出來。而漢字是置音形義於一體的文字, 這意味在學每個漢字時,不僅要記住怎樣寫和其含有的意思時,也要記住它的發音(這是不是意味中國文化的本質上就傾向於集權?筆者不敢妄下結論)。字形可以依樣畫葫蘆,老師教,自己學都可以;字義也可以通過解釋而知道,唯有讀音,如果沒有人教,怎樣知道?在中國歷史上,有不少教人學習漢字發音的辦法,例如「 直音法」,就是用一個比較常用的字來表示某一個字的發音。比如說:「釗,音招」。還有「反切法」,就是用兩個漢字拼合成另一個漢字的音,即用第一個字的聲母加上第二個字的韻母來拼出這個字的讀音,如:「妥,他果反」。這些方法的局限性顯而易見,都是以字認字,如果一個字也不認識,或者認識的字很少,那就只能望字興嘆了。第一個以羅馬字母為漢字注音的是義大利傳教士利瑪竇,1582年(明神宗萬曆年間),他制訂一套羅馬注音系統,稱為「 泰西字母」為漢字注音。三百年之後,1859年,英國駐清國外交官威妥瑪﹝Wade﹞為著作之便,將明清兩代傳教士所使用的教會羅馬字加以整理,編成一本 「北京辭彙」,稱為威瑪﹝Wade﹞拼音法。1892 年,另一位英國人Giles 採用威妥瑪拼音法編成「華英辭典」,被郵政電信機構用來翻譯中國人名語地名等。故此拼音法被稱為Wade-Giles拼音,又稱威式拼音或韋氏拼音。威瑪式拼音主要照顧英美人的發音習慣,不符合漢語的語音規律,導致了許多不同讀音的漢字都拼成了同音字。如張、常都拼作Chang,朱、儲、瞿都拼作Chu。相同的漢字有不同的拼法。如河北拼為Hopei,而湖北拼為Hupeh,同為「北」,卻有Pei、Peh幾種拼法。同時還引人了南方方言,更增加了拼寫的混亂。如廈門(Xiamen)拼為Amoy,廣州(Guangzhou)拼作Canton。到了二十世紀,中國人自己開始採用西方的方法來為漢語建立獨立的拼讀系統。1918年當時北洋政府教育部發布了由中國讀音統一會制定的為漢字注音符號,共計39個字母,排列以「ㄍㄎ」開頭; 1930年,民國政府把注音字母改稱為「注音符號」,正式的稱呼是「國語注音符號第一式」。1986年,台灣政府教育部又公布了「注音符號第二式」簡稱 「MPS2」。第二式以第一式聲母韻母基本拼法為準,把原來的字母變成羅馬字母,改用通行之四聲調號以表示四聲。漢語拼音是大陸政府推出的漢語讀音方案,於1955年—1957年由中國文字改革委員會漢語拼音方案委員會研究制定。1977年9月7日聯合國第三屆地名標準化會議(雅典)推薦用該方案作為中國地名羅馬字母的國際標準。1979年6月15日聯合國秘書處發出通知,以漢語拼音方案的拼法作為在各種拉丁字母文字中轉寫中國人名、地名的國際標凖。1982年8月1日國際標準化組織又發出國際標準ISO7098《文獻工作—中文羅馬字母拼寫法》文件,也規定拼寫漢語以漢語拼音為國際標準。美國國會圖書館採用漢語拼音方案作為漢字的譯音系統並且將其書目系統逐漸從原來的威妥瑪系統改為拼音。全美各大學的圖書館及其中文教學也採用了同樣的漢字拼音系統。漢語拼音方案因為是以普通話語音為基礎,所以能正確表達每個漢字的語音。但對一般的英美人來講,他們常常會把漢語拼音仍按威瑪式拼音來發,導致很大的誤差。通用拼音則是台灣政府所建議使用的中文拉丁化拼音法。於2000年由台灣教育部國語推行委員會宣布使用,並取代原定改用的國語注音符號第二式,台灣政府自2002年起全面推行以通用拼音為基礎的統一譯音政策。除了這些常用的漢語拼讀系統外,還有一些由個人或組織機構發明漢語拼讀方法,例如象是林語堂式、耶魯式等,已經很少有人使用。雖然漢語拼音已經成為國際標準,但威瑪式拼音並沒有完全退出世界舞台。前兩年看到大陸一則新聞,有人在購買中華煙時,看到煙盒上的拼音是 「CHUNGHWA」不是漢語拼音,於是產生了疑問。其實,中華香煙商標拼音是威妥瑪式拼音,從有中華煙開始,一直就用這個拼音,已經有五十多年的歷史了,因為在市場上已經形成了品牌,就保持下來。這種因為經濟因素考慮而保留的不僅是商品,也有人名地名,例如,現代中國的國父孫中山的英文名字Sun Yat-sen就一直是威式拼音,如果改用漢語拼音,可能不僅是沒有人認識,也會帶來不小的麻煩。至於說各國大圖書館的有關中國的歷史資料,威式拼音的地位仍舊不可動搖。如果說漢語拼音和威瑪式拼音是現實和歷史之爭,那麼漢語拼音和通用拼音則完全是政治上的較量了。雖然通用拼音只是將漢語拼音中常令外國人難以發音的「q、x、zh」,改為了「ci、si、jh」,但由此給國人帶來的麻煩卻大於給世界的方便,像姓朱、張、許、徐等的人,在漢語拼音中,這些姓的拼音應分別是zhu、zhang、xu,但在通用拼音則為jhu、jhang、siu,這一來,這些姓氏的在大陸和台灣的親人,就變成了不同姓的外人!除了現實和歷史、政治和文化的鬥爭外,漢語拼讀還有標準語和方言的不同,例如,初次從新聞上看到美國滑冰冠軍關穎珊(Michelle Kwan),如果只知道她是華裔而不知道她來自香港,很容易就會誤認為她的中文姓為「鄺」,因為不論是按漢語拼音還是威瑪式拼音,「鄺」是最接近的發聲,實際上,她姓「關」,她的姓是從粵語拼音而來,這是一套香港政府政府以英文字音拼寫漢語方言廣東話的方法,凡是在香港出生的人、街道、地方以及公共建築的名稱都是以這套方法來拼寫。最典型的差別就是「王」字,漢語拼音為「Wang」,粵語拼音為 「Wong」。漢語拼音大戰確實令人「耳」花繚亂,不但外國人搞不清楚,也把海外華人弄得胡裡胡塗,往往看著自己同胞姓名的外國字,搞不清他(她)到底姓什麼。我們老祖宗留下的遺訓是「名不正則言不順」,可是,漢語不同的拼讀方法則把老祖宗這條遺訓完全給顛覆了。繁簡之爭1956 年,大陸中國政府正式公布了《漢字簡化方案》,這個方案由大陸的「漢字簡化方案審訂委員會」審訂,國務院通過,經《人民日報》公布後,在全國推行。1964年,大陸又出版了《簡化字總表》,共分三表:第一表是352個不作偏旁用的簡化字,第二表是 132個可作偏旁用的簡化字和14個簡化偏旁,第三表是經過偏旁類推而成的1754個簡化字。這就是今天中國大陸所使用的漢字簡體字標準。漢字簡化方案一經出世,就受到了各方面不斷的批評,特別是在海外,這股反對的浪潮直到現在仍然是有過之而不及,認為漢字簡化得不償失。綜觀反對簡體字意見,主要集中在兩點:一是簡體字破壞了漢字的表意性,二是簡體字割斷了現代漢語和古代漢語之間的密切聯繫。漢字本來是具有極強的表意性,例如「馬」字,看上去就象一匹在奔騰的馬,簡化的「馬」,很難使人產生這種聯想,這樣一來就把漢字的優點給閹割了;同時,簡體字也使人不能順利地閱讀古典文獻,起到了阻礙繼承中國文化的作用。這些反對意見乍一聽似乎很有道理,但一細想,又會覺得不以為然,文字首先是一種工具,工具是講究效率的,怎樣好用才是最主要的;另一方面,語言總是向前發展的,不能讓歷史拖住後腿,即使沒有簡體字,現代漢語與古代漢語的差別已經是很大了。從歷史上看,漢字的簡化也是自然趨勢。漢字從甲骨文、金文變為篆書,再變為隸書、楷書和行書,其總趨勢就是從繁到簡。大約在秦漢年間,漢字的書寫形態發生了一次重要的變革,稱為隸變,即是由由小篆演變為隸書,由於小篆筆劃繁複,書寫不便,一些下級官員(隸)於是將筆劃簡化,例如將 「靁」字下的三個田減為一個,變成「雷」,又將同一偏旁用在不同位置時改為不同形狀(如「心」用在旁:情;用在下:恭)等等。這是漢字由由下而上發起的最大一次簡化運動,對後世的漢字有很大的影響。由政府提出漢字的簡化方案,也不是大陸首創,1922年,錢玄同在國語統一籌備委員會上提出《減省現行漢字的筆畫案》,這是歷史上有關簡體字的第一個具體方案,它提出的八種簡化漢字的方法,實際上也就是現行簡體字的產生依據。1935年,錢玄同主持編成《簡體字譜》草稿,收簡體字2400多個。同年8月,國民黨政府教育部採用這份草稿的一部分,公布「第一批簡體字表」,收字324個,這是政府第一次大規模推行簡化漢字。雖然在第二年的2月又通令收回,但畢竟是歷史上由政府公布的第一個簡體字表。而在其它使用漢字的國家,同樣也在簡化漢字。1946年日本內閣公布《當用漢字表》,收字1850個,其中有131個是簡體字,與中國簡體字相同的有53個,差不多相同的有9個。1983年南朝鮮《朝鮮日報》公布第一批簡體字90 個,在《朝鮮日報》上使用,與中國相同的有29個,差不多相同的有4個。新加坡於1969年公布第一批簡體字502個,除了67字(稱為「異體簡化字」),均與中國公布的簡化字相同。1976年頒布的《簡體字總表》修訂本與中國的《簡化字總表》完全一致。馬來西亞1981年出版《簡化漢字總表》,與中國的《簡化字總表》完全一致。不光是漢語的文字在簡化,其它語言的文字也在簡化,例如英語,也有大量的縮寫詞,象是PC,CD等等,這些都已經成為正式的英文單詞。由此可見,由簡到繁,再由繁到簡,是人類語言發展的一個總的趨勢。但是在台灣和許多海外華人,由於種種原因,仍舊在使用繁體字,這樣就使得在當今世界上存在著兩種中文:簡體中文和繁體中文。比起「Mandarin 」和 「Cantonese」、漢語拼音和通用拼音,簡體中文和繁體中文的差異更讓外國人感覺到漢語的可怕。世界上還沒有任何一種文字可以 「Simplified」(簡化)了與「Tradition」(繁體)做對。繁簡之爭所造成的最大困擾莫過於對海外中文學習者了,他們學習漢語並沒有明確的目的,不知道將來是到大陸工作或是與台灣做生意,所以,他們吃不準是應該學習簡體中文還是繁體中文,但老師給他們的勸告往往是兩種文字都學,不管是「識簡學繁」也好,還是「識繁學簡」也好,反正一樣少不了,否則就學不好中文。這可苦了這些老外,本來中文的讀音、字形和語法已經讓他們的頭變大了不少,現在記單詞還要再加一倍的容量,你說怎樣讓人受得了。試想一下,如果讓我們老中學英語,每個單詞都要記住兩種寫法,你說我們的頭會不會變大!中文的繁簡之爭,也給許多不懂中文的外國人帶來了一頭霧水,他們以為繁體中文和簡體中文是兩種差別很大的文字,或許就象古英語和現代英語一樣,不是那麼容易溝通的,因此在招聘中文人才的條件中,經常會出現只要懂繁體中文的或者簡體中文的,讓中國人哭笑不得,如果說,繁體中文和簡體中文用筆的確不是那樣容易溝通的,那麼在當今的電腦時代,這種障礙只要用滑鼠輕輕一點,繁簡之間的轉換頃刻之間就完成了。可你就沒辦法讓外國人相信,簡體中文和繁體中文的差別不是象他們想像的那樣大,比美式英語和英式英語的差別還小。面臨信息時代的挑戰除了以上所提到中文在拼讀系統、標準語和簡繁字體所存在的紛爭之外,中文所面臨的最大挑戰還是怎樣應付信息時代的挑戰,隨著電腦和互聯網的普及,怎樣用中文處理電子信息,已經成為擺在了人們的面前的難題,其中兩個最基本的問題就是編碼和輸入。所謂編碼就是怎樣讓電腦認識人類所認識的語言,電腦不同於人腦,它只認識電子信號,而所有複雜的電子信號都是由0和1兩個信號所組成,在電路上就是開和關,反映在電腦中就是二進位數據。當我們輸入數字、字母以及各種符號的時候,電腦先把它們變成二進位數碼,然後才能對它們進行處理。因此,人們必須首先按一定的規則編碼,使每個符號或字元對應一個二進位數。由於早期的計算機系統是發源於美國,因此最早的編碼系統也是建立在英語基礎上,只考慮數字、26 個英文字母 (包括大小寫)、標點與其它特殊符號,外加一些計算機系統的語句即可,這就是國際通用的 ASCII 編碼。漢字的內碼與ASCⅡ碼不同,ASCⅡ構成西文字元時,一個字元佔一個位元組,而一個位元組是二進位的8倍,而一個漢字字元則需要兩個位元組構成。由於漢字數以萬計,形狀各異,漢字編碼也就有兩大困難:選字難和排序難。這也就造成了各種各樣的漢字編碼。而漢字輸入則是在電腦內安裝了漢字編碼的系統之後,使用者怎樣按照一定規則向電腦發出指令,使編碼系統能夠接受。在中國大陸,通用的漢字編碼標準是GB系列,GB即「國標」的漢語拼音縮寫,為中華人民共和國國家標準的意思。最早制定的GB是GB2312-80《信息交換用漢字編碼字符集基本集》,1980年發布,共收錄6763個簡體漢字、682個符號,其中漢字部分:一級字3755,以拼音排序,二級字3008,以偏旁排序。1990年又制定了繁體字的編碼標準 GB12345-90《信息交換用漢字編碼字符集第一輔助集》,目的在於規範必須使用繁體字的各種場合,以及古籍整理等。該標準共收錄6866個漢字(比 GB2312多103個字),純繁體的字大概有2200餘個。GBK編碼則是等同於UCS的新的中文編碼擴展國家標準,於1995年完成,該編碼標準兼容 GB2312,共收錄漢字21003個、符號883個,並提供1894個造字碼位,簡、繁體字融於一庫。而最新標準是GB18030-2000《信息交換用漢字編碼字符集基本集的擴充》,與GB 2312-80與GBK兼容,包含所有GB 13000-93及Unicode 3.1字元。Big5(大五碼)是台灣的漢字編碼標準,於1984年由台灣財團法人信息工業策進會和五間軟體公司創立,故稱大五碼。這五家軟體公司為宏碁 (Acer), 神通 (MiTAC), 佳佳, 零壹 (Zero One) 及大眾 (FIC)。Big5 字集內一共是 13461 個元素, 其中有符號 408 個和所謂的常用字 5401 個, 次常用字 7652 個。HZ碼則是中國留學生為了使漢字信息能在網路上直接傳送而產生的。屬雙位元組7位漢字編碼,以GB為基礎。HZ碼很好地解決了中西文字的混排問題,就象是一個標準的ASCII文本文件,因而可以在Internet上方便傳輸,這就是HZ碼的優點。在使用漢字的日本和韓國也建立了不同的漢字編碼標準,分別是JIS和KS系列。JIS 既 Japan Industry Standard(日本工業標準--同 GB 意思一樣),JISX 0208-1983共收日本漢字6353個。分一級漢字區和二級漢字區,一級漢字區按拼音排序,二級漢字區按部首排序。韓國KSC 5601-1987:共有8244個字元,韓國漢字有4888個。Unicode則是各種字元編碼的國際方案,可以容納全世界所有語言文字的編碼,也包括漢字編碼。Unicode的學名是「Universal Multiple-Octet Coded Character Set」,簡稱為UCS。實際上,Unicode由兩個獨立的組織提供,一是國際標準化組織(ISO),另外一個是軟體製造商的協會(unicode.org)。ISO開發了ISO 10646項目,Unicode協會開發了Unicode項目。從Unicode2.0開始,Unicode項目採用了與ISO 10646-1相同的字型檔和字碼。目前兩個項目仍都存在,並獨立地公布各自的標準。Unicode協會現在的最新版本是2008年4月的 Unicode5.1;ISO的最新標準是ISO 10646-3:2008。在Unicode逐漸在編碼技術占統治地位時,在漢字的輸入方面,則仍舊是萬「碼」奔騰、令人眼花繚亂的局面,二十多年的時間裡,已經出現了上千種編碼方法,並且仍不斷地有新的輸入方法出現。漢字的輸入方案很多,但基本依據都是漢字的讀音和字形兩種屬性,主要分成兩大類,按照拼音方式輸入或按照漢字形狀輸入。但不論用哪種方法輸入,都不是一件容易的事情。按照讀音輸入最大的問題是:漢字有太多的同音字,有的多達幾十個,所以同音字的干憂十分嚴重,鍵盤敲過之後,就出現了一堆同音字,挑選自己所需要的漢字常常是讓人氣急的事,很多初學中文輸入的人沒有試幾下就放棄了。按字形輸入挑戰更大,先要學習字形與鍵盤對應的規律,再要死記硬背這種規律,一般不是想靠中文輸入吃飯的人,很少有這種決心和耐心。在這方面,有不少流行的方法,例如大陸的五筆字型輸入法和台灣的倉頡輸入法。除了鍵盤輸入方法之外,還有手寫板和語音輸入。手寫輸入利用對筆跡進行智能識別的技術,一般使用專用手寫板進行輸入,也可利用滑鼠、觸摸屏輸入。但電腦畢竟不同於人腦,寫得太快或太草就無法辨認,因此,手寫輸入的輸入速度和識別率都是問題。語音輸入則是採用對漢語語音進行智能識別的方法,目前這種技術還沒有完全成熟。漢語是世界上使用人口最多的語言,有超過十三億的人口使用漢語,在聯合國規定的六種工作語言中,漢語比其它五種語言(英語、西班牙語、法語、俄語和阿拉伯語)使用人口的總和還多;可是,作為世界信息的交流工具,漢語的作用卻十分有限,以互聯網為例,90%是英語。實際上,在聯合國各種場合當中使用的語言 95%也是英語,漢語的使用率不到到百分之一。這不能不說令所有講漢語的人一件尷尬的事。漢語讓人感到困難,當然不完全是因為體系的 「內鬥」,更多的是來自它的語言特性。中國文化是講究中庸之道的文化,遇事喜歡模稜兩可,這種文化特性也反映到了漢語中。人們常說,漢語是「意合」的語言,很多地方只能靠意會,而無法推理。這到底是一件好事還是一件壞事?語言模糊有時的確有種「含糊美」,讓人能產生聯想,這也很合中國人的性格,凡事都要 「推敲」,可對於世界其它地方的人來說,漢語的捉摸不定可就讓他們頭痛不已了!
推薦閱讀:
推薦閱讀:
※試論《春江花月夜》的場景、層次 - 詩詞 - 中國古代文學 - 北大中文論壇 www.pk...
※關於中文亂碼問題的補充,主要正對URL參數有中文的問題。
※這本書中文讀者等了半個世紀 :《黑暗的閘門》中譯全本面世
※女人,你能愛而無怨嗎 |情感美文|班得瑞全球中文網:::::|Bandari.Net
※馬克·扎克伯格在清華與主持人中文對話半小時,他都說了什麼