語言文字論辯集

06-17

發布日期：2005-10-01

也說漢語的「辭彙量」

長期以來，漢語不但以難學著稱，而且還常常被指責為辭彙欠缺、表達貧乏。生為漢人，真可謂雙倍之不幸——語言學習所需的時間本來就已經比別人多了好幾倍，不料最終學到的東西還不及人家幾分之一。

毛喻原先生便為這種論點提供了具體數據：「我們知道，漢語一部普通的《新華字典》所收單字（含繁體、異體）是一萬一千一百個左右，清初所編的《康熙字典》所收漢字是四萬七千多個，最近出的《漢語大字典》所收漢字也才五萬六千個。與英語相比，漢語的辭彙量是非常小的。即使一部歐美普通學生所用的字典所收單詞也至少在十六至十七萬個以上。如著名的《牛津字典》所收單詞是六十多萬個。篇幅最大的《韋伯斯特大詞典》所收單詞幾乎達到一百萬之多。僅從辭彙量來比較，漢語和英語在這方面的差別是非常巨大的。」

顯然，毛先生「漢語辭彙量非常小」這一結論，是用「科學方法」計算出來的，即：拿英語單詞總量減去漢字字數總量。顯然，這麼簡單的題目，連小學生都難不倒，根本用不著毛先生親自動手。不過，小學生同時還知道，加減法的運算有一個先決條件，即「單位」必須相等。例如，五匹馬與四頭牛就不好相加；七顆白菜減三根蘿蔔也不知該等於啥。再舉一個簡單的例子：假如有人給你開工資，年薪一百萬，你一定欣喜若狂，找不著北；但萬一他後面再補上一個「分」，呢？由此可見「單位」之重要。

於是我們現在要問，毛先生自編自算的這道數學題能不能成立？更確切地說，「五萬六千個字」與「十六萬（或者六十萬甚至一百萬）個詞」，二者的「單位」是否一致，相互之間有沒有可比性？

英語的單詞由字母組合而成，但漢字同樣也可以組合成詞；如果說，英語26個字母組成的詞可達百萬之巨，那麼，五萬六千個漢字相互搭配又能組成多少個「詞」呢？

《現代漢語詞典》前言寫道：「這部《現代漢語詞典》是以記錄普通話語為主的中型詞典，供中等以上文化程度的讀者使用。詞典中所收條目，包括字、詞、片語、熟語、成語等，共約五萬六千餘條。」

不用說，區區「五萬六千餘條」與英語的上百萬相比，只能算是小巫見大巫。問題在於，我們應該如何定義漢語的「詞」。

先來舉個簡單的例子。眾所周知，英語一個星期中的七天，一年中的十二個月，個個都是專名。不用說，它的辭彙總量中必然包括這十九個單詞。然而，翻遍全世界的《新華字典》、《漢語辭海》，恐怕也找不到「星期一」、「二月」這樣的詞條。《現代漢語詞典》僅僅收錄了「星期」，這也就是說，使用者只要自己在後面填上一個數字，便可以表達任意一個具體的日子，因而完全沒有必要把一星期的七天、一年的十二個月統統列舉出來。誠然，它的確收了「星期日」一詞，但實際上也是可有可無。因為，沒有一個講漢語的人是在查了詞典以後才知道「星期日」的，也極少有人會為了「星期日」去查詞典。事實上，假如不是有意提醒，恐怕根本就不會有人想到詞典里居然會收有「星期日」這樣一個詞條。換句話說，編者即使不收，也絕不會有人指責「不全」；相反，一部英語詞典，若是少了Sunday，便堪稱重大疏漏。當然，講英語的人也是在「識字」之前便早已知道了Sunday，但不同的是，他們還要學習如何書寫，更難免因遺忘而核查。反之，中國人只要記得「星」、「期」、「日」這幾個漢字，就絕不存在「星期日」如何寫的問題。詞典不收的詞，當然也就意味著記憶中無需保留。講英語的人，是否個個提筆能寫Sunday, January，我們沒有真憑實據，不敢妄下結論；但至少中國人，即使已經拿到四、六級證書，真要抓來測試一番的話，恐怕就有不少要當場「出醜」——寫不全這十九個普普通通的日用辭彙。

我們且來設計一段對話。

甲：「就這麼點活，星期一該幹完了吧？」

乙：「星期一？星期八也干不完！」

日曆上當然沒有「星期八」這樣的日子，而乙之所以這麼說，無非是為了發泄或者抱怨，以表示事情之不可能。對方自然立刻也能明白他的意思——至於相不相信那是另一回事。那麼試問：這「星期八」算不算一個「詞」呢？有人可能要爭辯說，既然現實中找不到對應物，那當然就不能算。但神話故事中的人物都沒有現實對應物，我們又該如何解釋鳳凰麒麟、雷公電母呢？照此而論，豈不是連上帝魔鬼、天堂地獄都要廢除嗎？假設父母給小孩講故事，編一個童話王國，裡面的荒唐國王偏要以八天為一周，把星期八定為星期日，誰又能說不行呢？倘若承認了「星期八」，豈不也可以有「星期九」、「星期十」、「星期十一」乃至「星期一萬三千五百七十九」？這樣的「詞」，可以說要多少有多少，永無止境。

再如，英語有pork（豬肉）、beef（牛肉）、mutton（羊肉）、venison（鹿肉），《現代漢語詞典》卻一概查不到。如果說，這就證明了英語辭彙豐富，那我們則要進一步追問：為什麼沒有「狗肉、貓肉、虎肉、龍肉、鳳凰肉、麒麟肉、金絲猴肉、長臂猿肉」呢？為每一種動物發明一個表示其肉的詞，辭彙量豈不是又將大大地豐富嗎？

漢語詞典不收「星期一」、「二月」、「豬肉」、「牛肉」，並不能否認這些「單詞」的存在，更不能由此而認為漢語民族沒有這樣的概念。唯一能夠證明的，就是漢語完全用不著像英語那樣，把它們當成正兒八經、需要認真學習、刻意記憶的單詞。事實上，它們只是藉助於「一」、「二」、「星」、「期」、「月」、「肉」等普通漢字，若有若無、隱隱約約地「寄存」在大腦某個不起眼的角落裡，召之即來，臨時湊合，用畢解散，各歸原處。簡言之，講漢語的人是「記字不記詞」。這種獨一無二的特點賦予了漢語許多方便，限於篇幅，這裡就不一一介紹了。

於是，問題便歸結為，一種語言的「辭彙量」究竟是如何統計出來的？假如完全根據詞典而定的話，英語顯然就撿了個大便宜，而漢語便頗有些「傻帽」——誰讓你不收呢？然而，這樣的比較能說公平合理嗎？

且來打個比方：年終評優，張三列出十條優點，李四卻多達上百。表面上看，「先進」非後者莫屬。不料，聽他一一報來，竟然是：下館子必付款，上公園定買票；沒病不請假，有屁夾著放；飯前便後勤洗手，左鄰右舍不騷擾；迄今未進勞改所，半夜不怕公安局；知書達禮，從不搶老年人的座位，品行端莊，絕不掀女同事的裙子……

英語辭彙之所以如此「豐富」，戳穿了，主要就是靠李四這類「先進事迹」給撐起來的。

反過來說，漢語如果也能效仿李四這套「搞笑」，其「辭彙量」同樣繁若群星，多如牛毛。值得一提的是，毛先生在這方面實際上已經開了先河，樹了榜樣。

請看其標題：《論漢語的險境和詭謬》。

何謂「詭謬」？查《現代漢語詞典》，「詭」字下列有「詭辯」、「詭怪」、「詭計」、「詭譎」、「詭秘」、「詭異」、「詭詐」。而「謬」大約總與「謬論」、「謬誤」、「荒謬」等有關。「詭」者，自然難免其「謬」也，但即便邏輯思維中可以作這種推理，語言結構上恐怕也不能如此搭配。這個口子一開，後患可謂無窮。譬如：「工習」——工作學習；「成業」——成家立業；「吃覺」——吃飯睡覺；「拉屁」——拉屎放屁。

這類「強行婚配」在毛先生的大作中真可謂三步一崗，五步一哨，比當年日本鬼子的封鎖線還要密集。例如：「傳通」、「斷逗」、「欠然」、「亮敝自然」、「語義脫臼」，個個讓人耳目一新，大長見識。最令人拍案叫絕嘆為觀止的恐怕要屬「鈍挫」與「挫鈍」。真可謂：翻來覆去都是戲，前移後挪皆成詞。

說到這裡，突然想到一個類似的「洋戲法」。劉易斯·卡羅爾在《愛麗絲鏡中遊記》中，編了一首名為《廢話》的詩：

「』Twas brillig, and the slithy toves

Did gyre and gimble in the wabe;

All mimsy were the borogoves,

And the mome raths outgrabe.」

時值昏烤，廝頭靈奸

且旋且錐，遠坪之間。

全部迷塞，悲弱不堪。

沒路無途，吼嘯阿嚏。（石心瑩譯）

其中許多詞，均為作者斬首去尾，各取一半而成。例如，「slithy」（靈奸）就是「lithe」（靈巧）與「slimy」（奸詐）二詞的「優化組合」。至於「吼嘯阿嚏」，則是「介於吼叫與呼嘯之間的聲音，其中夾雜著噴嚏聲。」這就難怪愛麗絲讀得稀里糊塗，一頭霧水；即使是給她作解釋的矮胖子Humpty Dumpty自己很多也說不清，道不明。

由於該書的流行，惹得不少人也心動手癢，依法泡製，例如，由smoke（煙）和fog（霧）組成smog，由motor與hotel組成motel（汽車旅館），由breakfast與lunch合成brunch——將早飯與中飯合為一餐的飯。近來還出現了一個kidult，由kid（小孩）與adult（成人）合併而成，專指年紀18-25歲，不能自立，依賴父母，老也長不大的年輕人。不過，這種把戲畢竟沒有成為構詞的「正道」，玩玩也就不時興了，真正流傳下來的並不多。

毛先生是否師從「老劉」，繼承遺志，我們不得而知。不過，正所謂：西方不亮東方亮，洋風不起土風起。毛先生若屈尊去當小學教師，我堂堂華夏民族必將輩出「造詞大師」；毛先生若降貴去編詞典，漢語必將一洗「辭彙量非常小」之恥辱。像「詭謬」、「斷逗」、「欠然」、「鈍挫」、「挫純」等等，肯定一個不漏，統統收入。倘若賞臉再加上本人獨創的「星期N」、「某某肉」，乃至「工習」、「成業」、「吃覺」、「拉屁」，不要說區區「十六萬」，恐怕就是一百六十萬、一千六百萬都打不住。這麼說吧，即使按最保守的估計，以五萬六千個漢字為原料，採用毛氏構詞法，編一部收詞一億六千萬的《漢語大詞典》，也不過是小菜一碟，唾手可得。

聰明的讀者想必早已從這一番「正話反說」中看出問題的癥結所在了。毛先生以及其他「拼音文字至上論者」之所以會得出「漢語辭彙貧乏」這種謬論，關鍵就在於他們忽略了，或者說根本就不明白一個極其簡單的基本事實，即漢語中根本就沒有「辭彙量」這樣的說法，因此也就根本不可能統計出「辭彙量」的大小。漢語民族衡量文化水平，用的是「字數」，而不是「詞數」。一個人只要掌握了一定數量的漢字，就可以像玩積木一樣，隨心所欲地組合出無數個詞來，尤其是碰上毛先生這樣的組詞大師，其「辭彙量」簡直近乎於天文數字。

漢語的「字」與英語的「詞」，其區別簡直就有如白菜蘿蔔，鯉魚麻雀，單位迥異，二者之間根本就不具備可比性。不過，如果換個角度，比如，選擇某個特定的「文化程度」如小學或中學為基準，分別審查雙方各自所能達到的水平，以及這一水平所能發揮的作用，則也不妨用來充當一種比較標準。

毛先生實際上也談到了這個問題：「據說初習漢字的人，只要掌握了最常用的二千個左右的漢字，就可讀懂百分之九十五的流行於社會的一般文本，而且絲毫不會感到有任何閱讀方面的困難。這在西方語言的文字里是無論如何也辦不到的。相比之下，在西語世界（比如說歐美），即使你擁有五千個左右的辭彙量，你也難以應付通行於社會的一般文本。此辭彙量用於日常的口語交談還可以，但要用於學理探討和文本闡釋顯然萬萬不能。」

按照現行的教學要求，小學識字量為2400，九年制義務教育的識字量為3800。這也就是說，中國人小學還沒畢業，就已經「絲毫不會感到有任何閱讀方面的困難了」。那麼反過來，英語民族要想「讀懂百分之九十的流行於社會的一般文本」，究竟需要多大的辭彙量，這樣的辭彙量究竟又要上到「幾年級」才能掌握呢？

我們這裡不打算列舉具體數據，且看一個「間接」的例子：紐約市立大學唐德剛教授說，該校十萬學生，其中有一半看不懂《紐約時報》。

《紐約時報》肯定不是專業刊物，面向的是一般讀者，其難度最多大概也就相當於我們的《光明日報》、《羊城晚報》、《南方周末》吧。一個講漢語的人，如果上了大學，竟然還看不懂《南方周末》，簡直可以譽為「世界第九大奇蹟」。然而，這樣的「環球奇觀」，在英語國家卻實屬正常，見怪不怪。為了讓讀者有一個切身體會，我們不妨從比《紐約時報》簡單得多的《二十一世紀報》中選擇一個句子：

Smoking and drinking alcohol are the main causes of mouth and throat cancer. That includes tumours of the oral cavity, throat, tongue, gums, and larynx.

第一句很簡單——煙酒致癌，第二句則是一一舉例。然而，您能講得出具體名稱嗎？誠然，該文是登載於「科學版」，但充其量也不過是「科普」，為何「非醫界」就讀不懂或者至少讀不爽，非得求助於詞典呢？中國人讀報，有查字典的嗎？退一步講，即使「科學版」仍嫌高深，「娛樂版」總該是雅俗共賞、老少咸宜吧？那麼試問，談論歌唱家的文章，您敢讀嗎？先別誇口，比如，「女高音」、「男低音」，您知道相應的英語單詞嗎？最後，請您猜猜，將《紐約時報》通讀一遍，需要多少單詞？告訴您，千萬別嚇著——五萬！順便再說一句，莎士比亞的辭彙量據說為三萬。

辜正坤教授指出：「詞法、語法的嚴謹形式雖然有助於西方人陶冶他們在思維方式上的嚴謹性，但是由於要掌握這種語言的繁瑣形式必須花很大的功夫，因此從學習成本方面來看待這個問題的時候，會發現它的這一優點又在一定程度上被抵消了。我們以幼兒學習一門語文所需要花費的經歷和時間來看這個問題。中國兒童記住2000---3000個漢字，就可以閱讀《人民日報》而不會有多少生詞。印歐語系的兒童即使記住了8000左右的單詞，在閱讀《華盛頓郵報》時仍然會有很多生詞。舉例來說，當人民日報出現『水仙花』這個單詞時，中國兒童儘管也許不知道這究竟是什麼花，但是他不需查字典就知道這是一種花。『水仙』兩個字也是常用字，可以幫助兒童判斷這種花至少不是菊花、桃花、牡丹花及許多兒童已經知道的種種花卉。也就是說，他即使不知道究竟是什麼具體的花，他也已經知道1）這是一種花；2）這不是別的所有那些他已經知道的花。知道什麼是一種知識，知道什麼東西不是什麼，也是一種知識。因此，如果將這個詞中所含的信息量規定為3，則中國兒童已經不教而知其2！可是，對於一個印歐語系的兒童來說，恐怕就不是這樣。如果將這個詞所含的信息量照樣規定為3，則西方兒童所能獲得的有效信息量只能是0！以英語為例，水仙花叫narcissus，如果該兒童不知道這個單詞，他就無法根據這個詞本身的組成部分推知它是什麼意思。因為這個詞的組成成分沒有太多的常用的可以令人一望而知是什麼東西的那種成分。narc有『緝毒探員』的意思，narco有『麻醉、昏睡』的意思。但它們一方面不屬於最常用的詞類，另一方面也不能暗示這個詞本身是一種花。而且兒童還未必能把narc單獨分離成一個詞。因此，印歐語系兒童面臨的是一個完全的生詞，不知道就不知道，必須作為一個完全的生詞來記住。當中國兒童看到『水仙花』這個生詞的地方的時候，他可能略一停頓，根據自己的理解便繼續讀下去，而印歐語系的兒童卻會因為這個生詞而完全給卡住了，因為他如果壓根兒就不知道這個生詞是什麼意思，他就難於決定究竟它是一個具有關鍵意思的詞呢還是可以跳過不管的詞。在這種情況下，印歐語系兒童對於這個生詞的信息吸收量幾乎等於0.2大於0。因此使用漢語的中國兒童比使用英語的西方兒童的平均吸收閱讀信息要大2倍！當然，應該考慮到，英語中也有許多孿生詞的前綴、後綴等詞法形式可幫助印歐語系兒童分析所閱讀的詞類大概是屬於哪一類的詞類及詞義。但是，要知道這種作用是有限的，因為事先記住這種抽象的沒有任何圖畫性特點的成百上千的前綴、後綴本身對人的記憶來就是一個挑戰。讓兒童先去記住這些東西是不現實的，很可能讓他們厭煩這種語言學習。所以，就總體而言，記住2000～3000個漢字的兒童可以比較容易地閱讀《人民日報》，而記住3000個英語單詞的印歐系兒童閱讀同等程度的英語版《人民日報》時，卻會困難重重。這裡邊有一個非常重要的東西，這就是：漢字的每一個字本身就具有意義自我闡釋的作用。因為它的根底來源於圖畫文字。圖畫就是外部世界事物的縮影。一個字就是表達的含義從它的書寫本身就已經顯示出來了。這等於說每個漢字就是自身的含義小詞典。如果有兩個、三個、四個字組成的漢字片語，則各個單字便等於可以相互闡釋，互證互釋互彰。上面的『水仙花』三字詞就是一個例證。由漢字組成的文章是一個詞義互釋文本。這就是為什麼掌握漢字的兒童只需要相對來說較少的辭彙量就能閱讀文章的關鍵原因。」（著重號為作者本人所加）

毛先生根據英漢「辭彙」的對比，得出了一個重大發現，即：漢語「小詞量——大文本」。這一點我們從上面的論述以及個人的親身經驗中早已深切體會到了。但萬分遺憾的是，他卻沒有順藤摸瓜順水推舟順理成章地得出英語「大詞量——小文本」的結論，以至於讓本人白白地撿了一個便宜。以毛先生的淵博學識及思維能力，不會連這樣的小問題都聯想不到吧。原因看來只有一個，即這樣的結論實在是有損英語的「光輝形象」。

不幸的是，毛先生有意迴避，卻攔不住別人無心推測，甚至「別有用心」的質疑：既然小詞量便足以應付大文本，要那麼大的辭彙量幹什麼——莫非吃飽了撐的？

我們不妨來打幾個比方。一道題目張三隻要十分鐘便能解出，李四卻要花五個小時，二者的智力顯然就不可同日而語。一項工程明明一百萬便能完成，偏要投入一個億，其中肯定就有不可見人的勾當。一座山頭部隊甲僅需一個連就能拿下，部隊乙卻要動用一個團甚至一個師，前者便堪稱精兵強將，後者不過一群烏合之眾。

然而，日常生活中無數這類以少勝多，以小制大的事例，一旦拿到漢英語比較上來卻統統都行不通了，所有的思路都要反過來推理，所有的結論都要反過來解釋。例如，毛先生又發宏論了：「關於漢語的小辭彙量能夠對付大文本的這一現象，我們還可作進一步的分析。有人認為這是由於漢字的單位信息含量大，所以，用少量的詞就可表達很多內容。這似乎為『小詞量——大文本』的關係提供了某種解釋。但我們認為事實並非如此，之所以有這一現象發生，是由於：一、也許漢字對事物的分理層次不夠縝密，不夠精細，即對事物的諸種存在，及諸種可能的存在，漢語中沒有產生出相應的詞來與之對應。也就是說，漢語在表達事物之豐富存在時，其語彙總是顯得欠然和闕如；二、也許是文本本身的內容就非常簡單和有限，即漢人願意去表達的東西僅僅是屬於大千世界的一個有限局域，其豐富性和可能性打了折扣。漢人的心智其興趣不在世界的全體，而是某一個部分。正是基於這兩點，所以才會有『小詞量——大文本』關係的產生。」

大話顛來倒去，最後還是歸結到「語彙欠然」的老話題上來。我們也就不再糾纏。至於說到「漢人心智興趣」，則明顯涉及另一個問題，即語言詞語如何反映世界，需要專門的篇幅討論，這裡也就不予深究。不過，若將這段話與毛先生前面的說法作個比較，卻不難看出他的自相矛盾。一方面，他說：「與英語相比，漢語的辭彙量是非常小的」；另一方面，他又說漢語是「小詞量——大文本」。試問，按照正常規律進行邏輯思維的人，究竟應該從中得出怎樣的結論呢？前者無疑是「褒英貶漢」，但後者難道不是恰恰相反，「褒漢貶英」嗎？毛先生當然是堅定的「拼音文字至上論者」，但萬一有人偏偏要斷章取義，以其矛攻其盾呢？

總而言之，毛先生拿「漢字」與「英詞」進行對比，是犯了一個連小學生都不該犯的極其低劣的錯誤，自然也就只能得出「詭謬」的結論，從而把自己逼入一個相互矛盾，無法圓說的困境。當然，他到底真的是缺乏普通常識，還是為了「褒英貶漢」的特定目的而故意「攪混水」，那就只能是「天知地知」了。

（作者：江蘇大學何南林）