如何評價《通用規範漢字表》所規範的繁體字?
見附錄「規範字、繁體字、異體字」對照表。我正使用《通用規範漢字表》規範的繁體字來製作繁體文檔(其實是重排古籍,並在非專業領域流通),這樣就不用和那些奇奇怪怪的「異體字」打交道了。請問這樣做好不好?有沒有什麼更好的做法?
如果這樣做可以,我想總結一下這個表裡,哪些異體字是可以被直接替換成繁體字的;然後在Word裡面批量替換。如何實現這種批量替換呢?
-----------------------更新-----------------------
現在我改成用簡體了……
一是感覺《通用規範漢字表》裡面的「繁體字」非常四不像,用它們感覺太奇怪了;
而直錄的話,佛典裡面很多奇怪的字都沒辦法打出來,一般的佛教徒也很難讀懂(我自己讀《趙城金藏》版本的佛典,裡面很多字不認識,但是卻是常見字);
再者,佛教也主張用當時當地流行的語言傳播佛法,所以我就用了現代的「規範字」了;
另外,有《通用規範漢字表》做規範,這樣比較方便處理(雖然也有一些情況不能按照這個表來)。
重排古籍理應完全保留異體,這些異體在各年代的意思可能是完全不重疊的。屬於字形差異的可以一概不理,例如冊、冊雖然在通規歸作異體,但自古以來就是書法常見的差異,其差別不構成任何意思上、結構上的差別,並可以類推,此等異寫一般毋須按照古籍原貌錄入。
部分簡化字本來有自己的意思,若機械地改成繁體會出現錯。例如葉,古代是協的異體,鄴,古代是邱的異體,現代葉是葉的簡體,鄴是鄴的簡體。
通規異體字表僅能局部涵概現代白話文用法。例如並併(並)、姦奸都被歸類為異體字,但在近代的文章普遍不互通。
任何繁簡轉換皆容易出現信息流失。重排古籍最好的做法是按原文直錄,而不是用簡化字版本繁體化。
現在沒有一家出版社出版的繁體書籍是嚴格按照《通用規範漢字表》排印的。我印象中表裡的相關說明就已經明確了該表的影響範圍只限於規範字系統,對於繁體和異體並未真正規範。再加上現在大陸的繁體書籍多為古漢語相關專業書籍,此類書籍的讀者多半已經不需「規範」漢字了,出版社面對這些讀者需要的是尊重古籍原貌以達到最大的古籍還原度。說到底,「規範」還是個面向大眾的事,對於繁體和異體這種跟大眾基本沒啥關係的事規範的意義也不是很大。
我覺得異體字分幾個層次。
第一個就是在字形,字義,讀音上完全沒有區別的異體字。只有編碼不同的異體字。這種異體字的存在原因是什麼不得而知。但是存在整整一大批。
這種字我總結了有一個400多字的表。比如U+82B1和U+2F993。完全就是一回事。都是花朵的花。我認為後者完全沒有存在的必要。在技術處理上直接把後者完全替換為前者即可。
在cbeta中,這種字只發現了兩個標點存在這種問題。是兩個中括弧和一個逗號。
第二個,是字形差異極小,字義,讀音完全沒有區別的異體字。
比如U+6238和U+6236,當然,還有簡體字戶口的戶。區別無非是上邊的那個點是不是歪了。
還有U+5415和U+5442,都是呂的異體字。無非是兩個口中間有點還是沒有點。這種處理使用規範化即可。
還有回字,吳字的幾個寫法。差別太小了
這種區別也基本沒啥意義。也總結了一個幾百字的表。
第三個。字形差異較大,但是字音和字義完全相同的異體字。
第四種。異體字只是建立在其中一個字的多義字之上的。
比如U+624D的才和U+7E94的纔,後者還有一個意思,是表示顏色。這個時候的替換就需要謹慎了。
哦,對了,其實呂還有一個含義是脊骨上的肉,這個字還有一個月字旁的異體字。unicode好像暫時沒有收錄。
推薦閱讀:
※「擧」「囘」兩字不是繁體,那它是什麼體?
※壹與一的關係與起源?
※「?旦乂」(U+23150)怎麼念?
※「?艹叜」是什麼字?
※讀作「wú」、表示「沒有」的字為什麼要寫成「無」,「無」字不是挺好的嗎?