這個類似「島」的字(U+21DCA)是怎麼來的?

先前這箇字放在標題,知乎無法顯示,就只可用貼上鏈接:http://www.zdic.net/z/8b/yy/21DCA.htm。上似乎為島(島)字之異軆?在此請敎!


這個「島」的Unicode編碼是U+21DCA,提交國家(或地區)是香港。來源的字符集是 HKSCS(香港增補字符集,Hong Kong Supplementary Character Set)。

說白了,當年香港一直沿用台灣的 Big5 編碼體系,而失收了許多粵語字。所以各個廠家都推出了「香港字外字集」。其中最有權威的算是香港政府內部的造字集。

這個字「島」字就是香港政府當年做內部造字集的時候,收錄的錯別字。後來政府造字集成為「事實標準」,並且被 Unicode 採用,也就正式進入全世界的編碼體系了。

關於 HKSCS 的來歷和所收各類錯別字,請參考 @Ichirou Uchiki 的部落格文章(可能要翻牆,因而筆者引用一部分):

 科技由人用,技窮則變通。老外「磚家」曾言道:漢字不適應電腦,唯淘汰一途。今天,漢字遊走電腦間,勃勃生氣。從「不適電腦」論,到字元編碼多家並行、互不兼容,到1980年代中期「Big5碼」一統正體中文電腦天下,再到今天的Unicode時代,沒有甚麼窮途。


 但,這不等於惱人的麻煩事可休止。


 Big5碼乃臺灣產物,用於香港,則缺「香港字」——實即「粵字」,粵語或粵地區常用字,包括在地用字、方言字、異體字等。缺「香港字」的中文系統,「深水埗」、「鰂魚涌」、「杏花邨」、「赤鱲角」、「鴨脷洲」等皆現空格,連本地地名也無法輸入,豈不惱哉!


 1990年代,各家中文字庫廠商推出不同編碼的「香港字外字集」,在Big5碼擴充區增造粵字。空格雖塡回,卻再次上演「萬碼奔騰」。如華康784外
字、全眞550外字,還有中國龍外字、國喬外字、中國海字集等,諸家編碼殊異。彼字集之「邨」字碼位,此字集收錄「埗」字。含「綠楊新邨」的電郵一
send出,接收者看到「綠楊新埗」,差之何止毫釐。唯蒙納471香港補字集沿襲文鼎外字編碼,數家暢銷報章均使用蒙納字庫,才有少許共通處。但,據個人
記憶,其普及率不及華康外字集。

原地址:http://founder.acgvlyric.org/iu/doku.php/%E9%80%A0%E5%AD%97:%E5%BA%8F_%E5%B8%B8%E7%94%A8%E9%A6%99%E6%B8%AF%E5%A4%96%E5%AD%97%E8%A1%A8

HKSCS字符集一覽表:character_set/HKSCS.txt at master · rime-aca/character_set · GitHub


推薦閱讀:

TAG:Unicode統一碼 | 疑難字辨識 | 訛字 |