Unicode什麼時候完成甲骨文,金文,小篆的編碼?有具體計劃嗎?

UNICODE第三輔助平面尚未使用,但打算用來擺放甲骨文,金文,小篆,中國戰國時期文字等。


最初這些統稱古漢字(Old Hanzi Scripts),隨後:

使古漢字進入計算機,是上世紀末漢字信息處理的一件大事,在這方面已經有了不少先期成果。從 90 年代起,就有人嘗試創建「全漢字字型檔」,由於力量和投入不足,未能全部實現,但是也積累了很多經驗,留下了一些局部成果。近年來,甲骨文字型檔、金文字型檔、小篆字型檔,都已經初步研製成功,戰國文字字型檔和簡帛文字字型檔正在創建中。字形問題的解決為國際標準古漢字字符集的創建打下了基礎。

創建國際標準古漢字字符集的另一個需要關注的問題是古漢字字際關係的整理。目前,漢字系統性的理論給這個問題的解決提供了依據,在已經創建的字型檔中,大部分古漢字的字際關係已經經過整理,為古漢字字符集的編碼方案提供了一種可行的方案。

以上兩個條件的具備,使這一工作具有了可行性。

一、第一批列入國際編碼的古漢字的類別:

根據目前的條件,建議將以下四類古漢字首先列入國際編碼:

1、甲骨文字符集(已釋字 1300 個左右,總字數 4000 多個);

2、商周金文字符集(4900 多個);

3、戰國楚簡文字字符集(2300 多個);

4、《說文》小篆(包括收入《說文》的籀文和古文重文)字符集(10560 個)。

這四類古漢字目前的整理比較成熟,字量相對較多,具備進入國際標準的條件,同時可以起到創建下一批古漢字字符集的坐標作用。

二、字符集的收字和放置:

鑒於各類古漢字的傳承對應關係是不整齊的,加之古漢字字符集的功能並不相當於宋體字的另一種或幾種非主用字體,因此,各類古漢字字符集全部獨立放置,與宋體層面平行,也就是給各類古漢字單獨開闢固定的區域。

各類字符集均採用描述型,即,以字樣為單位,收錄整理後的全部字樣,所有異體字均獨立佔有一個區位。

各字符集內字形的排序原則上依照《說文解字》部首,部內的字與《說文解字》小篆能對應的,按《說文解字》排列,不能對應的,參考《說文解字》歸部,置於能對應的字後。

〔IRG N999 China"s Old Hanzi Encoding Proposal 頁 5~7〕

以上所述四類古文字便是 Unidings 所收之 Oracle Bone Script、Bronze Script、Small Seal Script 和 The Warring States Scripts。仔細說來,

  • 甲骨文(Oracle Bone Script)。最新的文件應該是 2015 年 10 月 21 日由 TCA 和 China 共同提交的 WG2 N4687。文件提到,在刻有甲骨文的一百多萬片甲骨中共發現 4378 個字樣。文件提交了來自《合集》、《合補》、《花東》、《大辛》、《周原》、《屯南》、《英藏》、《懷特》、《天理》、《德瑞》、《瑞博》、《甲骨編》、《新甲編》中共 1463 個字樣,依說文部首排序。文件問題太多限於篇幅吐槽略。
  • 金文(Bronze Script)。最新的文件應該是 2005 年 5 月 18 日由 PRC 提交的 IRG N1119。文件提及了 13k 余器近 130k 字的金文編碼字符集,依《商周金文數字化處理系統》選擇金文字樣。文件認為不應以時空類型劃分作為編碼單位整理篩選的依據,並且堅持保真原則,所提交字樣儘可能直接依據原始圖片製作,而不應依據手寫字形製作。不限定每個字的編碼字樣數量,未識字、歧釋字也予編碼。
  • 小篆(Small Seal Script)。最新的文件應該是 2017 年 9 月 8 日由中華字型檔(CCDP)提交的 WG2 N4855。文件整理了五個版本的《說文》,每個版本的《說文》均含 11108 字(含重文)。由於避諱字和錯誤字形的存在,資料庫共含 12750 個字樣。文件認為應選取一個主體版本作為編碼基礎,並依裘老師觀點傾向選用陳昌治版。
  • 戰國文字(The Warring States Scripts)。暫無提案。

綜上,齉字還沒一撇。


這個估計要很久很久,還有許多工作要做現在只是開了個頭。而且一些戰國文字還沒有公布。

年輕人有沒有興趣加入這個工作呀??


推薦閱讀:

為什麼《說文解字》用小篆書寫?
西南大學校徽上的圖案,是怎麼由「西南大學」四個字的篆體字組合來的?
圖片里的這段小篆是什麼字?
會寫小篆是一種怎樣的體驗?
這是小篆的什麼漢字?

TAG:甲骨文 | Unicode統一碼 | 小篆 | 金文 | 戰國文字 |