如何才能推動國家教育部推出支持Unicode最新版的全漢字宋楷黑仿免費字型檔？

01-15

台灣「教育部」網站，有免費字型檔、免費在線辭書下載或使用，十分不解國務院教育部咋就不做這項工作？這樣的超大字符集字型檔，對於古籍文獻整理、政務系統人名地名輸入多麼便利！

這個問題吧，要了解 Unicode 與各地字庫標準間的關係才好。

（以及台灣的教育部字型也並不是為了覆蓋 Unicode 的，見後文解釋）

電腦字庫這個東西，由政府出面的話，一般都是僅為自己地區的電腦字庫標準負責的，並沒有與 Unicode 同步的義務。

首先還是看看現狀：（太長不看的話可以直接跳過看結論）

先看情形比較簡單的中國大陸。中國大陸的標準是 GB 18030-2005，那麼中國大陸的「官方完整字型」就是恰好覆蓋了 GB 18030-2005 字元並符合其字形標準的電腦字型。而在 Unicode 方面，GB 18030-2005 的字集恰是（目前的） Unicode 的子集，因此 Unicode 組織（注意不是政府）提供了 GB 18030-2005 與 Unicode 間的完整對照表，這樣的話一款符合字形標準、並以 Unicode 覆蓋為目標的字型就直接能作為官方標準的參考字型來用了。現在 Windows（Vista 以來）的簡體中文字型「宋體」在 GB 18030-2005 範圍內就已經可以作為符合條件的字型了。至於額外的字收錄多少、Unicode 字集製作完不完整就全看字型的製作目標，不取決於政府了。另外中國大陸以宋體作為單一字形標準，因此尚無推出標準楷體的動機。

再來看情形複雜一點的台灣，台灣目前的電腦字庫標準是 CNS 11643-2004，其全字庫字型是符合 CNS 11643 標準的。不過 CNS 11643 的字集並不是 Unicode 的子集，而是互有參差（實際上 CNS 11643 收字數比 Unicode 漢字數還多一些）。因此一方面台灣特製了全字庫字型（台灣是楷書與宋體一併作為標準字體參考，因此有楷宋兩種），另一方面 Unicode 組織（依然不是政府）僅能為同時編入了兩個字集的字製成對照表，其他的字實際上是不相容的。目前 Windows（Vista 以來）的「細明體」由於完全用於 Unicode（及其子集）的環境，因此製作上雖然參考 CNS 11643，但未錄入 Unicode 的字元就沒辦法了。而對 Unicode 中標準外的字也只全看字型的製作目標，不取決於政府了。

至於 Unicode，它也是制定自己的標準，當然這個過程中 Unicode 會參考並儘量符合各地的用字標準與需求。因此現在 Unicode 確實走得比各地標準及各種電腦字型都要快一些。於是在電腦字型方面反倒是微軟的 Windows 系統字型跑得……嗯……跟進得比誰都快。

於是結論嘛～現在問題已經化為「如何推動政府使電腦字庫標準及時跟進 Unicode」。。好像並不如「直接推動合適的組織或團體（也可以間接依靠政府）製作維護一套完善的字型，做到 Unicode 漢字全收錄並及時跟進，最好針對不同地區推出不同字形版，並且能看（嗯有些 Unicode 超大覆蓋的字型真的會瞎眼我就不點名了）」這樣來得容易。。。

我知道有個項目，各種古籍的收了非常多，去重完大概三十多萬個不重複字元吧。用了基於 IDS 的合成，有點像 CHISE 的做法。細節就不知道了。

先回答題主的問題，題主不要這樣說嘛，畢竟Unicode字符集這件事又不是大陸教育部說了算的呀，涉及到國內外的管理機構。

目前中日韓統一表意文字已經支持到擴展E區，可能古籍文獻整理還不夠，但一般的政務系統人名、地名，還有古籍比較常用的字應該都差不多有了。

下面我從管理方面談一下漢字編碼這個問題。

一、國內管理機構

大陸出版印刷原來歸國家新聞出版總署管，「中華字型檔」這個大項目也是新聞出版總署推動的，2013年國務院將新聞出版總署、廣電總局的職責整合，組建國家新聞出版廣電總局。最近美媒紐約時報也有關注「中華字型檔」，《為更多漢字編碼，中國的數字化軟實力》nytimes.com 的頁面。很多古籍印刷、電子出版經常會遇到找不到字的情況，出版機構往往奇招迭出，然後順利完成出版。

大陸的語言文字工作一般由國家語言文字工作委員會來管，語委的上級管理部門是教育部，而且教育部還管基礎教育。偶爾還會出一寫規範字表，比如2013年新發布的《通用規範漢字表》，國務院關於公布《通用規範漢字表》的通知。

而大陸信息處理用的中文編碼字符集一直是工業和信息化部、國家標準化管理委員會（國家標準化管理局）來管的，標準委的上級管理部門是國家質量監督檢驗檢疫總局。比如著名的「國家標準GB 18030-2005《信息技術　中文編碼字符集》」就是標準委發布的。

然後問題就來了，三個部門級別相同，都比較自信，到底誰說了算？？？而且這三個政府部門的管理人員意見也不見得統一，文字學家在其中話語權本來就不大，而且現代漢語交流、信息交換用到的字比較少，已經基本滿足了大規模人群的需要。就目前而言，「國家標準GB 18030-2005《信息技術　中文編碼字符集》」的單位元組編碼部分、雙位元組編碼部分，和四位元組編碼部分收錄的中日韓統一表意文字擴展A區漢字，為強制性標準。其他部分則屬於規模性標準。也就是在中華人民共和國境內所有軟體產品，都需要支持這個同時包含單位元組、雙位元組和四位元組編碼的規格。

而「中華字型檔」出來的字符集50萬，是那麼龐大，不知猴年馬月才能成為國際標準。況且「中華字型檔」項目什麼時候結項現在也不清楚呀，十一五的重大工程，現在都十三五了。。。但好像《新聞出版業「十三五」科技發展規劃總體思路--傳媒--人民網》提到：

數字版權保護技術研發工程主體研發任務已經完成，中華字型檔工程、國家數字複合出版系統工程進入實質性研發階段；

應該快了吧。。。

二、國際管理組織

新世紀開始的時候，人們充滿希望，漢字編碼討論此起彼伏，但目前好像就不太熱了，而且IRG表意文字小組管理機構在香港。IRG全稱是「ISO/IEC JTC1/SC2/WG2/IRG (Ideographic Rapporteur Group)」，還有上位管理組織的呀。。。內外交困呀。。。當年古漢字編碼的時候就是國內搞得差不多了，國際上不鳥我們，然後就擱置到現在了。。僅僅是一個放在那裡的編碼方案。希望中華字型檔不是這樣。。。

然而現在的問題是要快速上線使用，特別是在電子出版、網路上使用。我在想「中華字型檔」能不能現將已經比較成功的部分推出一個測試版拿出來用用啊。不然各路機構只能各出奇招。。。資源很很難共享的呀。。。