如何才能推動國家教育部推出支持Unicode最新版的全漢字宋楷黑仿免費字型檔?

台灣「教育部」網站,有免費字型檔、免費在線辭書下載或使用,十分不解國務院教育部咋就不做這項工作?這樣的超大字符集字型檔,對於古籍文獻整理、政務系統人名地名輸入多麼便利!


這個問題吧,要了解 Unicode 與各地字庫標準間的關係才好。

(以及台灣的教育部字型也並不是為了覆蓋 Unicode 的,見後文解釋)

電腦字庫這個東西,由政府出面的話,一般都是僅為自己地區的電腦字庫標準負責的,並沒有與 Unicode 同步的義務。

首先還是看看現狀:(太長不看的話可以直接跳過看結論)

先看情形比較簡單的中國大陸。中國大陸的標準是 GB 18030-2005,那麼中國大陸的「官方完整字型」就是恰好覆蓋了 GB 18030-2005 字元並符合其字形標準的電腦字型。而在 Unicode 方面,GB 18030-2005 的字集恰是(目前的) Unicode 的子集,因此 Unicode 組織(注意不是政府)提供了 GB 18030-2005 與 Unicode 間的完整對照表,這樣的話一款符合字形標準、並以 Unicode 覆蓋為目標的字型就直接能作為官方標準的參考字型來用了。現在 Windows(Vista 以來)的簡體中文字型「宋體」在 GB 18030-2005 範圍內就已經可以作為符合條件的字型了。至於額外的字收錄多少、Unicode 字集製作完不完整就全看字型的製作目標,不取決於政府了。另外中國大陸以宋體作為單一字形標準,因此尚無推出標準楷體的動機。

再來看情形複雜一點的台灣,台灣目前的電腦字庫標準是 CNS 11643-2004,其全字庫字型是符合 CNS 11643 標準的。不過 CNS 11643 的字集並不是 Unicode 的子集,而是互有參差(實際上 CNS 11643 收字數比 Unicode 漢字數還多一些)。因此一方面台灣特製了全字庫字型(台灣是楷書與宋體一併作為標準字體參考,因此有楷宋兩種),另一方面 Unicode 組織(依然不是政府)僅能為同時編入了兩個字集的字製成對照表,其他的字實際上是不相容的。目前 Windows(Vista 以來)的「細明體」由於完全用於 Unicode(及其子集)的環境,因此製作上雖然參考 CNS 11643,但未錄入 Unicode 的字元就沒辦法了。而對 Unicode 中標準外的字也只全看字型的製作目標,不取決於政府了。

至於 Unicode,它也是制定自己的標準,當然這個過程中 Unicode 會參考並儘量符合各地的用字標準與需求。因此現在 Unicode 確實走得比各地標準及各種電腦字型都要快一些。於是在電腦字型方面反倒是微軟的 Windows 系統字型跑得……嗯……跟進得比誰都快。

於是結論嘛~現在問題已經化為「如何推動政府使電腦字庫標準及時跟進 Unicode」。。好像並不如「直接推動合適的組織或團體(也可以間接依靠政府)製作維護一套完善的字型,做到 Unicode 漢字全收錄並及時跟進,最好針對不同地區推出不同字形版,並且能看(嗯有些 Unicode 超大覆蓋的字型真的會瞎眼我就不點名了)」這樣來得容易。。。


我知道有個項目,各種古籍的收了非常多,去重完大概三十多萬個不重複字元吧。用了基於 IDS 的合成,有點像 CHISE 的做法。細節就不知道了。


先回答題主的問題,題主不要這樣說嘛,畢竟Unicode字符集這件事又不是大陸教育部說了算的呀,涉及到國內外的管理機構。

目前中日韓統一表意文字已經支持到擴展E區,可能古籍文獻整理還不夠,但一般的政務系統人名、地名,還有古籍比較常用的字應該都差不多有了。

下面我從管理方面談一下漢字編碼這個問題。

一、國內管理機構

大陸出版印刷原來歸國家新聞出版總署管,「中華字型檔」這個大項目也是新聞出版總署推動的,2013年國務院將新聞出版總署、廣電總局的職責整合,組建國家新聞出版廣電總局。最近美媒紐約時報也有關注「中華字型檔」,《為更多漢字編碼,中國的數字化軟實力》nytimes.com 的頁面。很多古籍印刷、電子出版經常會遇到找不到字的情況,出版機構往往奇招迭出,然後順利完成出版。

大陸的語言文字工作一般由國家語言文字工作委員會來管,語委的上級管理部門是教育部,而且教育部還管基礎教育。偶爾還會出一寫規範字表,比如2013年新發布的《通用規範漢字表》,國務院關於公布《通用規範漢字表》的通知。

而大陸信息處理用的中文編碼字符集一直是工業和信息化部、國家標準化管理委員會(國家標準化管理局)來管的,標準委的上級管理部門是國家質量監督檢驗檢疫總局。比如著名的「國家標準GB 18030-2005《信息技術 中文編碼字符集》」就是標準委發布的。

然後問題就來了,三個部門級別相同,都比較自信,到底誰說了算???而且這三個政府部門的管理人員意見也不見得統一,文字學家在其中話語權本來就不大,而且現代漢語交流、信息交換用到的字比較少,已經基本滿足了大規模人群的需要。就目前而言,「國家標準GB 18030-2005《信息技術 中文編碼字符集》」的單位元組編碼部分、雙位元組編碼部分,和四位元組編碼部分收錄的中日韓統一表意文字擴展A區漢字,為強制性標準。其他部分則屬於規模性標準。也就是在中華人民共和國境內所有軟體產品,都需要支持這個同時包含單位元組、雙位元組和四位元組編碼的規格。

而「中華字型檔」出來的字符集50萬,是那麼龐大,不知猴年馬月才能成為國際標準。況且「中華字型檔」項目什麼時候結項現在也不清楚呀,十一五的重大工程,現在都十三五了。。。但好像《新聞出版業「十三五」科技發展規劃總體思路--傳媒--人民網》提到:

數字版權保護技術研發工程主體研發任務已經完成,中華字型檔工程、國家數字複合出版系統工程進入實質性研發階段

應該快了吧。。。

二、國際管理組織

新世紀開始的時候,人們充滿希望,漢字編碼討論此起彼伏,但目前好像就不太熱了,而且IRG表意文字小組管理機構在香港。IRG全稱是「ISO/IEC JTC1/SC2/WG2/IRG (Ideographic Rapporteur Group)」,還有上位管理組織的呀。。。內外交困呀。。。當年古漢字編碼的時候就是國內搞得差不多了,國際上不鳥我們,然後就擱置到現在了。。僅僅是一個放在那裡的編碼方案。希望中華字型檔不是這樣。。。

然而現在的問題是要快速上線使用,特別是在電子出版、網路上使用。我在想「中華字型檔」能不能現將已經比較成功的部分推出一個測試版拿出來用用啊。不然各路機構只能各出奇招。。。資源很很難共享的呀。。。


推薦閱讀:

爲什麼沒有根據字形編碼的漢字處理解決方案?
「?」(U+2F49)與「月」(U+6708)是不是同一字?
減字譜的Unicode編碼有沒有存在的必要?
有哪些漢語方言字Unicode還沒有收錄的?
每一個Unicode里編碼的諺文(韓文)字元都曾在歷史上使用過嗎?

TAG:中文字體 | Unicode統一碼 |