為什麼有的生僻字有unicode碼位卻仍然打不出來?

至親中有人名字中有「?王瑩」這個生僻字,用各種輸入法一直打不出來(不包括那種造字造出來的輸入法)。尤其是除了公安以外的公共部門都無法打出此字。十年前在大學時申請改名卻被拒絕,當時的說法是很快就能解決該字的打字問題,結果卻一拖再拖到今天都沒看到結果。雖然諸多不便,一直帶著這個生僻字頑強地生活著。但是確實不方便。

問題是我發現該字是有unicode碼位的,碼位號應該是u+2c386。我的疑惑是:為什麼這個字有unicide編碼,卻無法實現在電腦上打出來並識別?問題出在哪裡?

另外,聽說去年年底中華字型檔新增了3000生僻字,我想請教一下業內人士,這些生僻字中有無包括「?王瑩」?這些生僻字何時能至少進入公共服務部門的字型檔?

煩請回答。謝謝。

對了,那些準備冷嘲熱諷你至親為何要取生僻字的就不用浪費筆墨回復我的問題了。大陸有6000多萬姓名中有生僻字的群眾,與其嘲笑這些「小眾」人士,不如花點時間一起想想如何幫幫這六千萬的「小部分」群體。謝謝。


前幾天在討論新的幾個化學元素中文定名未編碼字進入Unicode的問題時,我問了Ken一個問題,是否可以考慮把所有的化學元素中文定名都收進思源黑體,只要它們的Unicode碼位被確定下來後。Ken重申了之前思源黑體收字的兩點規則:1)完全支援URO的所有漢字,2)完全支援《通用規範漢字表》,因為《通規》並不包含112號元素U+9FD4和116號元素U+2B7F7,按照以上兩點規則,思源黑體便失去了U+2B7F7。前兩天我重看 @Kushim Jiang 一篇關於《現漢》第五版的專欄文章,他提到了兩個《現漢》已經收錄且不能被unify的未編碼字。這又不得不讓我去思考《現漢》收錄的字是否有必要做到每個字都得在最通用的平台都可以支援,但這個問題很難一下子獲得比較好的答案,問了不同層面的人,有不同的想法。如果《現漢》已經可以代表一般人需要認字的極大需求,那為何不把他們都支援上呢?況且在WS2015(aka Ext G)中U源提交了不少就是以《現漢》第二版為證據清理出來的未編碼字。(題主提到U+2C386雖然不在《通規》,但《現漢》確實有,而且僅就我工作上遇到的人來看,會用到這個字的並不算少。)另外就是中方和UTC提出的以中國需要為證據的急用漢字(UNC),既然一系列會議都能認定這些字是急用的,難道不應該真把它們落到實處去嗎?畢竟一堆編碼本身對普通使用者並沒有多少意義。(當然URO+即將新增的那些東正教字可能對一般的中國用戶是沒什麼可能會用到的。)Ken後來說會考慮在思源黑體加上U+2B7F7。

其實,不同的領域應該自主制定自己的碼錶,讓所有平台都完全去支援Unicode的全部漢字字元,那是不可能的,也是不必要的,但Unicode中的每一個字都會說明來源,不同領域只要按著來源去找自己需要的就很足夠了。到如今這個年代,無論是誰,若還是只守著URO不放,或者再自欺欺人地加上幾個PUA字,那就等著出大問題吧。

至於新增擴展區和中華字型檔的情況,請看 @忠心護國噶爾丹 的回答,那裡已經說得很清楚。

寫到最後,突然有個想法,或許可以找一個專門的地方,讓大家把自己日常遇到最亟需解決的字統一集中起來,若是未編碼的,會有人專門寫提案去提交(只要你能提供合適的證據),若是已編碼了的,那就攢好,至少安卓用的思源黑體可以給Ken他們去備一下案。


這件事應該已經困擾姓名、籍貫中有生僻字的同志們很久了,名字進不去航空公司資料庫,每次上飛機前要單獨去小白屋,或者民政系統無法輸入,導致婚育、遷移遇到困難,都給使用者帶來極大地麻煩,特別是有些傳承至今的稀有姓氏,迫於電腦系統不能匹配用字的緣故,不得不給整個家族改姓,也是件很牽動情懷的事。

就題主說的這種情況,其實已經有幾家機構根據國際編碼方案的進展做了字型檔跟進,比較全的是花園明體,去年年底敲定的擴F區字集已經收錄,應該說題主的問題暫時得到解決。

中華字型檔去年增加的3000生僻字並不包括「?王瑩」,因為這個字早已提交國際編碼組織並認可,搜狗輸入法已經做了跟進,目前屬於搜狗的自造字,待Unicode10.0發布後,Windows系統會予以支持顯示。

中華字型檔內部不僅收錄了「?王瑩」,還收錄了繁體「?王瑩」,「?王瑩」見於《中華字海》1768頁,「?王瑩」見於《現代漢語詞典》1562頁,現根據其他證據認定了這兩個字的文字地位並納入字型檔。

按照計劃,中華字型檔明年要發布一批成果,用於解決出版行業和社會用字的問題,對大多數姓名中有生僻字的人來講,距離解決這個困擾已經不遠了。


U+2C386 是擴 E 的啊,你(現在)打得出來才是見鬼了


顯示不在 BMP (基本多文種平面)內的擴展漢字,一要看系統是否支持,二要看有沒有收錄這一漢字的字體。

字體的話,目前所有操作系統的最新版本的系統字體都支持擴展A區漢字(舉個例子,「恭親王奕?」 的簡體 「?」 字在該區內),不過A區在 BMP 內,沒有這方面的問題,鍋應該給不收錄這個區段內漢字的輸入法上。

而 Windows 至少從 Vista 開始有支持顯示到擴展B區的中易宋體(宋體-ExtB,SimSun-ExtB)和新細明體(MinLiU-ExtB)。C、D、E、F區的話,可以下載免費且開源的花園明朝體。另外思源黑體系列也支持《通用規範漢字表》內的非 BMP 擴展區漢字。

(公安部委託了方正公司製作專用字體與輸入服務,服務範圍僅限於公安部,在其他地方只有抓瞎的份。)

不過要是系統或應用不支持的話,那安裝了字體也是白搭的。就像知乎之前因為伺服器系統原因也是不支持非 BMP 擴展區漢字的,一發表就變成了空格。

哦對了,無法輸入的問題輸入法也有份,主流的輸入法只支持基本漢字區段內的字。不過支持擴展漢字的輸入法也有,比如 Rime。

並不是專門搞這個的,一些描述可能有問題,只算拋磚引玉,所以匿名。如有錯誤請指正。


很多過時的電腦只支持BMP(第0平面)的Unicode。。。另外那16個平面還是不支持,畢竟是比較後的事了


我單純吐槽一下

UNICODE很多民間有用的字不收,卻收了一堆沒啥用的字,真不知道怎麼想的

-----

還有,除了花園明朝以外

「開心宋體」也可以顯示abcde區,搜索「國學大師」網站上就有


推薦閱讀:

有沒有人把Unicode 按Code Chart里的字體完整地做成一個字體?
理論上一個位元組能不能表示一個漢字?
Python2.7 中文字元編碼,使用Unicode時,選擇什麼編碼格式?
用python模擬登錄知乎,爬回來的是亂碼?
在計算機中為何不直接使用UTF8編碼進行存儲,而要使用Unicode再轉換成UTF8?

TAG:字體 | Unicode統一碼 | 生僻字 |