如何看待東正教切音漢字收入Unicode?

Unicode計劃在10.0版中把20個晚清東正教合體漢字作為「急需字」(UNC)收入「基本多文種平面」(BMP)的統一漢字區。這些字是晚清傳教士所造,Kushim Jiang的專欄文章有詳細介紹。除了代表耶穌名號的兩個字以外,剩下的18個都是切音字,例如[英微]表示vin。這種合體表示切音的方式並非東正教所創。乾隆年間為了譯寫佛教經咒造了許多切音字,例如[哈噶]表示gha,[阿迎]表示nga。

《同文韻統》、《大藏全咒》中的切音字至少有上百個,是否也該收入Unicode?如果收,基本平面已經放不下了,那麼單獨把東正教切音字放在基本平面是否合適?
==========
補充1:《同文韻統》的切音字中,除了[英微]恰好也是東正教切音字,以及[哈達]計劃收入Ext. F以外,其餘大約兩百個切音字好像還沒有收錄計劃。
補充2:用於轉寫的切音字和「羰」之類的還是有區別的。轉寫中需要切音字和小字配合使用,例如基督寫作&合&[利爾]&斯&托&斯&,小字「合」和「斯」表示輔音而非音節。所以即便把[利爾]收入Unicode,處理這些轉寫還是需要文本標記。既然如此,完全可以用文本標記表示[利爾]。
==========
2016.7.15關於轉寫字和「羰」的區別再補充:前面談小字,是為了說明轉寫中 字與字 界限的劃分有隨意性。同樣是一個音節,憑什麼vin=微+英(微在右、英在左)算一個字,而tos=托+斯(托在上,小字斯在下)算兩個字?如果完全按音節分,tos算一個字,khris也算一個字,類似的組合無窮無盡,每一個組合給一個編碼根本就不現實。


2016.7.13回答如下:
謝邀!
先簡單地回答一下為什麼這幾個字放在BMP,至於題主說的「合體字」的問題有時間再補充。

這些個東正教用字沒有通過IRG,而是直接提交到UTC,而且急於用於數字化處理。他們自己提交的字體就是存放在URO+的,但具體位置和10.0收錄的有區別。彼時ExtF的編輯工作已在進行中,魏安曾建議改放到ExtF,但編輯人員認為不便操作,就保留在BMP中的URO+了。

此答案發出前我已徵詢過魏安,由於是私人郵件,還涉及別的一些內容,就不公開了。望見諒!

--------------------------------------------------------------------------------------------------------------------------------------------
2016.7.14補充如下:

把這些個東正教用字稱作「切音字」,可能還不大準確。一般情況下我們看到的切音字大多是反切上字在左或上,反切下字在右或下,如U+2BBFE?套合,就是套合切,但也有排布比較奇特的,如BabelStoneHanPUA收錄的EA22?扌?立天,其實是拉夭切,等等。

而這些個東正教用字的可釋讀順序是從右至左,這一點上有點類似《掌中珠》的用來注西夏語的方式。雖然不清楚製作這些字是以哪種方言作根基的,但可以把它們分成兩類。一類是右字是爾字的,這些字的反切下字都是來母字,而來母字和西里爾字母的р又比較接近,所以右字爾其實只是起著提醒使用者不要把左字念成來母而已。如果按李範文的解釋,《掌中珠》也有有幾分類似的用法。二類是左字在現今普通話中聲母是/j/的,對應的西里爾字母是е和и,除了?英微外,右字都是軟齶音。這一類就像是反切字了。這些個東正教用字用專門的字元來表示是為了和原始文本有更好的對應而且方便搜索。題主提到的?哈噶和?阿迎應該也是從右到左釋讀的。

明確可以說是切音字的字其實早就有了,《龍龕》里隨便翻翻都能找到不少,當然更早的文獻也有,我就不多談了。關於傳統漢字中可以解釋為切音字的字,包括反切上下字可能有訓讀情況的,可以參看龐光華著《上古音及相關問題綜合研究 : 以複輔音聲母為中心》一書(暨南大學出版社2015年)。《同文韻統》《大藏全咒》,還有很多釋教、耶教類似的著作中都有大量的切音字(道教的我暫時沒發現,不敢說一定就沒有),其實都可以而且應當提交到Unicode中去,但是否一定就能收錄進去,這就不是我現在可以打包票的了。

再說說小字的問題。IRG N1954=ISO/IEC JTC1/SC2/WG2 N4583這份文件中列出了需要用到的小字如乙、斯、特、福、木等幾個。若是在富文本,可以通過設置把它縮小;若是在純文本就不行了。類似的情況還出現在現代漢語書面語中對兒化用的小兒字的問題上。魏安和我曾建議用SVS來處理兒化用的小兒字(在需要區分兒化字和兒尾字的方言,這是非常重要的),參見L2/16-109。但UTC覺得用IVD來處理會更好,所以這個問題還要再談。如果像乙、斯、特、福、木和兒/兒這些需要用小字來體現的情況的話,或許可以統合起來一起再提交。至於能不能通過,我也無法打包票。

希望這些回答對題主你有用。


bmp還招人的話,把噁、頔,嬅等幾個在非bmp的常用簡化類推字挪過來可好?


能有啥看法,切音字就不是字?烴是不是切音字?羰是不是切音字?


看起來古琴譜字體不遠了


推薦閱讀:

請問合字是什麼呢【招財進寳】?
除了「廿」和「卅」,十的其他倍數還有對應的漢字嗎?

TAG:Unicode統一碼 | 佛教 | 東正教 | 中日韓統一表意文字CJK | 合文 |