八輔字情調查初步資料整理階段完成

八輔字情調查至今已進行一年半之久,現初步資料整理工作已經完成,關於八輔漢字的大提案已經開始編寫,這些漢字預計會在下一個或者兩個擴展區內提交並編碼。

為了固定本次考證成果,八輔字情調查表也即將開始編寫,關於本次調查和地名生僻用字的一些文章也會陸續在本專欄發表。

關於八輔的基本介紹,請參見:U外八輔字整理第一批,附帶一些八輔外、U外地名字

以下是對本次調查工作的一些總結和介紹:

一、參考資料

1.本次字情調查的主要參考資料為各地在第一次地名普查後編寫的成書地名志(包括有ISBN的正式出版物和未出版的內部參考資料)和1949年開國以後編寫的第一部縣誌,本次參考的地名志包括了其中的絕大多數,有極少數地名志和一些其他資料由於稀缺、價格昂貴或者僅有書稿未付印而不得參考。

2.其次,我在本次字情調查期間查閱了一些地名志難以參考到,未編寫地名志或者地名志編寫質量較差的縣的縣誌,對於新縣誌行政區劃記載不詳細的縣,一部分參考了舊縣誌(1949年以前的縣誌),對於是否繼續參考新縣誌或者舊縣誌,按照本省的生僻字預估可能存在數量的多少而定。比如河北省某縣無地名志,就可能不再參考縣誌,因為河北省地名生僻字的數量較少。

3.本次調查參考了基本所有常見資料庫能查閱到的有關期刊文章和論文。除此之外,本次調查還參考了一些地名以及地名生僻字有關的專著,其中《浙江地名疑難字研究》一書對於地名外字提交的幫助很大,也為本次調查減少了很大的工作量。

4.本次調查以「地名生僻字」、「地名 打不出來」、「身份證 無法顯示」等等作為關鍵詞利用百度搜索引擎進行搜索,在百度貼吧、百度知道、知乎等網站搜索到了一些有用信息,如「?火身」字的原始信息就是由此渠道獲得。每個關鍵詞搜索結果不足50頁的均全部查閱,超過50頁的查閱至50頁以上。

5.由於本次參考的《福建 廣東 廣西地名生僻字表》(對於生僻字表的介紹,請見:《福建 廣東 廣西地名生僻字表》可靠性說明及U外字整理)為手寫證據,無法作為主要證據提交,這會使能證明存在的約160字無法提交。我會進行相關工作,但將其破格作為可信證據的希望不大。

6.八輔字情調查初步參考書籍共計1780餘本,後續還會加進一些其它的參考資料,如《浙江地名疑難字研究》未涉及的縣區的相關資料以及一些其它新舊縣誌等,預計參考書籍總數會在2000本左右。具體的參考書目和缺考書目我會另發一篇文章專門發表,會不定期更新新加入的參考資料。

二.本次調查覆蓋的地域範圍以及資料精度

1.本次調查覆蓋了江西省、貴州省、廣西壯族自治區的全部縣級行政區,其中江西省的地名志絕大多數編寫的豐富全面,充分保留了地名更名前後的信息,沒有故意避開或者以簡單字代替生僻字以偷工減料的行為,江西省的地名生僻字清理的比較徹底;從清理結果來看,貴州省和廣西壯族自治區的志書應該漏掉了一定量的地名生僻字。比如廣西,對比《福建 廣東 廣西地名生僻字表》,字數差了很多;除此以外,還出現了鄰縣生僻字一堆,本縣為0的情況。

2.本次調查對青海、西藏、新疆的覆蓋率較低。

3.從現在的清理情況來看,四川省、湖南省、廣西壯族自治區、雲南省的地名資料可能漏掉了比較多的地名生僻字。以常用字代替生僻字而不加說明的現象常出現於各地地名志/錄/資料彙編,比如以下這例睜著眼睛凈說瞎話類:

很多字因為這種不負責任的行為而無據可查,尤其是同音代換,有時候明知是哪的字,但就是找不到紙質資料,無法提交。

4.總體來看,各地地名志的質量有好有壞,雖錯誤遺漏不少,但都基本可以參考;《福建 廣東 廣西地名生僻字表》僅有少量錯誤,可信度很高;專著類中《浙江地名疑難字研究》、《中華人民共和國地名大詞典》、《中國古今地名大辭典》、《中國古今地理通名集解》、《中國地名通名集解》等書質量較高。

三.本次字情調查找到的U外字數以及提交情況

1.保守估計本次調查共找到有證據的U外八輔字約600個,其中約450字有合適的提交證據;U外八輔外字不到100個,全部有合適的提交證據。據 @湉沨 統計,截止到擴展G,仍有1130個八輔字沒有提交,本次調查的預計成果遠未達到預期。各類精確字數將會在提案寫完之後另發單獨文章說明。

2.由於各源提交的WS2017出錯較多,WS2017會在2018年重新提交,但重新提交只能更換證據,不允許加字或者改交其他字,而G源(一直都很神奇的G源)提交的地名用字列印證據(公安部白條,樣式見下)出現了不少的亂碼,如果G源出錯的字超過5%,就將會被整體撤回(G源在WS2017——也就是未來的擴展H中提交了大量地名人名用字),情況不容樂觀。

(IRGN1519_5_ChinaCJK_D_EvidencesIDsystem.pdf)

3.好消息是擴展G的發布應該不會太久,有71個八輔字和一些人名用字如「?釒監」等將會正式收錄入unicode,獲得碼位。我的證據基本會通過UK和UTC提交,十分感謝 @eisoch 對我的教導和幫助。不得不提的是,UK源十分嚴謹,極少出錯,而且大佬們都很和善。

四.八輔字情調查的目的和成果的固定

1.我進行八輔字情調查的目的主要有兩個,一是將地名生僻字,尤其是仍在使用的地名生僻字向unicode提交,使其獲得編碼並可以被電腦顯示;二是豐富地名生僻字的音義,讓更多的地名生僻字有據有典可查,不再是死字,保護好相關的文化;為這些字的輸入做好準備,讓更多人了解這些字。

2.本次調查成果的固定主要通過兩個方面,一是編寫《八輔字情調查表》(會附上U外八輔外字),會包括已知的音義、地名用例、unicode信息等(一些無法作為提交證據的資料可以作為字表的參考資料,所以其使用的資料會比提案更豐富);其次就是做出U外地名字字體,字體做出來後,就可以暫時解決這些字的個人輸入問題。

五.成果的發表和繼續豐富

其實我是想出書的,因為這樣會方便不少字的提交,但我實在囊中羞澀,也擔心錯誤繁多誤導他人(如地名志中常出現錯誤記載,標音經常出現用不同普通話標音模仿同一方言發音的現象,村名來歷會有不同說法,不同書中對同一字的解釋不同,很難權衡其對錯,而且現在本次調查的資料也有一定的局限性),所以我決定將這些成果以多篇文章的方式發表在知乎上,這樣既節省了我的個人成本,也能隨時更正和添加信息。(emm...如果要出書,還是等以後我能掙錢了吧,畢竟現在還要啃父母,到那時候錯誤估計也糾正的差不多了。)

做出來的八輔字體中已確定存在的字會加入字海網天珩字型檔。

最後附上一段《浙江地名疑難字研究》的代序,這段話也道出了我的心聲:

在21世紀的今天,「地名用字」問題在學術界卻顯然已經變成一個冷門,具體某一個省市區域內的「地名疑難字」問題更是冷門中的冷門,這裡,似乎沒有宏大的敘事,沒有流行的辭彙,沒有漂亮的體系,沒有誘人的術語,也缺乏不斷相互切磋、互相呼應的學術共同體,即使在語言學界內部,好像既不屬於句法語義那些「語言本體」的研究,也不像甲骨文、金文那樣在「漢語言文字史」研究的焦點之內,不但上不了任何大眾傳媒的「排行榜」,上不了「社會科學規劃」的「選題指南」,甚至連語言文字學的專業刊物都不一定待見。可是,「學術熱點」與「社會需求」相關而並不相等,學界熱烈討論的固然可能因為社會的需要而起,但也可能對社會的發展並無多少裨益;相反,不少「學術冷門」卻成了文化建設的基石和社會進步的契機,「地名疑難字研究」也許正屬此類。

(選自胡范鑄《浙江地名疑難字研究》代序——《學術的冷門和社會的需求》)

致謝與說明

●《八輔字情調查表》的基礎框架編輯工作主要由 @湉沨 完成,2個分區的框架編輯工作由我完成,一個分區由 @Kushim Jiang 完成, @襙鼜鄵 和馮婧鈺也進行過幫助。

●U外地名用字字體由 @Kushim Jiang 製作。

● @eisoch 清理了《中國古今地名大辭典》,還找到了一些此書之外U外地名用字的證據和音義,並且在寫提案和提交提案方面給了我莫大的幫助。

●特別感謝 @梁海 為本次字情調查提供的資金支持。

● @湉沨 、@七個點 、 @雲夏 、@Isy、 @renyiyr 、 @自命也 、 @童寅 也為本次字情調查提供過有效字證,在此一併表示感謝。

●八輔字情調查的初步資料的尋找和整理工作基本由我完成,在各資料中新挖掘出來的音義以及其他有用的信息會由我加入《八輔字情調查表》,並負責《八輔字情調查表》的校對。《八輔字情調查表》在全部編完校對完後才會發表。

●我會儘力去偽存真,但《八輔字情調查表》定會有大量錯誤和遺漏,還請各位讀者暫時不要期望太高。同時,歡迎各位讀者指出我所有文章的各種錯誤。

●八輔字情調查的作者為我、 @湉沨 、 @Kushim Jiang 。


推薦閱讀:

請問「埖」字的含義?在中國範圍內是否有用作地名?

TAG:Unicode统一码 | 地名 | 生僻字 |