20180110《楚文字編》字頭索引數位化完成、缺字補完
20180110《楚文字編》字頭索引數位化完成、缺字補完
https://ebag.tian.yam.com/posts/213827690
https://www.zhihu.com/video/934254224334831616【話說當年】
事實上,《楚文字編》在「引得市」2012年7月成立時,早已經開放檢索,為何今日又有這一篇「字頭索引數位化完成」的內容發布?當初這本書的缺字數量實在太多,並沒有立刻處理缺字,而只有整理電腦可以顯示的字頭。其他缺字部份都是以英文的「q」暫時代替。現在來看,當年的決定是相當正確的,一下子要處理二千多字的缺字,不論有沒有「時間」,執行起來都是相當困難的。
認為當年的決定是正確的原因有二:其一,缺字的總體數量過於龐大,光想就是一個相當大的壓力,太大的壓力下,工作是很難有很好的效率。再來,這幾年其他文獻所累積的缺字,以及新增的Unicode電腦字集,再拿來比對複查是比較好的方式。對於太多、煩雜重複的事物或工作,漸進逐次製作,分階段應該是比較好的。
※電腦螢幕逐字逐頁覆對情形
【執行過程】
從無到有,沒有計算總共花了多久的時間,可以知道的是,在目前「引得市」開放的二百多種文獻當中,筆者親自製作的文獻,《楚文字編》絕對是最耗時的。這次的缺字字頭補完,重新打上原來沒有的「構字式」,然後在紙本上圈選作記號,表示確認。覆對缺字之前,缺字庫約有12413字,為此新造的有211字。
秉持著只要有字頭列出,就會錄入的原則下,試著以「螢幕錄影」紀錄了作業一小時的情形,結果60分鐘大約整理80頁左右(304-384頁)。執行的速度不快,和今天(1.9)北台只有10多度,低溫下手有點不聽使喚也有些關係。幸好,執行速度越來越快,否則依照這個速率,800多頁還得花至少10個小時以上。
本文 (1-864)
合文(865-877)
字列t2832
缺字t2014
總字列t4846
舊:總字列 4894 缺字 2156
新:總字列 4846 缺字 2014
新舊版本在總字列上有數十字的差距,在於原始的版本是依據書籍的「筆畫檢字表」所製作的,現在完成的是依據本文逐頁逐字對照增補,然後也補上「合文」的部份。缺字的差異就是6年前誤以為是缺字,事實上有很多是可以打出來的。這和經驗的累積與檢索工具的提昇有很大的關係。
※字頭完全錄入
【未來展望】
除了《包山楚墓文字全編》、《上博楚簡文字聲系1-8冊》是捕風兄、偉明兄等人所製作提供,「引得市」線上的楚系相關的文字編,幾乎都是筆者所製作的,若不是對楚文字的熱愛興趣,在缺字總是佔了內容將近一半的情形下,一般人可能不容易持續製作下去。市面上出版的重要文獻如:《上博藏戰國楚竹書字匯》、《楚系簡帛文字編(增訂本)》、《清華大學藏戰國竹簡(壹~柒)》等都可以在「引得市」上檢索。每種文獻中幾百個缺字的累積,已經快把二千多字填滿,剩餘的,今天就都補全了。因此可以說,楚系文字的「缺字」補充應該算是達到一個新階段了。
這次製作時,筆者也將缺字編號與原始字頭的聯繫在一起,在查詢「缺字」所對應的字頭更加方便。《楚文字編》字頭數位檔案,或與其他單位收藏的字頭進行整合,用來進行更大範圍的楚系文字編的編輯。
此外,「古文字缺字資料庫」缺字來到新高12624字。去年年底發布的字型有12290字,兩者相差334字,或許稍加整理,可以再發布一次新版本的缺字字型,也請朋友們拭目以待。
【使用方式】
進入「引得市」(www.mebag.com/index)點選:②戰國文字」項目中即可查詢。
合作提案(並非限於商業,任何形式的交流都很歡迎)
〈引得市〉與個人/團體單位合作草案 - HackMD
【學術交流】
※關於「引得市」的各種查詢應用,網路上的教學影片或文章介紹的不多,因此,很多教授與研究者可能還不熟悉,像是「開卷助理如何用」、「電腦缺字」、「古文字輸入法的使用」等問題,筆者都很樂意詳細解說,只要時間允許,都歡迎個人或學校機關團體私訊或留言約時間地點,公開來討論交流。
漢字科普網站推薦(八)—— 引得市(周旭 撰)
漢字科普網站推薦(八)—— 引得市
李守奎:《楚文字編》,上海:華東師範大學出版社,2003年11月。
ISBN:7-5617-3242-2/H?216
《楚文字編》字頭排序校正一小時全紀錄
https://youtu.be/RW7T1A7Upv0
《楚文字編》筆畫檢字表的索引數位化(相簿)
https://ebag.tian.yam.com/album/9493708
推薦閱讀:
※建立「開卷助理」新的RMP檔
※【技術貼】開卷助理——古文字檢索新思路
※mysql某千萬級數據表中某欄位有100多種取值,該欄位適合加索引嗎?
※臺灣出版的、附有索引的書籍,其中文索引常用何種排序方式?
TAG:索引 |