標籤:

【技術貼】開卷助理——古文字檢索新思路

那天,他講的都是天上的事,什麼月相、初吉、生霸死霸的。忽然話鋒一轉,開始說出版業:書價貴,買不起,導師出書,出版社一共只送了10本樣書,同儕分一分就沒了。

是啊,現在的專業書太貴了。有多貴呢?就古文字方向而言,不提大部頭的《甲骨文合集》《殷周金文集成》,稍微像樣點的專著動輒幾百的。更有很多重要參考書,早已絕版,有錢也買不到。於是,對於廣大讀者,特別是古文字等專業的研究者、愛好者來說,使用掃描檔電子書已經成為一種常態。關於如何獲取電子書,我想我不必多言,各大圖書館和高校的慷慨共享使得電子書的獲取變得越發容易,大家可以關注 @設定控 先生的無私總結。

今天我要講的,是面對浩如煙海的電子文檔,我們該如何充分利用前人的勞動成果快速提取掃描檔電子書中的有效信息?

古人在整理學術資源的時候發明了一種非常實用的學術工具——通檢/索引/引得。有了它,書籍的利用率提高了,前人的研究成果更容易被吸收,學術質量也有進一步提高。(詳見許逸民《古籍整理釋例》)我們在查詢豐富的電子書資源的時候,如果能夠充分利用時賢先哲製作的索引資料,必將事半功倍。

在這裡我將為大家介紹一個快速打開電子書的神器。它可以瞬間打開本地pdf電子書的指定頁碼,在做版本對比、字典檢索等方面,能夠得到異常絲滑的閱讀體驗。

下面隆重地介紹一下開卷助理(GoPage)軟體。

一、需要的工具:

開卷助理(GoPage)小白組合包:gopage主程序(GoPage.exe)、配置文件(GoPage.dat)、閱讀器(SumatraPDF.exe)以及具體用的pdf文檔及excel索引。有了這個組合包,就可以直接解壓,不需要其他配置。當然,如果想用其他閱讀器,也可以高級配置,這裡不展開。

點擊下載GoPage小白組合包

點擊下載官方手冊

二、使用方法:

GoPage的使用方法很簡單。

1、將閱讀器、GoPage、文檔放在一個文件夾,雙擊運行GoPage。(當然也可以不放在一個文件夾,不過需要高級配置,今天暫不講那麼多

2、在記事本、word、excel等任意能輸入的地方,寫一段代碼:

ebf://45@全唐詩n

選中並複製,即可打開《全唐詩》的第45頁。當然,前提是這個pdf的第45頁就是這本書的第45頁。

3、如果這本《全唐詩》的前10頁是封面、目錄、前言等等,pdf的第45頁實際上是書的第35頁,那處理起來也很簡單,只需把代碼稍加改動:

ebf://45+10@全唐詩n

在45後面+10即可。如果這個pdf少了前10頁,還可以用45-10,以此類推。選中代碼,複製,即可打開指定頁碼。

可能有人要問,這個東西好麻煩啊,還要下載軟體,還要寫代碼,我自己看書就行了,用不到這種東西。如果你是要從頭到尾讀一本書,GoPage的確用途不大,但如果你要查字典,或者在卷帙浩繁的類書、叢書中提取專業信息,GoPage就會凸顯出其強大的優勢了。下面,將以我熟悉的古文字和清詞為例,簡述GoPage的強大功能。

前段時間,我在專欄里公布了自己製作的幾個《說文》索引,此次以簡單的《說文新坿通誼》索引為例。(【發布】說文索引四連《說文新坿通誼》《說文解字今釋》《說文解字集注》《說文解字探原》

第一步,將閱讀器(例為SumatraPDF,此pdf閱讀器是免費的,打開速度也很快)、GoPage、文檔放在一個文件夾

第二步,打開excel,在單元格內輸入:

="ebf://"&C2&"@說文新坿通誼"n

其中C2為需要打開的頁面所在的單元格。

拖拽D2右下角的小點至文檔最下,將自動填充為GoPage代碼。

第三步、雙擊運行開卷助理

第四步、選中單元格,右鍵複製或者按Ctrl+C鍵,即可打開指定頁碼。

再以《中白詞》為例(這裡是我之前分享的地址,不過沒有製作成這個格式,大家可以自己動手一下

直接用剛剛的代碼

="ebf://"&E2&"@說文新坿通誼"n

E2替換成這個文檔里頁面的實際單元格B7,把書名替換為中白詞

依舊點擊拖拽至末端。

點擊單元格,右鍵複製或按住Ctrl+C就可以打開指定頁面了。

大家可能會覺得,這是在有索引的情況下,才如此方便,如果沒有現成的excel索引,一樣很麻煩啊。事實上,世界上有很多願意提供自己製作的索引的人(比如 @poem 在「世說新韻」專欄分享的《玉篇》、《廣韻》、《經典釋文》、《一切經音義》的相關索引),更有名為「引得市」的網站(Index 引得市),用來檢索古文字的效率很高。特別是在不久之前,引得市也支持了GoPage,這意味著,只要你點擊引得市上的頁碼,GoPage軟體就會自動打開你本地pdf的指定位置。

例如點擊《說文解字今釋》的頁碼,即可打開本地的pdf。也就是我剛剛介紹的excel的配置你都不用管了。一鍵點擊打開即可。

這時候你發現了一個問題,天在《說文解字今釋》這本書的第二頁,但pdf的前幾頁是多餘的,第二頁是封面,那麼如何處理呢?也很簡單。

我們經過對比後發現,《說文解字今釋》pdf的前51頁都不是正文,所以只要設置一個偏移量即可。在gopage文件夾建立一個rmp文件,文件名和書名保持一致。然後設置偏移量即可。此書的前51頁不是正文,那麼偏移量設置為+51。

這樣,我們在重新打開引得市

需要強調的是,本工具是為了有快讀檢索需求的研究者量身定做的,對於沒有這種需求的朋友來說可能用途不大。不過,在古文字學日益發展的今天,掌握材料、掌握工具、掌握方法、提高效率會為學術科研乃至思維構建提供助力。

最後,感謝大神的發明和共享,他來自寶島台灣,嗜書如命,又剛好會編程。

諸君可移步他的部落格:blog.xuite.net/fg_wang/(如果能打開的話)。


推薦閱讀:

mysql某千萬級數據表中某欄位有100多種取值,該欄位適合加索引嗎?
臺灣出版的、附有索引的書籍,其中文索引常用何種排序方式?
作為一名貼圖黨,你是如何在上G的圖庫中快速找到合適的圖的?

TAG:索引 |