OCR:如何把掃描版pdf轉變成文字版?
longtingfang的日記
OCR:如何把掃描版pdf轉變成文字版?2011-07-31 11:28:39 我經常在閱讀掃描格式pdf的時候,把它們抓取為文字格式,當然得是好書。可能有朋友不清楚ocr,它就是把文字從圖像中識別抓取出來。文字版pdf的好處就是便於傳播、引用,視覺上清晰,具有更大的處理空間,乃至可以二次製作,比如出於手機什麼的閱讀需要。但是,ocr過程中的文字識別率不會是100%,需要進一步校對,所以在這個意義上粗製濫造的文字版pdf還不如掃描原版的價值。我分享自己的一點ocr經驗,也是想更多的朋友製作文字版好書,也因為很多的朋友不熟悉ocr。ocr軟體很多,這裡只根據自己的經驗進行推薦,而忽略其他。首先說單頁pdf的ocr這種單張圖片式的文字抓取我強烈推薦JOCR。JOCR的優點是免費綠色輕量(綠色就是不需要安裝),體積小到幾乎不可思議的不到100kb。然後不可想像的是,這麼小的軟體其識別率還非常高,而且可以抓取20多種語言,包括中文繁體,夫復何求。JOCR(原版、漢化版、使用說明、MODI及「繁體中文識別」文件)下載:http://vdisk.weibo.com/s/uImX網路上有漢化版,其實不必。它常用功能很簡單,一般就是第一步「Capture Region(選取需要ocr的區域)」,然後在語言框選擇語言,最後「Recognize(識別)」,於是就為你蹦出一個txt文本,接下去你還可以就著這文本進行校對。注意:1、要成功使用JOCR,首先得保證在安裝office時選擇了「完整」安裝選項,因為JOCR的運轉是依託於Microsoft Office Document Imaging (MODI,中文OCR辨識引擎)的。Office 2003的預設安裝是第一次使用MODI時安裝,Office 2007的預設安裝是不裝,都需要自己主動安裝一下。如果你沒有完整安裝office,也可以只是再安裝一下MODI,微軟官方有下載。2、如果需要抓取繁體,而你使用的是簡體windows系統(即比如安裝的是簡體中文Office 2003),那麼請將下列「繁體中文識別」文件複製到C:Program FilesCommon FilesMicrosoft SharedMODI11.0 TCCODE.UNI TCPRINT.DAT TCPRINT2.DAT TCSERHT.DAT TCTREE.DAT TW_BU.DAT TW_UB.DAT TWBIG532.DLL 然後雙擊reg文件導入註冊表,ok。注意,導入註冊表時必須先關閉所有MODI窗口。 此時,在MODI的OCR選項卡里,「OCR語言」中即可看到「中文(繁體)」,也就是說依託MODI運作的ocr軟體具有了繁體識別功能。或許你要問,JOCR的使用特別是繁體不免麻煩了一點點。我的回答是,推薦JOCR正是因為它要利用到MODI及其繁體識別功能。一般的ocr軟體往往對繁體無措或者效果不如意,而微軟MODI的效果非常的理想,我上一篇日記《馬克思——披上科學外衣的詩人革命家》用的就是它,幾乎就沒有改正幾個字(原文是豎排的)。所以說磨刀不誤砍柴工,而且是微軟自帶的,省事省心。
然後說pdf批量ocr一本pdf格式的書籍有很多頁,自然要用批量才行。一般認為最強大的專業ocr軟體是ABBYY FineReader,「世界排名第一的OCR文字識別工具」是也。ABBYY FineReader不依託MODI運作,不免費體積也很龐大,不過微軟免費的MODI才5M多一點點。一個好狀況是,熱心的網友已經製作了中文綠色版,見「最好的OCR識別軟體:ABBYY FineReader中文綠色版」http://www.portablesoft.org/abbyy-finereader/。我自己比較ABBYY FineReader與MODI的效果,個人覺得MODI略勝一籌(主要在文字識別率上),至少難分上下。MODI抓取的結果只是文字,沒有字體版式啥的,而ABBYY FineReader貌似有還原版面的追求,所以可能反而把問題複雜化(特別是在word中作修改可能叫你崩潰,當然你需要版面什麼的另當別論)。所以有鑒於此而推薦採用微軟自帶的MODI。MODI的一般使用方法是:在打開的pdf文檔「文件」-「列印」-「名稱」中選擇「microsoft office document imaging writer」,列印你需要的(所有)頁面(這個乃至後邊生成的文件地址最好在桌面一類,不然找起來費神)。於是,它生成一個後綴名為mdi的文件。你打開這個mdi文件,在「工具」中選擇「使用OCR識別文本」,然後開始可能是很漫長的識別過程,電腦不給力的話一本數百頁的書可能漫長到兩三個小時。識別結束後,你再在「工具」中選擇「將文本發送到Word」,然後它為你生成一個後綴名為htm的文件,裡頭就有你想要的文字了。關於ocr繁體中文,就需要用到上邊「繁體中文識別」的方法。在複製拷貝那幾個文件後,你打開mdi文件,在「工具」-「選項」-「OCR」中就能看到「中文(繁體)」選項,需要時選中即可。
也許,把一本掃描版的pdf轉換成文字版的pdf,最核心的部分其實是校對。如果那個文字版內容錯誤如毛毛,可真叫人糾結。只是對於大部頭書籍校對的工程很有些浩大,當然也可以叫你靜心精讀,何樂不為。分享會讓你心情愉快。朋友如果校對也好了,要分享,那還得把版面排好,至少得比我強一點點(比如那個《馬克思——披上科學外衣的詩人革命家》pdf),否則又是一塊油炸雞肋。一般地,排版的工具手頭的word就夠用,況且很多pdf製作軟體是從word直接轉pdf,很方便實在。對於word轉pdf,一般都採用pdf列印軟體,就是在word列印中選擇相應的印表機直接就列印成pdf,如下圖。我用過的Word to PDF Converter效果很不錯,但是它不免費,而且上次碰到一個字的字體嵌入錯誤(??)。Word to PDF Converter安裝後會在word工具欄生成圖標,見下圖。pdfFactory Pro的功能和效果也不錯(對DFKai-SB字體不支持,那可是我的大愛),而TinyPDF這種在視覺效果上就差強人意了。這裡分享一下Word to PDF Converter v3.0及其破解與配套驅動,pdfFactory Pro 4.10 簡體註冊中文版及其破解(對殺軟可能報毒,或者還需要從殺軟中排除)。下載地址:http://vdisk.weibo.com/s/uIPu如果你使用的是word2010,恭喜你,它已經能夠直接另存為pdf(2007弄個載入項Save As PDF and XPS也可以)。好久得去用用,看看能不能解決上邊遇到的兩個問題,如果能,其他的pdf列印軟體就要拋棄之。
最後,在具體的使用過程中你可能還會遇到別的什麼問題,我就是這樣,比如在word「幫助」-「關於Microsoft Office Word」-「禁用項目」中發現Word to PDF Converter是被禁用了。我的滿意之作是徐中約《中國近代史》(文字校對版)朋友有什麼好的請分享噢。
推薦閱讀:
※人類文字記錄留下來的第1句話,你想知道么?
※【二零一四淨土大經科注】第三六四集(文字版)
※漢字趣聞之一:「文字」
※【州,洲】的甲骨文金文篆文字形演變含義
※002 - 漢天合寫小測試