OCR：如何把掃描版pdf轉變成文字版？

06-27

longtingfang的日記

longtingfang的主頁

廣播

相冊

喜歡

二手

活動

發豆郵

OCR：如何把掃描版pdf轉變成文字版？2011-07-31 11:28:39 我經常在閱讀掃描格式pdf的時候，把它們抓取為文字格式，當然得是好書。可能有朋友不清楚ocr，它就是把文字從圖像中識別抓取出來。文字版pdf的好處就是便於傳播、引用，視覺上清晰，具有更大的處理空間，乃至可以二次製作，比如出於手機什麼的閱讀需要。但是，ocr過程中的文字識別率不會是100%，需要進一步校對，所以在這個意義上粗製濫造的文字版pdf還不如掃描原版的價值。我分享自己的一點ocr經驗，也是想更多的朋友製作文字版好書，也因為很多的朋友不熟悉ocr。ocr軟體很多，這裡只根據自己的經驗進行推薦，而忽略其他。首先說單頁pdf的ocr這種單張圖片式的文字抓取我強烈推薦JOCR。JOCR的優點是免費綠色輕量（綠色就是不需要安裝），體積小到幾乎不可思議的不到100kb。然後不可想像的是，這麼小的軟體其識別率還非常高，而且可以抓取20多種語言，包括中文繁體，夫復何求。JOCR（原版、漢化版、使用說明、MODI及「繁體中文識別」文件）下載：http://vdisk.weibo.com/s/uImX網路上有漢化版，其實不必。它常用功能很簡單，一般就是第一步「Capture Region（選取需要ocr的區域）」，然後在語言框選擇語言，最後「Recognize（識別）」，於是就為你蹦出一個txt文本，接下去你還可以就著這文本進行校對。注意：1、要成功使用JOCR，首先得保證在安裝office時選擇了「完整」安裝選項，因為JOCR的運轉是依託於Microsoft Office Document Imaging （MODI，中文OCR辨識引擎）的。Office 2003的預設安裝是第一次使用MODI時安裝，Office 2007的預設安裝是不裝，都需要自己主動安裝一下。如果你沒有完整安裝office，也可以只是再安裝一下MODI，微軟官方有下載。2、如果需要抓取繁體，而你使用的是簡體windows系統（即比如安裝的是簡體中文Office 2003），那麼請將下列「繁體中文識別」文件複製到C:Program FilesCommon FilesMicrosoft SharedMODI11.0 TCCODE.UNI TCPRINT.DAT TCPRINT2.DAT TCSERHT.DAT TCTREE.DAT TW_BU.DAT TW_UB.DAT TWBIG532.DLL 然後雙擊reg文件導入註冊表，ok。注意，導入註冊表時必須先關閉所有MODI窗口。此時，在MODI的OCR選項卡里，「OCR語言」中即可看到「中文（繁體）」，也就是說依託MODI運作的ocr軟體具有了繁體識別功能。或許你要問，JOCR的使用特別是繁體不免麻煩了一點點。我的回答是，推薦JOCR正是因為它要利用到MODI及其繁體識別功能。一般的ocr軟體往往對繁體無措或者效果不如意，而微軟MODI的效果非常的理想，我上一篇日記《馬克思——披上科學外衣的詩人革命家》用的就是它，幾乎就沒有改正幾個字（原文是豎排的）。所以說磨刀不誤砍柴工，而且是微軟自帶的，省事省心。

然後說pdf批量ocr一本pdf格式的書籍有很多頁，自然要用批量才行。一般認為最強大的專業ocr軟體是ABBYY FineReader，「世界排名第一的OCR文字識別工具」是也。ABBYY FineReader不依託MODI運作，不免費體積也很龐大，不過微軟免費的MODI才5M多一點點。一個好狀況是，熱心的網友已經製作了中文綠色版，見「最好的OCR識別軟體：ABBYY FineReader中文綠色版」http://www.portablesoft.org/abbyy-finereader/。我自己比較ABBYY FineReader與MODI的效果，個人覺得MODI略勝一籌（主要在文字識別率上），至少難分上下。MODI抓取的結果只是文字，沒有字體版式啥的，而ABBYY FineReader貌似有還原版面的追求，所以可能反而把問題複雜化（特別是在word中作修改可能叫你崩潰，當然你需要版面什麼的另當別論）。所以有鑒於此而推薦採用微軟自帶的MODI。MODI的一般使用方法是：在打開的pdf文檔「文件」-「列印」-「名稱」中選擇「microsoft office document imaging writer」，列印你需要的（所有）頁面（這個乃至後邊生成的文件地址最好在桌面一類，不然找起來費神）。於是，它生成一個後綴名為mdi的文件。你打開這個mdi文件，在「工具」中選擇「使用OCR識別文本」，然後開始可能是很漫長的識別過程，電腦不給力的話一本數百頁的書可能漫長到兩三個小時。識別結束後，你再在「工具」中選擇「將文本發送到Word」，然後它為你生成一個後綴名為htm的文件，裡頭就有你想要的文字了。關於ocr繁體中文，就需要用到上邊「繁體中文識別」的方法。在複製拷貝那幾個文件後，你打開mdi文件，在「工具」-「選項」-「OCR」中就能看到「中文（繁體）」選項，需要時選中即可。

也許，把一本掃描版的pdf轉換成文字版的pdf，最核心的部分其實是校對。如果那個文字版內容錯誤如毛毛，可真叫人糾結。只是對於大部頭書籍校對的工程很有些浩大，當然也可以叫你靜心精讀，何樂不為。分享會讓你心情愉快。朋友如果校對也好了，要分享，那還得把版面排好，至少得比我強一點點（比如那個《馬克思——披上科學外衣的詩人革命家》pdf），否則又是一塊油炸雞肋。一般地，排版的工具手頭的word就夠用，況且很多pdf製作軟體是從word直接轉pdf，很方便實在。對於word轉pdf，一般都採用pdf列印軟體，就是在word列印中選擇相應的印表機直接就列印成pdf，如下圖。我用過的Word to PDF Converter效果很不錯，但是它不免費，而且上次碰到一個字的字體嵌入錯誤（??）。Word to PDF Converter安裝後會在word工具欄生成圖標，見下圖。pdfFactory Pro的功能和效果也不錯（對DFKai-SB字體不支持，那可是我的大愛），而TinyPDF這種在視覺效果上就差強人意了。這裡分享一下Word to PDF Converter v3.0及其破解與配套驅動，pdfFactory Pro 4.10 簡體註冊中文版及其破解（對殺軟可能報毒，或者還需要從殺軟中排除）。下載地址：http://vdisk.weibo.com/s/uIPu如果你使用的是word2010，恭喜你，它已經能夠直接另存為pdf（2007弄個載入項Save As PDF and XPS也可以）。好久得去用用，看看能不能解決上邊遇到的兩個問題，如果能，其他的pdf列印軟體就要拋棄之。

最後，在具體的使用過程中你可能還會遇到別的什麼問題，我就是這樣，比如在word「幫助」-「關於Microsoft Office Word」-「禁用項目」中發現Word to PDF Converter是被禁用了。我的滿意之作是徐中約《中國近代史》（文字校對版）朋友有什麼好的請分享噢。
推薦閱讀：

※人類文字記錄留下來的第1句話，你想知道么？
※【二零一四淨土大經科注】第三六四集（文字版）
※漢字趣聞之一：「文字」
※【州，洲】的甲骨文金文篆文字形演變含義
※002 - 漢天合寫小測試

TAG:文字 | 轉變 | 掃描 |