pdf複製文字到word亂碼怎麼辦？

09-20

pdf複製文字到word亂碼怎麼辦？

來自專欄圖文編輯

Pdf是常用的一種文件格式，它可以保證同一個文件在不同平台不同終端看到的版面效果是一樣的。

就一般使用者的理解，pdf可以分為兩種，一種是圖片型的pdf，一種是文本型的pdf。圖片型的pdf，比較典型的是通過掃描得到的pdf文件，特點是每張pdf就是一張圖片，上面的文字信息是不可直接複製的，如下圖。

文本型pdf，一般是由word、indesign等圖文排版編輯軟體生成的，特點是pdf頁面非常清晰，文本可以直接複製，並粘貼到其他編輯器中，如word。可以直接複製的表現為可以使用文本工具直接在pdf選取文本。如下圖。

我們拿到一份pdf，不僅是看，而且往往是想獲得其中的內容的。能夠直接複製的文本型pdf當然是最容易獲得文本信息的，但有時候仍會碰到這樣的情況：在pdf文件中選取文本，粘貼到其他軟體，如word中時，卻出現了亂碼。下面列舉我遇到的兩次這樣的情況，以供參考。

情況一，如下圖所示。

文本在pdf中呈現得很清晰，很正常。但當用文本工具選取時，卻沒有出現正常的淺藍底色的選中狀態，出現的是淺藍色不整齊的下劃線的狀態。粘貼到word里，顯示都是非常奇怪的毫無關聯的字元，且是行數明顯多於原文本。

情況二，如下圖所示。

這是一段俄文。文本在pdf中呈現得很清晰，很正常。用文本工具選取時，出現正常的淺藍底色的選中狀態。粘貼到word里，顯示的卻幾乎都是方框，有一些英文字母和數字是正確的。你可能會認為是字體的問題，但是更換了幾種支持俄文的字體後，情況仍然沒有變化。應該不是字體的問題。

pdf文本粘貼出來後文本亂碼的問題，其本質應該是文字元號編碼的問題。在Louis Tong非常專業的回答中有一些詳細說明，鏈接如下

https://www.zhihu.com/question/21662770/answer/44317847

了解文字編碼的人應該可以很好地理解並解決這個問題，不過肯定是需要掌握一些比較專業的知識。對於普通的圖文工作者來說，這是很難辦到的。

所以遇到這種情況，最簡單粗暴的方法仍然是使用OCR軟體進行識別，就像對待圖片型pdf一樣。因為這種pdf都很清晰，所以OCR識別也可以得到另人滿意的結果。

OCR是指光學字元識別技術，比較著名的軟體有ABBYY FineReader。