如何翻譯掃描版 PDF
TABLE OF CONTENTS
掃描 PDF 看起來像一般文件,但每一頁其實只是平面圖像。如果直接將這種檔案丟進機器翻譯,不但會失去格式、誤讀字元,還可能將敏感資料洩漏給錯誤的服務。更好的流程是:先清理掃描檔、執行精準的 OCR、在安全的平台上翻譯,最後重新整理版面再發佈。
快速重點:
- 檢查掃描品質,讓 OCR 有機會正確辨識,並找出需要保留原樣的區段。
- 選擇具備語言包與隱私設定、符合文件內容的 OCR 軟體。
- 從乾淨的 DOCX 或可搜尋的 PDF 開始翻譯,保留標題、表格與參考資料。
- 重新排版目標語言文本,並進行雙語品質檢查,確認數字、姓名與法律用語都正確保留。
為什麼掃描 PDF 需要額外處理
以圖像為基礎的 PDF 完全沒有可編輯文字層,這意味著:
- 搜尋引擎與 CAT 工具無法讀取內容,除非先做 OCR。
- 複製貼上只會重現視覺錯誤、隱藏欄位與雜訊。
- 機器翻譯將檔案視為圖像,結果可能漏掉段落或出現亂碼。
- 若將完整檔案上傳到公開的 OCR 網頁應用,敏感資料就會暴露。
翻譯掃描文件,首先是格式轉換工程,其次才是語言處理。前期準備做得好,後續修正就能大幅減少。
翻譯前檢查清單
在開啟任何工具之前,先用這份快速檢查表:
- 權利與合規:確認你有權限進行翻譯,特別是醫療、法律或人資相關文件。判斷該文件是否允許離開你的網路環境。
- 掃描基本檢查:檢查解析度是否達到 300 DPI 或更高,頁面是否平整,對比是否清晰,是否有明顯的背面透印。注意任何手寫註記或印章。
- 語言範圍:辨識來源語言的方言、專業術語,以及目標語言的精確變體(例如英式英文 en-GB 或美式英文 en-US)。現在就準備好術語庫或詞彙表。
- 格式特殊情況:標註表格、多欄排版、簽名、印章或浮水印,以便規劃如何保留這些元素。
- 交付預期:與相關人員確認交付格式(如 DOCX、可搜尋 PDF、雙語對照表)、時程,以及審核責任。
如果有超過兩項檢查未通過,請重新掃描或要求更好的原始檔再繼續。
步驟 1 — 快速清理掃描檔
花幾分鐘清理,能大幅提升 OCR 辨識準確度。
- 校正與裁切:將傾斜的頁面校正,修剪邊框,移除黑邊。大多數 PDF 編輯器及免費工具如 ScanTailor 或 Adobe Acrobat 的「增強掃描」功能都能快速完成。
- 提升對比:對於字跡淡薄的文件,提高對比或轉為灰階;調亮背景可減少雜訊。
- 分割檔案:將無關的文件或多餘的插頁分開,讓 OCR 引擎處理格式一致的內容。
- 標註副本:標記必須保持原樣的區塊(如簽名、印章),並將這些區塊另存為參考圖片。
若掃描品質不佳:若頁面模糊或偏移,請以 300 DPI 灰階重新掃描,關閉自動壓縮,若原件為裝訂本請使用平板掃描器。
步驟 2 — 使用可靠的 OCR 軟體
選擇能正確辨識你的語言組合並重視機密性的 OCR 軟體。
- 選擇引擎:桌面版(ABBYY FineReader、Adobe Acrobat、Readiris)提供最高的準確度並可在本地處理。雲端(Google Drive OCR、Azure AI Vision)適合大量批次處理。行動掃描器(Prizmo、Microsoft Lens)適合隨時捕捉,但需再次確認準確性。
- 安裝語言包:啟用來源語言、目標語言及其他字母(如西里爾字母、阿拉伯字母、簡體/繁體中文)的字典。
- 設定匯出選項:選擇 DOCX 或可搜尋的 PDF(文字覆蓋於圖片上)。保留表格,並將隱藏文字設為可見,以便日後品質檢查。
- 驗證頁面:抽查複雜區塊——如欄位、註腳、印章——確認字元正確轉換。保存 OCR 輸出及原始掃描檔案。
未經明確授權及簽署資料處理協議,請勿將機密檔案上傳至雲端 OCR 服務。
步驟三 — 為翻譯準備匯出檔案
你的目標是製作一份乾淨、結構良好的檔案,讓翻譯人員或工具能順利導入而不破壞版面。
- 標準化樣式:套用標題與段落樣式,統一字型,標準化間距。這能避免 AI 工具自行創造新格式。
- 修正表格與清單:重建合併儲存格,確保項目符號清單使用單一樣式,並將含文字的圖片轉換為可編輯的圖形或標註。
- 提取非文字元素:對於需要翻譯的印章或手寫註記,可用向量工具重新製作,或準備翻譯後的標籤。
- 保護參照內容:鎖定如財務表格或法律條款等必須保持原樣的區塊;必要時加註「請勿翻譯」的註解。
- 製作翻譯說明書:包含目標讀者、語調指引、詞彙表連結及格式要求,讓翻譯者明確了解限制條件。
將這份整理好的檔案儲存為主檔 .docx 或 .idml,並保留 OCR 輸出作為備份。
步驟四 — 選擇合適的翻譯流程
選擇符合文件重要性、篇幅及預算的翻譯路徑。
- 電腦輔助翻譯(CAT):將 DOCX 檔案匯入 SDL Trados、memoQ、Phrase 或 Lokalise。利用翻譯記憶庫和術語庫來確保一致性,並防止鎖定區段被意外修改。
- AI 輔助翻譯:針對內部草稿,可使用注重隱私的 AI 服務,安全上傳文件。分批處理後,逐段比對原文進行審核。
- 人工專家:敏感、法律或對客戶公開的文件應交由專業翻譯人員處理。請事先提供簡介、詞彙表及品質檢查要求。
無論選擇哪種方式,都應安排內部審核員或語言專家檢查譯文。機器翻譯的成果在姓名、數字及語氣上都需要人工品質把關。
步驟五 — 重建版面與品質檢查
翻譯獲得核准後,讓交付成果與原稿保持一致。
- 重新調整版面:根據目標語言調整文字框、欄位及表格寬度。句子長短變化時,適度增減空白區域。
- 重新插入圖像:替換或更新圖片、印章及簽名。若翻譯內容嵌入圖像,請匯出高解析度的替代品。
- 字體檢查:確認字型支援目標語言字符集,必要時以授權字型替換。
- 雙語品質檢查:使用檢查清單,將原文與譯文並排比對。核對數字、日期、法律引用、交叉參照及超連結。
- 最終校對:請母語人士在情境中閱讀目標語言 PDF。將最終檔案匯出為扁平化 PDF,以及可完全編輯的 DOCX,方便日後更新。
將原始掃描、OCR 輸出及翻譯資產一併存檔,未來更新只需數小時,而非數天。
需要一條龍快速方案嗎?
OpenL 支援直接翻譯掃描 PDF,內建 OCR、隱私控制及版面保留功能。只需上傳檔案、選擇目標語言,並在匯出前檢查雙語成果。工作流程請參見 doc.openl.io/translate/pdf。
推薦工具與範本
| 需求 | 最適用於 | 範例工具 | 備註 |
|---|---|---|---|
| 掃描優化 | 校正歪斜、調整對比 | Adobe Acrobat Enhance Scans、ScanTailor Advanced | 本地處理;保留原始檔案不變。 |
| OCR 精準度 | 多語言文件 | ABBYY FineReader、Tesseract(含 GUI)、Azure AI Vision | 安裝語言包與自訂詞典。 |
| 安全翻譯 | 敏感內容 | memoQ、Phrase On-Premise、DeepL Teams | 留意資料存放地及保密條款。 |
| 一站式流程 | 直接翻譯掃描 PDF | OpenL PDF Translator | 一次上傳,套用 OCR 與翻譯,然後匯出雙語檔案。 |
| 版面重建 | 複雜表格與圖形 | Microsoft Word 樣式、InDesign、Affinity Publisher | 匯入翻譯前先複製樣式。 |
| QA 檢查表 | 雙語審核 | Xbench、Verifika、自訂 Google Sheet | 標記人名、數字、縮寫與格式。 |
需要快速開始嗎?建立一個共享資料夾,放入掃描檔、OCR 輸出、翻譯說明、詞彙表及 QA 檢查表。任何人中途加入專案都能即刻上手。
最後建議
- 每個重要階段(OCR 準備、翻譯交接、QA 完成)都要儲存版本,若格式出現問題可隨時回復。
- 若不確定 OCR 準確度,可比對字數:OCR 檔與翻譯檔的字數應大致相符。
- 對於重複類型文件(如月報、產品手冊),可將此流程制定為標準作業程序,並重複使用詞彙表與範本。
快速完成初稿翻譯,但透過有條理的準備與品質檢查來確保準確性——這樣的結合能讓客戶、監管機構與讀者對每一頁內容都充滿信心。


