如何翻譯掃描版 PDF

OpenL Team 11/4/2025

TABLE OF CONTENTS

掃描 PDF 看起來像一般文件,但每一頁其實只是平面圖像。如果直接將這種檔案丟進機器翻譯,不但會失去格式、誤讀字元,還可能將敏感資料洩漏給錯誤的服務。更好的流程是:先清理掃描檔、執行精準的 OCR、在安全的平台上翻譯,最後重新整理版面再發佈。

快速重點:

  • 檢查掃描品質,讓 OCR 有機會正確辨識,並找出需要保留原樣的區段。
  • 選擇具備語言包與隱私設定、符合文件內容的 OCR 軟體。
  • 從乾淨的 DOCX 或可搜尋的 PDF 開始翻譯,保留標題、表格與參考資料。
  • 重新排版目標語言文本,並進行雙語品質檢查,確認數字、姓名與法律用語都正確保留。

為什麼掃描 PDF 需要額外處理

以圖像為基礎的 PDF 完全沒有可編輯文字層,這意味著:

  • 搜尋引擎與 CAT 工具無法讀取內容,除非先做 OCR。
  • 複製貼上只會重現視覺錯誤、隱藏欄位與雜訊。
  • 機器翻譯將檔案視為圖像,結果可能漏掉段落或出現亂碼。
  • 若將完整檔案上傳到公開的 OCR 網頁應用,敏感資料就會暴露。

翻譯掃描文件,首先是格式轉換工程,其次才是語言處理。前期準備做得好,後續修正就能大幅減少。

翻譯前檢查清單

在開啟任何工具之前,先用這份快速檢查表:

  • 權利與合規:確認你有權限進行翻譯,特別是醫療、法律或人資相關文件。判斷該文件是否允許離開你的網路環境。
  • 掃描基本檢查:檢查解析度是否達到 300 DPI 或更高,頁面是否平整,對比是否清晰,是否有明顯的背面透印。注意任何手寫註記或印章。
  • 語言範圍:辨識來源語言的方言、專業術語,以及目標語言的精確變體(例如英式英文 en-GB 或美式英文 en-US)。現在就準備好術語庫或詞彙表。
  • 格式特殊情況:標註表格、多欄排版、簽名、印章或浮水印,以便規劃如何保留這些元素。
  • 交付預期:與相關人員確認交付格式(如 DOCX、可搜尋 PDF、雙語對照表)、時程,以及審核責任。

如果有超過兩項檢查未通過,請重新掃描或要求更好的原始檔再繼續。

步驟 1 — 快速清理掃描檔

花幾分鐘清理,能大幅提升 OCR 辨識準確度。

  1. 校正與裁切:將傾斜的頁面校正,修剪邊框,移除黑邊。大多數 PDF 編輯器及免費工具如 ScanTailor 或 Adobe Acrobat 的「增強掃描」功能都能快速完成。
  2. 提升對比:對於字跡淡薄的文件,提高對比或轉為灰階;調亮背景可減少雜訊。
  3. 分割檔案:將無關的文件或多餘的插頁分開,讓 OCR 引擎處理格式一致的內容。
  4. 標註副本:標記必須保持原樣的區塊(如簽名、印章),並將這些區塊另存為參考圖片。

若掃描品質不佳:若頁面模糊或偏移,請以 300 DPI 灰階重新掃描,關閉自動壓縮,若原件為裝訂本請使用平板掃描器。

步驟 2 — 使用可靠的 OCR 軟體

選擇能正確辨識你的語言組合並重視機密性的 OCR 軟體。

  • 選擇引擎:桌面版(ABBYY FineReader、Adobe Acrobat、Readiris)提供最高的準確度並可在本地處理。雲端(Google Drive OCR、Azure AI Vision)適合大量批次處理。行動掃描器(Prizmo、Microsoft Lens)適合隨時捕捉,但需再次確認準確性。
  • 安裝語言包:啟用來源語言、目標語言及其他字母(如西里爾字母、阿拉伯字母、簡體/繁體中文)的字典。
  • 設定匯出選項:選擇 DOCX 或可搜尋的 PDF(文字覆蓋於圖片上)。保留表格,並將隱藏文字設為可見,以便日後品質檢查。
  • 驗證頁面:抽查複雜區塊——如欄位、註腳、印章——確認字元正確轉換。保存 OCR 輸出及原始掃描檔案。

未經明確授權及簽署資料處理協議,請勿將機密檔案上傳至雲端 OCR 服務。

步驟三 — 為翻譯準備匯出檔案

你的目標是製作一份乾淨、結構良好的檔案,讓翻譯人員或工具能順利導入而不破壞版面。

  • 標準化樣式:套用標題與段落樣式,統一字型,標準化間距。這能避免 AI 工具自行創造新格式。
  • 修正表格與清單:重建合併儲存格,確保項目符號清單使用單一樣式,並將含文字的圖片轉換為可編輯的圖形或標註。
  • 提取非文字元素:對於需要翻譯的印章或手寫註記,可用向量工具重新製作,或準備翻譯後的標籤。
  • 保護參照內容:鎖定如財務表格或法律條款等必須保持原樣的區塊;必要時加註「請勿翻譯」的註解。
  • 製作翻譯說明書:包含目標讀者、語調指引、詞彙表連結及格式要求,讓翻譯者明確了解限制條件。

將這份整理好的檔案儲存為主檔 .docx.idml,並保留 OCR 輸出作為備份。

步驟四 — 選擇合適的翻譯流程

選擇符合文件重要性、篇幅及預算的翻譯路徑。

  • 電腦輔助翻譯(CAT):將 DOCX 檔案匯入 SDL Trados、memoQ、Phrase 或 Lokalise。利用翻譯記憶庫和術語庫來確保一致性,並防止鎖定區段被意外修改。
  • AI 輔助翻譯:針對內部草稿,可使用注重隱私的 AI 服務,安全上傳文件。分批處理後,逐段比對原文進行審核。
  • 人工專家:敏感、法律或對客戶公開的文件應交由專業翻譯人員處理。請事先提供簡介、詞彙表及品質檢查要求。

無論選擇哪種方式,都應安排內部審核員或語言專家檢查譯文。機器翻譯的成果在姓名、數字及語氣上都需要人工品質把關。

步驟五 — 重建版面與品質檢查

翻譯獲得核准後,讓交付成果與原稿保持一致。

  1. 重新調整版面:根據目標語言調整文字框、欄位及表格寬度。句子長短變化時,適度增減空白區域。
  2. 重新插入圖像:替換或更新圖片、印章及簽名。若翻譯內容嵌入圖像,請匯出高解析度的替代品。
  3. 字體檢查:確認字型支援目標語言字符集,必要時以授權字型替換。
  4. 雙語品質檢查:使用檢查清單,將原文與譯文並排比對。核對數字、日期、法律引用、交叉參照及超連結。
  5. 最終校對:請母語人士在情境中閱讀目標語言 PDF。將最終檔案匯出為扁平化 PDF,以及可完全編輯的 DOCX,方便日後更新。

將原始掃描、OCR 輸出及翻譯資產一併存檔,未來更新只需數小時,而非數天。

需要一條龍快速方案嗎?

OpenL 支援直接翻譯掃描 PDF,內建 OCR、隱私控制及版面保留功能。只需上傳檔案、選擇目標語言,並在匯出前檢查雙語成果。工作流程請參見 doc.openl.io/translate/pdf

推薦工具與範本

需求最適用於範例工具備註
掃描優化校正歪斜、調整對比Adobe Acrobat Enhance Scans、ScanTailor Advanced本地處理;保留原始檔案不變。
OCR 精準度多語言文件ABBYY FineReader、Tesseract(含 GUI)、Azure AI Vision安裝語言包與自訂詞典。
安全翻譯敏感內容memoQ、Phrase On-Premise、DeepL Teams留意資料存放地及保密條款。
一站式流程直接翻譯掃描 PDFOpenL PDF Translator一次上傳,套用 OCR 與翻譯,然後匯出雙語檔案。
版面重建複雜表格與圖形Microsoft Word 樣式、InDesign、Affinity Publisher匯入翻譯前先複製樣式。
QA 檢查表雙語審核Xbench、Verifika、自訂 Google Sheet標記人名、數字、縮寫與格式。

需要快速開始嗎?建立一個共享資料夾,放入掃描檔、OCR 輸出、翻譯說明、詞彙表及 QA 檢查表。任何人中途加入專案都能即刻上手。

最後建議

  • 每個重要階段(OCR 準備、翻譯交接、QA 完成)都要儲存版本,若格式出現問題可隨時回復。
  • 若不確定 OCR 準確度,可比對字數:OCR 檔與翻譯檔的字數應大致相符。
  • 對於重複類型文件(如月報、產品手冊),可將此流程制定為標準作業程序,並重複使用詞彙表與範本。

快速完成初稿翻譯,但透過有條理的準備與品質檢查來確保準確性——這樣的結合能讓客戶、監管機構與讀者對每一頁內容都充滿信心。