如何翻译扫描的PDF文件

OpenL Team 2025/11/5

目录

扫描的 PDF 看起来像普通文档,但每一页只是一个平面图像。如果直接将该文件输入机器翻译,您将失去格式,字符会被误读,并且有可能将敏感数据泄露给错误的服务。更好的工作流程是:清理扫描件,运行准确的 OCR,在安全的平台上进行翻译,然后在发布前重建布局。

概览:

  • 审核扫描质量,以便 OCR 有机会正常工作,并捕捉需要保持不变的部分。
  • 选择具有语言包和隐私设置的 OCR 软件,以匹配文档的内容。
  • 从干净的 DOCX 或可搜索的 PDF 进行翻译,以保留标题、表格和参考。
  • 重新调整目标语言文本的格式,然后运行双语 QA,以确认数字、名称和法律措辞是否正确保留。

为什么扫描的 PDF 需要额外的工作

基于图像的 PDF 没有任何实时文本层。这意味着:

  • 搜索引擎和 CAT 工具无法在没有 OCR 的情况下读取文字。
  • 复制和粘贴会复制视觉故障、隐藏列和伪影。
  • 机器翻译将文件视为图像,因此会出现缺失段落或字符乱码。
  • 如果将完整文件上传到公共 OCR 网络应用程序,敏感数据将暴露。

翻译扫描文档首先是一个转换项目,其次才是语言项目。投入时间进行准备,您可以大大减少后续的修正循环。

翻译前检查清单

在打开任何工具之前,请使用此快速检查:

  • 权利和合规:确认您有翻译的权限,特别是对于医疗、法律或人力资源文件。决定文档是否可以离开您的网络。
  • 扫描基础:寻找300 DPI分辨率或更高,页面平直,对比度清晰,且渗透最小的扫描件。注意任何手写笔记或印章。
  • 语言范围:识别源方言、特殊术语和确切的目标语言变体(例如,en-GB vs en-US)。现在提取术语库或词汇表。
  • 格式特性:标记表格、多列布局、签名、印章或水印,以便您计划如何保留它们。
  • 周转期望:与利益相关者对齐交付格式(DOCX、可搜索的PDF、双语表格)、时间表和审核责任。

如果有超过两项检查清单未通过,请重新扫描或请求更好的原件再继续。

第一步 — 快速清理扫描件

几分钟的清理可以显著提高OCR的准确性。

  1. 校正和裁剪:校正倾斜的页面,修剪边框,去除黑边。大多数PDF编辑器和免费的工具如ScanTailor或Adobe Acrobat的增强扫描功能可以快速完成这些操作。
  2. 提高对比度:对于模糊的文本,增加对比度或切换到灰度模式;亮化背景可以减少噪点。
  3. 拆分文件:分离不相关的文档或额外的插页,以便OCR引擎看到一致的格式。
  4. 注释副本:记录必须保持不变的部分(签名、印章)。将这些部分作为参考图像单独保存。

如果扫描质量差:当页面模糊或偏移时,以300 DPI灰度重新扫描,禁用自动压缩,如果原件是装订的,使用平板扫描仪。

第二步 — 运行您可以信赖的OCR

选择了解您的语言对并尊重保密性的OCR软件。

  • 选择引擎:桌面端(ABBYY FineReader、Adobe Acrobat、Readiris)提供最高的准确性和本地处理。云端(Google Drive OCR、Azure AI Vision)适用于大批量处理。移动扫描仪(Prizmo、Microsoft Lens)适合随时捕捉,但需仔细检查准确性。
  • 安装语言包:启用源语言、目标语言和附加脚本(西里尔文、阿拉伯文、简体/繁体中文)的词典。
  • 设置导出选项:选择 DOCX 或带有图像上的文本的可搜索 PDF。保留表格并保持隐藏文本可见,以便后续质量检查。
  • 验证页面:抽查复杂部分——列、脚注、印章——以确认字符转换正确。保存 OCR 输出和原始扫描件。

未经明确许可和签署的数据处理协议,不要将机密文件上传到云 OCR 服务。

第三步 — 准备导出以供翻译

现在的目标是创建一个干净、结构化的文件,以便翻译人员或工具可以在不破坏布局的情况下使用。

  • 规范化样式:应用标题和段落样式,匹配字体系列,并标准化间距。这可以防止 AI 工具发明新的格式。
  • 修复表格和列表:重建合并单元格,确保项目符号列表使用单一风格,并将带文本的图像转换为可编辑的形状或标注。
  • 提取非文本元素:对于计划翻译的印章或手写注释,可以用矢量工具重建它们或准备翻译后的标签。
  • 保护参考:锁定必须保持不变的部分,如财务表格或法律条款;在必要时添加“请勿翻译”的注释。
  • 创建翻译简报:包括受众、语气指南、术语表链接和格式说明,以便翻译人员了解限制条件。

将此准备好的文件保存为主 .docx.idml,并将 OCR 输出作为备份保存。

第四步 — 使用正确的工作流程进行翻译

选择适合文档重要性、数量和预算的翻译路径。

  • 计算机辅助翻译 (CAT):将 DOCX 导入 SDL Trados、memoQ、Phrase 或 Lokalise。利用翻译记忆库和术语库来确保一致性,并防止对锁定部分的意外编辑。
  • AI 辅助翻译:对于内部草稿,使用注重隐私的 AI 服务,安全上传文档。分批处理,然后将每个片段与源文进行对比审查。
  • 人工专家:敏感、法律或面向客户的文档应交给专业翻译人员。提前提供简报、术语表和质量保证期望。

无论选择哪种路径,都应安排内部审阅员或语言学家验证目标文件。机器输出始终需要人工质量保证以检查名称、数字和语气。

第五步 — 重建布局和质量保证

一旦翻译获得批准,使交付物看起来与原始文件相同。

  1. 重新排版:根据目标语言调整文本框、列和表格宽度。在句子扩展或缩短的地方添加或减少空白。
  2. 重新插入图形:替换或更新图像、印章和签名。当翻译嵌入到图形中时,导出高分辨率替换。
  3. 排版审核:确认字体支持目标字符集;如有需要,用授权的等价字体替代。
  4. 双语质量保证:使用检查清单并排比较源文和目标文。验证数字、日期、法律引用、交叉引用和超链接。
  5. 最终校对:让母语者在上下文中阅读目标 PDF。将最终文件导出为扁平化 PDF 和完全可编辑的 DOCX 以便将来更新。

将源扫描件、OCR 输出和翻译资产一起存档,以便将来的更新只需数小时而非数天。

需要端到端的快捷方式吗?

OpenL 支持直接扫描 PDF 翻译,具有内置的 OCR、隐私控制和布局保留功能。上传文件,选择目标语言,并在导出之前查看双语输出。查看工作流程:doc.openl.io/translate/pdf

推荐工具和模板

需求最适合示例工具备注
扫描清理校正、对比度修正Adobe Acrobat Enhance Scans, ScanTailor Advanced本地处理;保持原件不变。
OCR 准确性多语言文档ABBYY FineReader, Tesseract (带 GUI), Azure AI Vision安装语言包和自定义词典。
安全翻译敏感内容memoQ, Phrase On-Premise, DeepL Teams检查数据驻留和保密条款。
一体化流程直接扫描 PDF 翻译OpenL PDF Translator一次上传,应用 OCR + 翻译,然后导出双语文件。
布局重建复杂表格和图形Microsoft Word Styles, InDesign, Affinity Publisher在导入翻译之前复制样式。
QA 检查表双语审查Xbench, Verifika, 自定义 Google Sheet标记名称、数字、缩写和格式。

需要快速入门?建立一个共享文件夹,包含扫描件、OCR 输出、翻译简报、术语表和 QA 检查表。任何中途加入项目的人都可以立即上手。

最终提示

  • 在每个里程碑(准备好的 OCR、翻译交接、QA 完成)保存增量版本,以便在格式中断时可以立即恢复。
  • 如果对 OCR 的准确性有疑问,请运行字数比较:OCR 文件和翻译文件应大致一致。
  • 对于经常出现的文档类型(如月度报表、产品手册),将此工作流程转化为标准操作程序,并重复使用您的术语表和模板。

快速翻译初稿,但通过结构化的准备和质量保证来保护准确性——这种组合让客户、监管机构和读者对每一页都充满信心。