如何翻译扫描的PDF文件
目录
扫描的 PDF 看起来像普通文档,但每一页只是一个平面图像。如果直接将该文件输入机器翻译,您将失去格式,字符会被误读,并且有可能将敏感数据泄露给错误的服务。更好的工作流程是:清理扫描件,运行准确的 OCR,在安全的平台上进行翻译,然后在发布前重建布局。
概览:
- 审核扫描质量,以便 OCR 有机会正常工作,并捕捉需要保持不变的部分。
- 选择具有语言包和隐私设置的 OCR 软件,以匹配文档的内容。
- 从干净的 DOCX 或可搜索的 PDF 进行翻译,以保留标题、表格和参考。
- 重新调整目标语言文本的格式,然后运行双语 QA,以确认数字、名称和法律措辞是否正确保留。
为什么扫描的 PDF 需要额外的工作
基于图像的 PDF 没有任何实时文本层。这意味着:
- 搜索引擎和 CAT 工具无法在没有 OCR 的情况下读取文字。
- 复制和粘贴会复制视觉故障、隐藏列和伪影。
- 机器翻译将文件视为图像,因此会出现缺失段落或字符乱码。
- 如果将完整文件上传到公共 OCR 网络应用程序,敏感数据将暴露。
翻译扫描文档首先是一个转换项目,其次才是语言项目。投入时间进行准备,您可以大大减少后续的修正循环。
翻译前检查清单
在打开任何工具之前,请使用此快速检查:
- 权利和合规:确认您有翻译的权限,特别是对于医疗、法律或人力资源文件。决定文档是否可以离开您的网络。
- 扫描基础:寻找300 DPI分辨率或更高,页面平直,对比度清晰,且渗透最小的扫描件。注意任何手写笔记或印章。
- 语言范围:识别源方言、特殊术语和确切的目标语言变体(例如,en-GB vs en-US)。现在提取术语库或词汇表。
- 格式特性:标记表格、多列布局、签名、印章或水印,以便您计划如何保留它们。
- 周转期望:与利益相关者对齐交付格式(DOCX、可搜索的PDF、双语表格)、时间表和审核责任。
如果有超过两项检查清单未通过,请重新扫描或请求更好的原件再继续。
第一步 — 快速清理扫描件
几分钟的清理可以显著提高OCR的准确性。
- 校正和裁剪:校正倾斜的页面,修剪边框,去除黑边。大多数PDF编辑器和免费的工具如ScanTailor或Adobe Acrobat的增强扫描功能可以快速完成这些操作。
- 提高对比度:对于模糊的文本,增加对比度或切换到灰度模式;亮化背景可以减少噪点。
- 拆分文件:分离不相关的文档或额外的插页,以便OCR引擎看到一致的格式。
- 注释副本:记录必须保持不变的部分(签名、印章)。将这些部分作为参考图像单独保存。
如果扫描质量差:当页面模糊或偏移时,以300 DPI灰度重新扫描,禁用自动压缩,如果原件是装订的,使用平板扫描仪。
第二步 — 运行您可以信赖的OCR
选择了解您的语言对并尊重保密性的OCR软件。
- 选择引擎:桌面端(ABBYY FineReader、Adobe Acrobat、Readiris)提供最高的准确性和本地处理。云端(Google Drive OCR、Azure AI Vision)适用于大批量处理。移动扫描仪(Prizmo、Microsoft Lens)适合随时捕捉,但需仔细检查准确性。
- 安装语言包:启用源语言、目标语言和附加脚本(西里尔文、阿拉伯文、简体/繁体中文)的词典。
- 设置导出选项:选择 DOCX 或带有图像上的文本的可搜索 PDF。保留表格并保持隐藏文本可见,以便后续质量检查。
- 验证页面:抽查复杂部分——列、脚注、印章——以确认字符转换正确。保存 OCR 输出和原始扫描件。
未经明确许可和签署的数据处理协议,不要将机密文件上传到云 OCR 服务。
第三步 — 准备导出以供翻译
现在的目标是创建一个干净、结构化的文件,以便翻译人员或工具可以在不破坏布局的情况下使用。
- 规范化样式:应用标题和段落样式,匹配字体系列,并标准化间距。这可以防止 AI 工具发明新的格式。
- 修复表格和列表:重建合并单元格,确保项目符号列表使用单一风格,并将带文本的图像转换为可编辑的形状或标注。
- 提取非文本元素:对于计划翻译的印章或手写注释,可以用矢量工具重建它们或准备翻译后的标签。
- 保护参考:锁定必须保持不变的部分,如财务表格或法律条款;在必要时添加“请勿翻译”的注释。
- 创建翻译简报:包括受众、语气指南、术语表链接和格式说明,以便翻译人员了解限制条件。
将此准备好的文件保存为主 .docx 或 .idml,并将 OCR 输出作为备份保存。
第四步 — 使用正确的工作流程进行翻译
选择适合文档重要性、数量和预算的翻译路径。
- 计算机辅助翻译 (CAT):将 DOCX 导入 SDL Trados、memoQ、Phrase 或 Lokalise。利用翻译记忆库和术语库来确保一致性,并防止对锁定部分的意外编辑。
- AI 辅助翻译:对于内部草稿,使用注重隐私的 AI 服务,安全上传文档。分批处理,然后将每个片段与源文进行对比审查。
- 人工专家:敏感、法律或面向客户的文档应交给专业翻译人员。提前提供简报、术语表和质量保证期望。
无论选择哪种路径,都应安排内部审阅员或语言学家验证目标文件。机器输出始终需要人工质量保证以检查名称、数字和语气。
第五步 — 重建布局和质量保证
一旦翻译获得批准,使交付物看起来与原始文件相同。
- 重新排版:根据目标语言调整文本框、列和表格宽度。在句子扩展或缩短的地方添加或减少空白。
- 重新插入图形:替换或更新图像、印章和签名。当翻译嵌入到图形中时,导出高分辨率替换。
- 排版审核:确认字体支持目标字符集;如有需要,用授权的等价字体替代。
- 双语质量保证:使用检查清单并排比较源文和目标文。验证数字、日期、法律引用、交叉引用和超链接。
- 最终校对:让母语者在上下文中阅读目标 PDF。将最终文件导出为扁平化 PDF 和完全可编辑的 DOCX 以便将来更新。
将源扫描件、OCR 输出和翻译资产一起存档,以便将来的更新只需数小时而非数天。
需要端到端的快捷方式吗?
OpenL 支持直接扫描 PDF 翻译,具有内置的 OCR、隐私控制和布局保留功能。上传文件,选择目标语言,并在导出之前查看双语输出。查看工作流程:doc.openl.io/translate/pdf。
推荐工具和模板
| 需求 | 最适合 | 示例工具 | 备注 |
|---|---|---|---|
| 扫描清理 | 校正、对比度修正 | Adobe Acrobat Enhance Scans, ScanTailor Advanced | 本地处理;保持原件不变。 |
| OCR 准确性 | 多语言文档 | ABBYY FineReader, Tesseract (带 GUI), Azure AI Vision | 安装语言包和自定义词典。 |
| 安全翻译 | 敏感内容 | memoQ, Phrase On-Premise, DeepL Teams | 检查数据驻留和保密条款。 |
| 一体化流程 | 直接扫描 PDF 翻译 | OpenL PDF Translator | 一次上传,应用 OCR + 翻译,然后导出双语文件。 |
| 布局重建 | 复杂表格和图形 | Microsoft Word Styles, InDesign, Affinity Publisher | 在导入翻译之前复制样式。 |
| QA 检查表 | 双语审查 | Xbench, Verifika, 自定义 Google Sheet | 标记名称、数字、缩写和格式。 |
需要快速入门?建立一个共享文件夹,包含扫描件、OCR 输出、翻译简报、术语表和 QA 检查表。任何中途加入项目的人都可以立即上手。
最终提示
- 在每个里程碑(准备好的 OCR、翻译交接、QA 完成)保存增量版本,以便在格式中断时可以立即恢复。
- 如果对 OCR 的准确性有疑问,请运行字数比较:OCR 文件和翻译文件应大致一致。
- 对于经常出现的文档类型(如月度报表、产品手册),将此工作流程转化为标准操作程序,并重复使用您的术语表和模板。
快速翻译初稿,但通过结构化的准备和质量保证来保护准确性——这种组合让客户、监管机构和读者对每一页都充满信心。


