如何翻译扫描的PDF文件

扫描的 PDF 看起来像普通文档，但每一页只是一个平面图像。如果直接将该文件输入机器翻译，您将失去格式，字符会被误读，并且有可能将敏感数据泄露给错误的服务。更好的工作流程是：清理扫描件，运行准确的 OCR，在安全的平台上进行翻译，然后在发布前重建布局。

概览：

审核扫描质量，以便 OCR 有机会正常工作，并捕捉需要保持不变的部分。
选择具有语言包和隐私设置的 OCR 软件，以匹配文档的内容。
从干净的 DOCX 或可搜索的 PDF 进行翻译，以保留标题、表格和参考。
重新调整目标语言文本的格式，然后运行双语 QA，以确认数字、名称和法律措辞是否正确保留。

为什么扫描的 PDF 需要额外的工作

基于图像的 PDF 没有任何实时文本层。这意味着：

搜索引擎和 CAT 工具无法在没有 OCR 的情况下读取文字。
复制和粘贴会复制视觉故障、隐藏列和伪影。
机器翻译将文件视为图像，因此会出现缺失段落或字符乱码。
如果将完整文件上传到公共 OCR 网络应用程序，敏感数据将暴露。

翻译扫描文档首先是一个转换项目，其次才是语言项目。投入时间进行准备，您可以大大减少后续的修正循环。

翻译前检查清单

在打开任何工具之前，请使用此快速检查：

权利和合规：确认您有翻译的权限，特别是对于医疗、法律或人力资源文件。决定文档是否可以离开您的网络。
扫描基础：寻找300 DPI分辨率或更高，页面平直，对比度清晰，且渗透最小的扫描件。注意任何手写笔记或印章。
语言范围：识别源方言、特殊术语和确切的目标语言变体（例如，en-GB vs en-US）。现在提取术语库或词汇表。
格式特性：标记表格、多列布局、签名、印章或水印，以便您计划如何保留它们。
周转期望：与利益相关者对齐交付格式（DOCX、可搜索的PDF、双语表格）、时间表和审核责任。

如果有超过两项检查清单未通过，请重新扫描或请求更好的原件再继续。

第一步 — 快速清理扫描件

几分钟的清理可以显著提高OCR的准确性。

校正和裁剪：校正倾斜的页面，修剪边框，去除黑边。大多数PDF编辑器和免费的工具如ScanTailor或Adobe Acrobat的增强扫描功能可以快速完成这些操作。
提高对比度：对于模糊的文本，增加对比度或切换到灰度模式；亮化背景可以减少噪点。
拆分文件：分离不相关的文档或额外的插页，以便OCR引擎看到一致的格式。
注释副本：记录必须保持不变的部分（签名、印章）。将这些部分作为参考图像单独保存。

如果扫描质量差：当页面模糊或偏移时，以300 DPI灰度重新扫描，禁用自动压缩，如果原件是装订的，使用平板扫描仪。

第二步 — 运行您可以信赖的OCR

选择了解您的语言对并尊重保密性的OCR软件。

选择引擎：桌面端（ABBYY FineReader、Adobe Acrobat、Readiris）提供最高的准确性和本地处理。云端（Google Drive OCR、Azure AI Vision）适用于大批量处理。移动扫描仪（Prizmo、Microsoft Lens）适合随时捕捉，但需仔细检查准确性。
安装语言包：启用源语言、目标语言和附加脚本（西里尔文、阿拉伯文、简体/繁体中文）的词典。
设置导出选项：选择 DOCX 或带有图像上的文本的可搜索 PDF。保留表格并保持隐藏文本可见，以便后续质量检查。
验证页面：抽查复杂部分——列、脚注、印章——以确认字符转换正确。保存 OCR 输出和原始扫描件。

未经明确许可和签署的数据处理协议，不要将机密文件上传到云 OCR 服务。

第三步 — 准备导出以供翻译

现在的目标是创建一个干净、结构化的文件，以便翻译人员或工具可以在不破坏布局的情况下使用。

规范化样式：应用标题和段落样式，匹配字体系列，并标准化间距。这可以防止 AI 工具发明新的格式。
修复表格和列表：重建合并单元格，确保项目符号列表使用单一风格，并将带文本的图像转换为可编辑的形状或标注。
提取非文本元素：对于计划翻译的印章或手写注释，可以用矢量工具重建它们或准备翻译后的标签。
保护参考：锁定必须保持不变的部分，如财务表格或法律条款；在必要时添加“请勿翻译”的注释。
创建翻译简报：包括受众、语气指南、术语表链接和格式说明，以便翻译人员了解限制条件。

将此准备好的文件保存为主 .docx 或 .idml，并将 OCR 输出作为备份保存。

第四步 — 使用正确的工作流程进行翻译

选择适合文档重要性、数量和预算的翻译路径。

计算机辅助翻译 (CAT)：将 DOCX 导入 SDL Trados、memoQ、Phrase 或 Lokalise。利用翻译记忆库和术语库来确保一致性，并防止对锁定部分的意外编辑。
AI 辅助翻译：对于内部草稿，使用注重隐私的 AI 服务，安全上传文档。分批处理，然后将每个片段与源文进行对比审查。
人工专家：敏感、法律或面向客户的文档应交给专业翻译人员。提前提供简报、术语表和质量保证期望。

无论选择哪种路径，都应安排内部审阅员或语言学家验证目标文件。机器输出始终需要人工质量保证以检查名称、数字和语气。

第五步 — 重建布局和质量保证

一旦翻译获得批准，使交付物看起来与原始文件相同。

重新排版：根据目标语言调整文本框、列和表格宽度。在句子扩展或缩短的地方添加或减少空白。
重新插入图形：替换或更新图像、印章和签名。当翻译嵌入到图形中时，导出高分辨率替换。
排版审核：确认字体支持目标字符集；如有需要，用授权的等价字体替代。
双语质量保证：使用检查清单并排比较源文和目标文。验证数字、日期、法律引用、交叉引用和超链接。
最终校对：让母语者在上下文中阅读目标 PDF。将最终文件导出为扁平化 PDF 和完全可编辑的 DOCX 以便将来更新。

将源扫描件、OCR 输出和翻译资产一起存档，以便将来的更新只需数小时而非数天。

需要端到端的快捷方式吗？

OpenL 支持直接扫描 PDF 翻译，具有内置的 OCR、隐私控制和布局保留功能。上传文件，选择目标语言，并在导出之前查看双语输出。查看工作流程：doc.openl.io/translate/pdf。

需求	最适合	示例工具	备注
扫描清理	校正、对比度修正	Adobe Acrobat Enhance Scans, ScanTailor Advanced	本地处理；保持原件不变。
OCR 准确性	多语言文档	ABBYY FineReader, Tesseract (带 GUI), Azure AI Vision	安装语言包和自定义词典。
安全翻译	敏感内容	memoQ, Phrase On-Premise, DeepL Teams	检查数据驻留和保密条款。
一体化流程	直接扫描 PDF 翻译	OpenL PDF Translator	一次上传，应用 OCR + 翻译，然后导出双语文件。
布局重建	复杂表格和图形	Microsoft Word Styles, InDesign, Affinity Publisher	在导入翻译之前复制样式。
QA 检查表	双语审查	Xbench, Verifika, 自定义 Google Sheet	标记名称、数字、缩写和格式。

最终提示

在每个里程碑（准备好的 OCR、翻译交接、QA 完成）保存增量版本，以便在格式中断时可以立即恢复。
如果对 OCR 的准确性有疑问，请运行字数比较：OCR 文件和翻译文件应大致一致。
对于经常出现的文档类型（如月度报表、产品手册），将此工作流程转化为标准操作程序，并重复使用您的术语表和模板。

如何翻译扫描的PDF文件

随时随地，即时翻译

为什么扫描的 PDF 需要额外的工作

翻译前检查清单

第一步 — 快速清理扫描件

第二步 — 运行您可以信赖的OCR

第三步 — 准备导出以供翻译

第四步 — 使用正确的工作流程进行翻译

第五步 — 重建布局和质量保证

推荐工具和模板

最终提示

Tags

Related Posts

2026年扫描版 PDF 最佳 OCR 工具

PPTX翻译质量检查清单：演示前需注意的15项要点

2026 年世界杯语言指南