Cómo traducir un PDF escaneado

OpenL Team 11/4/2025

TABLE OF CONTENTS

Los PDFs escaneados parecen documentos regulares, pero cada página es solo una imagen plana. Si envías ese archivo directamente a la traducción automática, pierdes el formato, se leen mal los caracteres y corres el riesgo de filtrar datos sensibles al servicio incorrecto. Un mejor flujo de trabajo: limpia el escaneo, ejecuta un OCR preciso, traduce en una plataforma segura y reconstruye el diseño antes de publicar.

De un vistazo:

  • Audita la calidad del escaneo para que el OCR tenga una oportunidad y detectes secciones que deben permanecer intactas.
  • Elige un software de OCR con paquetes de idiomas y configuraciones de privacidad que coincidan con el contenido del documento.
  • Traduce desde un DOCX limpio o un PDF buscable que preserve encabezados, tablas y referencias.
  • Refluye el texto en el idioma de destino, luego realiza una QA bilingüe para confirmar que los números, nombres y frases legales se mantuvieron.

Por Qué los PDFs Escaneados Necesitan Trabajo Adicional

Un PDF basado en imágenes no tiene capas de texto en vivo. Eso significa:

  • Los motores de búsqueda y las herramientas CAT no pueden leer las palabras sin OCR.
  • Copiar y pegar duplica fallos visuales, columnas ocultas y artefactos.
  • La traducción automática trata el archivo como una imagen, por lo que obtienes párrafos faltantes o caracteres distorsionados.
  • Los datos sensibles permanecen expuestos si subes el archivo completo a una aplicación web pública de OCR.

Traducir un documento escaneado es primero un proyecto de conversión y segundo un proyecto de lenguaje. Invierte tiempo en la preparación y reducirás el ciclo de corrección más tarde.

Lista de Verificación Pre-Traducción

Usa esta verificación rápida antes de abrir cualquier herramienta:

  • Derechos y cumplimiento: Confirme que tiene la autoridad para traducir, especialmente para archivos médicos, legales o de recursos humanos. Decida si el documento puede salir de su red.
  • Aspectos básicos del escaneo: Busque una resolución de 300 DPI o superior, páginas rectas, contraste claro y un mínimo de traspaso. Tome nota de cualquier nota manuscrita o sello.
  • Alcance del idioma: Identifique el dialecto de origen, la terminología especial y la variante exacta del idioma de destino (por ejemplo, en-GB vs en-US). Extraiga bases de términos o glosarios ahora.
  • Particularidades de formato: Marque tablas, diseños de varias columnas, firmas, sellos o marcas de agua para que pueda planificar cómo preservarlos.
  • Expectativas de tiempo de entrega: Alinee a las partes interesadas sobre el formato de entrega (DOCX, PDF buscable, tabla bilingüe), el cronograma y las responsabilidades de revisión.

Si fallan más de dos elementos de la lista de verificación, vuelva a escanear o solicite un original mejor antes de continuar.

Paso 1 — Limpie el Escaneo Rápidamente

Unos minutos de limpieza mejoran dramáticamente la precisión del OCR.

  1. Desinclinar y recortar: Desincline las páginas inclinadas, recorte los bordes y elimine los bordes negros. La mayoría de los editores de PDF y herramientas gratuitas como ScanTailor o Enhance Scans de Adobe Acrobat hacen esto rápidamente.
  2. Aumentar el contraste: Para texto tenue, aumente el contraste o cambie a escala de grises; iluminar el fondo reduce el ruido.
  3. Divida el archivo: Separe documentos no relacionados o inserciones adicionales para que el motor OCR vea un formato consistente.
  4. Anote una copia: Tome nota de las secciones que deben permanecer intactas (firmas, sellos). Separe estas como imágenes de referencia.

Si el escaneo es deficiente: Cuando las páginas están borrosas o descentradas, vuelva a escanear a 300 DPI en escala de grises, desactive la compresión automática y use un escáner de superficie plana si el original está encuadernado.

Paso 2 — Ejecute un OCR en el que Pueda Confiar

Opte por un software OCR que entienda su par de idiomas y respete la confidencialidad.

  • Elige el motor: Desktop (ABBYY FineReader, Adobe Acrobat, Readiris) ofrece la mayor precisión y procesamiento local. Cloud (Google Drive OCR, Azure AI Vision) se escala para grandes lotes. Los escáneres móviles (Prizmo, Microsoft Lens) funcionan para capturas en movimiento, pero verifica la precisión.
  • Instala paquetes de idiomas: Habilita diccionarios para el idioma de origen, el idioma de destino y scripts adicionales (Cirílico, Árabe, Chino simplificado/tradicional).
  • Configura opciones de exportación: Elige DOCX o PDF con capacidad de búsqueda con texto sobre imagen. Conserva tablas y mantén el texto oculto visible para QA más tarde.
  • Verifica páginas: Revisa secciones complejas—columnas, notas al pie, sellos—para confirmar que los caracteres se convirtieron correctamente. Guarda tanto la salida de OCR como el escaneo original.

No subas archivos confidenciales a servicios de OCR en la nube sin permiso explícito y un acuerdo de procesamiento de datos firmado.

Paso 3 — Prepara la Exportación para Traducción

Tu objetivo ahora es un archivo limpio y estructurado que los traductores o herramientas puedan ingerir sin desordenar el diseño.

  • Normaliza estilos: Aplica estilos de encabezado y párrafo, iguala familias de fuentes y estandariza el espaciado. Esto previene que las herramientas de IA inventen un nuevo formato.
  • Corrige tablas y listas: Reconstruye celdas combinadas, asegúrate de que las listas con viñetas usen un solo estilo y convierte imágenes con texto en formas editables o llamadas.
  • Extrae elementos no textuales: Para sellos o anotaciones manuscritas que planeas traducir, recrea con herramientas vectoriales o prepara etiquetas traducidas.
  • Asegura referencias: Bloquea secciones como tablas financieras o cláusulas legales que deben permanecer intactas; agrega comentarios indicando “no traducir” donde sea necesario.
  • Crea un informe de traducción: Incluye audiencia, pautas de tono, enlaces de glosario e instrucciones de formato para que quien traduzca conozca las restricciones.

Guarda este archivo preparado como tu maestro .docx o .idml, y conserva la salida de OCR como respaldo.

Paso 4 — Traduce con el Flujo de Trabajo Correcto

Elija la ruta de traducción que se ajuste a la importancia, volumen y presupuesto del documento.

  • Traducción asistida por computadora (CAT): Importe el DOCX en SDL Trados, memoQ, Phrase o Lokalise. Aproveche las memorias de traducción y las bases de términos para garantizar la consistencia y prevenir ediciones accidentales en secciones bloqueadas.
  • Traducción asistida por IA: Para borradores internos, use servicios de IA enfocados en la privacidad que le permitan cargar documentos de manera segura. Ejecute pequeños lotes, luego revise cada segmento en comparación con la fuente.
  • Expertos humanos: Los documentos sensibles, legales o dirigidos al cliente deben ser traducidos por traductores profesionales. Proporcione el resumen, el glosario y las expectativas de control de calidad desde el principio.

Cualquiera que sea la ruta que elija, programe un revisor interno o lingüista para verificar el archivo de destino. La salida de la máquina siempre necesita control de calidad humano para nombres, números y tono.

Paso 5 — Reconstruir el diseño y control de calidad

Una vez aprobada la traducción, haga que el entregable se parezca al original.

  1. Reorganizar el diseño: Ajuste los cuadros de texto, columnas y anchos de tabla para el idioma de destino. Agregue o reduzca el espacio en blanco donde las oraciones se expanden o contraen.
  2. Reinsertar gráficos: Reemplace o actualice imágenes, sellos y firmas. Cuando las traducciones están integradas en gráficos, exporte reemplazos de alta resolución.
  3. Auditoría tipográfica: Confirme que las fuentes admiten el conjunto de caracteres de destino; sustituya con equivalentes con licencia si es necesario.
  4. Control de calidad bilingüe: Use una lista de verificación para comparar la fuente y el destino lado a lado. Verifique números, fechas, referencias legales, referencias cruzadas e hipervínculos.
  5. Revisión final: Haga que un hablante nativo lea el PDF de destino en contexto. Exporte el archivo final a un PDF plano y un DOCX completamente editable para futuras actualizaciones.

Archive el escaneo de la fuente, la salida de OCR y los activos de traducción juntos para que las actualizaciones futuras tomen horas, no días.

¿Necesita un atajo de principio a fin?

OpenL admite la traducción directa de PDF escaneados con OCR integrado, controles de privacidad y preservación del diseño. Cargue el archivo, elija su idioma de destino y revise el resultado bilingüe antes de exportar. Vea el flujo de trabajo en doc.openl.io/translate/pdf.

Herramientas y Plantillas Recomendadas

NecesidadMejor paraHerramienta EjemploNotas
Limpieza de escaneoCorrección de inclinación, ajustes de contrasteAdobe Acrobat Enhance Scans, ScanTailor AdvancedProcesamiento local; mantenga los originales sin cambios.
Precisión de OCRDocumentos multilingüesABBYY FineReader, Tesseract (con GUIs), Azure AI VisionInstale paquetes de idiomas y diccionarios personalizados.
Traducción seguraContenido sensiblememoQ, Phrase On-Premise, DeepL TeamsVerifique la residencia de datos y las cláusulas de confidencialidad.
Pipeline todo en unoTraducción directa de PDF escaneadosOpenL PDF TranslatorCargue una vez, aplique OCR + traducción, luego exporte archivos bilingües.
Reconstrucción de diseñoTablas y gráficos complejosMicrosoft Word Styles, InDesign, Affinity PublisherDuplique estilos antes de importar traducciones.
Lista de verificación de QARevisión bilingüeXbench, Verifika, hoja de Google personalizadaMarque nombres, números, abreviaturas y formato.

¿Necesita un impulso inicial? Construya una carpeta compartida con el escaneo, salida de OCR, resumen de traducción, glosario y lista de verificación de QA. Cualquiera que se una al proyecto puede comenzar de inmediato.

Consejos Finales

  • Guarde versiones incrementales en cada hito (OCR preparado, entrega al traductor, QA completo) para poder revertir instantáneamente si el formato se rompe.
  • Cuando tenga dudas sobre la fidelidad del OCR, realice una comparación de conteo de palabras: el archivo OCR y el archivo traducido deben alinearse estrechamente.
  • Para tipos de documentos recurrentes (declaraciones mensuales, manuales de productos), convierta este flujo de trabajo en un procedimiento operativo estándar y reutilice sus glosarios y plantillas.

Traduce los primeros borradores rápidamente, pero protege la precisión con preparación estructurada y control de calidad: la combinación mantiene a los clientes, reguladores y lectores confiados en cada página.