Comment traduire un PDF scanné

OpenL Team 11/4/2025

TABLE OF CONTENTS

Les PDF scannés ressemblent à des documents ordinaires, mais chaque page n’est qu’une image plate. Si vous envoyez directement ce fichier à la traduction automatique, vous perdez la mise en forme, vous lisez mal les caractères et vous risquez de divulguer des données sensibles au mauvais service. Un meilleur flux de travail : nettoyez le scan, exécutez un OCR précis, traduisez sur une plateforme sécurisée et reconstruisez la mise en page avant de publier.

En un coup d’œil :

  • Auditez la qualité du scan pour que l’OCR ait une chance et identifiez les sections qui doivent rester intactes.
  • Choisissez un logiciel OCR avec des packs linguistiques et des paramètres de confidentialité adaptés au contenu du document.
  • Traduisez à partir d’un DOCX propre ou d’un PDF consultable qui préserve les titres, tableaux et références.
  • Réorganisez le texte dans la langue cible, puis effectuez un contrôle qualité bilingue pour confirmer que les chiffres, noms et formulations légales ont été préservés.

Pourquoi les PDF scannés nécessitent un travail supplémentaire

Un PDF basé sur une image n’a aucune couche de texte en direct. Cela signifie :

  • Les moteurs de recherche et les outils de TAO ne peuvent pas lire les mots sans OCR.
  • Copier et coller duplique les défauts visuels, les colonnes cachées et les artefacts.
  • La traduction automatique traite le fichier comme une image, ce qui entraîne des paragraphes manquants ou des caractères brouillés.
  • Les données sensibles restent exposées si vous téléchargez le fichier complet sur une application web OCR publique.

Traduire un document scanné est d’abord un projet de conversion, puis un projet linguistique. Investissez du temps dans la préparation et vous réduirez le cycle de correction par la suite.

Liste de vérification avant la traduction

Utilisez cette vérification rapide avant d’ouvrir n’importe quel outil :

  • Droits et conformité : Confirmez que vous avez l’autorité pour traduire, en particulier pour les fichiers médicaux, juridiques ou RH. Décidez si le document peut quitter votre réseau.
  • Principes de base du scan : Recherchez une résolution de 300 DPI ou plus, des pages droites, un contraste clair et un minimum de transparence. Notez les notes manuscrites ou les tampons.
  • Portée linguistique : Identifiez le dialecte source, la terminologie spéciale et la variante exacte de la langue cible (par exemple, en-GB vs en-US). Récupérez les bases de termes ou les glossaires maintenant.
  • Particularités de formatage : Signalez les tableaux, les mises en page multi-colonnes, les signatures, les sceaux ou les filigranes afin de planifier leur préservation.
  • Attentes de délai : Alignez les parties prenantes sur le format de livraison (DOCX, PDF consultable, tableau bilingue), le calendrier et les responsabilités de révision.

Si plus de deux éléments de la liste de contrôle échouent, rescannez ou demandez un meilleur original avant de continuer.

Étape 1 — Nettoyez le Scan Rapidement

Quelques minutes de nettoyage améliorent considérablement la précision de l’OCR.

  1. Redressez et recadrez : Redressez les pages inclinées, découpez les bordures et enlevez les bords noirs. La plupart des éditeurs PDF et des outils gratuits comme ScanTailor ou l’option Améliorer les scans d’Adobe Acrobat font cela rapidement.
  2. Augmentez le contraste : Pour le texte pâle, augmentez le contraste ou passez en niveaux de gris ; éclaircir l’arrière-plan réduit le bruit.
  3. Divisez le fichier : Séparez les documents non liés ou les inserts supplémentaires afin que le moteur OCR voie un formatage cohérent.
  4. Annoter une copie : Notez les sections qui doivent rester intactes (signatures, tampons). Mettez-les de côté en tant qu’images de référence.

Si le scan est de mauvaise qualité : Lorsque les pages sont floues ou décentrées, rescannez à 300 DPI en niveaux de gris, désactivez la compression automatique et utilisez un scanner à plat si l’original est relié.

Étape 2 — Utilisez un OCR Fiable

Optez pour un logiciel OCR qui comprend votre paire de langues et respecte la confidentialité.

  • Choisissez le moteur : Les solutions de bureau (ABBYY FineReader, Adobe Acrobat, Readiris) offrent la plus grande précision et un traitement local. Les solutions cloud (Google Drive OCR, Azure AI Vision) sont adaptées pour de grands volumes. Les scanners mobiles (Prizmo, Microsoft Lens) sont pratiques pour la capture en déplacement, mais vérifiez bien l’exactitude.
  • Installez les packs linguistiques : Activez les dictionnaires pour la langue source, la langue cible et les scripts supplémentaires (cyrillique, arabe, chinois simplifié/traditionnel).
  • Définissez les options d’exportation : Choisissez DOCX ou PDF consultable avec texte sur image. Préservez les tableaux et gardez le texte masqué visible pour la QA ultérieure.
  • Vérifiez les pages : Contrôlez les sections complexes—colonnes, notes de bas de page, sceaux—pour confirmer que les caractères ont été correctement convertis. Sauvegardez à la fois la sortie OCR et le scan original.

N’upload pas de fichiers confidentiels sur des services OCR cloud sans autorisation explicite et un accord de traitement des données signé.

Étape 3 — Préparez l’exportation pour la traduction

Votre objectif est maintenant d’obtenir un fichier propre et structuré que les traducteurs ou outils peuvent utiliser sans perturber la mise en page.

  • Normalisez les styles : Appliquez des styles de titres et de paragraphes, harmonisez les familles de polices et standardisez les espacements. Cela empêche les outils d’IA d’inventer de nouveaux formats.
  • Corrigez les tableaux et listes : Reconstruisez les cellules fusionnées, assurez-vous que les listes à puces utilisent un seul style, et convertissez les images-avec-texte en formes éditables ou en légendes.
  • Extrayez les éléments non textuels : Pour les tampons ou annotations manuscrites que vous prévoyez de traduire, recréez-les avec des outils vectoriels ou préparez des étiquettes traduites.
  • Sécurisez les références : Bloquez les sections comme les tableaux financiers ou les clauses légales qui doivent rester intactes ; ajoutez des commentaires indiquant “ne pas traduire” si nécessaire.
  • Créez un brief de traduction : Incluez le public cible, les directives de ton, les liens vers le glossaire et les instructions de formatage pour que le traducteur connaisse les contraintes.

Enregistrez ce fichier préparé comme votre master .docx ou .idml, et gardez la sortie OCR comme sauvegarde.

Étape 4 — Traduisez avec le bon flux de travail

Choisissez la voie de traduction qui correspond aux enjeux, au volume et au budget du document.

  • Traduction assistée par ordinateur (CAT) : Importez le DOCX dans SDL Trados, memoQ, Phrase, ou Lokalise. Utilisez les mémoires de traduction et les bases terminologiques pour garantir la cohérence et éviter les modifications accidentelles des sections verrouillées.
  • Traduction assistée par IA : Pour les brouillons internes, utilisez des services d’IA axés sur la confidentialité qui vous permettent de télécharger des documents en toute sécurité. Traitez de petits lots, puis examinez chaque segment par rapport à la source.
  • Experts humains : Les documents sensibles, juridiques ou destinés aux clients doivent être confiés à des traducteurs professionnels. Fournissez le brief, le glossaire et les attentes en matière de QA dès le départ.

Quel que soit le chemin choisi, planifiez un réviseur interne ou un linguiste pour vérifier le fichier cible. La sortie machine nécessite toujours une QA humaine pour les noms, les chiffres et le ton.

Étape 5 — Reconstruire la mise en page et QA

Une fois la traduction approuvée, faites en sorte que le livrable ressemble à l’original.

  1. Réorganiser la mise en page : Ajustez les zones de texte, les colonnes et les largeurs de tableau pour la langue cible. Ajoutez ou réduisez l’espace blanc là où les phrases s’étendent ou se contractent.
  2. Réinsérer les graphiques : Remplacez ou mettez à jour les images, les sceaux et les signatures. Lorsque les traductions sont intégrées dans les graphiques, exportez des remplacements haute résolution.
  3. Audit typographique : Confirmez que les polices prennent en charge le jeu de caractères cible ; substituez-les par des équivalents sous licence si nécessaire.
  4. QA bilingue : Utilisez une liste de contrôle pour comparer la source et la cible côte à côte. Vérifiez les chiffres, les dates, les références légales, les références croisées et les hyperliens.
  5. Relecture finale : Faites lire le PDF cible par un locuteur natif dans son contexte. Exportez le fichier final vers un PDF aplati et un DOCX entièrement éditable pour les mises à jour futures.

Archivez ensemble le scan source, la sortie OCR et les ressources de traduction pour que les mises à jour futures prennent des heures, pas des jours.

Besoin d’un raccourci de bout en bout ?

OpenL prend en charge la traduction directe de PDF scannés avec OCR intégré, contrôles de confidentialité et préservation de la mise en page. Téléchargez le fichier, choisissez votre langue cible et examinez le résultat bilingue avant l’exportation. Consultez le flux de travail sur doc.openl.io/translate/pdf.

Outils et Modèles Recommandés

BesoinIdéal pourExemple d’OutilRemarques
Nettoyage de scanRedressement, corrections de contrasteAdobe Acrobat Enhance Scans, ScanTailor AdvancedTraitement local ; conservez les originaux inchangés.
Précision OCRDocuments multilinguesABBYY FineReader, Tesseract (avec interfaces graphiques), Azure AI VisionInstallez des packs linguistiques et des dictionnaires personnalisés.
Traduction sécuriséeContenu sensiblememoQ, Phrase On-Premise, DeepL TeamsVérifiez la résidence des données et les clauses de confidentialité.
Pipeline tout-en-unTraduction directe de PDF scannésOpenL PDF TranslatorTéléchargez une fois, appliquez OCR + traduction, puis exportez des fichiers bilingues.
Reconstruction de mise en pageTableaux et graphiques complexesMicrosoft Word Styles, InDesign, Affinity PublisherDupliquez les styles avant d’importer les traductions.
Liste de contrôle QARevue bilingueXbench, Verifika, feuille Google personnaliséeSignalez les noms, numéros, abréviations et formatages.

Besoin d’un coup de pouce ? Créez un dossier partagé avec le scan, le résultat OCR, le brief de traduction, le glossaire et la liste de contrôle QA. Toute personne rejoignant le projet en cours peut s’y retrouver instantanément.

Conseils Finaux

  • Enregistrez des versions incrémentielles à chaque étape (OCR préparé, remise au traducteur, QA terminée) afin de pouvoir revenir instantanément en cas de problème de formatage.
  • En cas de doute sur la fidélité de l’OCR, effectuez une comparaison du nombre de mots : le fichier OCR et le fichier traduit doivent être étroitement alignés.
  • Pour les types de documents récurrents (relevés mensuels, manuels de produits), transformez ce flux de travail en procédure opérationnelle standard et réutilisez vos glossaires et modèles.

Traduisez rapidement les premiers brouillons, mais protégez l’exactitude avec une préparation et un contrôle qualité structurés—cette combinaison maintient la confiance des clients, des régulateurs et des lecteurs à chaque page.