Wie man ein gescanntes PDF übersetzt

OpenL Team 11/4/2025

TABLE OF CONTENTS

Gescanntes PDF-Dokumente sehen aus wie normale Dokumente, aber jede Seite ist nur ein flaches Bild. Wenn Sie diese Datei direkt in die maschinelle Übersetzung einfügen, verlieren Sie das Format, lesen Zeichen falsch und riskieren, sensible Daten an den falschen Dienst weiterzugeben. Ein besserer Workflow: Reinigen Sie den Scan, führen Sie eine genaue OCR durch, übersetzen Sie auf einer sicheren Plattform und stellen Sie das Layout vor der Veröffentlichung wieder her.

Auf einen Blick:

  • Überprüfen Sie die Scanqualität, damit OCR eine Chance hat und Sie Abschnitte erkennen, die unberührt bleiben müssen.
  • Wählen Sie OCR-Software mit Sprachpaketen und Datenschutzeinstellungen, die zum Inhalt des Dokuments passen.
  • Übersetzen Sie aus einem sauberen DOCX oder durchsuchbaren PDF, das Überschriften, Tabellen und Verweise beibehält.
  • Passen Sie den Text in der Zielsprache an und führen Sie dann ein zweisprachiges QA durch, um sicherzustellen, dass Zahlen, Namen und rechtliche Formulierungen erhalten geblieben sind.

Warum gescannte PDFs zusätzliche Arbeit benötigen

Ein bildbasiertes PDF hat keine aktiven Textebenen. Das bedeutet:

  • Suchmaschinen und CAT-Tools können die Wörter ohne OCR nicht lesen.
  • Kopieren und Einfügen dupliziert visuelle Fehler, versteckte Spalten und Artefakte.
  • Maschinelle Übersetzung behandelt die Datei als Bild, sodass Absätze fehlen oder Zeichen verstümmelt werden.
  • Sensible Daten bleiben exponiert, wenn Sie die vollständige Datei in eine öffentliche OCR-Web-App hochladen.

Das Übersetzen eines gescannten Dokuments ist zunächst ein Konvertierungsprojekt und erst danach ein Sprachprojekt. Investieren Sie Zeit in die Vorbereitung und Sie reduzieren die Korrekturschleife später erheblich.

Vorübersetzungs-Checkliste

Verwenden Sie diese schnelle Überprüfung, bevor Sie irgendwelche Tools öffnen:

  • Rechte und Compliance: Bestätigen Sie, dass Sie die Befugnis zur Übersetzung haben, insbesondere bei medizinischen, rechtlichen oder HR-Dokumenten. Entscheiden Sie, ob das Dokument Ihr Netzwerk verlassen darf.
  • Scan-Grundlagen: Achten Sie auf eine Auflösung von 300 DPI oder höher, gerade Seiten, klaren Kontrast und minimales Durchscheinen. Notieren Sie handschriftliche Notizen oder Stempel.
  • Sprachumfang: Identifizieren Sie den Quell-Dialekt, spezielle Terminologie und die genaue Zielsprachenvariante (z.B. en-GB vs. en-US). Ziehen Sie jetzt Terminologiedatenbanken oder Glossare heran.
  • Formatierungsbesonderheiten: Markieren Sie Tabellen, mehrspaltige Layouts, Unterschriften, Siegel oder Wasserzeichen, um zu planen, wie diese erhalten bleiben können.
  • Erwartungen an die Bearbeitungszeit: Stimmen Sie sich mit den Beteiligten über das Lieferformat (DOCX, durchsuchbares PDF, zweisprachige Tabelle), den Zeitrahmen und die Überprüfungsverantwortlichkeiten ab.

Wenn mehr als zwei Punkte der Checkliste fehlschlagen, scannen Sie erneut oder fordern Sie ein besseres Original an, bevor Sie fortfahren.

Schritt 1 — Den Scan schnell bereinigen

Einige Minuten der Bereinigung verbessern die OCR-Genauigkeit erheblich.

  1. Entzerren und zuschneiden: Entzerren Sie geneigte Seiten, schneiden Sie Ränder ab und entfernen Sie schwarze Kanten. Die meisten PDF-Editoren und kostenlose Tools wie ScanTailor oder Adobe Acrobat’s Enhance Scans erledigen dies schnell.
  2. Kontrast erhöhen: Bei schwachem Text erhöhen Sie den Kontrast oder wechseln zu Graustufen; das Aufhellen des Hintergrunds reduziert Rauschen.
  3. Datei aufteilen: Trennen Sie nicht zusammenhängende Dokumente oder zusätzliche Einlagen, damit die OCR-Engine einheitliche Formatierungen erkennt.
  4. Eine Kopie annotieren: Notieren Sie Abschnitte, die unberührt bleiben müssen (Unterschriften, Stempel). Legen Sie diese als Referenzbilder beiseite.

Wenn der Scan schlecht ist: Wenn Seiten unscharf oder nicht zentriert sind, scannen Sie bei 300 DPI in Graustufen erneut, deaktivieren Sie die automatische Komprimierung und verwenden Sie einen Flachbettscanner, wenn das Original gebunden ist.

Schritt 2 — Zuverlässige OCR ausführen

Wählen Sie OCR-Software, die Ihr Sprachpaar versteht und Vertraulichkeit respektiert.

  • Wählen Sie die Engine: Desktop (ABBYY FineReader, Adobe Acrobat, Readiris) bietet höchste Genauigkeit und lokale Verarbeitung. Cloud (Google Drive OCR, Azure AI Vision) skaliert für große Mengen. Mobile Scanner (Prizmo, Microsoft Lens) eignen sich für die Erfassung unterwegs, aber überprüfen Sie die Genauigkeit doppelt.
  • Installieren Sie Sprachpakete: Aktivieren Sie Wörterbücher für die Ausgangssprache, Zielsprache und zusätzliche Schriften (Kyrillisch, Arabisch, vereinfachtes/traditionelles Chinesisch).
  • Exportoptionen festlegen: Wählen Sie DOCX oder durchsuchbare PDF mit Text über Bild. Erhalten Sie Tabellen und halten Sie versteckten Text für spätere Qualitätssicherung sichtbar.
  • Seiten überprüfen: Überprüfen Sie komplexe Abschnitte—Spalten, Fußnoten, Siegel—um sicherzustellen, dass Zeichen korrekt konvertiert wurden. Speichern Sie sowohl die OCR-Ausgabe als auch den Originalscan.

Laden Sie keine vertraulichen Dateien ohne ausdrückliche Erlaubnis und eine unterzeichnete Datenverarbeitungsvereinbarung in Cloud-OCR-Dienste hoch.

Schritt 3 — Vorbereitung des Exports für die Übersetzung

Ihr Ziel ist nun eine saubere, strukturierte Datei, die Übersetzer oder Tools aufnehmen können, ohne das Layout zu zerstören.

  • Stile normalisieren: Wenden Sie Überschriften- und Absatzstile an, passen Sie Schriftfamilien an und standardisieren Sie Abstände. Dies verhindert, dass KI-Tools neue Formatierungen erfinden.
  • Tabellen und Listen korrigieren: Zusammengeführte Zellen neu erstellen, sicherstellen, dass Aufzählungslisten einen einheitlichen Stil verwenden, und Bilder mit Text in bearbeitbare Formen oder Beschriftungen umwandeln.
  • Nicht-Text-Elemente extrahieren: Für Stempel oder handschriftliche Anmerkungen, die Sie übersetzen möchten, erstellen Sie diese entweder mit Vektortools neu oder bereiten Sie übersetzte Beschriftungen vor.
  • Referenzen sichern: Sperren Sie Abschnitte wie Finanztabellen oder juristische Klauseln, die unberührt bleiben müssen; fügen Sie Kommentare hinzu, die „nicht übersetzen“ anzeigen, wo nötig.
  • Erstellen Sie ein Übersetzungsbriefing: Fügen Sie Zielgruppe, Tonrichtlinien, Glossar-Links und Formatierungsanweisungen hinzu, damit der Übersetzer die Einschränkungen kennt.

Speichern Sie diese vorbereitete Datei als Ihre Master-.docx oder .idml und behalten Sie die OCR-Ausgabe als Backup.

Schritt 4 — Übersetzen mit dem richtigen Workflow

Wählen Sie den Übersetzungspfad, der zu den Anforderungen des Dokuments in Bezug auf Wichtigkeit, Umfang und Budget passt.

  • Computerunterstützte Übersetzung (CAT): Importieren Sie die DOCX in SDL Trados, memoQ, Phrase oder Lokalise. Nutzen Sie Übersetzungsspeicher und Terminologiedatenbanken, um Konsistenz zu gewährleisten und versehentliche Änderungen an gesperrten Abschnitten zu verhindern.
  • KI-unterstützte Übersetzung: Für interne Entwürfe verwenden Sie datenschutzorientierte KI-Dienste, die es Ihnen ermöglichen, Dokumente sicher hochzuladen. Führen Sie kleine Chargen durch und überprüfen Sie dann jedes Segment im Vergleich zur Quelle.
  • Menschliche Experten: Sensible, rechtliche oder kundenorientierte Dokumente sollten an professionelle Übersetzer gehen. Stellen Sie das Briefing, das Glossar und die QA-Erwartungen im Voraus bereit.

Welchen Weg Sie auch wählen, planen Sie einen internen Prüfer oder Linguisten ein, um die Zieldatei zu überprüfen. Maschinenausgaben benötigen immer eine menschliche QA für Namen, Zahlen und Tonalität.

Schritt 5 — Layout wiederherstellen und QA

Sobald die Übersetzung genehmigt ist, bringen Sie das Endprodukt in das ursprüngliche Erscheinungsbild.

  1. Layout anpassen: Passen Sie Textfelder, Spalten und Tabellenbreiten an die Zielsprache an. Fügen Sie Leerraum hinzu oder verkleinern Sie ihn, wo Sätze sich ausdehnen oder zusammenziehen.
  2. Grafiken wieder einfügen: Ersetzen oder aktualisieren Sie Bilder, Siegel und Unterschriften. Wenn Übersetzungen in Grafiken integriert sind, exportieren Sie hochauflösende Ersatzgrafiken.
  3. Typografieprüfung: Bestätigen Sie, dass die Schriftarten den Zeichensatz der Zielsprache unterstützen; ersetzen Sie sie bei Bedarf durch lizenzierte Äquivalente.
  4. Zweisprachige QA: Verwenden Sie eine Checkliste, um Quelle und Ziel nebeneinander zu vergleichen. Überprüfen Sie Zahlen, Daten, rechtliche Verweise, Querverweise und Hyperlinks.
  5. Endkorrektur: Lassen Sie einen Muttersprachler das Ziel-PDF im Kontext lesen. Exportieren Sie die endgültige Datei in ein flaches PDF und ein vollständig editierbares DOCX für zukünftige Aktualisierungen.

Archivieren Sie den Quellscan, die OCR-Ausgabe und die Übersetzungsressourcen zusammen, damit zukünftige Aktualisierungen Stunden und nicht Tage dauern.

Brauchen Sie eine Komplettlösung?

OpenL unterstützt die direkte Übersetzung gescannter PDFs mit integriertem OCR, Datenschutzkontrollen und Layout-Erhaltung. Laden Sie die Datei hoch, wählen Sie Ihre Zielsprache und überprüfen Sie die zweisprachige Ausgabe, bevor Sie exportieren. Sehen Sie sich den Workflow unter doc.openl.io/translate/pdf an.

Empfohlene Tools und Vorlagen

BedarfAm besten geeignet fürBeispiel-ToolHinweise
Scan-BereinigungEntzerrung, KontrastkorrekturenAdobe Acrobat Enhance Scans, ScanTailor AdvancedLokale Verarbeitung; Originale unverändert lassen.
OCR-GenauigkeitMehrsprachige DokumenteABBYY FineReader, Tesseract (mit GUIs), Azure AI VisionSprachpakete und benutzerdefinierte Wörterbücher installieren.
Sichere ÜbersetzungSensible InhaltememoQ, Phrase On-Premise, DeepL TeamsÜberprüfen Sie Datenresidenz und Vertraulichkeitsklauseln.
All-in-One-PipelineDirekte Übersetzung gescannter PDFsOpenL PDF TranslatorEinmal hochladen, OCR + Übersetzung anwenden, dann zweisprachige Dateien exportieren.
Layout-WiederherstellungKomplexe Tabellen & GrafikenMicrosoft Word Styles, InDesign, Affinity PublisherStile duplizieren, bevor Übersetzungen importiert werden.
QA-ChecklisteZweisprachige ÜberprüfungXbench, Verifika, benutzerdefinierte Google TabelleNamen, Zahlen, Abkürzungen und Formatierungen kennzeichnen.

Brauchen Sie einen schnellen Einstieg? Erstellen Sie einen gemeinsamen Ordner mit dem Scan, OCR-Ausgabe, Übersetzungsbrief, Glossar und QA-Checkliste. Jeder, der mitten im Projekt dazukommt, kann sofort loslegen.

Abschließende Tipps

  • Speichern Sie inkrementelle Versionen bei jedem Meilenstein (vorbereitetes OCR, Übergabe an Übersetzer, QA abgeschlossen), damit Sie sofort zurückkehren können, falls das Format bricht.
  • Wenn Sie Zweifel an der OCR-Treue haben, führen Sie einen Wortzählvergleich durch: Die OCR-Datei und die übersetzte Datei sollten eng übereinstimmen.
  • Für wiederkehrende Dokumenttypen (monatliche Berichte, Produktanleitungen) verwandeln Sie diesen Workflow in eine Standardarbeitsanweisung und verwenden Sie Ihre Glossare und Vorlagen erneut.

Übersetzen Sie erste Entwürfe schnell, aber schützen Sie die Genauigkeit durch strukturierte Vorbereitung und Qualitätssicherung – die Kombination sorgt dafür, dass Kunden, Regulierungsbehörden und Leser auf jeder Seite Vertrauen haben.