スキャンされたPDFを翻訳する方法
TABLE OF CONTENTS
スキャンされたPDFは通常のドキュメントのように見えますが、各ページは単なるフラットな画像です。そのファイルをそのまま機械翻訳にかけると、フォーマットが失われ、文字が誤読され、機密データが誤ったサービスに漏れるリスクがあります。より良いワークフローは、スキャンをクリーンにし、正確なOCRを実行し、安全なプラットフォームで翻訳し、公開前にレイアウトを再構築することです。
概要:
- OCRが効果を発揮できるようにスキャン品質を監査し、手を加えないセクションを見つけます。
- ドキュメントの内容に合った言語パックとプライバシー設定を備えたOCRソフトウェアを選択します。
- 見出し、表、参照を保持するクリーンなDOCXまたは検索可能なPDFから翻訳します。
- 目標言語のテキストを再配置し、バイリンガルQAを実行して、数字、名前、法的表現が正しく残っていることを確認します。
スキャンされたPDFが追加作業を必要とする理由
画像ベースのPDFにはライブテキストレイヤーがありません。つまり:
- 検索エンジンやCATツールはOCRなしでは単語を読むことができません。
- コピー&ペーストは視覚的な不具合、隠れた列、アーティファクトを複製します。
- 機械翻訳はファイルを画像として扱うため、段落が欠落したり文字が乱れたりします。
- 公開OCRウェブアプリにファイル全体をアップロードすると、機密データが露出したままになります。
スキャンされたドキュメントを翻訳することは、まず変換プロジェクトであり、次に言語プロジェクトです。準備に時間をかけることで、後の修正ループを大幅に削減できます。
翻訳前のチェックリスト
ツールを開く前にこのクイックチェックを使用してください:
- 権利とコンプライアンス: 特に医療、法律、または人事ファイルの翻訳において、翻訳する権限があることを確認してください。文書がネットワークを離れてもよいかどうかを決定します。
- スキャンの基本: 300 DPI以上の解像度、まっすぐなページ、明確なコントラスト、最小限の裏写りを確認してください。手書きのメモやスタンプがある場合は注意してください。
- 言語の範囲: ソースの方言、特殊な用語、および正確なターゲット言語のバリアント(例:en-GB vs en-US)を特定します。用語集やグロッサリーを今すぐ引き出してください。
- フォーマットの特徴: 表、複数列のレイアウト、署名、印章、または透かしを確認し、それらをどのように保持するか計画を立てます。
- 納期の期待: 納品形式(DOCX、検索可能なPDF、バイリンガルテーブル)、タイムライン、およびレビューの責任についてステークホルダーと一致させます。
チェックリスト項目が2つ以上失敗した場合は、再スキャンするか、続行する前により良いオリジナルを要求してください。
ステップ1 — スキャンを迅速にクリーンアップ
数分のクリーンアップでOCRの精度が劇的に向上します。
- 傾き補正とトリミング: 傾いたページを補正し、余白をトリミングし、黒い縁を取り除きます。ほとんどのPDFエディタやScanTailor、Adobe AcrobatのEnhance Scansなどの無料ツールでこれを迅速に行えます。
- コントラストを強化: 薄いテキストの場合、コントラストを上げるか、グレースケールに切り替えます。背景を明るくすることでノイズを減らします。
- ファイルを分割: 無関係な文書や余分な挿入物を分離し、OCRエンジンが一貫したフォーマットを認識できるようにします。
- コピーに注釈を付ける: 手を付けてはならないセクション(署名、スタンプ)をメモします。これらを参照画像として別にしておきます。
スキャンが不良の場合: ページがぼやけているか中心からずれている場合は、300 DPIでグレースケールで再スキャンし、自動圧縮を無効にし、オリジナルが製本されている場合はフラットベッドを使用します。
ステップ2 — 信頼できるOCRを実行
あなたの言語ペアを理解し、機密性を尊重するOCRソフトウェアを選択してください。
- エンジンを選ぶ: デスクトップ (ABBYY FineReader, Adobe Acrobat, Readiris) は最高の精度とローカル処理を提供します。クラウド (Google Drive OCR, Azure AI Vision) は大量処理に対応します。モバイルスキャナー (Prizmo, Microsoft Lens) は外出先でのキャプチャに適していますが、精度を再確認してください。
- 言語パックをインストール: ソース言語、ターゲット言語、および追加のスクリプト (キリル文字、アラビア文字、簡体字/繁体字中国語) の辞書を有効にします。
- エクスポートオプションを設定: DOCX またはテキストが画像上にある検索可能な PDF を選択します。表を保持し、後で QA のために隠されたテキストを表示したままにします。
- ページを確認: 複雑なセクション(列、脚注、印章)をスポットチェックして、文字が正しく変換されていることを確認します。OCR 出力と元のスキャンの両方を保存します。
明示的な許可と署名されたデータ処理契約がない限り、機密ファイルをクラウド OCR サービスにアップロードしないでください。
ステップ 3 — 翻訳のためのエクスポートの準備
今の目標は、翻訳者やツールがレイアウトを崩さずに取り込めるクリーンで構造化されたファイルを作成することです。
- スタイルを正規化: 見出しと段落スタイルを適用し、フォントファミリーを一致させ、スペーシングを標準化します。これにより、AI ツールが新しいフォーマットを発明するのを防ぎます。
- 表とリストを修正: 結合セルを再構築し、箇条書きリストが単一のスタイルを使用していることを確認し、テキスト付き画像を編集可能な図形やコールアウトに変換します。
- 非テキスト要素を抽出: 翻訳を予定しているスタンプや手書きの注釈については、ベクターツールで再作成するか、翻訳されたラベルを準備します。
- 参照を保護: 触れてはいけない財務表や法的条項のようなセクションをロックし、「翻訳しないでください」とコメントを追加します。
- 翻訳ブリーフを作成: 対象読者、トーンガイドライン、用語集リンク、フォーマット指示を含め、翻訳者が制約を理解できるようにします。
この準備されたファイルをマスター .docx または .idml として保存し、OCR 出力をバックアップとして保持します。
ステップ 4 — 適切なワークフローで翻訳
文書の重要性、ボリューム、予算に合った翻訳パスを選択してください。
- コンピュータ支援翻訳(CAT): DOCXをSDL Trados、memoQ、Phrase、またはLokaliseにインポートします。翻訳メモリと用語集を活用して、一貫性を確保し、ロックされたセクションへの誤った編集を防ぎます。
- AI支援翻訳: 内部草案には、ドキュメントを安全にアップロードできるプライバシー重視のAIサービスを使用します。小さなバッチを実行し、各セグメントをソースと比較してレビューします。
- 人間の専門家: 機密性の高い文書、法的文書、またはクライアント向けの文書は、プロの翻訳者に依頼する必要があります。事前にブリーフィング、用語集、QAの期待事項を提供します。
どのパスを選択しても、ターゲットファイルを確認するために内部レビュアーまたは言語学者をスケジュールしてください。機械による出力には、名前、数字、トーンのために常に人間によるQAが必要です。
ステップ5 — レイアウトの再構築とQA
翻訳が承認されたら、納品物を元のように見せます。
- レイアウトの再調整: テキストボックス、列、表の幅をターゲット言語に合わせて調整します。文が拡大または縮小する場合は、空白を追加または縮小します。
- グラフィックの再挿入: 画像、印章、署名を置き換えるか更新します。翻訳がグラフィックに組み込まれている場合は、高解像度の代替をエクスポートします。
- タイポグラフィ監査: フォントがターゲット文字セットをサポートしていることを確認します。必要に応じてライセンスされた同等品に置き換えます。
- バイリンガルQA: チェックリストを使用して、ソースとターゲットを並べて比較します。数字、日付、法的参照、相互参照、ハイパーリンクを確認します。
- 最終校正: ネイティブスピーカーにターゲットPDFを文脈で読んでもらいます。最終ファイルをフラット化されたPDFと完全に編集可能なDOCXにエクスポートし、将来の更新に備えます。
ソーススキャン、OCR出力、および翻訳資産を一緒にアーカイブして、将来の更新に数時間ではなく数日かかるようにします。
エンドツーエンドのショートカットが必要ですか?
OpenLは、組み込みのOCR、プライバシー管理、レイアウト保持機能を備えた、スキャンされたPDFの直接翻訳をサポートしています。ファイルをアップロードし、ターゲット言語を選択して、エクスポート前にバイリンガル出力を確認します。ワークフローの詳細はdoc.openl.io/translate/pdfをご覧ください。
推奨ツールとテンプレート
| 必要性 | 最適用途 | 例示ツール | 備考 |
|---|---|---|---|
| スキャンのクリーンアップ | 傾き補正、コントラスト修正 | Adobe Acrobat Enhance Scans, ScanTailor Advanced | ローカル処理;オリジナルを変更せずに保持。 |
| OCRの精度 | 多言語ドキュメント | ABBYY FineReader, Tesseract (with GUIs), Azure AI Vision | 言語パックとカスタム辞書をインストール。 |
| セキュア翻訳 | 機密コンテンツ | memoQ, Phrase On-Premise, DeepL Teams | データの居住地と機密保持条項を確認。 |
| オールインワンパイプライン | スキャンされたPDFの直接翻訳 | OpenL PDF Translator | 一度アップロードし、OCR + 翻訳を適用し、バイリンガルファイルをエクスポート。 |
| レイアウト再構築 | 複雑な表やグラフィック | Microsoft Word Styles, InDesign, Affinity Publisher | 翻訳をインポートする前にスタイルを複製。 |
| QAチェックリスト | バイリンガルレビュー | Xbench, Verifika, custom Google Sheet | 名前、数字、略語、フォーマットをフラグ。 |
スタートアップが必要ですか?スキャン、OCR出力、翻訳ブリーフ、用語集、QAチェックリストを含む共有フォルダを作成します。プロジェクトの途中で参加する人もすぐに対応できます。
最終的なヒント
- 各マイルストーン(準備済みOCR、翻訳者への引き渡し、QA完了)でインクリメンタルバージョンを保存し、フォーマットが壊れた場合に即座に戻せるようにします。
- OCRの忠実性に疑問がある場合は、単語数の比較を行います:OCRファイルと翻訳ファイルが密接に一致する必要があります。
- 定期的なドキュメントタイプ(月次報告書、製品マニュアル)については、このワークフローを標準作業手順に変換し、用語集とテンプレートを再利用します。
最初のドラフトを迅速に翻訳しますが、構造化された準備とQAで正確性を保護します。この組み合わせにより、クライアント、規制当局、読者はすべてのページに自信を持つことができます。


