Как перевести отсканированный PDF-файл

OpenL Team 11/4/2025

TABLE OF CONTENTS

Отсканированные PDF-файлы выглядят как обычные документы, но каждая страница представляет собой просто плоское изображение. Если вы сразу отправите этот файл на машинный перевод, вы потеряете форматирование, неправильно прочитаете символы и рискуете утечкой конфиденциальных данных в ненадлежащий сервис. Лучший рабочий процесс: очистите скан, выполните точное OCR, переведите на безопасной платформе и восстановите макет перед публикацией.

Краткий обзор:

  • Проверьте качество сканирования, чтобы OCR имел шанс на успех и вы могли выявить разделы, которые необходимо оставить нетронутыми.
  • Выберите программное обеспечение OCR с языковыми пакетами и настройками конфиденциальности, соответствующими содержимому документа.
  • Переводите из чистого DOCX или доступного для поиска PDF, который сохраняет заголовки, таблицы и ссылки.
  • Переформатируйте текст на целевом языке, затем проведите двуязычную проверку качества, чтобы убедиться, что номера, имена и юридические формулировки сохранились.

Почему отсканированные PDF требуют дополнительной работы

PDF на основе изображений не имеет слоев с текстом. Это значит:

  • Поисковые системы и CAT-инструменты не могут прочитать слова без OCR.
  • Копирование и вставка дублирует визуальные искажения, скрытые столбцы и артефакты.
  • Машинный перевод обрабатывает файл как изображение, поэтому вы получаете отсутствующие абзацы или искаженные символы.
  • Конфиденциальные данные остаются открытыми, если вы загружаете полный файл в общедоступное веб-приложение OCR.

Перевод отсканированного документа — это сначала проект по конверсии, а затем языковой проект. Вложите время в подготовку, и вы сократите цикл исправлений позже.

Контрольный список перед переводом

Используйте этот быстрый чек-лист перед тем, как открыть какие-либо инструменты:

  • Права и соответствие: Убедитесь, что у вас есть полномочия на перевод, особенно для медицинских, юридических или кадровых документов. Решите, может ли документ покинуть вашу сеть.
  • Основы сканирования: Ищите разрешение 300 DPI или выше, ровные страницы, четкий контраст и минимальное просачивание. Обратите внимание на любые рукописные заметки или штампы.
  • Языковой охват: Определите диалект источника, специальную терминологию и точный вариант целевого языка (например, en-GB против en-US). Подготовьте базы терминов или глоссарии сейчас.
  • Особенности форматирования: Отметьте таблицы, многоколонные макеты, подписи, печати или водяные знаки, чтобы вы могли спланировать, как их сохранить.
  • Ожидания по срокам: Согласуйте с заинтересованными сторонами формат доставки (DOCX, PDF с возможностью поиска, двуязычная таблица), сроки и обязанности по проверке.

Если более двух пунктов из контрольного списка не выполняются, пересканируйте или запросите лучший оригинал, прежде чем продолжить.

Шаг 1 — Быстрая очистка скана

Несколько минут очистки значительно улучшают точность OCR.

  1. Выровняйте и обрежьте: Выровняйте наклоненные страницы, обрежьте края и удалите черные границы. Большинство PDF-редакторов и бесплатные инструменты, такие как ScanTailor или Adobe Acrobat’s Enhance Scans, делают это быстро.
  2. Увеличьте контраст: Для бледного текста увеличьте контраст или переключитесь на градации серого; осветление фона уменьшает шум.
  3. Разделите файл: Отделите несвязанные документы или дополнительные вставки, чтобы OCR-движок видел согласованное форматирование.
  4. Аннотируйте копию: Отметьте разделы, которые должны оставаться нетронутыми (подписи, штампы). Отложите их в качестве эталонных изображений.

Если скан плохой: Когда страницы размытые или смещенные, пересканируйте при 300 DPI в градациях серого, отключите автоматическое сжатие и используйте планшетный сканер, если оригинал переплетен.

Шаг 2 — Запустите OCR, которому можно доверять

Выберите программное обеспечение OCR, которое понимает вашу языковую пару и уважает конфиденциальность.

  • Выбор двигателя: Desktop (ABBYY FineReader, Adobe Acrobat, Readiris) предлагает наивысшую точность и локальную обработку. Cloud (Google Drive OCR, Azure AI Vision) масштабируется для больших партий. Мобильные сканеры (Prizmo, Microsoft Lens) работают для захвата на ходу, но проверяйте точность.
  • Установка языковых пакетов: Включите словари для исходного языка, целевого языка и дополнительных скриптов (кириллица, арабский, упрощенный/традиционный китайский).
  • Настройка параметров экспорта: Выберите DOCX или PDF с возможностью поиска с текстом поверх изображения. Сохраните таблицы и оставьте скрытый текст видимым для последующего контроля качества.
  • Проверка страниц: Проверьте сложные разделы — колонки, сноски, печати — чтобы подтвердить правильность преобразования символов. Сохраните как результат OCR, так и оригинальный скан.

Не загружайте конфиденциальные файлы в облачные OCR-сервисы без явного разрешения и подписанного соглашения о обработке данных.

Шаг 3 — Подготовка экспорта для перевода

Ваша цель сейчас — чистый, структурированный файл, который переводчики или инструменты могут использовать без нарушения макета.

  • Нормализация стилей: Примените стили заголовков и абзацев, сопоставьте семейства шрифтов и стандартизируйте интервалы. Это предотвращает создание нового форматирования инструментами AI.
  • Исправление таблиц и списков: Перестройте объединенные ячейки, убедитесь, что списки с маркерами используют единый стиль, и преобразуйте изображения с текстом в редактируемые фигуры или выноски.
  • Извлечение нетекстовых элементов: Для штампов или рукописных аннотаций, которые вы планируете перевести, либо воссоздайте их с помощью векторных инструментов, либо подготовьте переведенные метки.
  • Защита ссылок: Заблокируйте разделы, такие как финансовые таблицы или юридические положения, которые должны оставаться нетронутыми; добавьте комментарии с указанием «не переводить», где необходимо.
  • Создание перевода: Включите аудиторию, рекомендации по тону, ссылки на глоссарий и инструкции по форматированию, чтобы тот, кто переводит, знал ограничения.

Сохраните этот подготовленный файл как ваш основной .docx или .idml, и оставьте результат OCR как резервную копию.

Шаг 4 — Перевод с правильным рабочим процессом

Выберите путь перевода, который соответствует ставкам, объему и бюджету документа.

  • Компьютерно-поддерживаемый перевод (CAT): Импортируйте DOCX в SDL Trados, memoQ, Phrase или Lokalise. Используйте базы переводов и терминологические базы для обеспечения согласованности и предотвращения случайных изменений в заблокированных разделах.
  • Перевод с помощью ИИ: Для внутренних черновиков используйте ориентированные на конфиденциальность ИИ-сервисы, которые позволяют безопасно загружать документы. Запускайте небольшие партии, затем проверяйте каждый сегмент по сравнению с источником.
  • Человеческие эксперты: Чувствительные, юридические или ориентированные на клиента документы должны быть отправлены профессиональным переводчикам. Предоставьте бриф, глоссарий и ожидания по QA заранее.

Какой бы путь вы ни выбрали, назначьте внутреннего рецензента или лингвиста для проверки целевого файла. Машинный вывод всегда нуждается в человеческой QA для имен, чисел и тона.

Шаг 5 — Восстановление макета и QA

После утверждения перевода сделайте так, чтобы конечный продукт выглядел как оригинал.

  1. Переформатируйте макет: Отрегулируйте текстовые блоки, колонки и ширину таблиц для целевого языка. Добавьте или уменьшите пустое пространство, где предложения расширяются или сжимаются.
  2. Повторно вставьте графику: Замените или обновите изображения, печати и подписи. Когда переводы встроены в графику, экспортируйте высококачественные замены.
  3. Аудит типографики: Убедитесь, что шрифты поддерживают целевой набор символов; при необходимости замените на лицензированные эквиваленты.
  4. Двуязычная QA: Используйте контрольный список для сравнения источника и цели бок о бок. Проверьте числа, даты, юридические ссылки, перекрестные ссылки и гиперссылки.
  5. Окончательная корректура: Попросите носителя языка прочитать целевой PDF в контексте. Экспортируйте финальный файл в плоский PDF и полностью редактируемый DOCX для будущих обновлений.

Архивируйте исходный скан, результат OCR и переводческие активы вместе, чтобы будущие обновления занимали часы, а не дни.

Нужен комплексный ярлык?

OpenL поддерживает прямой перевод отсканированных PDF-файлов с встроенным OCR, контролем конфиденциальности и сохранением макета. Загрузите файл, выберите целевой язык и просмотрите двуязычный результат перед экспортом. Ознакомьтесь с рабочим процессом на doc.openl.io/translate/pdf.

Рекомендуемые инструменты и шаблоны

ПотребностьЛучше всего подходит дляПример инструментаПримечания
Очистка скановВыравнивание, исправление контрастаAdobe Acrobat Enhance Scans, ScanTailor AdvancedЛокальная обработка; оригиналы остаются неизменными.
Точность OCRМногоязычные документыABBYY FineReader, Tesseract (с GUI), Azure AI VisionУстановите языковые пакеты и пользовательские словари.
Безопасный переводКонфиденциальный контентmemoQ, Phrase On-Premise, DeepL TeamsПроверьте условия хранения данных и конфиденциальности.
Все в одномПрямой перевод отсканированных PDFOpenL PDF TranslatorЗагрузите один раз, примените OCR + перевод, затем экспортируйте двуязычные файлы.
Восстановление макетаСложные таблицы и графикаMicrosoft Word Styles, InDesign, Affinity PublisherДублируйте стили перед импортом переводов.
Контрольный список QAДвуязычный обзорXbench, Verifika, custom Google SheetОтмечайте имена, числа, аббревиатуры и форматирование.

Нужен быстрый старт? Создайте общую папку с отсканированным документом, результатом OCR, переводческим брифом, глоссарием и контрольным списком QA. Любой, кто присоединится к проекту позже, сможет быстро включиться в работу.

Финальные советы

  • Сохраняйте промежуточные версии на каждом этапе (подготовленный OCR, передача переводчику, завершение QA), чтобы вы могли мгновенно вернуться к предыдущей версии, если форматирование нарушится.
  • Если сомневаетесь в точности OCR, проведите сравнение количества слов: файл OCR и переведенный файл должны быть близки по количеству.
  • Для повторяющихся типов документов (ежемесячные отчеты, руководства по продуктам) превратите этот рабочий процесс в стандартную операционную процедуру и повторно используйте ваши глоссарии и шаблоны.

Переводите первые черновики быстро, но обеспечивайте точность с помощью структурированной подготовки и контроля качества — это сочетание поддерживает уверенность клиентов, регуляторов и читателей на каждой странице.