Как перевести отсканированный PDF-файл

OpenL Team 11/4/2025

TABLE OF CONTENTS

Отсканированные PDF-файлы выглядят как обычные документы, но каждая страница представляет собой просто плоское изображение. Если вы сразу отправите этот файл на машинный перевод, вы потеряете форматирование, неправильно прочитаете символы и рискуете утечкой конфиденциальных данных в ненадлежащий сервис. Лучший рабочий процесс: очистите скан, выполните точное OCR, переведите на безопасной платформе и восстановите макет перед публикацией.

Краткий обзор:

  • Проверьте качество сканирования, чтобы OCR имел шанс на успех и вы могли выявить разделы, которые необходимо оставить нетронутыми.
  • Выберите программное обеспечение OCR с языковыми пакетами и настройками конфиденциальности, соответствующими содержимому документа.
  • Переводите из чистого DOCX или доступного для поиска PDF, который сохраняет заголовки, таблицы и ссылки.
  • Переформатируйте текст на целевом языке, затем проведите двуязычную проверку качества, чтобы убедиться, что номера, имена и юридические формулировки сохранились.

Почему отсканированные PDF требуют дополнительной работы

PDF на основе изображений не имеет слоев с текстом. Это значит:

  • Поисковые системы и CAT-инструменты не могут прочитать слова без OCR.
  • Копирование и вставка дублирует визуальные искажения, скрытые столбцы и артефакты.
  • Машинный перевод обрабатывает файл как изображение, поэтому вы получаете отсутствующие абзацы или искаженные символы.
  • Конфиденциальные данные остаются открытыми, если вы загружаете полный файл в общедоступное веб-приложение OCR.

Перевод отсканированного документа — это сначала проект по конверсии, а затем языковой проект. Вложите время в подготовку, и вы сократите цикл исправлений позже.

Контрольный список перед переводом

Используйте этот быстрый чек-лист перед тем, как открыть какие-либо инструменты:

  • Права и соответствие: Убедитесь, что у вас есть полномочия на перевод, особенно для медицинских, юридических или кадровых документов. Решите, может ли документ покинуть вашу сеть.
  • Основы сканирования: Ищите разрешение 300 DPI или выше, ровные страницы, четкий контраст и минимальное просачивание. Обратите внимание на любые рукописные заметки или штампы.
  • Языковой охват: Определите диалект источника, специальную терминологию и точный вариант целевого языка (например, en-GB против en-US). Подготовьте базы терминов или глоссарии сейчас.
  • Особенности форматирования: Отметьте таблицы, многоколонные макеты, подписи, печати или водяные знаки, чтобы вы могли спланировать, как их сохранить.
  • Ожидания по срокам: Согласуйте с заинтересованными сторонами формат доставки (DOCX, PDF с возможностью поиска, двуязычная таблица), сроки и обязанности по проверке.

Если более двух пунктов из контрольного списка не выполняются, пересканируйте или запросите лучший оригинал, прежде чем продолжить.

Шаг 1 — Быстрая очистка скана

Несколько минут очистки значительно улучшают точность OCR.

  1. Выровняйте и обрежьте: Выровняйте наклоненные страницы, обрежьте края и удалите черные границы. Большинство PDF-редакторов и бесплатные инструменты, такие как ScanTailor или Adobe Acrobat’s Enhance Scans, делают это быстро.
  2. Увеличьте контраст: Для бледного текста увеличьте контраст или переключитесь на градации серого; осветление фона уменьшает шум.
  3. Разделите файл: Отделите несвязанные документы или дополнительные вставки, чтобы OCR-движок видел согласованное форматирование.
  4. Аннотируйте копию: Отметьте разделы, которые должны оставаться нетронутыми (подписи, штампы). Отложите их в качестве эталонных изображений.

Если скан плохой: Когда страницы размытые или смещенные, пересканируйте при 300 DPI в градациях серого, отключите автоматическое сжатие и используйте планшетный сканер, если оригинал переплетен.

Шаг 2 — Запустите OCR, которому можно доверять

Выберите программное обеспечение OCR, которое понимает вашу языковую пару и уважает конфиденциальность.

  • Выбор двигателя: Desktop (ABBYY FineReader, Adobe Acrobat, Readiris) предлагает наивысшую точность и локальную обработку. Cloud (Google Drive OCR, Azure AI Vision) масштабируется для больших партий. Мобильные сканеры (Prizmo, Microsoft Lens) работают для захвата на ходу, но проверяйте точность.
  • Установка языковых пакетов: Включите словари для исходного языка, целевого языка и дополнительных скриптов (кириллица, арабский, упрощенный/традиционный китайский).
  • Настройка параметров экспорта: Выберите DOCX или PDF с возможностью поиска с текстом поверх изображения. Сохраните таблицы и оставьте скрытый текст видимым для последующего контроля качества.
  • Проверка страниц: Проверьте сложные разделы — колонки, сноски, печати — чтобы подтвердить правильность преобразования символов. Сохраните как результат OCR, так и оригинальный скан.

Не загружайте конфиденциальные файлы в облачные OCR-сервисы без явного разрешения и подписанного соглашения о обработке данных.

Шаг 3 — Подготовка экспорта для перевода

Ваша цель сейчас — чистый, структурированный файл, который переводчики или инструменты могут использовать без нарушения макета.

  • Нормализация стилей: Примените стили заголовков и абзацев, сопоставьте семейства шрифтов и стандартизируйте интервалы. Это предотвращает создание нового форматирования инструментами AI.
  • Исправление таблиц и списков: Перестройте объединенные ячейки, убедитесь, что списки с маркерами используют единый стиль, и преобразуйте изображения с текстом в редактируемые фигуры или выноски.
  • Извлечение нетекстовых элементов: Для штампов или рукописных аннотаций, которые вы планируете перевести, либо воссоздайте их с помощью векторных инструментов, либо подготовьте переведенные метки.
  • Защита ссылок: Заблокируйте разделы, такие как финансовые таблицы или юридические положения, которые должны оставаться нетронутыми; добавьте комментарии с указанием «не переводить», где необходимо.
  • Создание перевода: Включите аудиторию, рекомендации по тону, ссылки на глоссарий и инструкции по форматированию, чтобы тот, кто переводит, знал ограничения.

Сохраните этот подготовленный файл как ваш основной .docx или .idml, и оставьте результат OCR как резервную копию.

Шаг 4 — Перевод с правильным рабочим процессом

Выберите путь перевода, который соответствует ставкам, объему и бюджету документа.

  • Компьютерно-поддерживаемый перевод (CAT): Импортируйте DOCX в SDL Trados, memoQ, Phrase или Lokalise. Используйте базы переводов и терминологические базы для обеспечения согласованности и предотвращения случайных изменений в заблокированных разделах.
  • Перевод с помощью ИИ: Для внутренних черновиков используйте ориентированные на конфиденциальность ИИ-сервисы, которые позволяют безопасно загружать документы. Запускайте небольшие партии, затем проверяйте каждый сегмент по сравнению с источником.
  • Человеческие эксперты: Чувствительные, юридические или ориентированные на клиента документы должны быть отправлены профессиональным переводчикам. Предоставьте бриф, глоссарий и ожидания по QA заранее.

Какой бы путь вы ни выбрали, назначьте внутреннего рецензента или лингвиста для проверки целевого файла. Машинный вывод всегда нуждается в человеческой QA для имен, чисел и тона.

Шаг 5 — Восстановление макета и QA

После утверждения перевода сделайте так, чтобы конечный продукт выглядел как оригинал.

  1. Переформатируйте макет: Отрегулируйте текстовые блоки, колонки и ширину таблиц для целевого языка. Добавьте или уменьшите пустое пространство, где предложения расширяются или сжимаются.
  2. Повторно вставьте графику: Замените или обновите изображения, печати и подписи. Когда переводы встроены в графику, экспортируйте высококачественные замены.
  3. Аудит типографики: Убедитесь, что шрифты поддерживают целевой набор символов; при необходимости замените на лицензированные эквиваленты.
  4. Двуязычная QA: Используйте контрольный список для сравнения источника и цели бок о бок. Проверьте числа, даты, юридические ссылки, перекрестные ссылки и гиперссылки.
  5. Окончательная корректура: Попросите носителя языка прочитать целевой PDF в контексте. Экспортируйте финальный файл в плоский PDF и полностью редактируемый DOCX для будущих обновлений.

Архивируйте исходный скан, результат OCR и переводческие активы вместе, чтобы будущие обновления занимали часы, а не дни.

Нужен комплексный ярлык?

OpenL поддерживает прямой перевод отсканированных PDF-файлов с встроенным OCR, контролем конфиденциальности и сохранением макета. Загрузите файл, выберите целевой язык и просмотрите двуязычный результат перед экспортом. Ознакомьтесь с рабочим процессом на doc.openl.io/translate/pdf.

Рекомендуемые инструменты и шаблоны

ПотребностьЛучше всего подходит дляПример инструментаПримечания
Очистка скановВыравнивание, исправление контрастаAdobe Acrobat Enhance Scans, ScanTailor AdvancedЛокальная обработка; оригиналы остаются неизменными.
Точность OCRМногоязычные документыABBYY FineReader, Tesseract (с GUI), Azure AI VisionУстановите языковые пакеты и пользовательские словари.
Безопасный переводКонфиденциальный контентmemoQ, Phrase On-Premise, DeepL TeamsПроверьте условия хранения данных и конфиденциальности.
Все в одномПрямой перевод отсканированных PDFOpenL PDF TranslatorЗагрузите один раз, примените OCR + перевод, затем экспортируйте двуязычные файлы.
Восстановление макетаСложные таблицы и графикаMicrosoft Word Styles, InDesign, Affinity PublisherДублируйте стили перед импортом переводов.
Контрольный список QAДвуязычный обзорXbench, Verifika, custom Google SheetОтмечайте имена, числа, аббревиатуры и форматирование.

Нужен быстрый старт? Создайте общую папку с отсканированным документом, результатом OCR, переводческим брифом, глоссарием и контрольным списком QA. Любой, кто присоединится к проекту позже, сможет быстро включиться в работу.

Финальные советы

  • Сохраняйте промежуточные версии на каждом этапе (подготовленный OCR, передача переводчику, завершение QA), чтобы вы могли мгновенно вернуться к предыдущей версии, если форматирование нарушится.
  • Если сомневаетесь в точности OCR, проведите сравнение количества слов: файл OCR и переведенный файл должны быть близки по количеству.
  • Для повторяющихся типов документов (ежемесячные отчеты, руководства по продуктам) превратите этот рабочий процесс в стандартную операционную процедуру и повторно используйте ваши глоссарии и шаблоны.

Переводите первые черновики быстро, но обеспечивайте точность с помощью структурированной подготовки и контроля качества — это сочетание поддерживает уверенность клиентов, регуляторов и читателей на каждой странице.

Related Posts

Как перевести коммерческое предложение (смету)

Как перевести коммерческое предложение (смету)

Переводите коммерческие предложения, не изменяя цены, условия Инкотермс, характеристики продукции или условия оплаты. Используйте пошаговый рабочий процесс, шаблоны и контрольный список качества для точной передачи коммерческих предложений на разных языках.

2026/2/4
Как перевести диплом

Как перевести диплом

Нужен заверенный перевод диплома для иммиграции, поступления в университет или работы за рубежом? Узнайте, как работают сертификация, нотариальное заверение и апостиль, а также ознакомьтесь с правилами конкретных стран и советами по предотвращению отказов.

2026/1/25
50 деловых английских идиом, которые вам нужно знать

50 деловых английских идиом, которые вам нужно знать

Изучите 50 распространённых английских бизнес-идиом для встреч и электронной переписки — значения, примеры и советы по переводу. Переводите идиомы точно с помощью OpenL.

2026/1/21