چگونه یک فایل PDF اسکن شده را ترجمه کنیم

OpenL Team 11/4/2025

TABLE OF CONTENTS

اسکن‌های PDF شبیه به اسناد معمولی به نظر می‌رسند، اما هر صفحه فقط یک تصویر تخت است. اگر آن فایل را مستقیماً به ترجمه ماشینی وارد کنید، قالب‌بندی را از دست می‌دهید، کاراکترها اشتباه خوانده می‌شوند و خطر نشت داده‌های حساس به سرویس اشتباه وجود دارد. یک جریان کاری بهتر: اسکن را پاک کنید، OCR دقیق اجرا کنید، در یک پلتفرم امن ترجمه کنید و قبل از انتشار، قالب‌بندی را بازسازی کنید.

به طور خلاصه:

  • کیفیت اسکن را بررسی کنید تا OCR شانس مبارزه داشته باشد و بخش‌هایی را که باید دست‌نخورده بمانند، شناسایی کنید.
  • نرم‌افزار OCR را با بسته‌های زبانی و تنظیمات حریم خصوصی که با محتوای سند مطابقت دارند، انتخاب کنید.
  • از یک DOCX پاک یا PDF قابل جستجو که سرصفحه‌ها، جداول و مراجع را حفظ می‌کند، ترجمه کنید.
  • متن زبان هدف را بازسازی کنید، سپس QA دو زبانه را اجرا کنید تا تأیید کنید که اعداد، نام‌ها و عبارت‌های قانونی باقی مانده‌اند.

چرا اسکن‌های PDF نیاز به کار اضافی دارند

یک PDF مبتنی بر تصویر هیچ لایه متن زنده‌ای ندارد. این به معنای:

  • موتورهای جستجو و ابزارهای CAT نمی‌توانند کلمات را بدون OCR بخوانند.
  • کپی و پیست، اشکالات بصری، ستون‌های پنهان و مصنوعات را تکرار می‌کند.
  • ترجمه ماشینی فایل را به عنوان یک تصویر در نظر می‌گیرد، بنابراین پاراگراف‌های گم‌شده یا کاراکترهای درهم‌ریخته دریافت می‌کنید.
  • داده‌های حساس در معرض خطر باقی می‌مانند اگر فایل کامل را به یک برنامه وب OCR عمومی آپلود کنید.

ترجمه یک سند اسکن شده ابتدا یک پروژه تبدیل است و سپس یک پروژه زبانی. زمان را در آماده‌سازی سرمایه‌گذاری کنید و چرخه اصلاح را بعداً کاهش دهید.

چک‌لیست پیش از ترجمه

از این بررسی سریع قبل از باز کردن هر ابزار استفاده کنید:

  • حقوق و انطباق: تأیید کنید که شما مجوز ترجمه دارید، به ویژه برای فایل‌های پزشکی، قانونی یا منابع انسانی. تصمیم بگیرید که آیا سند می‌تواند شبکه شما را ترک کند.
  • اسکن اصول: به دنبال وضوح 300 DPI یا بالاتر، صفحات صاف، کنتراست واضح و حداقل نفوذ باشید. به هرگونه یادداشت دست‌نویس یا مهرها توجه کنید.
  • دامنه زبان: گویش منبع، اصطلاحات خاص، و دقیقاً نوع زبان هدف (مثلاً en-GB در مقابل en-US) را شناسایی کنید. اکنون پایگاه‌های اصطلاحات یا واژه‌نامه‌ها را استخراج کنید.
  • ویژگی‌های قالب‌بندی: جداول، طرح‌بندی‌های چند ستونی، امضاها، مهرها یا واترمارک‌ها را علامت‌گذاری کنید تا بتوانید برنامه‌ریزی کنید که چگونه آنها را حفظ کنید.
  • انتظارات زمان‌بندی: با ذینفعان در مورد قالب تحویل (DOCX، PDF قابل جستجو، جدول دو زبانه)، جدول زمانی و مسئولیت‌های بررسی هماهنگ شوید.

اگر بیش از دو مورد از چک‌لیست ناموفق باشد، اسکن مجدد کنید یا یک نسخه اصلی بهتر درخواست کنید قبل از اینکه ادامه دهید.

مرحله 1 — سریع اسکن را پاک کنید

چند دقیقه پاکسازی دقت OCR را به طور چشمگیری بهبود می‌بخشد.

  1. صاف کردن و برش: صفحات کج را صاف کنید، حاشیه‌ها را برش دهید و لبه‌های سیاه را حذف کنید. بیشتر ویرایشگرهای PDF و ابزارهای رایگان مانند ScanTailor یا Enhance Scans در Adobe Acrobat این کار را به سرعت انجام می‌دهند.
  2. تقویت کنتراست: برای متن‌های کم‌رنگ، کنتراست را افزایش دهید یا به مقیاس خاکستری تغییر دهید؛ روشن کردن پس‌زمینه نویز را کاهش می‌دهد.
  3. فایل را تقسیم کنید: اسناد غیرمرتبط یا ضمیمه‌های اضافی را جدا کنید تا موتور OCR قالب‌بندی یکسانی را ببیند.
  4. یک کپی را حاشیه‌نویسی کنید: بخش‌هایی که باید دست‌نخورده بمانند (امضاها، مهرها) را یادداشت کنید. این‌ها را به عنوان تصاویر مرجع کنار بگذارید.

اگر اسکن ضعیف است: وقتی صفحات تار یا خارج از مرکز هستند، در 300 DPI در مقیاس خاکستری دوباره اسکن کنید، فشرده‌سازی خودکار را غیرفعال کنید و از تخت‌اسکن استفاده کنید اگر نسخه اصلی صحافی شده است.

مرحله 2 — OCR را اجرا کنید که می‌توانید به آن اعتماد کنید

نرم‌افزار OCR را انتخاب کنید که جفت زبان شما را درک کند و به محرمانگی احترام بگذارد.

  • انتخاب موتور: دسکتاپ (ABBYY FineReader, Adobe Acrobat, Readiris) بالاترین دقت و پردازش محلی را ارائه می‌دهد. ابر (Google Drive OCR, Azure AI Vision) برای دسته‌های بزرگ مقیاس‌پذیر است. اسکنرهای موبایل (Prizmo, Microsoft Lens) برای ضبط در حال حرکت کار می‌کنند اما دقت را دوباره بررسی کنید.
  • نصب بسته‌های زبانی: دیکشنری‌ها را برای زبان مبدا، زبان مقصد و اسکریپت‌های اضافی (سیریلیک، عربی، چینی ساده/سنتی) فعال کنید.
  • تنظیم گزینه‌های خروجی: DOCX یا PDF قابل جستجو با متن روی تصویر را انتخاب کنید. جداول را حفظ کنید و متن مخفی را برای QA بعداً قابل مشاهده نگه دارید.
  • تأیید صفحات: بخش‌های پیچیده مانند ستون‌ها، پاورقی‌ها، مهرها را بررسی کنید تا تأیید کنید که کاراکترها به درستی تبدیل شده‌اند. هم خروجی OCR و هم اسکن اصلی را ذخیره کنید.

بدون اجازه صریح و توافق‌نامه پردازش داده امضا شده، فایل‌های محرمانه را به خدمات OCR ابری آپلود نکنید.

مرحله 3 — آماده‌سازی خروجی برای ترجمه

هدف شما اکنون یک فایل تمیز و ساختاریافته است که مترجمان یا ابزارها می‌توانند بدون به هم ریختن طرح‌بندی آن را دریافت کنند.

  • نرمال‌سازی سبک‌ها: سبک‌های عنوان و پاراگراف را اعمال کنید، خانواده فونت‌ها را مطابقت دهید و فاصله‌ها را استاندارد کنید. این کار از ایجاد قالب‌بندی جدید توسط ابزارهای AI جلوگیری می‌کند.
  • اصلاح جداول و لیست‌ها: سلول‌های ادغام‌شده را بازسازی کنید، اطمینان حاصل کنید که لیست‌های بولت از یک سبک واحد استفاده می‌کنند و تصاویر با متن را به اشکال قابل ویرایش یا توضیحات تبدیل کنید.
  • استخراج عناصر غیرمتنی: برای مهرها یا یادداشت‌های دست‌نویسی که قصد ترجمه آن‌ها را دارید، یا آن‌ها را با ابزارهای وکتور بازسازی کنید یا برچسب‌های ترجمه‌شده را آماده کنید.
  • ایمن‌سازی مراجع: بخش‌هایی مانند جداول مالی یا بندهای قانونی که باید دست‌نخورده بمانند را قفل کنید؛ در صورت لزوم، نظراتی با عنوان “ترجمه نکنید” اضافه کنید.
  • ایجاد یک خلاصه ترجمه: شامل مخاطب، راهنمایی‌های لحن، لینک‌های واژه‌نامه و دستورالعمل‌های قالب‌بندی باشد تا هر کسی که ترجمه می‌کند از محدودیت‌ها آگاه باشد.

این فایل آماده‌شده را به عنوان فایل اصلی خود با فرمت .docx یا .idml ذخیره کنید و خروجی OCR را به عنوان پشتیبان نگه دارید.

مرحله 4 — ترجمه با جریان کاری مناسب

مسیر ترجمه‌ای را انتخاب کنید که با اهمیت، حجم و بودجه سند مطابقت داشته باشد.

  • ترجمه با کمک کامپیوتر (CAT): فایل DOCX را به SDL Trados، memoQ، Phrase یا Lokalise وارد کنید. از حافظه‌های ترجمه و پایگاه‌های اصطلاحات استفاده کنید تا از ثبات و جلوگیری از ویرایش‌های تصادفی در بخش‌های قفل شده اطمینان حاصل کنید.
  • ترجمه با کمک هوش مصنوعی: برای پیش‌نویس‌های داخلی، از خدمات هوش مصنوعی متمرکز بر حفظ حریم خصوصی استفاده کنید که به شما امکان می‌دهد اسناد را به صورت امن بارگذاری کنید. دسته‌های کوچک را اجرا کنید، سپس هر بخش را با منبع بررسی کنید.
  • کارشناسان انسانی: اسناد حساس، قانونی یا مشتری‌محور باید به مترجمان حرفه‌ای سپرده شوند. خلاصه، واژه‌نامه و انتظارات QA را از قبل ارائه دهید.

هر مسیری را که انتخاب کنید، یک بازبین داخلی یا زبان‌شناس را برای بررسی فایل هدف برنامه‌ریزی کنید. خروجی ماشین همیشه به QA انسانی برای نام‌ها، اعداد و لحن نیاز دارد.

مرحله ۵ — بازسازی چیدمان و QA

پس از تأیید ترجمه، تحویل را مانند نسخه اصلی بسازید.

  1. بازچیدمان چیدمان: جعبه‌های متن، ستون‌ها و عرض جدول‌ها را برای زبان هدف تنظیم کنید. فضای سفید را اضافه یا کاهش دهید، جایی که جملات گسترش یا انقباض پیدا می‌کنند.
  2. بازگرداندن گرافیک‌ها: تصاویر، مهرها و امضاها را جایگزین یا به‌روز کنید. هنگامی که ترجمه‌ها در گرافیک‌ها ادغام شده‌اند، جایگزین‌های با وضوح بالا را صادر کنید.
  3. بررسی تایپوگرافی: تأیید کنید که فونت‌ها از مجموعه کاراکترهای هدف پشتیبانی می‌کنند؛ در صورت نیاز با معادل‌های دارای مجوز جایگزین کنید.
  4. QA دو زبانه: از یک چک‌لیست برای مقایسه منبع و هدف به صورت کنار هم استفاده کنید. اعداد، تاریخ‌ها، ارجاعات قانونی، ارجاعات متقابل و پیوندها را بررسی کنید.
  5. بازبینی نهایی: یک سخنگوی بومی فایل PDF هدف را در زمینه بخواند. فایل نهایی را به یک PDF مسطح و یک DOCX کاملاً قابل ویرایش برای به‌روزرسانی‌های آینده صادر کنید.

اسکن منبع، خروجی OCR و دارایی‌های ترجمه را با هم بایگانی کنید تا به‌روزرسانی‌های آینده ساعت‌ها، نه روزها طول بکشد.

نیاز به یک میانبر کامل دارید؟

OpenL از ترجمه مستقیم PDF اسکن شده با OCR داخلی، کنترل‌های حریم خصوصی و حفظ چیدمان پشتیبانی می‌کند. فایل را آپلود کنید، زبان هدف خود را انتخاب کنید و خروجی دو زبانه را قبل از صادرات بررسی کنید. جریان کار را در doc.openl.io/translate/pdf ببینید.

ابزارها و قالب‌های پیشنهادی

نیازبهترین برایابزار نمونهیادداشت‌ها
پاکسازی اسکناصلاح زاویه، تنظیم کنتراستAdobe Acrobat Enhance Scans, ScanTailor Advancedپردازش محلی؛ نسخه‌های اصلی را بدون تغییر نگه دارید.
دقت OCRاسناد چند زبانهABBYY FineReader, Tesseract (with GUIs), Azure AI Visionبسته‌های زبان و لغت‌نامه‌های سفارشی را نصب کنید.
ترجمه امنمحتوای حساسmemoQ, Phrase On-Premise, DeepL Teamsبندهای محل داده و محرمانگی را بررسی کنید.
خط لوله همه‌جانبهترجمه مستقیم PDF اسکن شدهOpenL PDF Translatorیک بار آپلود کنید، OCR + ترجمه را اعمال کنید، سپس فایل‌های دو زبانه را صادر کنید.
بازسازی چیدمانجداول و گرافیک‌های پیچیدهMicrosoft Word Styles, InDesign, Affinity Publisherسبک‌ها را قبل از وارد کردن ترجمه‌ها تکرار کنید.
چک‌لیست QAبررسی دو زبانهXbench, Verifika, custom Google Sheetنام‌ها، اعداد، اختصارات و قالب‌بندی را علامت‌گذاری کنید.

نیاز به شروع سریع دارید؟ یک پوشه مشترک با اسکن، خروجی OCR، خلاصه ترجمه، واژه‌نامه و چک‌لیست QA بسازید. هر کسی که در میانه پروژه به تیم بپیوندد، می‌تواند فوراً کار را ادامه دهد.

نکات نهایی

  • نسخه‌های افزایشی را در هر نقطه عطف (OCR آماده، تحویل به مترجم، تکمیل QA) ذخیره کنید تا بتوانید فوراً به عقب برگردید اگر قالب‌بندی خراب شد.
  • وقتی در مورد وفاداری OCR شک دارید، مقایسه تعداد کلمات را اجرا کنید: فایل OCR و فایل ترجمه شده باید به طور نزدیک هماهنگ باشند.
  • برای انواع اسناد تکراری (صورت‌حساب‌های ماهانه، راهنماهای محصول)، این جریان کار را به یک روش عملیاتی استاندارد تبدیل کنید و واژه‌نامه‌ها و قالب‌های خود را مجدداً استفاده کنید.

پیش‌نویس‌های اولیه را به‌سرعت ترجمه کنید، اما با آماده‌سازی ساختاریافته و کنترل کیفیت، دقت را حفظ کنید—این ترکیب باعث می‌شود که مشتریان، ناظران و خوانندگان به هر صفحه اطمینان داشته باشند.