چگونه یک فایل PDF اسکن شده را ترجمه کنیم
TABLE OF CONTENTS
اسکنهای PDF شبیه به اسناد معمولی به نظر میرسند، اما هر صفحه فقط یک تصویر تخت است. اگر آن فایل را مستقیماً به ترجمه ماشینی وارد کنید، قالببندی را از دست میدهید، کاراکترها اشتباه خوانده میشوند و خطر نشت دادههای حساس به سرویس اشتباه وجود دارد. یک جریان کاری بهتر: اسکن را پاک کنید، OCR دقیق اجرا کنید، در یک پلتفرم امن ترجمه کنید و قبل از انتشار، قالببندی را بازسازی کنید.
به طور خلاصه:
- کیفیت اسکن را بررسی کنید تا OCR شانس مبارزه داشته باشد و بخشهایی را که باید دستنخورده بمانند، شناسایی کنید.
- نرمافزار OCR را با بستههای زبانی و تنظیمات حریم خصوصی که با محتوای سند مطابقت دارند، انتخاب کنید.
- از یک DOCX پاک یا PDF قابل جستجو که سرصفحهها، جداول و مراجع را حفظ میکند، ترجمه کنید.
- متن زبان هدف را بازسازی کنید، سپس QA دو زبانه را اجرا کنید تا تأیید کنید که اعداد، نامها و عبارتهای قانونی باقی ماندهاند.
چرا اسکنهای PDF نیاز به کار اضافی دارند
یک PDF مبتنی بر تصویر هیچ لایه متن زندهای ندارد. این به معنای:
- موتورهای جستجو و ابزارهای CAT نمیتوانند کلمات را بدون OCR بخوانند.
- کپی و پیست، اشکالات بصری، ستونهای پنهان و مصنوعات را تکرار میکند.
- ترجمه ماشینی فایل را به عنوان یک تصویر در نظر میگیرد، بنابراین پاراگرافهای گمشده یا کاراکترهای درهمریخته دریافت میکنید.
- دادههای حساس در معرض خطر باقی میمانند اگر فایل کامل را به یک برنامه وب OCR عمومی آپلود کنید.
ترجمه یک سند اسکن شده ابتدا یک پروژه تبدیل است و سپس یک پروژه زبانی. زمان را در آمادهسازی سرمایهگذاری کنید و چرخه اصلاح را بعداً کاهش دهید.
چکلیست پیش از ترجمه
از این بررسی سریع قبل از باز کردن هر ابزار استفاده کنید:
- حقوق و انطباق: تأیید کنید که شما مجوز ترجمه دارید، به ویژه برای فایلهای پزشکی، قانونی یا منابع انسانی. تصمیم بگیرید که آیا سند میتواند شبکه شما را ترک کند.
- اسکن اصول: به دنبال وضوح 300 DPI یا بالاتر، صفحات صاف، کنتراست واضح و حداقل نفوذ باشید. به هرگونه یادداشت دستنویس یا مهرها توجه کنید.
- دامنه زبان: گویش منبع، اصطلاحات خاص، و دقیقاً نوع زبان هدف (مثلاً en-GB در مقابل en-US) را شناسایی کنید. اکنون پایگاههای اصطلاحات یا واژهنامهها را استخراج کنید.
- ویژگیهای قالببندی: جداول، طرحبندیهای چند ستونی، امضاها، مهرها یا واترمارکها را علامتگذاری کنید تا بتوانید برنامهریزی کنید که چگونه آنها را حفظ کنید.
- انتظارات زمانبندی: با ذینفعان در مورد قالب تحویل (DOCX، PDF قابل جستجو، جدول دو زبانه)، جدول زمانی و مسئولیتهای بررسی هماهنگ شوید.
اگر بیش از دو مورد از چکلیست ناموفق باشد، اسکن مجدد کنید یا یک نسخه اصلی بهتر درخواست کنید قبل از اینکه ادامه دهید.
مرحله 1 — سریع اسکن را پاک کنید
چند دقیقه پاکسازی دقت OCR را به طور چشمگیری بهبود میبخشد.
- صاف کردن و برش: صفحات کج را صاف کنید، حاشیهها را برش دهید و لبههای سیاه را حذف کنید. بیشتر ویرایشگرهای PDF و ابزارهای رایگان مانند ScanTailor یا Enhance Scans در Adobe Acrobat این کار را به سرعت انجام میدهند.
- تقویت کنتراست: برای متنهای کمرنگ، کنتراست را افزایش دهید یا به مقیاس خاکستری تغییر دهید؛ روشن کردن پسزمینه نویز را کاهش میدهد.
- فایل را تقسیم کنید: اسناد غیرمرتبط یا ضمیمههای اضافی را جدا کنید تا موتور OCR قالببندی یکسانی را ببیند.
- یک کپی را حاشیهنویسی کنید: بخشهایی که باید دستنخورده بمانند (امضاها، مهرها) را یادداشت کنید. اینها را به عنوان تصاویر مرجع کنار بگذارید.
اگر اسکن ضعیف است: وقتی صفحات تار یا خارج از مرکز هستند، در 300 DPI در مقیاس خاکستری دوباره اسکن کنید، فشردهسازی خودکار را غیرفعال کنید و از تختاسکن استفاده کنید اگر نسخه اصلی صحافی شده است.
مرحله 2 — OCR را اجرا کنید که میتوانید به آن اعتماد کنید
نرمافزار OCR را انتخاب کنید که جفت زبان شما را درک کند و به محرمانگی احترام بگذارد.
- انتخاب موتور: دسکتاپ (ABBYY FineReader, Adobe Acrobat, Readiris) بالاترین دقت و پردازش محلی را ارائه میدهد. ابر (Google Drive OCR, Azure AI Vision) برای دستههای بزرگ مقیاسپذیر است. اسکنرهای موبایل (Prizmo, Microsoft Lens) برای ضبط در حال حرکت کار میکنند اما دقت را دوباره بررسی کنید.
- نصب بستههای زبانی: دیکشنریها را برای زبان مبدا، زبان مقصد و اسکریپتهای اضافی (سیریلیک، عربی، چینی ساده/سنتی) فعال کنید.
- تنظیم گزینههای خروجی: DOCX یا PDF قابل جستجو با متن روی تصویر را انتخاب کنید. جداول را حفظ کنید و متن مخفی را برای QA بعداً قابل مشاهده نگه دارید.
- تأیید صفحات: بخشهای پیچیده مانند ستونها، پاورقیها، مهرها را بررسی کنید تا تأیید کنید که کاراکترها به درستی تبدیل شدهاند. هم خروجی OCR و هم اسکن اصلی را ذخیره کنید.
بدون اجازه صریح و توافقنامه پردازش داده امضا شده، فایلهای محرمانه را به خدمات OCR ابری آپلود نکنید.
مرحله 3 — آمادهسازی خروجی برای ترجمه
هدف شما اکنون یک فایل تمیز و ساختاریافته است که مترجمان یا ابزارها میتوانند بدون به هم ریختن طرحبندی آن را دریافت کنند.
- نرمالسازی سبکها: سبکهای عنوان و پاراگراف را اعمال کنید، خانواده فونتها را مطابقت دهید و فاصلهها را استاندارد کنید. این کار از ایجاد قالببندی جدید توسط ابزارهای AI جلوگیری میکند.
- اصلاح جداول و لیستها: سلولهای ادغامشده را بازسازی کنید، اطمینان حاصل کنید که لیستهای بولت از یک سبک واحد استفاده میکنند و تصاویر با متن را به اشکال قابل ویرایش یا توضیحات تبدیل کنید.
- استخراج عناصر غیرمتنی: برای مهرها یا یادداشتهای دستنویسی که قصد ترجمه آنها را دارید، یا آنها را با ابزارهای وکتور بازسازی کنید یا برچسبهای ترجمهشده را آماده کنید.
- ایمنسازی مراجع: بخشهایی مانند جداول مالی یا بندهای قانونی که باید دستنخورده بمانند را قفل کنید؛ در صورت لزوم، نظراتی با عنوان “ترجمه نکنید” اضافه کنید.
- ایجاد یک خلاصه ترجمه: شامل مخاطب، راهنماییهای لحن، لینکهای واژهنامه و دستورالعملهای قالببندی باشد تا هر کسی که ترجمه میکند از محدودیتها آگاه باشد.
این فایل آمادهشده را به عنوان فایل اصلی خود با فرمت .docx یا .idml ذخیره کنید و خروجی OCR را به عنوان پشتیبان نگه دارید.
مرحله 4 — ترجمه با جریان کاری مناسب
مسیر ترجمهای را انتخاب کنید که با اهمیت، حجم و بودجه سند مطابقت داشته باشد.
- ترجمه با کمک کامپیوتر (CAT): فایل DOCX را به SDL Trados، memoQ، Phrase یا Lokalise وارد کنید. از حافظههای ترجمه و پایگاههای اصطلاحات استفاده کنید تا از ثبات و جلوگیری از ویرایشهای تصادفی در بخشهای قفل شده اطمینان حاصل کنید.
- ترجمه با کمک هوش مصنوعی: برای پیشنویسهای داخلی، از خدمات هوش مصنوعی متمرکز بر حفظ حریم خصوصی استفاده کنید که به شما امکان میدهد اسناد را به صورت امن بارگذاری کنید. دستههای کوچک را اجرا کنید، سپس هر بخش را با منبع بررسی کنید.
- کارشناسان انسانی: اسناد حساس، قانونی یا مشتریمحور باید به مترجمان حرفهای سپرده شوند. خلاصه، واژهنامه و انتظارات QA را از قبل ارائه دهید.
هر مسیری را که انتخاب کنید، یک بازبین داخلی یا زبانشناس را برای بررسی فایل هدف برنامهریزی کنید. خروجی ماشین همیشه به QA انسانی برای نامها، اعداد و لحن نیاز دارد.
مرحله ۵ — بازسازی چیدمان و QA
پس از تأیید ترجمه، تحویل را مانند نسخه اصلی بسازید.
- بازچیدمان چیدمان: جعبههای متن، ستونها و عرض جدولها را برای زبان هدف تنظیم کنید. فضای سفید را اضافه یا کاهش دهید، جایی که جملات گسترش یا انقباض پیدا میکنند.
- بازگرداندن گرافیکها: تصاویر، مهرها و امضاها را جایگزین یا بهروز کنید. هنگامی که ترجمهها در گرافیکها ادغام شدهاند، جایگزینهای با وضوح بالا را صادر کنید.
- بررسی تایپوگرافی: تأیید کنید که فونتها از مجموعه کاراکترهای هدف پشتیبانی میکنند؛ در صورت نیاز با معادلهای دارای مجوز جایگزین کنید.
- QA دو زبانه: از یک چکلیست برای مقایسه منبع و هدف به صورت کنار هم استفاده کنید. اعداد، تاریخها، ارجاعات قانونی، ارجاعات متقابل و پیوندها را بررسی کنید.
- بازبینی نهایی: یک سخنگوی بومی فایل PDF هدف را در زمینه بخواند. فایل نهایی را به یک PDF مسطح و یک DOCX کاملاً قابل ویرایش برای بهروزرسانیهای آینده صادر کنید.
اسکن منبع، خروجی OCR و داراییهای ترجمه را با هم بایگانی کنید تا بهروزرسانیهای آینده ساعتها، نه روزها طول بکشد.
نیاز به یک میانبر کامل دارید؟
OpenL از ترجمه مستقیم PDF اسکن شده با OCR داخلی، کنترلهای حریم خصوصی و حفظ چیدمان پشتیبانی میکند. فایل را آپلود کنید، زبان هدف خود را انتخاب کنید و خروجی دو زبانه را قبل از صادرات بررسی کنید. جریان کار را در doc.openl.io/translate/pdf ببینید.
ابزارها و قالبهای پیشنهادی
| نیاز | بهترین برای | ابزار نمونه | یادداشتها |
|---|---|---|---|
| پاکسازی اسکن | اصلاح زاویه، تنظیم کنتراست | Adobe Acrobat Enhance Scans, ScanTailor Advanced | پردازش محلی؛ نسخههای اصلی را بدون تغییر نگه دارید. |
| دقت OCR | اسناد چند زبانه | ABBYY FineReader, Tesseract (with GUIs), Azure AI Vision | بستههای زبان و لغتنامههای سفارشی را نصب کنید. |
| ترجمه امن | محتوای حساس | memoQ, Phrase On-Premise, DeepL Teams | بندهای محل داده و محرمانگی را بررسی کنید. |
| خط لوله همهجانبه | ترجمه مستقیم PDF اسکن شده | OpenL PDF Translator | یک بار آپلود کنید، OCR + ترجمه را اعمال کنید، سپس فایلهای دو زبانه را صادر کنید. |
| بازسازی چیدمان | جداول و گرافیکهای پیچیده | Microsoft Word Styles, InDesign, Affinity Publisher | سبکها را قبل از وارد کردن ترجمهها تکرار کنید. |
| چکلیست QA | بررسی دو زبانه | Xbench, Verifika, custom Google Sheet | نامها، اعداد، اختصارات و قالببندی را علامتگذاری کنید. |
نیاز به شروع سریع دارید؟ یک پوشه مشترک با اسکن، خروجی OCR، خلاصه ترجمه، واژهنامه و چکلیست QA بسازید. هر کسی که در میانه پروژه به تیم بپیوندد، میتواند فوراً کار را ادامه دهد.
نکات نهایی
- نسخههای افزایشی را در هر نقطه عطف (OCR آماده، تحویل به مترجم، تکمیل QA) ذخیره کنید تا بتوانید فوراً به عقب برگردید اگر قالببندی خراب شد.
- وقتی در مورد وفاداری OCR شک دارید، مقایسه تعداد کلمات را اجرا کنید: فایل OCR و فایل ترجمه شده باید به طور نزدیک هماهنگ باشند.
- برای انواع اسناد تکراری (صورتحسابهای ماهانه، راهنماهای محصول)، این جریان کار را به یک روش عملیاتی استاندارد تبدیل کنید و واژهنامهها و قالبهای خود را مجدداً استفاده کنید.
پیشنویسهای اولیه را بهسرعت ترجمه کنید، اما با آمادهسازی ساختاریافته و کنترل کیفیت، دقت را حفظ کنید—این ترکیب باعث میشود که مشتریان، ناظران و خوانندگان به هر صفحه اطمینان داشته باشند.


