Cách dịch một tệp PDF đã được quét
TABLE OF CONTENTS
Các tệp PDF được quét trông giống như tài liệu thông thường, nhưng mỗi trang thực chất chỉ là một hình ảnh phẳng. Nếu bạn đưa trực tiếp tệp đó vào dịch máy, bạn sẽ mất định dạng, đọc sai ký tự và có nguy cơ rò rỉ dữ liệu nhạy cảm cho dịch vụ không phù hợp. Quy trình tốt hơn: làm sạch bản quét, chạy OCR chính xác, dịch trên nền tảng bảo mật và dựng lại bố cục trước khi xuất bản.
Tóm tắt nhanh:
- Kiểm tra chất lượng bản quét để OCR có cơ hội nhận diện tốt và bạn phát hiện được những phần cần giữ nguyên.
- Chọn phần mềm OCR có gói ngôn ngữ và cài đặt bảo mật phù hợp với nội dung tài liệu.
- Dịch từ tệp DOCX sạch hoặc PDF có thể tìm kiếm, giữ nguyên tiêu đề, bảng biểu và tham chiếu.
- Dàn lại văn bản ngôn ngữ đích, sau đó chạy kiểm tra song ngữ để xác nhận số liệu, tên riêng và thuật ngữ pháp lý còn nguyên vẹn.
Vì sao PDF được quét cần xử lý thêm
PDF dựa trên hình ảnh không có lớp văn bản sống. Điều này đồng nghĩa với:
- Công cụ tìm kiếm và CAT không thể đọc được nội dung nếu không có OCR.
- Sao chép và dán sẽ lặp lại lỗi hình ảnh, cột ẩn và các hiện tượng lạ.
- Dịch máy coi tệp là hình ảnh, dẫn đến mất đoạn hoặc ký tự bị lỗi.
- Dữ liệu nhạy cảm có thể bị lộ nếu bạn tải toàn bộ tệp lên ứng dụng OCR công cộng.
Dịch một tài liệu được quét là dự án chuyển đổi trước, dự án ngôn ngữ sau. Đầu tư thời gian chuẩn bị sẽ giúp bạn giảm đáng kể vòng lặp sửa lỗi về sau.
Danh sách kiểm tra trước khi dịch
Sử dụng danh sách nhanh này trước khi mở bất kỳ công cụ nào:
- Quyền và tuân thủ: Xác nhận bạn có quyền dịch tài liệu, đặc biệt với các hồ sơ y tế, pháp lý hoặc nhân sự. Quyết định xem tài liệu có thể rời khỏi mạng nội bộ của bạn hay không.
- Kiểm tra bản scan cơ bản: Đảm bảo độ phân giải 300 DPI trở lên, trang thẳng, độ tương phản rõ ràng và ít bị lem mực. Lưu ý mọi ghi chú viết tay hoặc dấu mộc.
- Phạm vi ngôn ngữ: Xác định phương ngữ nguồn, thuật ngữ chuyên ngành và biến thể chính xác của ngôn ngữ đích (ví dụ: en-GB so với en-US). Hãy chuẩn bị bộ thuật ngữ hoặc bảng chú giải ngay từ đầu.
- Định dạng đặc biệt: Đánh dấu các bảng, bố cục nhiều cột, chữ ký, con dấu hoặc watermark để lên kế hoạch bảo toàn chúng.
- Kỳ vọng về thời gian hoàn thành: Thống nhất với các bên liên quan về định dạng bàn giao (DOCX, PDF có thể tìm kiếm, bảng song ngữ), thời gian và trách nhiệm kiểm tra lại.
Nếu có hơn hai mục trong danh sách kiểm tra không đạt, hãy scan lại hoặc yêu cầu bản gốc chất lượng hơn trước khi tiếp tục.
Bước 1 — Làm sạch bản scan nhanh chóng
Chỉ vài phút chỉnh sửa sẽ cải thiện đáng kể độ chính xác của OCR.
- Chỉnh thẳng và cắt viền: Chỉnh lại các trang bị nghiêng, cắt viền thừa và loại bỏ mép đen. Hầu hết các trình chỉnh sửa PDF và công cụ miễn phí như ScanTailor hoặc Adobe Acrobat’s Enhance Scans đều làm việc này rất nhanh.
- Tăng độ tương phản: Với văn bản mờ, hãy tăng độ tương phản hoặc chuyển sang thang xám; làm sáng nền sẽ giảm nhiễu.
- Tách file: Phân tách các tài liệu không liên quan hoặc các trang chèn thêm để phần mềm OCR nhận diện định dạng nhất quán.
- Chú thích trên bản sao: Ghi chú các phần cần giữ nguyên (chữ ký, dấu mộc). Đặt các phần này riêng làm hình tham khảo.
Nếu bản scan kém chất lượng: Khi trang bị mờ hoặc lệch, hãy scan lại ở 300 DPI ở chế độ thang xám, tắt nén tự động và dùng máy scan phẳng nếu bản gốc đóng gáy.
Bước 2 — Chạy OCR Đáng Tin Cậy
Chọn phần mềm OCR hiểu được cặp ngôn ngữ của bạn và đảm bảo bảo mật thông tin.
- Chọn công cụ nhận dạng: Phần mềm trên máy tính (ABBYY FineReader, Adobe Acrobat, Readiris) cho độ chính xác cao nhất và xử lý cục bộ. Dịch vụ đám mây (Google Drive OCR, Azure AI Vision) phù hợp với các lô tài liệu lớn. Ứng dụng di động (Prizmo, Microsoft Lens) tiện cho việc quét nhanh nhưng cần kiểm tra lại độ chính xác.
- Cài đặt gói ngôn ngữ: Kích hoạt từ điển cho ngôn ngữ nguồn, ngôn ngữ đích và các hệ chữ bổ sung (Cyrillic, Ả Rập, tiếng Trung giản thể/phồn thể).
- Thiết lập tùy chọn xuất file: Chọn định dạng DOCX hoặc PDF có thể tìm kiếm với lớp văn bản trên hình ảnh. Giữ nguyên bảng biểu và đảm bảo văn bản ẩn vẫn hiển thị để kiểm tra sau này.
- Kiểm tra các trang: Xem xét kỹ các phần phức tạp—cột, chú thích cuối trang, con dấu—để đảm bảo ký tự được chuyển đổi chính xác. Lưu cả kết quả OCR và bản quét gốc.
Không tải lên các tệp tin bảo mật lên dịch vụ OCR đám mây nếu chưa có sự cho phép rõ ràng và hợp đồng xử lý dữ liệu đã ký kết.
Bước 3 — Chuẩn bị File Xuất Để Dịch
Mục tiêu của bạn là tạo ra một file sạch, có cấu trúc rõ ràng để người dịch hoặc công cụ dịch có thể xử lý mà không làm hỏng bố cục.
- Chuẩn hóa kiểu dáng: Áp dụng các kiểu tiêu đề và đoạn văn, đồng bộ phông chữ, chuẩn hóa khoảng cách. Điều này giúp các công cụ AI không tự ý tạo định dạng mới.
- Sửa bảng và danh sách: Xây dựng lại các ô gộp, đảm bảo danh sách đầu dòng dùng một kiểu duy nhất, chuyển hình ảnh chứa văn bản thành hình dạng hoặc chú thích có thể chỉnh sửa.
- Trích xuất thành phần phi văn bản: Với con dấu hoặc chú thích viết tay cần dịch, hãy tái tạo bằng công cụ vector hoặc chuẩn bị nhãn đã dịch.
- Bảo vệ các tham chiếu: Khóa các phần như bảng tài chính hoặc điều khoản pháp lý không được chỉnh sửa; thêm chú thích “không dịch” ở những chỗ cần thiết.
- Tạo bản hướng dẫn dịch: Bao gồm thông tin về đối tượng người đọc, hướng dẫn về giọng điệu, liên kết thuật ngữ và hướng dẫn định dạng để người dịch nắm rõ yêu cầu.
Lưu file đã chuẩn bị này làm bản chính .docx hoặc .idml, và giữ lại kết quả OCR làm bản dự phòng.
Bước 4 — Dịch Với Quy Trình Phù Hợp
Chọn phương án dịch phù hợp với mức độ quan trọng, khối lượng và ngân sách của tài liệu.
- Dịch có sự hỗ trợ của máy tính (CAT): Nhập tệp DOCX vào SDL Trados, memoQ, Phrase hoặc Lokalise. Tận dụng bộ nhớ dịch và cơ sở thuật ngữ để đảm bảo tính nhất quán và tránh chỉnh sửa nhầm các phần đã khóa.
- Dịch có sự hỗ trợ của AI: Đối với bản thảo nội bộ, hãy sử dụng các dịch vụ AI chú trọng đến quyền riêng tư cho phép bạn tải tài liệu lên một cách an toàn. Chia nhỏ thành các đợt nhỏ, sau đó kiểm tra từng đoạn so với bản gốc.
- Chuyên gia dịch thuật: Những tài liệu nhạy cảm, pháp lý hoặc hướng tới khách hàng nên được giao cho các dịch giả chuyên nghiệp. Cung cấp bản mô tả, bảng thuật ngữ và yêu cầu kiểm tra chất lượng ngay từ đầu.
Dù chọn phương án nào, hãy lên lịch cho một người kiểm tra nội bộ hoặc chuyên gia ngôn ngữ xác minh tệp đã dịch. Sản phẩm của máy luôn cần kiểm tra chất lượng bởi con người về tên riêng, số liệu và giọng điệu.
Bước 5 — Khôi phục bố cục và kiểm tra chất lượng
Khi bản dịch đã được phê duyệt, hãy làm cho sản phẩm cuối cùng giống với bản gốc nhất có thể.
- Điều chỉnh lại bố cục: Chỉnh sửa hộp văn bản, cột và độ rộng bảng cho phù hợp với ngôn ngữ đích. Thêm hoặc thu nhỏ khoảng trắng khi câu văn dài hoặc ngắn hơn.
- Chèn lại hình ảnh: Thay thế hoặc cập nhật hình ảnh, con dấu và chữ ký. Khi bản dịch được chèn vào hình ảnh, hãy xuất bản thay thế độ phân giải cao.
- Kiểm tra kiểu chữ: Đảm bảo phông chữ hỗ trợ bộ ký tự của ngôn ngữ đích; thay thế bằng phông đã được cấp phép nếu cần.
- Kiểm tra song ngữ: Sử dụng danh sách kiểm tra để so sánh song song giữa bản gốc và bản dịch. Xác minh số liệu, ngày tháng, tham chiếu pháp lý, liên kết chéo và siêu liên kết.
- Đọc lại lần cuối: Nhờ người bản địa đọc bản PDF đã dịch trong ngữ cảnh. Xuất tệp cuối cùng thành PDF dạng phẳng và DOCX hoàn toàn có thể chỉnh sửa để cập nhật về sau.
Lưu trữ bản scan gốc, kết quả OCR và các tài sản dịch thuật cùng nhau để lần cập nhật sau chỉ mất vài giờ, không phải vài ngày.
Cần một giải pháp trọn gói nhanh chóng?
OpenL hỗ trợ dịch trực tiếp PDF quét với OCR tích hợp, kiểm soát quyền riêng tư và giữ nguyên bố cục. Chỉ cần tải lên tệp, chọn ngôn ngữ đích và xem lại bản song ngữ trước khi xuất. Xem quy trình tại doc.openl.io/translate/pdf.
Công cụ và Mẫu đề xuất
| Nhu cầu | Phù hợp nhất cho | Công cụ ví dụ | Ghi chú |
|---|---|---|---|
| Làm sạch bản quét | Chỉnh thẳng, sửa độ tương phản | Adobe Acrobat Enhance Scans, ScanTailor Advanced | Xử lý cục bộ; giữ nguyên bản gốc. |
| Độ chính xác OCR | Tài liệu đa ngôn ngữ | ABBYY FineReader, Tesseract (có giao diện), Azure AI Vision | Cài đặt gói ngôn ngữ và từ điển tùy chỉnh. |
| Dịch an toàn | Nội dung nhạy cảm | memoQ, Phrase On-Premise, DeepL Teams | Kiểm tra nơi lưu trữ dữ liệu và điều khoản bảo mật. |
| Quy trình tất cả trong một | Dịch trực tiếp PDF quét | OpenL PDF Translator | Tải lên một lần, áp dụng OCR + dịch, sau đó xuất tệp song ngữ. |
| Xây dựng lại bố cục | Bảng & đồ họa phức tạp | Microsoft Word Styles, InDesign, Affinity Publisher | Nhân bản kiểu trước khi nhập bản dịch. |
| Danh sách kiểm QA | Xem lại song ngữ | Xbench, Verifika, Google Sheet tùy chỉnh | Đánh dấu tên riêng, số, viết tắt và định dạng. |
Cần bắt đầu nhanh? Hãy tạo một thư mục chung chứa bản quét, kết quả OCR, hướng dẫn dịch, bảng thuật ngữ và danh sách kiểm QA. Bất kỳ ai tham gia giữa chừng đều có thể tiếp tục ngay lập tức.
Mẹo cuối cùng
- Lưu các phiên bản từng bước ở mỗi mốc (OCR đã chuẩn bị, bàn giao cho dịch giả, hoàn thành QA) để có thể hoàn nguyên ngay nếu bố cục bị lỗi.
- Nếu nghi ngờ về độ chính xác của OCR, hãy so sánh số lượng từ: tệp OCR và tệp dịch nên gần như tương đương.
- Với các loại tài liệu lặp lại (báo cáo hàng tháng, hướng dẫn sản phẩm), hãy biến quy trình này thành quy chuẩn và tái sử dụng bảng thuật ngữ, mẫu của bạn.
Dịch bản nháp đầu tiên một cách nhanh chóng, nhưng đảm bảo độ chính xác bằng chuẩn bị có hệ thống và kiểm tra chất lượng—sự kết hợp này giúp khách hàng, cơ quan quản lý và độc giả luôn tin tưởng vào từng trang.


