Cara Menerjemahkan PDF yang Dipindai

OpenL Team 11/4/2025

TABLE OF CONTENTS

PDF hasil pemindaian terlihat seperti dokumen biasa, namun setiap halaman sebenarnya hanyalah gambar datar. Jika Anda langsung memasukkan file tersebut ke mesin penerjemah, Anda akan kehilangan format, salah membaca karakter, dan berisiko membocorkan data sensitif ke layanan yang tidak tepat. Alur kerja yang lebih baik: bersihkan hasil pemindaian, jalankan OCR yang akurat, terjemahkan di platform yang aman, dan bangun kembali tata letak sebelum dipublikasikan.

Sekilas:

  • Audit kualitas pemindaian agar OCR memiliki peluang yang baik dan Anda dapat menemukan bagian yang harus tetap tidak disentuh.
  • Pilih perangkat lunak OCR dengan paket bahasa dan pengaturan privasi yang sesuai dengan konten dokumen.
  • Terjemahkan dari DOCX bersih atau PDF yang dapat dicari yang mempertahankan judul, tabel, dan referensi.
  • Tata ulang teks dalam bahasa target, lalu lakukan QA bilingual untuk memastikan angka, nama, dan istilah hukum tetap terjaga.

Mengapa PDF Hasil Pemindaian Membutuhkan Penanganan Ekstra

PDF berbasis gambar tidak memiliki lapisan teks hidup sama sekali. Artinya:

  • Mesin pencari dan alat CAT tidak dapat membaca kata-kata tanpa OCR.
  • Copy dan paste hanya menggandakan gangguan visual, kolom tersembunyi, dan artefak.
  • Mesin penerjemah memperlakukan file sebagai gambar, sehingga paragraf bisa hilang atau karakter menjadi kacau.
  • Data sensitif tetap terbuka jika Anda mengunggah file penuh ke aplikasi web OCR publik.

Menerjemahkan dokumen hasil pemindaian adalah proyek konversi terlebih dahulu, baru proyek bahasa. Investasikan waktu dalam persiapan dan Anda akan mengurangi siklus koreksi di kemudian hari.

Daftar Periksa Pra-Penerjemahan

Gunakan pemeriksaan cepat ini sebelum Anda membuka alat apa pun:

  • Hak dan kepatuhan: Pastikan Anda memiliki otoritas untuk menerjemahkan, terutama untuk dokumen medis, hukum, atau HR. Tentukan apakah dokumen boleh keluar dari jaringan Anda.
  • Pemeriksaan dasar scan: Cari resolusi 300 DPI atau lebih tinggi, halaman yang lurus, kontras yang jelas, dan minim tembus tinta. Catat adanya catatan tulisan tangan atau stempel.
  • Ruang lingkup bahasa: Identifikasi dialek sumber, istilah khusus, dan varian bahasa target yang tepat (misalnya, en-GB vs en-US). Ambil basis istilah atau glosarium sekarang.
  • Keunikan format: Tandai tabel, tata letak multi-kolom, tanda tangan, segel, atau watermark agar Anda bisa merencanakan cara mempertahankannya.
  • Ekspektasi waktu pengerjaan: Samakan persepsi dengan pemangku kepentingan tentang format pengiriman (DOCX, PDF yang bisa dicari, tabel bilingual), jadwal, dan tanggung jawab review.

Jika lebih dari dua item pada daftar periksa gagal, lakukan scan ulang atau minta dokumen asli yang lebih baik sebelum melanjutkan.

Langkah 1 — Bersihkan Scan dengan Cepat

Beberapa menit membersihkan scan akan meningkatkan akurasi OCR secara signifikan.

  1. Deskew dan crop: Luruskan halaman yang miring, potong tepi, dan hilangkan pinggiran hitam. Sebagian besar editor PDF dan alat gratis seperti ScanTailor atau Enhance Scans dari Adobe Acrobat dapat melakukan ini dengan cepat.
  2. Tingkatkan kontras: Untuk teks yang samar, tingkatkan kontras atau ubah ke grayscale; mencerahkan latar belakang mengurangi noise.
  3. Pisahkan file: Pisahkan dokumen yang tidak terkait atau sisipan tambahan agar mesin OCR melihat format yang konsisten.
  4. Anotasi salinan: Tandai bagian yang harus tetap utuh (tanda tangan, stempel). Sisihkan sebagai gambar referensi.

Jika scan buruk: Jika halaman buram atau tidak sejajar, lakukan scan ulang pada 300 DPI dalam grayscale, matikan kompresi otomatis, dan gunakan flatbed jika dokumen asli dijilid.

Langkah 2 — Jalankan OCR yang Dapat Diandalkan

Pilih perangkat lunak OCR yang memahami pasangan bahasa Anda dan menjaga kerahasiaan.

  • Pilih mesin OCR: Desktop (ABBYY FineReader, Adobe Acrobat, Readiris) menawarkan akurasi tertinggi dan pemrosesan lokal. Cloud (Google Drive OCR, Azure AI Vision) cocok untuk pemrosesan dalam jumlah besar. Pemindai mobile (Prizmo, Microsoft Lens) praktis untuk pengambilan gambar saat bepergian, namun pastikan untuk memeriksa ulang akurasinya.
  • Instal paket bahasa: Aktifkan kamus untuk bahasa sumber, bahasa target, dan skrip tambahan (Sirilik, Arab, Tionghoa sederhana/tradisional).
  • Atur opsi ekspor: Pilih format DOCX atau PDF yang dapat dicari dengan teks di atas gambar. Pertahankan tabel dan pastikan teks tersembunyi tetap terlihat untuk QA di kemudian hari.
  • Verifikasi halaman: Periksa bagian-bagian kompleks—kolom, catatan kaki, stempel—untuk memastikan karakter terkonversi dengan benar. Simpan hasil OCR beserta scan asli.

Jangan mengunggah file rahasia ke layanan OCR cloud tanpa izin eksplisit dan perjanjian pemrosesan data yang telah ditandatangani.

Langkah 3 — Siapkan File Ekspor untuk Diterjemahkan

Tujuan Anda sekarang adalah menghasilkan file yang bersih dan terstruktur agar dapat diproses oleh penerjemah atau alat bantu tanpa merusak tata letak.

  • Normalisasi gaya: Terapkan gaya judul dan paragraf, samakan jenis font, dan standarkan jarak spasi. Ini mencegah alat AI menciptakan format baru yang tidak diinginkan.
  • Perbaiki tabel dan daftar: Bangun ulang sel yang digabung, pastikan daftar berpoin menggunakan satu gaya saja, dan ubah gambar berisi teks menjadi bentuk atau callout yang dapat diedit.
  • Ekstrak elemen non-teks: Untuk stempel atau anotasi tulisan tangan yang ingin diterjemahkan, buat ulang dengan alat vektor atau siapkan label terjemahan.
  • Amankan referensi: Kunci bagian seperti tabel keuangan atau klausul hukum yang tidak boleh diubah; tambahkan komentar bertuliskan “jangan diterjemahkan” jika diperlukan.
  • Buat brief terjemahan: Sertakan informasi audiens, panduan nada bicara, tautan glosarium, dan instruksi format agar penerjemah memahami batasan yang ada.

Simpan file yang sudah disiapkan ini sebagai master .docx atau .idml, dan simpan juga hasil OCR sebagai cadangan.

Langkah 4 — Terjemahkan dengan Alur Kerja yang Tepat

Pilih jalur terjemahan yang sesuai dengan tingkat kepentingan dokumen, volume, dan anggaran Anda.

  • Computer-assisted translation (CAT): Impor file DOCX ke SDL Trados, memoQ, Phrase, atau Lokalise. Manfaatkan translation memories dan term base untuk menjaga konsistensi serta mencegah perubahan tidak sengaja pada bagian yang dikunci.
  • AI-assisted translation: Untuk draf internal, gunakan layanan AI yang berfokus pada privasi dan memungkinkan Anda mengunggah dokumen dengan aman. Proses dalam batch kecil, lalu tinjau setiap segmen dengan membandingkannya ke sumber aslinya.
  • Human experts: Dokumen yang sensitif, legal, atau yang akan diberikan ke klien sebaiknya diterjemahkan oleh penerjemah profesional. Sertakan brief, glosarium, dan ekspektasi QA sejak awal.

Jalur mana pun yang Anda pilih, jadwalkan peninjau internal atau ahli bahasa untuk memverifikasi file hasil terjemahan. Hasil mesin selalu memerlukan QA manusia untuk nama, angka, dan nada bahasa.

Langkah 5 — Bangun Ulang Tata Letak dan QA

Setelah terjemahan disetujui, buat hasil akhir agar tampil seperti dokumen asli.

  1. Atur ulang tata letak: Sesuaikan kotak teks, kolom, dan lebar tabel untuk bahasa target. Tambah atau kurangi ruang kosong sesuai kebutuhan jika kalimat memanjang atau memendek.
  2. Masukkan kembali grafik: Ganti atau perbarui gambar, stempel, dan tanda tangan. Jika terjemahan sudah tertanam dalam grafik, ekspor pengganti resolusi tinggi.
  3. Audit tipografi: Pastikan font mendukung karakter bahasa target; ganti dengan font berlisensi yang setara jika diperlukan.
  4. QA bilingual: Gunakan daftar periksa untuk membandingkan sumber dan terjemahan secara berdampingan. Verifikasi angka, tanggal, referensi hukum, referensi silang, dan tautan.
  5. Proofread akhir: Minta penutur asli membaca PDF hasil terjemahan dalam konteks. Ekspor file akhir ke PDF flatten dan DOCX yang sepenuhnya dapat diedit untuk pembaruan di masa depan.

Arsipkan hasil scan sumber, output OCR, dan aset terjemahan bersama-sama agar pembaruan di masa depan hanya memakan waktu beberapa jam, bukan hari.

Butuh solusi cepat dari awal hingga akhir?

OpenL mendukung penerjemahan PDF hasil scan secara langsung dengan OCR bawaan, kontrol privasi, dan pelestarian tata letak. Unggah file, pilih bahasa target, dan tinjau hasil dwibahasa sebelum mengekspor. Lihat alur kerjanya di doc.openl.io/translate/pdf.

Alat dan Template yang Direkomendasikan

KebutuhanTerbaik untukContoh AlatCatatan
Pembersihan scanMeluruskan, memperbaiki kontrasAdobe Acrobat Enhance Scans, ScanTailor AdvancedProses lokal; file asli tetap utuh.
Akurasi OCRDokumen multibahasaABBYY FineReader, Tesseract (dengan GUI), Azure AI VisionInstal paket bahasa dan kamus khusus.
Penerjemahan amanKonten sensitifmemoQ, Phrase On-Premise, DeepL TeamsPeriksa lokasi data dan klausul kerahasiaan.
Alur kerja terpaduPenerjemahan PDF hasil scan langsungOpenL PDF TranslatorUnggah sekali, terapkan OCR + terjemahan, lalu ekspor file dwibahasa.
Rekonstruksi tata letakTabel & grafik kompleksMicrosoft Word Styles, InDesign, Affinity PublisherGandakan gaya sebelum mengimpor terjemahan.
Daftar periksa QATinjauan dwibahasaXbench, Verifika, Google Sheet khususTandai nama, angka, singkatan, dan format.

Butuh awal yang cepat? Buat folder bersama berisi hasil scan, output OCR, brief terjemahan, glosarium, dan daftar periksa QA. Siapa pun yang bergabung di tengah proyek bisa langsung menyesuaikan diri.

Tips Akhir

  • Simpan versi bertahap di setiap pencapaian (OCR siap, serah terima ke penerjemah, QA selesai) agar Anda bisa langsung kembali jika format rusak.
  • Jika ragu dengan akurasi OCR, bandingkan jumlah kata: file OCR dan file terjemahan seharusnya hampir sama.
  • Untuk jenis dokumen berulang (laporan bulanan, manual produk), jadikan alur kerja ini sebagai prosedur standar dan gunakan kembali glosarium serta template Anda.

Terjemahkan draf pertama dengan cepat, namun jaga akurasi melalui persiapan terstruktur dan QA—kombinasi ini memastikan kepercayaan klien, regulator, dan pembaca pada setiap halaman.