วิธีแปลไฟล์ PDF ที่สแกน
TABLE OF CONTENTS
เอกสาร PDF ที่สแกนดูเหมือนเอกสารทั่วไป แต่ทุกหน้าคือภาพแบน หากคุณนำไฟล์นั้นเข้าสู่การแปลด้วยเครื่องโดยตรง คุณจะสูญเสียการจัดรูปแบบ อ่านผิดพลาด และเสี่ยงต่อการรั่วไหลของข้อมูลที่ละเอียดอ่อนไปยังบริการที่ไม่ถูกต้อง วิธีการทำงานที่ดีกว่า: ทำความสะอาดการสแกน ใช้ OCR ที่แม่นยำ แปลบนแพลตฟอร์มที่ปลอดภัย และสร้างรูปแบบใหม่ก่อนเผยแพร่
โดยสรุป:
- ตรวจสอบคุณภาพการสแกนเพื่อให้ OCR มีโอกาส และคุณจะจับส่วนที่ต้องคงไว้ไม่เปลี่ยนแปลง
- เลือกซอฟต์แวร์ OCR ที่มีแพ็คเกจภาษาและการตั้งค่าความเป็นส่วนตัวที่ตรงกับเนื้อหาของเอกสาร
- แปลจาก DOCX ที่สะอาดหรือ PDF ที่ค้นหาได้ซึ่งรักษาหัวข้อ ตาราง และการอ้างอิงไว้
- จัดเรียงข้อความในภาษาที่ต้องการใหม่ จากนั้นทำ QA แบบสองภาษาเพื่อยืนยันว่าตัวเลข ชื่อ และวลีทางกฎหมายยังคงอยู่
ทำไม PDF ที่สแกนต้องการการทำงานเพิ่มเติม
PDF ที่มีพื้นฐานเป็นภาพไม่มีชั้นข้อความสด นั่นหมายความว่า:
- เครื่องมือค้นหาและเครื่องมือ CAT ไม่สามารถอ่านคำได้หากไม่มี OCR
- การคัดลอกและวางจะทำให้เกิดข้อผิดพลาดทางภาพ คอลัมน์ที่ซ่อนอยู่ และสิ่งประดิษฐ์
- การแปลด้วยเครื่องจะถือว่าไฟล์เป็นภาพ ดังนั้นคุณจะได้ย่อหน้าที่หายไปหรืออักขระที่ผิดเพี้ยน
- ข้อมูลที่ละเอียดอ่อนยังคงเปิดเผยหากคุณอัปโหลดไฟล์ทั้งหมดไปยังแอป OCR เว็บสาธารณะ
การแปลเอกสารที่สแกนเป็นโครงการการแปลงก่อนและโครงการภาษาเป็นอันดับสอง ลงทุนเวลาในการเตรียมการและคุณจะลดวงจรการแก้ไขในภายหลัง
รายการตรวจสอบก่อนการแปล
ใช้การตรวจสอบอย่างรวดเร็วนี้ก่อนที่คุณจะเปิดเครื่องมือใด ๆ:
- สิทธิ์และการปฏิบัติตามข้อกำหนด: ยืนยันว่าคุณมีอำนาจในการแปล โดยเฉพาะอย่างยิ่งสำหรับไฟล์ทางการแพทย์ กฎหมาย หรือทรัพยากรบุคคล ตัดสินใจว่าเอกสารสามารถออกจากเครือข่ายของคุณได้หรือไม่
- พื้นฐานการสแกน: มองหาความละเอียด 300 DPI หรือสูงกว่า หน้าตรง ความคมชัดชัดเจน และการซึมผ่านน้อยที่สุด สังเกตบันทึกด้วยลายมือหรือประทับตรา
- ขอบเขตของภาษา: ระบุภาษาถิ่นต้นทาง คำศัพท์เฉพาะ และรูปแบบภาษาปลายทางที่แน่นอน (เช่น en-GB เทียบกับ en-US) ดึงฐานคำศัพท์หรืออภิธานศัพท์ในตอนนี้
- ลักษณะเฉพาะของการจัดรูปแบบ: ทำเครื่องหมายตาราง รูปแบบหลายคอลัมน์ ลายเซ็น ตราประทับ หรือลายน้ำเพื่อให้คุณสามารถวางแผนวิธีการรักษาไว้
- ความคาดหวังในการส่งมอบ: จัดให้ผู้มีส่วนได้ส่วนเสียเห็นพ้องกันในรูปแบบการส่งมอบ (DOCX, PDF ที่ค้นหาได้, ตารางสองภาษา) กำหนดเวลา และความรับผิดชอบในการตรวจสอบ
หากมีรายการตรวจสอบล้มเหลวมากกว่าสองรายการ ให้สแกนใหม่หรือขอต้นฉบับที่ดีกว่าก่อนดำเนินการต่อ
ขั้นตอนที่ 1 — ทำความสะอาดการสแกนอย่างรวดเร็ว
การทำความสะอาดไม่กี่นาทีช่วยเพิ่มความแม่นยำของ OCR อย่างมาก
- ปรับมุมและครอบตัด: ปรับหน้าที่เอียงให้ตรง ตัดขอบ และลบขอบสีดำ เครื่องมือแก้ไข PDF ส่วนใหญ่และเครื่องมือฟรีเช่น ScanTailor หรือ Adobe Acrobat’s Enhance Scans สามารถทำได้อย่างรวดเร็ว
- เพิ่มความคมชัด: สำหรับข้อความที่จาง เพิ่มความคมชัดหรือเปลี่ยนเป็นระดับสีเทา การทำให้พื้นหลังสว่างขึ้นจะลดเสียงรบกวน
- แยกไฟล์: แยกเอกสารที่ไม่เกี่ยวข้องหรือแทรกเพิ่มเติมเพื่อให้เครื่องยนต์ OCR เห็นการจัดรูปแบบที่สอดคล้องกัน
- ใส่คำอธิบายประกอบสำเนา: บันทึกส่วนที่ต้องคงไว้ (ลายเซ็น ตราประทับ) แยกสิ่งเหล่านี้ออกเป็นภาพอ้างอิง
หากการสแกนไม่ดี: เมื่อหน้าภาพเบลอหรือไม่อยู่กึ่งกลาง ให้สแกนใหม่ที่ 300 DPI ในระดับสีเทา ปิดการบีบอัดอัตโนมัติ และใช้สแกนเนอร์แบบแบนหากต้นฉบับถูกผูกไว้
ขั้นตอนที่ 2 — ใช้ OCR ที่คุณไว้วางใจได้
เลือกใช้ซอฟต์แวร์ OCR ที่เข้าใจคู่ภาษาของคุณและเคารพความลับ
- เลือกเครื่องมือประมวลผล: Desktop (ABBYY FineReader, Adobe Acrobat, Readiris) ให้ความแม่นยำสูงสุดและประมวลผลในเครื่อง Cloud (Google Drive OCR, Azure AI Vision) เหมาะสำหรับการประมวลผลจำนวนมาก Mobile scanners (Prizmo, Microsoft Lens) เหมาะสำหรับการสแกนขณะเดินทางแต่ควรตรวจสอบความแม่นยำอีกครั้ง
- ติดตั้งชุดภาษา: เปิดใช้งานพจนานุกรมสำหรับภาษาต้นทาง ภาษาปลายทาง และสคริปต์เพิ่มเติม (Cyrillic, Arabic, simplified/traditional Chinese)
- ตั้งค่าตัวเลือกการส่งออก: เลือก DOCX หรือ PDF ที่สามารถค้นหาได้พร้อมข้อความเหนือภาพ รักษาตารางและทำให้ข้อความที่ซ่อนอยู่สามารถมองเห็นได้สำหรับการตรวจสอบคุณภาพในภายหลัง
- ตรวจสอบหน้า: ตรวจสอบส่วนที่ซับซ้อน เช่น คอลัมน์ เชิงอรรถ ตราประทับ เพื่อยืนยันว่าตัวอักษรถูกแปลงอย่างถูกต้อง บันทึกทั้งผลลัพธ์ OCR และการสแกนต้นฉบับ
อย่าอัปโหลดไฟล์ที่เป็นความลับไปยังบริการ OCR บนคลาวด์โดยไม่ได้รับอนุญาตอย่างชัดเจนและข้อตกลงการประมวลผลข้อมูลที่ลงนามแล้ว
ขั้นตอนที่ 3 — เตรียมการส่งออกสำหรับการแปล
เป้าหมายของคุณตอนนี้คือไฟล์ที่สะอาดและมีโครงสร้างที่นักแปลหรือเครื่องมือสามารถใช้ได้โดยไม่ทำให้รูปแบบเสียหาย
- ปรับรูปแบบให้เป็นมาตรฐาน: ใช้รูปแบบหัวข้อและย่อหน้า จับคู่ตระกูลฟอนต์ และมาตรฐานระยะห่าง เพื่อป้องกันไม่ให้เครื่องมือ AI สร้างรูปแบบใหม่
- แก้ไขตารางและรายการ: สร้างเซลล์ที่รวมกันใหม่ ตรวจสอบให้แน่ใจว่ารายการหัวข้อย่อยใช้รูปแบบเดียว และแปลงภาพพร้อมข้อความเป็นรูปร่างที่แก้ไขได้หรือคำอธิบาย
- แยกองค์ประกอบที่ไม่ใช่ข้อความ: สำหรับตราประทับหรือคำอธิบายลายมือที่คุณวางแผนจะแปล ให้สร้างใหม่ด้วยเครื่องมือเวกเตอร์หรือเตรียมป้ายแปล
- รักษาการอ้างอิง: ล็อกส่วนต่างๆ เช่น ตารางการเงินหรือข้อกฎหมายที่ต้องคงไว้ไม่เปลี่ยนแปลง เพิ่มความคิดเห็นระบุ “ห้ามแปล” ตามความจำเป็น
- สร้างคำแนะนำการแปล: รวมถึงผู้ชม แนวทางโทนเสียง ลิงก์พจนานุกรม และคำแนะนำการจัดรูปแบบเพื่อให้ผู้แปลรู้ข้อจำกัด
บันทึกไฟล์ที่เตรียมนี้เป็นไฟล์หลัก .docx หรือ .idml และเก็บผลลัพธ์ OCR เป็นสำรอง
ขั้นตอนที่ 4 — แปลด้วยกระบวนการที่เหมาะสม
เลือกเส้นทางการแปลที่เหมาะสมกับความสำคัญของเอกสาร ปริมาณ และงบประมาณ
- การแปลด้วยคอมพิวเตอร์ช่วย (CAT): นำเข้า DOCX ไปยัง SDL Trados, memoQ, Phrase หรือ Lokalise ใช้ประโยชน์จากหน่วยความจำการแปลและฐานคำศัพท์เพื่อรักษาความสอดคล้องและป้องกันการแก้ไขโดยไม่ได้ตั้งใจในส่วนที่ล็อกไว้
- การแปลด้วย AI ช่วย: สำหรับร่างภายใน ใช้บริการ AI ที่เน้นความเป็นส่วนตัวซึ่งให้คุณอัปโหลดเอกสารได้อย่างปลอดภัย รันชุดเล็ก ๆ แล้วตรวจสอบแต่ละส่วนกับแหล่งที่มา
- ผู้เชี่ยวชาญมนุษย์: เอกสารที่ละเอียดอ่อน ทางกฎหมาย หรือที่ต้องเผชิญหน้ากับลูกค้าควรส่งไปยังนักแปลมืออาชีพ ให้ข้อมูลสรุป คำศัพท์ และความคาดหวังด้าน QA ล่วงหน้า
ไม่ว่าคุณจะเลือกเส้นทางใด ให้กำหนดผู้ตรวจสอบภายในหรือภาษาศาสตร์เพื่อตรวจสอบไฟล์เป้าหมาย ผลลัพธ์ของเครื่องจักรมักต้องการ QA ของมนุษย์สำหรับชื่อ ตัวเลข และโทนเสียง
ขั้นตอนที่ 5 — สร้างเลย์เอาต์และ QA ใหม่
เมื่อการแปลได้รับการอนุมัติแล้ว ให้ทำให้ไฟล์ที่ส่งมอบดูเหมือนต้นฉบับ
- ปรับเลย์เอาต์ใหม่: ปรับกล่องข้อความ คอลัมน์ และความกว้างของตารางสำหรับภาษาที่ต้องการ เพิ่มหรือลดพื้นที่ว่างเมื่อประโยคขยายหรือหดตัว
- แทรกรูปภาพใหม่: แทนที่หรืออัปเดตรูปภาพ ตราประทับ และลายเซ็น เมื่อการแปลฝังอยู่ในกราฟิก ให้ส่งออกการแทนที่ความละเอียดสูง
- ตรวจสอบการพิมพ์: ยืนยันว่าฟอนต์รองรับชุดอักขระเป้าหมาย แทนที่ด้วยฟอนต์ที่มีใบอนุญาตหากจำเป็น
- QA สองภาษา: ใช้รายการตรวจสอบเพื่อเปรียบเทียบแหล่งที่มาและเป้าหมายเคียงข้างกัน ตรวจสอบตัวเลข วันที่ การอ้างอิงทางกฎหมาย การอ้างอิงข้าม และไฮเปอร์ลิงก์
- พิสูจน์อักษรขั้นสุดท้าย: ให้เจ้าของภาษาตรวจสอบ PDF เป้าหมายในบริบท ส่งออกไฟล์สุดท้ายเป็น PDF แบบแบนและ DOCX ที่สามารถแก้ไขได้อย่างสมบูรณ์สำหรับการอัปเดตในอนาคต
เก็บถาวรการสแกนแหล่งที่มา ผลลัพธ์ OCR และทรัพย์สินการแปลไว้ด้วยกันเพื่อให้การอัปเดตในอนาคตใช้เวลาเป็นชั่วโมง ไม่ใช่วัน
ต้องการทางลัดแบบครบวงจรหรือไม่?
OpenL รองรับการแปล PDF ที่สแกนโดยตรงด้วย OCR ในตัว การควบคุมความเป็นส่วนตัว และการรักษารูปแบบ อัปโหลดไฟล์ เลือกภาษาที่ต้องการ และตรวจสอบผลลัพธ์สองภาษาก่อนส่งออก ดูขั้นตอนการทำงานที่ doc.openl.io/translate/pdf
เครื่องมือและเทมเพลตที่แนะนำ
| ความต้องการ | ดีที่สุดสำหรับ | เครื่องมือตัวอย่าง | หมายเหตุ |
|---|---|---|---|
| การทำความสะอาดการสแกน | การปรับความเอียง การแก้ไขความคมชัด | Adobe Acrobat Enhance Scans, ScanTailor Advanced | การประมวลผลในเครื่อง; เก็บต้นฉบับไม่เปลี่ยนแปลง |
| ความแม่นยำของ OCR | เอกสารหลายภาษา | ABBYY FineReader, Tesseract (พร้อม GUI), Azure AI Vision | ติดตั้งแพ็คภาษาและพจนานุกรมที่กำหนดเอง |
| การแปลที่ปลอดภัย | เนื้อหาที่ละเอียดอ่อน | memoQ, Phrase On-Premise, DeepL Teams | ตรวจสอบการอยู่อาศัยของข้อมูลและข้อกำหนดความลับ |
| ท่อส่งแบบครบวงจร | การแปล PDF ที่สแกนโดยตรง | OpenL PDF Translator | อัปโหลดครั้งเดียว ใช้ OCR + การแปล แล้วส่งออกไฟล์สองภาษา |
| การสร้างรูปแบบใหม่ | ตารางและกราฟิกที่ซับซ้อน | Microsoft Word Styles, InDesign, Affinity Publisher | ทำซ้ำรูปแบบก่อนนำเข้าการแปล |
| รายการตรวจสอบ QA | การตรวจสอบสองภาษา | Xbench, Verifika, custom Google Sheet | ตั้งค่าสถานะชื่อ ตัวเลข ตัวย่อ และการจัดรูปแบบ |
ต้องการเริ่มต้นใช่ไหม? สร้างโฟลเดอร์ที่ใช้ร่วมกันพร้อมการสแกน ผลลัพธ์ OCR สรุปการแปล พจนานุกรม และรายการตรวจสอบ QA ใครก็ตามที่เข้าร่วมโครงการกลางสามารถรับได้ทันที
เคล็ดลับสุดท้าย
- บันทึกเวอร์ชันที่เพิ่มขึ้นในแต่ละขั้นตอน (OCR ที่เตรียมไว้ การส่งมอบนักแปล QA เสร็จสมบูรณ์) เพื่อให้คุณสามารถย้อนกลับได้ทันทีหากการจัดรูปแบบเสีย
- เมื่อสงสัยเกี่ยวกับความถูกต้องของ OCR ให้เรียกใช้การเปรียบเทียบจำนวนคำ: ไฟล์ OCR และไฟล์ที่แปลควรสอดคล้องกันอย่างใกล้ชิด
- สำหรับประเภทเอกสารที่เกิดซ้ำ (ใบแจ้งยอดรายเดือน คู่มือผลิตภัณฑ์) ให้เปลี่ยนขั้นตอนการทำงานนี้เป็นขั้นตอนการปฏิบัติงานมาตรฐานและใช้พจนานุกรมและเทมเพลตของคุณซ้ำ
แปลร่างแรกอย่างรวดเร็ว แต่รักษาความถูกต้องด้วยการเตรียมการและการตรวจสอบคุณภาพที่มีโครงสร้าง—การผสมผสานนี้ทำให้ลูกค้า หน่วยงานกำกับดูแล และผู้อ่านมั่นใจในทุกหน้า


