스캔된 PDF 번역 방법

OpenL Team 11/4/2025

TABLE OF CONTENTS

스캔된 PDF는 일반 문서처럼 보이지만, 각 페이지는 단순한 이미지일 뿐입니다. 이 파일을 바로 기계 번역에 넣으면 서식이 깨지고, 문자가 잘못 읽히며, 민감한 데이터가 잘못된 서비스로 유출될 위험이 있습니다. 더 나은 워크플로우는 스캔을 정리하고, 정확한 OCR을 실행하며, 안전한 플랫폼에서 번역한 후, 출판 전에 레이아웃을 재구성하는 것입니다.

한눈에 보기:

  • OCR이 제대로 작동할 수 있도록 스캔 품질을 감사하고, 손대지 않아야 할 부분을 식별합니다.
  • 문서의 내용에 맞는 언어 팩과 개인정보 보호 설정을 갖춘 OCR 소프트웨어를 선택합니다.
  • 제목, 표, 참조를 보존하는 깨끗한 DOCX 또는 검색 가능한 PDF에서 번역합니다.
  • 대상 언어 텍스트를 재구성한 후, 숫자, 이름, 법적 문구가 제대로 유지되었는지 확인하는 이중 언어 QA를 실행합니다.

스캔된 PDF가 추가 작업이 필요한 이유

이미지 기반 PDF에는 활성 텍스트 레이어가 전혀 없습니다. 이는 다음을 의미합니다:

  • 검색 엔진과 CAT 도구는 OCR 없이는 단어를 읽을 수 없습니다.
  • 복사 및 붙여넣기는 시각적 결함, 숨겨진 열 및 아티팩트를 복제합니다.
  • 기계 번역은 파일을 이미지로 처리하므로, 누락된 단락이나 깨진 문자가 발생합니다.
  • 전체 파일을 공개된 OCR 웹 앱에 업로드하면 민감한 데이터가 노출됩니다.

스캔된 문서를 번역하는 것은 먼저 변환 프로젝트이고, 그 다음이 언어 프로젝트입니다. 준비에 시간을 투자하면 나중에 수정 루프를 크게 줄일 수 있습니다.

번역 전 체크리스트

도구를 열기 전에 이 빠른 체크를 사용하세요:

  • 권리 및 준수: 특히 의료, 법률 또는 HR 파일의 경우 번역 권한이 있는지 확인하십시오. 문서가 네트워크를 떠날 수 있는지 결정하십시오.
  • 스캔 기본 사항: 300 DPI 해상도 이상, 직선 페이지, 명확한 대비, 최소한의 번짐을 확인하십시오. 수기 메모나 도장이 있는지 주의하십시오.
  • 언어 범위: 소스 방언, 특수 용어, 정확한 대상 언어 변형(예: en-GB vs en-US)을 식별하십시오. 지금 용어집이나 용어 사전을 가져오십시오.
  • 서식 특이점: 표, 다중 열 레이아웃, 서명, 인장 또는 워터마크를 표시하여 이를 보존하는 방법을 계획할 수 있도록 하십시오.
  • 처리 시간 기대치: 전달 형식(DOCX, 검색 가능한 PDF, 이중 언어 표), 일정 및 검토 책임에 대해 이해 관계자와 조율하십시오.

체크리스트 항목 중 두 개 이상이 실패하면 계속하기 전에 다시 스캔하거나 더 나은 원본을 요청하십시오.

Step 1 — 스캔 빠르게 정리하기

몇 분의 정리 작업으로 OCR 정확도가 크게 향상됩니다.

  1. 기울기 조정 및 자르기: 기울어진 페이지의 기울기를 조정하고 테두리를 다듬고 검은 가장자리를 제거하십시오. 대부분의 PDF 편집기와 ScanTailor 또는 Adobe Acrobat의 Enhance Scans와 같은 무료 도구가 이를 빠르게 수행합니다.
  2. 대비 증가: 희미한 텍스트의 경우 대비를 높이거나 그레이스케일로 전환하십시오. 배경을 밝게 하면 노이즈가 줄어듭니다.
  3. 파일 분할: 관련이 없는 문서나 추가 삽입물을 분리하여 OCR 엔진이 일관된 형식을 볼 수 있도록 하십시오.
  4. 복사본에 주석 달기: 변경되지 않아야 하는 섹션(서명, 도장)을 기록하십시오. 이를 참조 이미지로 따로 설정하십시오.

스캔 품질이 낮은 경우: 페이지가 흐릿하거나 중심이 맞지 않으면 그레이스케일로 300 DPI로 다시 스캔하고 자동 압축을 비활성화하고 원본이 제본된 경우 평판 스캐너를 사용하십시오.

Step 2 — 신뢰할 수 있는 OCR 실행

귀하의 언어 쌍을 이해하고 기밀성을 존중하는 OCR 소프트웨어를 선택하십시오.

  • 엔진 선택: 데스크톱(ABBYY FineReader, Adobe Acrobat, Readiris)은 가장 높은 정확도와 로컬 처리를 제공합니다. 클라우드(Google Drive OCR, Azure AI Vision)는 대량 처리를 확장할 수 있습니다. 모바일 스캐너(Prizmo, Microsoft Lens)는 이동 중 캡처에 유용하지만 정확성을 다시 확인해야 합니다.
  • 언어 팩 설치: 소스 언어, 대상 언어 및 추가 스크립트(키릴 문자, 아랍어, 간체/번체 중국어)에 대한 사전을 활성화합니다.
  • 내보내기 옵션 설정: 이미지 위에 텍스트가 있는 DOCX 또는 검색 가능한 PDF를 선택합니다. 테이블을 보존하고 나중에 QA를 위해 숨겨진 텍스트를 보이게 유지합니다.
  • 페이지 확인: 복잡한 섹션(열, 각주, 도장)을 대조하여 문자가 올바르게 변환되었는지 확인합니다. OCR 출력과 원본 스캔을 모두 저장합니다.

명시적인 허가와 서명된 데이터 처리 계약 없이 기밀 파일을 클라우드 OCR 서비스에 업로드하지 마십시오.

Step 3 — 번역을 위한 내보내기 준비

이제 목표는 번역자나 도구가 레이아웃을 깨뜨리지 않고 처리할 수 있는 깔끔하고 구조화된 파일을 만드는 것입니다.

  • 스타일 표준화: 제목과 단락 스타일을 적용하고, 글꼴 패밀리를 맞추고, 간격을 표준화합니다. 이는 AI 도구가 새로운 형식을 만들어내지 않도록 방지합니다.
  • 테이블 및 목록 수정: 병합된 셀을 재구성하고, 불렛 목록이 단일 스타일을 사용하도록 하며, 텍스트가 포함된 이미지를 편집 가능한 도형이나 주석으로 변환합니다.
  • 비텍스트 요소 추출: 번역할 계획인 도장이나 손으로 쓴 주석의 경우 벡터 도구로 재생성하거나 번역된 라벨을 준비합니다.
  • 참조 보안: 재무 테이블이나 법적 조항과 같이 손대지 말아야 할 섹션을 잠그고, 필요한 경우 “번역하지 마십시오”라는 주석을 추가합니다.
  • 번역 브리프 작성: 청중, 톤 가이드라인, 용어집 링크 및 형식 지침을 포함하여 번역자가 제약 조건을 알 수 있도록 합니다.

이 준비된 파일을 마스터 .docx 또는 .idml로 저장하고, OCR 출력을 백업으로 유지합니다.

Step 4 — 올바른 워크플로우로 번역하기

문서의 중요성, 볼륨 및 예산에 맞는 번역 경로를 선택하십시오.

  • 컴퓨터 지원 번역 (CAT): SDL Trados, memoQ, Phrase, 또는 Lokalise에 DOCX를 가져옵니다. 번역 메모리와 용어 기반을 활용하여 일관성을 유지하고 잠긴 섹션의 실수로 인한 편집을 방지합니다.
  • AI 지원 번역: 내부 초안의 경우, 문서를 안전하게 업로드할 수 있는 개인정보 보호 중심의 AI 서비스를 사용하십시오. 작은 배치를 실행한 다음, 각 세그먼트를 원본과 비교하여 검토합니다.
  • 인간 전문가: 민감한, 법률 또는 고객 대면 문서는 전문 번역가에게 보내야 합니다. 사전 브리핑, 용어집 및 QA 기대치를 제공하십시오.

어느 경로를 선택하든, 대상 파일을 검증하기 위해 내부 검토자 또는 언어 전문가를 예약하십시오. 기계 출력은 항상 이름, 숫자 및 톤에 대한 인간 QA가 필요합니다.

단계 5 — 레이아웃 재구성 및 QA

번역이 승인되면, 원본처럼 보이도록 전달물을 만드십시오.

  1. 레이아웃 재구성: 대상 언어에 맞게 텍스트 상자, 열 및 표 너비를 조정합니다. 문장이 확장되거나 축소될 때 여백을 추가하거나 줄입니다.
  2. 그래픽 재삽입: 이미지, 인장 및 서명을 교체하거나 업데이트합니다. 번역이 그래픽에 포함된 경우, 고해상도 대체물을 내보냅니다.
  3. 타이포그래피 감사: 폰트가 대상 문자 세트를 지원하는지 확인합니다; 필요한 경우 라이센스가 있는 대체 폰트를 사용합니다.
  4. 이중 언어 QA: 체크리스트를 사용하여 원본과 대상을 나란히 비교합니다. 숫자, 날짜, 법률 참조, 교차 참조 및 하이퍼링크를 확인합니다.
  5. 최종 교정: 원어민이 대상 PDF를 문맥에서 읽도록 합니다. 최종 파일을 평평한 PDF와 완전히 편집 가능한 DOCX로 내보내어 미래 업데이트를 준비합니다.

원본 스캔, OCR 출력 및 번역 자산을 함께 보관하여 미래 업데이트가 몇 시간이 아닌 며칠이 걸리도록 합니다.

끝에서 끝까지의 지름길이 필요하십니까?

OpenL은 내장된 OCR, 개인정보 보호 제어 및 레이아웃 보존 기능을 통해 직접 스캔된 PDF 번역을 지원합니다. 파일을 업로드하고, 목표 언어를 선택한 후, 내보내기 전에 이중 언어 출력을 검토하십시오. 워크플로우는 doc.openl.io/translate/pdf에서 확인할 수 있습니다.

추천 도구 및 템플릿

필요최적의 용도예시 도구비고
스캔 정리기울기 수정, 대비 수정Adobe Acrobat Enhance Scans, ScanTailor Advanced로컬 처리; 원본을 변경하지 않음.
OCR 정확성다국어 문서ABBYY FineReader, Tesseract (with GUIs), Azure AI Vision언어 팩과 사용자 정의 사전 설치.
안전한 번역민감한 콘텐츠memoQ, Phrase On-Premise, DeepL Teams데이터 거주 및 기밀 조항 확인.
올인원 파이프라인직접 스캔된 PDF 번역OpenL PDF Translator한 번 업로드하여 OCR + 번역 적용 후 이중 언어 파일 내보내기.
레이아웃 재구성복잡한 표 및 그래픽Microsoft Word Styles, InDesign, Affinity Publisher번역을 가져오기 전에 스타일 복제.
QA 체크리스트이중 언어 검토Xbench, Verifika, custom Google Sheet이름, 숫자, 약어 및 형식 플래그 지정.

빠른 시작이 필요하십니까? 스캔, OCR 출력, 번역 브리프, 용어집 및 QA 체크리스트가 포함된 공유 폴더를 만드십시오. 프로젝트 중간에 참여하는 사람도 즉시 시작할 수 있습니다.

최종 팁

  • 각 마일스톤(준비된 OCR, 번역자 전달, QA 완료)에서 증분 버전을 저장하여 형식이 깨지면 즉시 복구할 수 있습니다.
  • OCR 충실도에 대한 의문이 있을 때는 단어 수 비교를 실행하십시오: OCR 파일과 번역된 파일이 밀접하게 일치해야 합니다.
  • 반복되는 문서 유형(월간 명세서, 제품 설명서)의 경우 이 워크플로우를 표준 운영 절차로 만들고 용어집과 템플릿을 재사용하십시오.

초안을 신속하게 번역하되, 체계적인 준비와 품질 보증을 통해 정확성을 보호하십시오. 이 조합은 고객, 규제 기관 및 독자가 모든 페이지에 대해 신뢰할 수 있도록 합니다.