PDF OCR란 무엇인가요?
PDF OCR(광학 문자 인식)이란 스캔된 PDF 안에 이미지로만 존재하는 글자를 선택·검색이 가능하고 기계가 읽을 수 있는 텍스트로 바꾸는 과정을 말합니다.
PDF에는 두 종류가 있습니다. 텍스트 레이어가 있는 PDF(예: Word나 LaTeX에서 내보낸 디지털 네이티브 파일)는 글자를 바로 읽을 수 있습니다. 반면 스캔 PDF(종이를 사진으로 찍거나 스캐너로 들여온 파일)는 페이지 자체가 그저 글자가 찍힌 그림일 뿐입니다. OCR이 없으면 두 번째 종류는 검색할 수도, 복사할 수도, 요약할 수도 없습니다.
OCR 엔진은 페이지 이미지를 분석해 줄과 글자를 찾고, 글리프를 인식하고, 단어와 단락을 복원한 다음, 마지막에 PDF에 텍스트 레이어를 더하거나 별도의 텍스트 파일을 만들어 줍니다. 현대 OCR은 옛 템플릿 매칭 알고리즘 대신 심층 신경망을 사용하며, 주요 언어의 깨끗한 활자체에 대해 문자 단위 99% 이상의 정확도를 냅니다.
OCR 품질은 스캔이 기울었거나 해상도가 낮거나 잉크가 흐려졌을 때, 수식이 빽빽할 때, 다단 레이아웃일 때, 학습 데이터가 적은 문자 체계에서 떨어집니다. 중요한 문서의 모범 절차는 300 dpi 컬러로 스캔하고, 최신 엔진을 돌리고, 인용에 쓰기 전에 결과를 점검하는 것입니다.
PDF를 Summio에 올리면, 앱이 OCR이 필요한지 직접 판단해 요약 전에 실행합니다. 원본 PDF와 OCR 결과는 모두 사용자의 계정 안에 남아 있으며, AI 모델 학습에 쓰이지 않습니다.
Summio에 대해 더 알아보기 →자주 묻는 질문
PDF OCR은 무료인가요?
Apple의 내장 PDFKit, Adobe Acrobat Reader, 그리고 대부분의 최근 PDF 도구들은 OCR을 무료 또는 저렴한 가격으로 제공합니다. Summio는 OCR을 PDF 요약 흐름에 포함해 두었으므로 별도의 단계가 필요 없습니다.
스캔한 책에 대해 OCR은 얼마나 정확한가요?
주요 언어의 깨끗하게 스캔된 활자 페이지라면, 현대 OCR은 문자 단위 정확도가 99%를 넘습니다. 기울어진 스캔, 색이 바랜 복사본, 특이한 글꼴은 90% 아래로 떨어질 수 있으며, 수작업으로 보정해야 합니다.
OCR이 손글씨 PDF에도 잘 되나요?
구식 OCR 엔진은 손글씨에 약합니다. 머신러닝 기반의 최신 OCR(Apple의 Vision 프레임워크, Google Document AI)은 또박또박한 활자체에 가까운 글씨는 꽤 잘 처리하지만, 흘려 쓴 필기체는 여전히 약합니다.
