Summio

术语表

什么是PDF OCR?

PDF OCR(光学字符识别)是把扫描 PDF 中以图像形式存在的文字,转换为可选中、可检索、机器可读的文本的过程。

PDF 大致分两类:带文字层的 PDF(数字原生,比如从 Word 或 LaTeX 导出),文字可以直接读取;扫描 PDF(纸质文件经拍照或扫描而来),页面只是一张写着字的图片。没有 OCR,第二种 PDF 既无法搜索、也无法复制和摘要。

OCR 引擎会分析页面图像,找出行与字,识别字形,还原单词和段落,最后把一个文字层加回到 PDF,或单独输出一个文本文件。现代 OCR 用深度神经网络取代了过去的模板匹配算法——在主要语言的清晰印刷文本上,准确率已经超过 99%。

OCR 在以下情况质量会下降:扫描歪斜、分辨率低、墨迹褪色;密集的公式;多栏排版;以及训练语料较少的文字系统。重要文件的稳妥做法是:以 300 dpi 彩色扫描,跑一遍现代 OCR 引擎,并在引用前复核输出。

Summio 的位置

当你向 Summio 上传 PDF 时,App 会自动判断是否需要 OCR,并在生成摘要前先跑一次。原始 PDF 和 OCR 文本都保留在你的账户里——它们不会被用来训练任何 AI 模型。

了解更多关于 Summio →

常见问题

PDF OCR 免费吗?

苹果系统内置的 PDFKit、Adobe Acrobat Reader 以及大多数现代 PDF 工具都免费提供 OCR,或者收费很低。Summio 把 OCR 直接嵌进了 PDF 摘要流程中,无需单独操作。

扫描书籍的 OCR 有多准?

主流语言、扫得清晰的印刷页面,现代 OCR 在字符级上准确率超过 99%。歪斜扫描、褪色复印件、特殊字体可能跌到 90% 以下,需要人工修正。

OCR 能识别手写 PDF 吗?

老一代 OCR 引擎对手写处理得不好。新一代基于机器学习的 OCR(苹果 Vision 框架、Google Document AI)对清晰的硬笔印刷体水平不错,对潦草连笔的草书仍较差。