PDFのOCRとは?
PDFのOCR(光学文字認識)とは、スキャンされたPDFの中に画像としてしか存在しない文字を、選択・検索・機械処理が可能なテキストへ変換することです。
PDFには二種類あります。テキストレイヤーを持つPDF(WordやLaTeXから書き出されたデジタルネイティブのもの)は文字をそのまま読めます。一方、スキャンPDF(紙を撮影またはスキャナで取り込んだもの)は、ページが文字の写った絵にすぎません。OCRなしには、後者を検索することも、コピーすることも、要約することもできません。
OCRエンジンはページ画像を解析し、行と文字を検出し、字形を認識し、単語と段落を再構成して、最後にPDFへテキストレイヤーを追加します(または別ファイルとしてテキストを書き出します)。最新のOCRは旧来のテンプレートマッチングではなく深層ニューラルネットを使い、主要言語のきれいな印刷文字に対して99%以上の精度を達成しています。
OCRの精度は、傾いた・低解像度・かすれたインクなどのスキャン品質、密な数式、多段組のレイアウト、訓練データの少ない文字体系で大きく落ちます。重要書類のベストプラクティスは、300dpi・カラーでスキャンし、最新のエンジンを通し、引用に使う前に出力を必ず検査することです。
PDFをSummioにアップロードすると、アプリはOCRが必要かを自動判定し、要約の前に実行します。元のPDFとOCRテキストはあなたのアカウントの中に留まり、AIモデルの学習には使われません。
Summioについてもっと読む →よくある質問
PDFのOCRは無料ですか?
Apple純正のPDFKit、Adobe Acrobat Reader、最近のPDFツールの多くは、OCRを無料または低コストで提供しています。SummioはOCRをPDF要約のフローに組み込んでいて、別途の手順は要りません。
スキャンした書籍のOCRはどれくらい正確ですか?
きれいにスキャンされた主要言語の印刷ページなら、現代のOCRは文字単位で99%超の精度が出ます。傾いたスキャンや色あせたコピー、珍しい書体は90%を下回ることがあり、手作業の修正が必要です。
OCRは手書きPDFにも効きますか?
旧来のOCRエンジンは手書きが苦手です。新しい機械学習ベースのOCR(AppleのVisionフレームワーク、Google Document AI)は読みやすい筆記体に近い活字なら十分実用的で、続け書きの筆記体には弱いという傾向があります。
