用語集

PDFのOCRとは?

PDFのOCR(光学文字認識)とは、スキャンされたPDFの中に画像としてしか存在しない文字を、選択・検索・機械処理が可能なテキストへ変換することです。

PDFには二種類あります。テキストレイヤーを持つPDF(WordやLaTeXから書き出されたデジタルネイティブのもの)は文字をそのまま読めます。一方、スキャンPDF(紙を撮影またはスキャナで取り込んだもの)は、ページが文字の写った絵にすぎません。OCRなしには、後者を検索することも、コピーすることも、要約することもできません。

OCRエンジンはページ画像を解析し、行と文字を検出し、字形を認識し、単語と段落を再構成して、最後にPDFへテキストレイヤーを追加します(または別ファイルとしてテキストを書き出します)。最新のOCRは旧来のテンプレートマッチングではなく深層ニューラルネットを使い、主要言語のきれいな印刷文字に対して99%以上の精度を達成しています。

OCRの精度は、傾いた・低解像度・かすれたインクなどのスキャン品質、密な数式、多段組のレイアウト、訓練データの少ない文字体系で大きく落ちます。重要書類のベストプラクティスは、300dpi・カラーでスキャンし、最新のエンジンを通し、引用に使う前に出力を必ず検査することです。

Summioの位置づけ

PDFをSummioにアップロードすると、アプリはOCRが必要かを自動判定し、要約の前に実行します。元のPDFとOCRテキストはあなたのアカウントの中に留まり、AIモデルの学習には使われません。

Summioについてもっと読む →

よくある質問

PDFのOCRは無料ですか?

Apple純正のPDFKit、Adobe Acrobat Reader、最近のPDFツールの多くは、OCRを無料または低コストで提供しています。SummioはOCRをPDF要約のフローに組み込んでいて、別途の手順は要りません。

スキャンした書籍のOCRはどれくらい正確ですか?

きれいにスキャンされた主要言語の印刷ページなら、現代のOCRは文字単位で99%超の精度が出ます。傾いたスキャンや色あせたコピー、珍しい書体は90%を下回ることがあり、手作業の修正が必要です。

OCRは手書きPDFにも効きますか?

旧来のOCRエンジンは手書きが苦手です。新しい機械学習ベースのOCR(AppleのVisionフレームワーク、Google Document AI)は読みやすい筆記体に近い活字なら十分実用的で、続け書きの筆記体には弱いという傾向があります。