Was ist PDF-OCR?
PDF-OCR (Optical Character Recognition, optische Zeichenerkennung) ist der Vorgang, der den Text, der in einem gescannten PDF nur als Bild vorliegt, in auswählbaren, durchsuchbaren und maschinenlesbaren Text verwandelt.
Es gibt zwei Sorten PDF: solche mit Textebene (digital geboren — etwa aus Word oder LaTeX exportiert), in denen Text direkt lesbar ist, und gescannte PDFs (abfotografiertes oder eingescanntes Papier), in denen die Seite nur ein Bild von Text ist. Ohne OCR lässt sich Letzteres weder durchsuchen, noch kopieren, noch zusammenfassen.
Eine OCR-Engine analysiert das Seitenbild, findet Zeilen und Zeichen, erkennt Glyphen, rekonstruiert Wörter und Absätze und fügt schließlich dem PDF eine Textebene hinzu (oder legt eine separate Textdatei an). Moderne OCR setzt tiefe neuronale Netze statt der älteren Mustervergleichsalgorithmen ein — die Genauigkeit auf sauberem Drucktext in den großen Sprachen liegt heute über 99 %.
Die OCR-Qualität sinkt bei schlechten Scans (schief, niedrige Auflösung, verblasste Tinte), bei dichten Formeln, bei mehrspaltigen Layouts und bei Schriften mit knappen Trainingsdaten. Best Practice für wichtige Dokumente: in 300 dpi und in Farbe scannen, eine moderne Engine laufen lassen und die Ausgabe prüfen, bevor man daraus zitiert.
Wenn du ein PDF in Summio hochlädst, erkennt die App automatisch, ob OCR nötig ist, und führt es vor der Zusammenfassung aus. Das Originál-PDF und der OCR-Text bleiben in deinem Konto — sie werden nicht zum Training von KI-Modellen genutzt.
Mehr über Summio erfahren →Häufige Fragen
Ist PDF-OCR kostenlos?
Apples eingebautes PDFKit, Adobe Acrobat Reader und die meisten modernen PDF-Tools enthalten OCR kostenlos oder zu geringen Kosten. Summio bündelt OCR direkt in die PDF-Zusammenfassung — kein separater Schritt.
Wie genau ist OCR bei eingescannten Büchern?
Bei sauber gescannten Drucken in großen Sprachen erreicht moderne OCR mehr als 99 % Zeichengenauigkeit. Schiefe Scans, verblasste Fotokopien und ungewöhnliche Schriften können unter 90 % fallen — manuelle Nacharbeit ist dann nötig.
Funktioniert OCR bei handgeschriebenen PDFs?
Ältere OCR-Engines kommen mit Handschrift schlecht zurecht. Neuere ML-basierte OCR (Apples Vision-Framework, Google Document AI) bewältigen klares Druckschrift-Handschriftliches recht ordentlich, Kursive jedoch schlecht.
