Woordenlijst

Wat is PDF OCR?

PDF OCR (optische tekenherkenning) is het proces waarbij tekst die in een gescande PDF alleen als afbeelding voorkomt, wordt omgezet in selecteerbare, doorzoekbare, machineleesbare tekst.

PDF-bestanden zijn er in twee soorten: met een tekstlaag (digitaal geboren, bijvoorbeeld geëxporteerd uit Word of LaTeX) — tekst is direct leesbaar; en gescand (foto van papier of via een scanner) — de pagina is alleen een afbeelding van letters. Zonder OCR is het tweede type niet te doorzoeken, kopiëren of samen te vatten.

Een OCR-engine analyseert de pagina-afbeelding: detecteert regels en tekens, herkent vormen (glyphs), reconstrueert woorden en alinea’s en voegt vervolgens een tekstlaag toe aan de PDF of exporteert een apart tekstbestand. Moderne engines gebruiken diepe neurale netwerken in plaats van oude template-matching-algoritmes; in de belangrijkste talen overschrijdt de nauwkeurigheid op schone druk de 99%.

OCR-kwaliteit daalt bij slechte scans (scheefstand, lage resolutie, vervaagde inkt), dichte formules, meerkolomsopmaak en schriftsystemen met weinig trainingsdata. Voor belangrijke documenten is best practice: kleurenscan op 300 dpi, een moderne engine en het resultaat nakijken voordat je citeert.

Waar Summio inpast

Wanneer je een PDF uploadt naar Summio, herkent de app automatisch of OCR nodig is en voert het uit vóór de samenvatting. Zowel het originele bestand als de OCR-tekst blijven op je account — en worden niet gebruikt om enig AI-model te trainen.

Meer weten over Summio →

Veelgestelde vragen

Is PDF OCR gratis?

Apple’s ingebouwde PDFKit, Adobe Acrobat Reader en de meeste moderne PDF-tools bieden OCR gratis of voor een symbolisch bedrag aan. Summio integreert OCR rechtstreeks in de PDF-samenvattingsflow, dus een aparte stap is niet nodig.

Hoe nauwkeurig is OCR op gescande boeken?

In de belangrijkste talen haalt moderne OCR op goed gescande drukpagina’s meer dan 99% nauwkeurigheid op karakterniveau. Scheve scans, vervaagde kopieën en zeldzame lettertypen kunnen onder de 90% zakken en handmatige correctie vereisen.

Werkt OCR op handgeschreven PDF’s?

Oudere engines hebben moeite met handschrift. Nieuwere op basis van machine learning (Apple Vision, Google Document AI) presteren redelijk op net en bijna-drukschrift; bij rommelig handschrift zijn ze minder effectief.