Hvad er PDF OCR?
PDF OCR (optisk tegngenkendelse) er processen, hvor tekst, der i en skannet PDF kun findes som billede, omdannes til markérbar, søgbar og maskinlæsbar tekst.
PDF-filer findes i to varianter: med tekstlag (født digitalt, fx eksporteret fra Word eller LaTeX) — teksten kan læses direkte; og skannet (foto af papir eller kørt gennem en skanner) — siden består kun af billeder af bogstaver. Uden OCR kan den anden type hverken søges, kopieres eller resumeres.
En OCR-motor analyserer sidens billede: finder linjer og tegn, genkender former (glyffer), rekonstruerer ord og afsnit og tilføjer derefter et tekstlag i PDF'en eller eksporterer en separat tekstfil. Moderne motorer bruger dybe neurale netværk i stedet for gamle skabelon-matchningsalgoritmer; på rent tryk i de største sprog overstiger nøjagtigheden 99 %.
OCR-kvaliteten falder ved dårlige skanninger (skævhed, lav opløsning, blegt blæk), tæt formelsætning, flerspaltet typografi og skriftsystemer med lidt træningsdata. Til vigtige dokumenter er bedste praksis: farveskanning ved 300 dpi, en moderne motor og gennemgang af resultatet før citering.
Når du uploader en PDF til Summio, registrerer appen automatisk, om OCR er nødvendigt, og kører det før resuméet. Både den originale fil og OCR-teksten forbliver på din konto — og bruges ikke til at træne nogen AI-model.
Læs mere om Summio →Ofte stillede spørgsmål
Er PDF OCR gratis?
Apples indbyggede PDFKit, Adobe Acrobat Reader og de fleste moderne PDF-værktøjer tilbyder OCR gratis eller for et symbolsk beløb. Summio bager OCR direkte ind i PDF-resuméflowet, så et separat trin er ikke nødvendigt.
Hvor nøjagtig er OCR på skannede bøger?
I de største sprog leverer moderne OCR mere end 99 % nøjagtighed på tegnniveau på velskannet tryk. Skæve skanninger, blege kopier og sjældne skrifttyper kan falde under 90 % og kræve manuel rettelse.
Virker OCR på håndskrevne PDF'er?
Ældre motorer har det svært med håndskrift. Nyere maskinlæringsbaserede motorer (Apple Vision, Google Document AI) klarer pænt, næsten trykagtigt håndskrift rimeligt; ved rodet håndskrift er de mindre effektive.
