Hva er PDF OCR?
PDF OCR (optisk tegngjenkjenning) er prosessen som gjør om tekst som i en skannet PDF kun finnes som bilde, til markerbar, søkbar og maskinlesbar tekst.
PDF-filer finnes i to varianter: med tekstlag (født digitalt, f.eks. eksportert fra Word eller LaTeX) — teksten kan leses direkte; og skannet (foto av papir eller kjørt gjennom en skanner) — siden består bare av bilder av bokstaver. Uten OCR kan den andre typen ikke søkes i, kopieres eller oppsummeres.
En OCR-motor analyserer sidebildet: finner linjer og tegn, gjenkjenner formene (glyfer), rekonstruerer ord og avsnitt, og legger så et tekstlag i PDF-en eller eksporterer en separat tekstfil. Moderne motorer bruker dype nevrale nettverk i stedet for gamle mal-treffsalgoritmer; på rent trykk i de største språkene overstiger nøyaktigheten 99 %.
OCR-kvaliteten synker ved dårlige skanninger (skjevhet, lav oppløsning, bleknet blekk), tett formelsetting, flerspaltet typografi og skriftsystemer med lite treningsdata. For viktige dokumenter er beste praksis: fargeskanning på 300 dpi, en moderne motor og gjennomgang av resultatet før sitering.
Når du laster opp en PDF til Summio, oppdager appen automatisk om OCR trengs og kjører den før sammendraget. Både originalfilen og OCR-teksten blir på kontoen din — og brukes ikke til å trene noen AI-modell.
Les mer om Summio →Vanlige spørsmål
Er PDF OCR gratis?
Apples innebygde PDFKit, Adobe Acrobat Reader og de fleste moderne PDF-verktøy tilbyr OCR gratis eller for en symbolsk pris. Summio baker inn OCR rett i PDF-oppsummeringsflyten, så et eget trinn er ikke nødvendig.
Hvor nøyaktig er OCR på skannede bøker?
På godt skannet trykk i de største språkene gir moderne OCR over 99 % nøyaktighet på tegnnivå. Skjeve skanninger, blekede kopier og sjeldne skrifttyper kan falle under 90 % og kreve manuell retting.
Fungerer OCR på håndskrevne PDF-er?
Eldre motorer sliter med håndskrift. Nyere motorer basert på maskinlæring (Apple Vision, Google Document AI) klarer ryddig, nesten trykkliknende håndskrift rimelig bra; ved rotete håndskrift er de mindre effektive.
