Vad är PDF OCR?
PDF OCR (optisk teckenigenkänning) är processen att omvandla text som i en skannad PDF bara finns som bild till markerbar, sökbar och maskinläsbar text.
PDF-filer finns i två varianter: med textlager (digitalt född, t.ex. exporterad från Word eller LaTeX) — texten kan läsas direkt; och skannad (foto av papper eller via en skanner) — sidan består bara av bokstavsbilder. Utan OCR går den andra typen varken att söka i, kopiera eller sammanfatta.
En OCR-motor analyserar sidbilden: hittar rader och tecken, känner igen formerna (glyfer), rekonstruerar ord och stycken och lägger sedan ett textlager i PDF:en eller exporterar en separat textfil. Moderna motorer använder djupa neurala nätverk i stället för gamla mall-matchningsalgoritmer; på rent tryck i större språk överstiger noggrannheten 99 %.
OCR-kvaliteten sjunker vid dåliga skanningar (lutning, låg upplösning, blek bläck), tät formelsättning, flerspaltsuppställning och skriftsystem med lite träningsdata. För viktiga dokument är bästa praxis: färgskanning vid 300 dpi, modern motor och granskning av resultatet före citering.
När du laddar upp en PDF till Summio upptäcker appen automatiskt om OCR behövs och kör det före sammanfattningen. Både originalfilen och OCR-texten stannar på ditt konto — och används inte för att träna någon AI-modell.
Läs mer om Summio →Vanliga frågor
Är PDF OCR gratis?
Apples inbyggda PDFKit, Adobe Acrobat Reader och de flesta moderna PDF-verktyg erbjuder OCR gratis eller mot en symbolisk avgift. Summio bakar in OCR direkt i PDF-sammanfattningsflödet, så inget separat steg behövs.
Hur noggrant är OCR på skannade böcker?
På välskannad tryckt text i större språk ger modern OCR över 99 % noggrannhet på teckennivå. Sneda skanningar, bleka kopior och ovanliga typsnitt kan hamna under 90 % och kräva manuell korrigering.
Fungerar OCR på handskrivna PDF-filer?
Äldre motorer kämpar med handskrift. Nyare motorer baserade på maskininlärning (Apple Vision, Google Document AI) klarar sig rimligt på prydlig, nästan tryckliknande skrift; vid stökig handskrift är de mindre effektiva.
