Mitä on PDF OCR?
PDF OCR (optinen merkkien tunnistus) on prosessi, jossa skannatussa PDF:ssä vain kuvana esiintyvä teksti muutetaan valittavissa olevaksi, haettavaksi ja koneluettavaksi tekstiksi.
PDF-tiedostoja on kahta tyyppiä: tekstikerroksellisia (digitaalisesti syntyneitä, esim. Wordista tai LaTeXista vietyjä) — teksti voidaan lukea suoraan; ja skannattuja (paperin valokuvaus tai skanneri) — sivu koostuu pelkistä kirjainkuvista. Ilman OCR:ää jälkimmäistä tyyppiä ei voi hakea, kopioida eikä tiivistää.
OCR-moottori analysoi sivun kuvan: tunnistaa rivit ja merkit, hahmottaa muodot (glyfit), rekonstruoi sanat ja kappaleet ja lisää tekstikerroksen PDF:ään tai vie erillisen tekstitiedoston. Nykyaikaiset moottorit käyttävät syviä neuroverkkoja vanhojen mallinsovitusalgoritmien sijaan; suurimmilla kielillä tarkkuus puhtaalla painolla ylittää 99 %.
OCR:n laatu heikkenee huonoissa skannauksissa (vinous, matala resoluutio, haalistunut muste), tiheissä kaavoissa, useassa palstassa ja kirjoitusjärjestelmissä, joissa on niukasti koulutusaineistoa. Tärkeisiin asiakirjoihin paras käytäntö: värillinen skannaus 300 dpi:llä, nykyaikainen moottori ja tuloksen tarkistus ennen lainaamista.
Kun lataat PDF:n Summioon, sovellus tunnistaa automaattisesti, tarvitaanko OCR:ää, ja suorittaa sen ennen tiivistämistä. Sekä alkuperäinen tiedosto että OCR-teksti säilyvät tililläsi — eikä niitä käytetä yhdenkään AI-mallin kouluttamiseen.
Lue lisää Summiosta →Usein kysytyt kysymykset
Onko PDF OCR ilmainen?
Applen sisäänrakennettu PDFKit, Adobe Acrobat Reader ja useimmat nykyaikaiset PDF-työkalut tarjoavat OCR:n ilmaiseksi tai pientä maksua vastaan. Summio leipoo OCR:n suoraan PDF-tiivistämisen virtaan, joten erillistä vaihetta ei tarvita.
Kuinka tarkka OCR on skannatuissa kirjoissa?
Suurimmilla kielillä hyvin skannatuilla painosivuilla nykyaikainen OCR ylittää 99 %:n merkkitarkkuuden. Vinot skannaukset, haalistuneet kopiot ja harvinaiset kirjasinlajit voivat pudota alle 90 %:n ja vaatia manuaalista korjausta.
Toimiiko OCR käsin kirjoitetuissa PDF:issä?
Vanhat moottorit kamppailevat käsialan kanssa. Uudet koneoppimispohjaiset (Apple Vision, Google Document AI) suoriutuvat kohtuullisesti siististä, lähes painokirjoitusta muistuttavasta käsialasta; sotkuisessa käsialassa ne ovat vähemmän tehokkaita.
