Sanasto

Mitä on PDF OCR?

PDF OCR (optinen merkkien tunnistus) on prosessi, jossa skannatussa PDF:ssä vain kuvana esiintyvä teksti muutetaan valittavissa olevaksi, haettavaksi ja koneluettavaksi tekstiksi.

PDF-tiedostoja on kahta tyyppiä: tekstikerroksellisia (digitaalisesti syntyneitä, esim. Wordista tai LaTeXista vietyjä) — teksti voidaan lukea suoraan; ja skannattuja (paperin valokuvaus tai skanneri) — sivu koostuu pelkistä kirjainkuvista. Ilman OCR:ää jälkimmäistä tyyppiä ei voi hakea, kopioida eikä tiivistää.

OCR-moottori analysoi sivun kuvan: tunnistaa rivit ja merkit, hahmottaa muodot (glyfit), rekonstruoi sanat ja kappaleet ja lisää tekstikerroksen PDF:ään tai vie erillisen tekstitiedoston. Nykyaikaiset moottorit käyttävät syviä neuroverkkoja vanhojen mallinsovitusalgoritmien sijaan; suurimmilla kielillä tarkkuus puhtaalla painolla ylittää 99 %.

OCR:n laatu heikkenee huonoissa skannauksissa (vinous, matala resoluutio, haalistunut muste), tiheissä kaavoissa, useassa palstassa ja kirjoitusjärjestelmissä, joissa on niukasti koulutusaineistoa. Tärkeisiin asiakirjoihin paras käytäntö: värillinen skannaus 300 dpi:llä, nykyaikainen moottori ja tuloksen tarkistus ennen lainaamista.

Mihin Summio sopii

Kun lataat PDF:n Summioon, sovellus tunnistaa automaattisesti, tarvitaanko OCR:ää, ja suorittaa sen ennen tiivistämistä. Sekä alkuperäinen tiedosto että OCR-teksti säilyvät tililläsi — eikä niitä käytetä yhdenkään AI-mallin kouluttamiseen.

Lue lisää Summiosta →

Usein kysytyt kysymykset

Onko PDF OCR ilmainen?

Applen sisäänrakennettu PDFKit, Adobe Acrobat Reader ja useimmat nykyaikaiset PDF-työkalut tarjoavat OCR:n ilmaiseksi tai pientä maksua vastaan. Summio leipoo OCR:n suoraan PDF-tiivistämisen virtaan, joten erillistä vaihetta ei tarvita.

Kuinka tarkka OCR on skannatuissa kirjoissa?

Suurimmilla kielillä hyvin skannatuilla painosivuilla nykyaikainen OCR ylittää 99 %:n merkkitarkkuuden. Vinot skannaukset, haalistuneet kopiot ja harvinaiset kirjasinlajit voivat pudota alle 90 %:n ja vaatia manuaalista korjausta.

Toimiiko OCR käsin kirjoitetuissa PDF:issä?

Vanhat moottorit kamppailevat käsialan kanssa. Uudet koneoppimispohjaiset (Apple Vision, Google Document AI) suoriutuvat kohtuullisesti siististä, lähes painokirjoitusta muistuttavasta käsialasta; sotkuisessa käsialassa ne ovat vähemmän tehokkaita.