Summio

Slovník

Co je PDF OCR?

PDF OCR (optické rozpoznávání znaků) je proces, kterým se text, který je v naskenovaném PDF pouze obrázkem, převádí na text, jenž lze označit, prohledávat a strojově číst.

PDF soubory existují ve dvou variantách: s textovou vrstvou (digitálně narozené, např. exportované z Wordu nebo LaTeXu) — text lze číst přímo; a naskenované (fotografie papíru nebo prošlé skenerem) — stránka je jen obrázkem písmen. Bez OCR nelze druhý typ prohledat, kopírovat ani shrnout.

Engine OCR analyzuje obraz stránky: nachází řádky a znaky, rozpoznává tvary (glyfy), rekonstruuje slova a odstavce a poté přidává do PDF textovou vrstvu nebo exportuje samostatný textový soubor. Moderní enginy používají hluboké neuronové sítě místo starých algoritmů na porovnávání šablon; v hlavních jazycích přesnost na čistém tisku přesahuje 99 %.

Kvalita OCR klesá u špatných skenů (zkosení, nízké rozlišení, vybledlý inkoust), hustých vzorců, vícesloupcové sazby a u písemných systémů s málo trénovacími daty. U důležitých dokumentů je doporučená praxe: barevný sken při 300 dpi, moderní engine a kontrola výsledku před citací.

Kde se hodí Summio

Když nahrajete PDF do Summia, aplikace automaticky pozná, jestli je potřeba OCR, a spustí ho ještě před souhrnem. Jak původní soubor, tak text z OCR zůstávají na vašem účtu — a nepoužívají se k trénování žádného modelu AI.

Více o Summiu →

Časté dotazy

Je PDF OCR zdarma?

Vestavěný PDFKit od Applu, Adobe Acrobat Reader i většina moderních PDF nástrojů nabízejí OCR zdarma nebo za symbolickou cenu. Summio OCR zabudovává přímo do toku souhrnu PDF, takže samostatný krok není potřeba.

Jak přesné je OCR u naskenovaných knih?

V hlavních jazycích dosahuje moderní OCR na dobře naskenovaných tiskových stránkách přes 99 % přesnosti na úrovni znaku. Šikmé skeny, vybledlé kopie a vzácná písma mohou klesnout pod 90 % a vyžadovat ruční opravu.

Funguje OCR u ručně psaných PDF?

Starší enginy se s rukopisem těžko vyrovnávají. Novější enginy založené na strojovém učení (Apple Vision, Google Document AI) si rozumně poradí s úhledným, tisku blízkým písmem; u nepořádného rukopisu jsou méně efektivní.