Co je PDF OCR?
PDF OCR (optické rozpoznávání znaků) je proces, kterým se text, který je v naskenovaném PDF pouze obrázkem, převádí na text, jenž lze označit, prohledávat a strojově číst.
PDF soubory existují ve dvou variantách: s textovou vrstvou (digitálně narozené, např. exportované z Wordu nebo LaTeXu) — text lze číst přímo; a naskenované (fotografie papíru nebo prošlé skenerem) — stránka je jen obrázkem písmen. Bez OCR nelze druhý typ prohledat, kopírovat ani shrnout.
Engine OCR analyzuje obraz stránky: nachází řádky a znaky, rozpoznává tvary (glyfy), rekonstruuje slova a odstavce a poté přidává do PDF textovou vrstvu nebo exportuje samostatný textový soubor. Moderní enginy používají hluboké neuronové sítě místo starých algoritmů na porovnávání šablon; v hlavních jazycích přesnost na čistém tisku přesahuje 99 %.
Kvalita OCR klesá u špatných skenů (zkosení, nízké rozlišení, vybledlý inkoust), hustých vzorců, vícesloupcové sazby a u písemných systémů s málo trénovacími daty. U důležitých dokumentů je doporučená praxe: barevný sken při 300 dpi, moderní engine a kontrola výsledku před citací.
Když nahrajete PDF do Summia, aplikace automaticky pozná, jestli je potřeba OCR, a spustí ho ještě před souhrnem. Jak původní soubor, tak text z OCR zůstávají na vašem účtu — a nepoužívají se k trénování žádného modelu AI.
Více o Summiu →Časté dotazy
Je PDF OCR zdarma?
Vestavěný PDFKit od Applu, Adobe Acrobat Reader i většina moderních PDF nástrojů nabízejí OCR zdarma nebo za symbolickou cenu. Summio OCR zabudovává přímo do toku souhrnu PDF, takže samostatný krok není potřeba.
Jak přesné je OCR u naskenovaných knih?
V hlavních jazycích dosahuje moderní OCR na dobře naskenovaných tiskových stránkách přes 99 % přesnosti na úrovni znaku. Šikmé skeny, vybledlé kopie a vzácná písma mohou klesnout pod 90 % a vyžadovat ruční opravu.
Funguje OCR u ručně psaných PDF?
Starší enginy se s rukopisem těžko vyrovnávají. Novější enginy založené na strojovém učení (Apple Vision, Google Document AI) si rozumně poradí s úhledným, tisku blízkým písmem; u nepořádného rukopisu jsou méně efektivní.
