Che cos’è OCR di PDF?
L’OCR di PDF (Optical Character Recognition, riconoscimento ottico dei caratteri) è il processo che trasforma il testo che, dentro un PDF scansionato, esiste solo come immagine in testo selezionabile, ricercabile e leggibile dalle macchine.
Esistono due tipi di PDF: con strato di testo (nati digitali — esportati da Word o LaTeX, per esempio), in cui il testo è direttamente leggibile, e scansionati (carta fotografata o passata allo scanner), in cui la pagina è solo l’immagine di un testo. Senza OCR il secondo tipo non si può cercare, copiare né riassumere.
Un motore OCR analizza l’immagine della pagina, individua righe e caratteri, riconosce i glifi, ricostruisce parole e paragrafi e infine aggiunge al PDF uno strato di testo (o produce un file di testo a parte). L’OCR moderno usa reti neurali profonde al posto dei vecchi algoritmi a template — l’accuratezza su testo a stampa pulito nelle lingue principali supera oggi il 99 %.
La qualità OCR cala su scansioni scadenti (inclinate, a bassa risoluzione, con inchiostro sbiadito), su formule fitte, su layout a più colonne e su scritture con pochi dati di addestramento. Buona prassi per i documenti importanti: scansionare a 300 dpi a colori, lanciare un motore moderno e rivedere l’output prima di citarlo.
Quando carichi un PDF in Summio, l’app rileva da sola se serve l’OCR e lo esegue prima del riassunto. Il PDF originale e il testo OCR restano dentro il tuo account — non vengono usati per addestrare modelli di IA.
Scopri di più su Summio →Domande frequenti
L’OCR di PDF è gratuito?
PDFKit di Apple, Adobe Acrobat Reader e la maggior parte degli strumenti PDF moderni includono l’OCR gratis o a costo basso. Summio incorpora l’OCR nel riassunto del PDF — nessun passaggio separato.
Quanto è preciso l’OCR sui libri scansionati?
Su pagine a stampa ben scansionate nelle lingue principali, l’OCR moderno supera il 99 % di accuratezza per carattere. Scansioni storte, fotocopie sbiadite e font inusuali possono scendere sotto il 90 % — serve una pulizia manuale.
L’OCR funziona sui PDF manoscritti?
I motori OCR di vecchia generazione gestiscono male la scrittura a mano. Quelli moderni basati su machine learning (framework Vision di Apple, Google Document AI) reggono dignitosamente lo stampatello chiaro e parecchio peggio il corsivo.
