Glossário

O que é OCR de PDF?

OCR de PDF (Reconhecimento Óptico de Carateres) é o processo que converte o texto que, dentro de um PDF digitalizado, existe apenas como imagem em texto selecionável, pesquisável e legível por máquina.

Há dois tipos de PDF: com camada de texto (nascidos digitais — por exemplo, exportados a partir do Word ou de LaTeX), onde o texto é lido directamente, e digitalizados (papel fotografado ou passado pelo scanner), em que a página é só uma imagem de texto. Sem OCR, este segundo tipo não se pode pesquisar, copiar nem resumir.

Um motor de OCR analisa a imagem da página, encontra linhas e carateres, reconhece os glifos, reconstrói palavras e parágrafos e, no fim, junta ao PDF uma camada de texto (ou guarda um ficheiro de texto à parte). O OCR moderno usa redes neuronais profundas em vez dos antigos algoritmos por modelo — a precisão sobre texto impresso limpo, nas línguas principais, ultrapassa hoje os 99 %.

A qualidade do OCR cai em digitalizações más (inclinadas, baixa resolução, tinta desbotada), em fórmulas densas, em paginação multicoluna e em escritas com poucos dados de treino. Boa prática para documentos importantes: digitalizar a 300 dpi a cores, passar um motor moderno e rever o resultado antes de o citar.

Onde entra o Summio

Quando carregas um PDF para o Summio, a app deteta automaticamente se é preciso OCR e corre-o antes de resumir. O PDF original e o texto OCR ficam dentro da tua conta — não são usados para treinar modelos de IA.

Saber mais sobre o Summio →

Perguntas frequentes

O OCR de PDF é grátis?

O PDFKit nativo da Apple, o Adobe Acrobat Reader e a maioria das ferramentas modernas de PDF incluem OCR de borla ou a custo baixo. O Summio integra o OCR dentro do resumo do PDF — sem passo extra.

Quão preciso é o OCR em livros digitalizados?

Em páginas impressas bem digitalizadas, nas línguas mais comuns, o OCR moderno fica acima de 99 % de precisão por caráter. Digitalizações tortas, fotocópias desbotadas e tipos pouco comuns podem cair abaixo de 90 % — é preciso correcção manual.

O OCR funciona em PDF manuscritos?

Os motores de OCR antigos lidam mal com a escrita manual. Os mais recentes baseados em aprendizagem automática (framework Vision da Apple, Google Document AI) lidam razoavelmente com letra de imprensa nítida e bastante pior com cursiva.