O que é RAG (Geração Aumentada por Recuperação)?
RAG, ou Geração Aumentada por Recuperação, é um padrão de IA em que o modelo primeiro recupera os trechos relevantes de uma fonte e só depois gera a resposta, ancorando o que diz no documento.
Um LLM comum responde a partir dos seus dados de treino, fixados no momento do treino e propensos a alucinações. O RAG corrige isso ao acrescentar um passo de recuperação: quando chega uma pergunta, o sistema procura num corpus (um livro, um PDF, uma base de conhecimento) os trechos mais relevantes, entrega-os ao LLM como contexto e só então lhe pede a resposta.
O resultado é uma resposta que cita trechos concretos e fica condicionada pela fonte em vez do treino do modelo. Por isso o RAG tornou-se o padrão de "conversa com o teu documento", de bots de apoio sobre um centro de ajuda e de motores de busca por IA que precisam de atribuir o que afirmam.
A qualidade de um sistema RAG depende de três peças: como a fonte é fatiada (parágrafo, secção, frase), como os pedaços são convertidos em embeddings para a busca por semelhança e como se pede ao modelo que utilize o contexto recuperado. Um elo fraco em qualquer destas peças gera respostas formalmente ancoradas mas materialmente erradas.
O Summio usa RAG para ancorar cada afirmação de um resumo ou resposta do chat a um trecho concreto do livro, transcrição, artigo ou PDF. Se o motor não consegue citar um trecho, não imprime a afirmação — essa política de ancoragem é o que torna o Summio fiável para leitura séria.
Saber mais sobre o Summio →Perguntas frequentes
Em que difere o RAG do fine-tuning?
O fine-tuning grava o novo conhecimento nos pesos do modelo — lento, caro e só atualizável por re-treino. O RAG mantém o modelo congelado e altera o contexto recuperado por consulta: atualizar conhecimento é reindexar um documento, não re-treinar nada.
O RAG elimina alucinações?
Reduz-as bastante, mas não as elimina. O modelo ainda pode ler mal o trecho recuperado, ignorá-lo ou costurar uma síntese errada a partir de fragmentos corretos. Políticas de citação obrigatória (não responder se nenhum trecho sustenta a afirmação) fecham a maior parte do hiato restante.
Onde se usa RAG?
Em motores de busca por IA (Perplexity, ChatGPT search, Claude com acesso à web), em chats sobre documentação interna, em bots de apoio sobre centros de ajuda e em apps de leitura como o Summio. Em qualquer lugar onde a resposta tenha de ser atribuível a uma fonte concreta.
