Glossaire

Qu’est-ce que RAG (Génération Augmentée par Récupération) ?

RAG, ou Génération Augmentée par Récupération, est un schéma d’IA dans lequel le modèle commence par récupérer les passages pertinents d’un document avant de produire une réponse, qu’il ancre alors dans la source.

Un LLM classique répond à partir de ses données d’entraînement, figées au moment de la formation et sujettes aux hallucinations. RAG corrige cela en ajoutant une étape de récupération : quand une question arrive, le système cherche dans un corpus (un livre, un PDF, une base de connaissances) les passages les plus pertinents, les transmet au LLM comme contexte, et seulement alors lui demande de répondre.

Le résultat est une réponse qui cite des passages précis et reste contrainte par la source plutôt que par l’entraînement du modèle. C’est pourquoi RAG s’impose comme le motif standard pour les fonctions « dialoguer avec son document », les bots d’assistance adossés à un centre d’aide et les moteurs de recherche IA qui doivent attribuer leurs affirmations.

La qualité d’un système RAG repose sur trois choses : la manière dont la source est découpée (paragraphe, section, phrase), la façon dont les morceaux sont plongés (embeddings) pour la recherche par similarité, et la manière dont on demande au modèle d’utiliser le contexte récupéré. Un maillon faible parmi ces trois produit des réponses formellement ancrées mais matériellement fausses.

La place de Summio

Summio s’appuie sur RAG pour rattacher chaque affirmation d’un résumé ou d’une réponse de chat à un passage précis du livre, de la transcription, de l’article ou du PDF. Si le moteur ne peut pas citer un passage, il n’imprime pas l’affirmation — cette politique d’ancrage est ce qui rend Summio digne de confiance pour une lecture professionnelle.

En savoir plus sur Summio →

Questions fréquentes

En quoi RAG diffère-t-il du fine-tuning ?

Le fine-tuning grave la nouvelle connaissance dans les poids du modèle — lent, coûteux, ne se met à jour que par réentraînement. RAG laisse le modèle figé et fait varier le contexte récupéré à chaque requête : pour mettre à jour la connaissance, on réindexe un document, on n’entraîne rien.

RAG élimine-t-il les hallucinations ?

Il les réduit fortement mais ne les supprime pas. Le modèle peut encore mal lire le passage récupéré, l’ignorer ou tisser une synthèse erronée à partir de fragments corrects. Les politiques de citation obligatoire (ne pas répondre si aucun passage n’étaye l’affirmation) referment l’essentiel de l’écart restant.

Où utilise-t-on RAG ?

Dans les moteurs IA (Perplexity, ChatGPT search, Claude avec accès web), dans les chats sur la documentation interne, dans les bots de support adossés à un centre d’aide, et dans les apps de lecture comme Summio. Partout où la réponse doit pouvoir être attribuée à une source précise.