Glossario

Che cos’è RAG (Generazione Aumentata da Recupero)?

RAG, o Generazione Aumentata da Recupero, è uno schema di IA in cui il modello prima recupera i passaggi rilevanti da una fonte e solo dopo genera la risposta, ancorandola al documento.

Un LLM ordinario risponde a partire dai suoi dati di addestramento, congelati al momento del training e inclini all’allucinazione. RAG aggiunge un passaggio di recupero: quando arriva una domanda, il sistema cerca in un corpus (un libro, un PDF, una base di conoscenza) i passaggi più rilevanti, li passa al modello come contesto e solo allora gli chiede di rispondere.

Il risultato è una risposta che cita passaggi specifici e resta vincolata dalla fonte invece che dal training del modello. Per questo RAG è lo schema standard delle funzioni "chatta con il tuo documento", dei bot di supporto su un centro assistenza e dei motori di ricerca con IA che devono attribuire le affermazioni a una fonte.

La qualità di un sistema RAG dipende da tre cose: come la fonte viene spezzata (paragrafo, sezione, frase), come i frammenti vengono trasformati in embedding per la ricerca per somiglianza e come si chiede al modello di usare il contesto recuperato. Un anello debole in uno qualunque dei tre produce risposte formalmente ancorate ma sostanzialmente sbagliate.

Dove entra Summio

Summio usa RAG per ancorare ogni affermazione di un riassunto o di una risposta del chat a un passaggio concreto del libro, della trascrizione video, dell’articolo o del PDF. Se il motore non riesce a citare un passaggio, non stampa l’affermazione — è la politica di ancoraggio alla fonte che rende Summio affidabile per la lettura seria.

Scopri di più su Summio →

Domande frequenti

In cosa RAG differisce dal fine-tuning?

Il fine-tuning incide nuova conoscenza nei pesi del modello — lento, costoso, aggiornabile solo riaddestrando. RAG lascia il modello fermo e cambia il contesto recuperato a ogni richiesta: aggiornare la conoscenza significa reindicizzare un documento, non riaddestrare nulla.

RAG elimina le allucinazioni?

Le riduce molto ma non le elimina. Il modello può ancora leggere male il passaggio recuperato, ignorarlo o cucire una sintesi sbagliata da frammenti corretti. Le policy di citazione obbligatoria (nessuna risposta senza passaggio di supporto) coprono la gran parte del divario residuo.

Dove si usa RAG?

Nei motori di ricerca IA (Perplexity, ChatGPT search, Claude con accesso web), nelle chat su documentazione interna, nei bot di supporto sopra un centro assistenza e nelle app di lettura come Summio. Ovunque la risposta debba poter essere attribuita a una fonte precisa.