Glossar

Was ist RAG (Retrieval-Augmented Generation)?

RAG, Retrieval-Augmented Generation, ist ein KI-Muster, bei dem das Modell zunächst relevante Passagen aus einer Quelle abruft und seine Antwort dann auf diese Passagen stützt.

Ein gewöhnliches LLM antwortet aus seinen Trainingsdaten — die zum Trainingszeitpunkt eingefroren und anfällig fürs Halluzinieren sind. RAG behebt das mit einem Retrieval-Schritt: Bei einer Anfrage durchsucht das System einen Korpus (ein Buch, ein PDF, eine Wissensbasis) nach den relevantesten Passagen, übergibt sie dem LLM als Kontext und bittet es erst dann um eine Antwort.

Das Ergebnis ist eine Antwort, die konkrete Passagen zitiert und vom Quelltext eingehegt wird, statt vom Trainingsmaterial. Deshalb ist RAG das Standardmuster für „Mit deinem Dokument chatten“-Funktionen, für Support-Bots auf einem Hilfecenter und für KI-Suchmaschinen, die Aussagen Quellen zuordnen müssen.

Die Qualität eines RAG-Systems hängt an drei Stellen: wie die Quelle zerlegt wird (Absatz, Abschnitt, Satz), wie die Schnipsel für die Ähnlichkeitssuche eingebettet werden und wie das Modell angewiesen wird, den abgerufenen Kontext zu nutzen. Ein schwaches Glied an einer dieser Stellen produziert Antworten, die formal verankert, sachlich aber falsch sind.

Wo Summio passt

Summio nutzt RAG, um jede Aussage in einer Zusammenfassung oder Chat-Antwort an eine Passage in Buch, Video-Transkript, Artikel oder PDF zu binden. Kann die Engine keine Passage zitieren, druckt sie die Aussage nicht — diese Quellbindungspolitik macht Summio belastbar genug für ernsthaftes Lesen.

Mehr über Summio erfahren →

Häufige Fragen

Wie unterscheidet sich RAG vom Fine-Tuning?

Fine-Tuning brennt neues Wissen in die Modellgewichte — langsam, teuer und nur durch erneutes Training aktualisierbar. RAG lässt das Modell unverändert und verändert pro Anfrage den abgerufenen Kontext: Wissen zu aktualisieren heißt, ein Dokument neu zu indexieren, nicht das Modell neu zu trainieren.

Beseitigt RAG Halluzinationen?

Es senkt sie deutlich, aber beseitigt sie nicht. Das Modell kann die abgerufene Passage falsch lesen, ignorieren oder aus korrekten Bruchstücken eine falsche Synthese knüpfen. Verpflichtende Zitierregeln (keine Antwort ohne stützende Passage) schließen den größten Teil des Restspalts.

Wo wird RAG eingesetzt?

In KI-Suchmaschinen (Perplexity, ChatGPT Search, Claude mit Webzugriff), in Chats über interne Dokumentation, in Support-Bots über einem Hilfecenter und in Leseapps wie Summio. Überall dort, wo Antworten einer konkreten Quelle zugeordnet werden müssen.