---
title: RAG (Retrieval-Augmented Generation)
slug: rag
canonical_url: https://www.geoquality.ai/glossar/rag
md_url: https://www.geoquality.ai/glossar/rag.md
language: de
last_modified: 2026-05-07T00:00:00+00:00
related_terms: [ai-citation, answer-capsule, answer-engine, embedding, hallucination, knowledge-graph, llm]
content_hash: 654df911cdc83f4f
license: CC BY 4.0
author: Marco Biner (geoquality.ai)
schema_type: DefinedTerm
---

# RAG (Retrieval-Augmented Generation)

RAG ist eine LLM-Architektur, die Antworten nicht nur aus Trainingsdaten generiert, sondern zusätzlich Live-Quellen abruft und in den Antwort-Kontext einbettet. Sie ist 2026 der Standard für Antwortmaschinen wie ChatGPT mit Web-Browsing, Perplexity, Google AI Overviews und Claude mit Web-Search-Tool — und damit der zentrale Mechanismus, über den GEO-Optimierung wirksam wird.

## Erläuterung

Retrieval-Augmented Generation , kurz RAG , ist die Architektur, die generative Antwortmaschinen befaehigt, über ihren Trainings-Knowledge-Cutoff hinauszublicken. Klassische LLMs ohne RAG können nur wiedergeben, was in ihren Trainingsdaten enthalten war — für Aussagen über das Tagesgeschehen, Preise, Verfuegbarkeiten oder Personen ist das eine harte Limitation. RAG löst das, indem es den User-Prompt in einer Vier-Stufen-Pipeline verarbeitet: Embed (User-Frage in einen Vektor uebersetzen), Retrieve (im Vektor-Index passende Dokumenten-Chunks finden), Augment (gefundene Chunks an den Prompt anhaengen) und Generate ( LLM produziert Antwort auf Basis Prompt + Quellen). Für GEO ist RAG der zentrale Wirkmechanismus. Wenn ein User in Perplexity 'Was kostet eine GEO-Beratung in der Schweiz?' fragt, geschieht im Hintergrund: die Frage wird embedded, der Vektor-Retriever findet passende Web-Chunks (eine 60-Wort-Capsule auf geoquality.ai/preise mit FAQPage-Schema ist ein idealer Kandidat), die Chunks werden in den GPT-Prompt geschoben, und das Modell formuliert die Antwort. Welche Chunks gewählt werden, hängt von zwei Faktoren ab: Embeddings-Nähe (Frage-Vektor liegt geometrisch nahe am Chunk-Vektor) und Authority-Signale ( strukturierte Daten , Citation-Frequenz, Domain-Vertrauen). Beides sind GEO-Stellhebel. Die Chunk-Granularität ist der wichtigste operative Hebel. RAG-Systeme zerlegen Web-Inhalte typisch in Blöcke von 200 bis 800 Tokens (etwa 150 bis 600 Wörter). Wer seine Inhalte in längeren Fliesstext-Absätzen ohne klare Frage-Antwort-Struktur ablegt, riskiert, dass der Chunker unglücklich schneidet — die zentrale Aussage fällt in zwei Chunks, keiner davon enthält den vollständigen Gedanken. Wer stattdessen 40 bis 80 Wort Capsules unter klar markierten h2-Fragen ablegt, liefert dem Chunker perfekte Schnittkanten — die Capsule landet als ein vollständiger Chunk im Index und ist damit zitierfähig. Im SEAKT-Modell wirkt RAG-Awareness primär auf die K -Dimension (Content-Qualität) und sekundaer auf S (Strukturdaten). Eine Site mit FAQPage-Schema, klaren Capsules und semantisch konsistenten Themenclustern wird vom Retriever bevorzugt indexiert und bei thematisch passenden Anfragen überproportional häufig in die Antwort-Generation eingebunden. Eine Site mit Marketing-Fliesstext und Bilder-lastigem Layout dagegen ist für den Retriever schwer zu chunken und damit schwer zu zitieren. Wichtig zur Abgrenzung: RAG ist keine einzelne Plattform, sondern eine Architektur-Klasse. Verschiedene Antwortmaschinen implementieren RAG mit unterschiedlichen Embedding-Modellen (OpenAI text-embedding-3, Cohere, Anthropic intern), Vector-Datenbanken (Pinecone, Weaviate, Postgres mit pgvector) und Chunking-Strategien. Die Details unterscheiden sich, das Grundprinzip ist identisch — und genau deshalb wirken die GEO-Massnahmen plattformuebergreifend.

## Praxisbeispiel

Vereinfachte RAG-Pipeline für einen Schweizer Treuhand-Site-Crawl: # 1. Chunking: HTML wird in 400-Token-Blöcke zerlegt chunks = [] for section in html.find_all(["section", "div.faq-item"]): text = section.get_text(strip=True) chunks.append({ "id": f"mueller-treuhand:{section['id']}", "text": text, "url": f"https://mueller-treuhand.ch/{section['id']}", "title": section.find("h2").get_text(), }) # 2. Embed jedes Chunks for c in chunks: c["vector"] = openai.embeddings.create( model="text-embedding-3-small", input=c["text"] ).data[0].embedding # 1536-dim Vektor # 3. Bei User-Query: Top-K-Retrieval per Cosine-Similarity query_vec = embed("Was kostet Quellensteuer-Beratung in Zug?") top = sorted(chunks, key=lambda c: cosine(c["vector"], query_vec))[:5] # 4. LLM-Antwort mit Top-5-Chunks als Kontext answer = llm.complete(prompt + "\n\nQuellen:\n" + "\n".join(c["text"] for c in top)) Die zentrale Lehre: jeder Chunk muss aus dem Kontext herausgeschnitten verständlich bleiben. Eine Capsule mit 'Mueller Treuhand bietet Quellensteuer-Beratung für Grenzgänger für 480 bis 720 Franken pro Jahr' ist ein Top-Chunk. Ein Absatz mit 'wir bieten ein breites Beratungs-Spektrum' ist nutzlos.

## Häufige Fehler

- Lange Marketing-Absätze ohne klare Antwort-Blöcke produzieren — der Chunker schneidet unglücklich, und kein Chunk enthält eine zitierfähige Aussage.
- Inhalte hinter JS-Renderings verstecken — RAG-Crawler interpretieren typisch nur server-rendered HTML, JS-only-Inhalte landen nicht im Index.
- FAQ-Antworten in Akkordeon-Sliders ohne semantische Markierung verstecken — der Chunker erkennt die Frage-Antwort-Struktur nicht.
- Auf Single-Source-Optimierung setzen statt auf Topical-Cluster — RAG bevorzugt Sites mit thematischer Tiefe, weil sie mehr Top-Chunks liefern.

## Best Practices

- Liefere Antworten in 40 bis 80 Wort Capsules direkt unter klaren h2-Fragen — perfekte Chunk-Grenze für den Retriever.
- Markiere FAQ-Blöcke explizit mit FAQPage-Schema, damit der Retriever Frage-Antwort-Paare strukturell erkennt.
- Halte semantische Kohärenz pro Page — eine Page = ein Hauptthema. Vector-Embeddings clustern dann sauber.
- Pflege ein Themen-spezifisches Glossar mit DefinedTerm-Schema — Glossar-Einträge sind ideale RAG-Chunk-Kandidaten für Definitions-Anfragen.
- Vermeide JS-only-Renderings für GEO-relevanten Inhalt — server-rendered HTML ist Pflicht für RAG-Crawler.
- Strukturiere Themen als Pillar + Spoke — Pillar liefert Uebersichts-Chunks, Spokes liefern Detail-Chunks für spezifische Anfragen.

## Fakten

- Der Begriff 'Retrieval-Augmented Generation' wurde 2020 von Lewis et al. in einer Facebook-AI-Research-Arbeit geprägt und ab 2023 über ChatGPT, Perplexity und Co. für den Massenmarkt operationalisiert.
- Perplexity verarbeitet jeden User-Prompt mit einer Live-RAG-Pipeline gegen den eigenen Web-Index — daher die hohe Source-Citation-Quote (durchschnittlich 4.2 Quellen pro Antwort).
- ChatGPT mit Web-Browsing nutzt RAG seit dem GPT-4-Update 2023; ohne aktiviertes Browsing bleibt es bei reinem Trainingsdaten-Zugriff bis zum Knowledge-Cutoff.
- OpenAIs text-embedding-3-large produziert 3072-dimensionale Vektoren, text-embedding-3-small 1536d — kleinere Dimension = schnellerer Retrieval, etwas geringere semantische Präzision.
- Eine 2024er-Studie aus Stanford zeigte: RAG senkt die Halluzinations-Rate von GPT-4 bei Faktenfragen von rund 9 Prozent auf rund 2 Prozent.
- Typische Chunk-Grössen in produktiven RAG-Systemen liegen zwischen 200 und 800 Tokens — geoquality.ai's Capsule-Empfehlung von 40-80 Wörtern entspricht ca. 60-110 Tokens und passt damit als kompletter Chunk in jede gaengige Pipeline.

## FAQ

### Welche Antwortmaschinen nutzen RAG?

Praktisch alle modernen Antwortmaschinen: Perplexity ist eine reine RAG-Plattform, ChatGPT mit Web-Browsing nutzt RAG, Google AI Overviews ebenfalls, Claude mit Web-Search-Tool ebenfalls. Reine LLM-Antworten ohne Live-Retrieval (ChatGPT ohne Tools, Claude ohne Tools) sind keine RAG-Antworten — sie greifen nur auf Trainingsdaten bis Knowledge-Cutoff zurück.

### Wie optimiere ich Inhalte für RAG?

Drei Hebel: erstens Capsule-Format (40 bis 80 Wort Antwort-Blöcke unter klaren h2-Fragen). Zweitens Schema-Markup ( FAQPage , QAPage, DefinedTerm ) für strukturelle Klarheit. Drittens semantische Kohärenz pro Page (ein Hauptthema, keine Themen-Mischmasche). Wer das umsetzt, wird vom Retriever automatisch präferenziert.

### Was ist der Unterschied zwischen RAG und Fine-Tuning?

Fine-Tuning passt die Modell-Gewichte selbst an, um neue Faehigkeiten oder Wissen einzubauen — teuer, langsam, statisch. RAG lässt das Modell unveraendert und reicht bei jeder Anfrage frische externe Quellen mit — billig, schnell, dynamisch. Für aktuelle Inhalte ist RAG die Standard-Lösung; Fine-Tuning macht Sinn für domain-spezifische Sprachstile oder Reasoning-Verbesserungen.

### Wie gross ist ein typischer RAG-Chunk?

200 bis 800 Tokens, also etwa 150 bis 600 Wörter. Die SEAKT-Empfehlung von 40 bis 80 Wort Capsules entspricht 60 bis 110 Tokens — der Chunker bekommt damit einen kompletten thematischen Block ohne Fragmentierung. Längere Blöcke werden gesplittet, kuerzere oft mit Nachbar-Bloecken zusammengelegt.

### Reduziert RAG Halluzinationen?

Ja, deutlich. Eine Stanford-Studie 2024 zeigte: RAG senkt die Halluzinations-Rate bei Faktenfragen von rund 9 Prozent (GPT-4 ohne RAG) auf rund 2 Prozent. Voraussetzung: die abgerufenen Quellen sind selbst korrekt. Bei schlechten Quellen produziert RAG falsche Antworten mit hoeherer Selbstsicherheit — daher ist Authority-Verknüpfung im Index zentral.

### Kann ich verhindern, dass meine Inhalte in RAG-Pipelines landen?

Strukturell teilweise. Wer GPTBot, ClaudeBot, PerplexityBot und Google-Extended in robots.txt blockiert, schliesst die Site aus den jeweiligen RAG-Indizes aus. Konsequenz: keine Citations, keine AI-Sichtbarkeit . Die meisten Brands akzeptieren die RAG-Indexierung als Preis für Citations — die Trade-off-Frage muss aber bewusst entschieden werden.

## Experten-Definition

RAG ist der Grund, warum GEO 2026 überhaupt funktioniert. Bei jedem Klient-Audit erkläre ich in den ersten zehn Minuten die Vier-Stufen-Pipeline — und plötzlich verstehen alle, warum FAQ-Capsules wichtig sind: weil ein Capsule der ideale Chunk für den Retriever ist. Wer mit dem RAG-Mindset Content baut, muss sich keine SEO-Tricks mehr ausdenken; er liefert einfach klare Antwort-Blöcke unter klaren Fragen. Das ist der Paradigmen-Wechsel: GEO-Content ist keine Marketing-Prosa, sondern Chunk-fertige Antwort-Architektur.

## Verwandte Begriffe

- [AI Citation (KI-Zitierung)](https://www.geoquality.ai/glossar/ai-citation.md) — Eine AI Citation ist die explizite Nennung oder Verlinkung einer Domain durch eine generative KI wie ChatGPT, Claude, Perplexity, Google AI Overviews oder Grok als Quelle einer Antwort. Sie ist die zentrale Erfolgsmetrik im GEO und ersetzt im KI-Zeitalter den Klick als primaeres Sichtbarkeits-Signal.
- [Answer Capsule](https://www.geoquality.ai/glossar/answer-capsule.md) — Eine Answer Capsule ist ein eigenständig zitierfaehiger Textblock auf einer Website, der eine konkrete Frage in 40 bis 80 Wörtern vollständig, präzise und ohne Kontextabhaengigkeit beantwortet — gebaut für Wort-für-Wort-Übernahme durch ChatGPT, Perplexity und Google AI Overviews.
- [Answer Engine](https://www.geoquality.ai/glossar/answer-engine.md) — Eine Answer Engine ist ein KI-System, das User-Fragen mit synthetisierten Antworten beantwortet — statt mit Trefferlisten wie eine klassische Suchmaschine. Beispiele 2026: ChatGPT, Perplexity, Claude, Google AI Overviews und Microsoft Copilot. Sie sind der Fokuspunkt jeder GEO-Strategie.
- [Embedding (Vektorrepräsentation)](https://www.geoquality.ai/glossar/embedding.md) — Ein Embedding ist eine numerische Vektorrepräsentation von Text — typisch 768 bis 3072 Dimensionen lang —, die semantische Bedeutung in geometrischen Abstaenden codiert. Zwei thematisch ähnliche Texte haben Embeddings, die im Vektorraum nahe beieinanderliegen. Embeddings sind das mathematische Fundament jeder RAG-Pipeline und damit jeder modernen Antwortmaschine.
- [Halluzination (LLM)](https://www.geoquality.ai/glossar/hallucination.md) — Eine Halluzination ist die Generierung einer plausibel klingenden, aber faktisch falschen Aussage durch ein Large Language Model — typisch erfundene Quellen, falsche Zahlen, nicht existierende Personen oder Brands. Sie ist 2026 die wichtigste Failure-Mode generativer Antwortmaschinen und der primäre Grund, warum strukturelles GEO-Setup kritisch ist.
- [Knowledge Graph](https://www.geoquality.ai/glossar/knowledge-graph.md) — Ein Knowledge Graph ist eine Datenstruktur, die Entitäten und ihre Beziehungen als verknüpftes Netzwerk repräsentiert und KI-Systemen die Faktenbasis liefert, aus der sie Antworten zusammensetzen.
- [Large Language Model (LLM)](https://www.geoquality.ai/glossar/llm.md) — Ein Large Language Model (LLM) ist ein neuronales Netzwerk mit Milliarden bis Billionen Parametern, das auf grossen Textkorpora trainiert wurde, natürliche Sprache versteht und generiert — die technische Grundlage hinter ChatGPT, Claude, Gemini und allen anderen modernen KI-Antwortmaschinen.

## Quelle und Zitation

- HTML-Original: https://www.geoquality.ai/glossar/rag
- Lizenz: CC BY 4.0
- Zitiervorschlag: "RAG (Retrieval-Augmented Generation) (geoquality.ai Glossar, Biner 2026)"