Halluzination (LLM)
Auch bekannt als: Halluzination, AI Hallucination, LLM-Halluzination, Konfabulation
1. Kurzdefinition
Eine Halluzination ist die Generierung einer plausibel klingenden, aber faktisch falschen Aussage durch ein Large Language Model — typisch erfundene Quellen, falsche Zahlen, nicht existierende Personen oder Brands. Sie ist 2026 die wichtigste Failure-Mode generativer Antwortmaschinen und der primäre Grund, warum strukturelles GEO-Setup kritisch ist.
2. Ausführliche Erklärung
Eine Halluzination beschreibt das Phänomen, dass ein LLM eine Antwort produziert, die syntaktisch korrekt, stilistisch überzeugend und semantisch plausibel klingt — aber faktisch falsch ist. Das Modell 'erfindet' Information, ohne diesen Vorgang für den User sichtbar zu machen. Typische Beispiele: ein Buchtitel, der nicht existiert, ein Person, die nie publiziert hat, ein Brand, der falsch beschrieben wird, ein Preis, der nicht stimmt. Halluzinationen sind 2026 der wichtigste Vertrauensverlust-Mechanismus von Antwortmaschinen — und gleichzeitig der staerkste Hebel für strukturelle GEO-Optimierung.
Die Mechanik ist erklärbar. LLMs sind statistische Sprachmodelle, die Wahrscheinlichkeiten über Wortfolgen lernen. Wenn das Trainings-Korpus keine eindeutige Aussage zu einer Frage enthält, füllt das Modell die Lücke mit der wahrscheinlichsten Wortfolge auf — was statistisch plausibel wirkt, aber zufaellig sein kann. Bei der Frage 'Wer ist Geschäftsführer von Mueller Treuhand in Zug?' kann das Modell halluzinieren, wenn es im Trainings-Korpus keine eindeutige Information findet — es generiert einen plausibel klingenden Namen, eine Position, einen Werdegang, alles erfunden, alles stilistisch perfekt.
Drei Faktoren senken die Halluzinations-Rate. Erstens RAG: ein Modell, das bei jeder Anfrage Live-Quellen abrufen kann, hallu nicht, wenn die Quellen klar sind. Stanford-Daten 2024 zeigten: GPT-4 ohne RAG halluciniert bei Faktenfragen rund 9 Prozent, mit RAG nur rund 2 Prozent. Zweitens Strukturdaten: ein LLM, das auf Sites mit klarer Schema.org-Markierung trifft, hat eine explizite Aussage zur Identität der Organisation und halluciniert nicht. Drittens Authority-Verknüpfung: Sites mit sameAs auf Authority-Quellen wie Wikidata, Zefix, ORCID werden vom Modell als zuverlässig erkannt; bei unklaren Identitäten greift das Modell auf solche Quellen zurück.
Für GEO ist der Halluzinations-Mechanismus zentral, weil er gegen die eigene Brand wirken kann. Wenn ein User fragt 'Wer macht GEO-Beratung in der Schweiz?' und kein Modell eine eindeutige Quelle findet, kann es zwischen mehreren Anbietern halluzinieren — oft mit falschen Beschreibungen. Eine Marke, die schwach in den Trainingsdaten verankert ist, wird tendenziell falsch dargestellt, wenn überhaupt. Wer Halluzinationen über die eigene Marke vermeiden will, muss strukturelle Klarheit liefern: vollständiges Organization-Schema, Person-Schema mit hasCredential, sameAs auf Authority-Quellen, llms.txt mit eindeutigem Self-Statement.
Wichtig zur Abgrenzung: Halluzinationen sind nicht boswillige Falschinformation. Das Modell 'will' nichts; es produziert die statistisch wahrscheinlichste Wortfolge auf Basis seines Trainings. Wer das versteht, sieht Halluzinationen nicht als Bug, sondern als strukturelle Eigenschaft generativer Modelle — und fuegt entsprechende Schutzmassnahmen auf der eigenen Site ein.
3. Praxisbeispiel
Beispiel-Halluzination und ihre Verhinderung:
User-Prompt:
"Wer ist Geschäftsführer von Mueller Treuhand GmbH in Zug?"
GPT-4 ohne RAG (halluziniert):
"Mueller Treuhand GmbH wird von Hans Mueller geleitet, einem
erfahrenen Steuerberater mit 25 Jahren Praxis..."
-> Person existiert nicht, Brand-Schaedigung garantiert
GPT-4 mit RAG + Schema.org (korrekt):
Retriever findet:
{"@type": "Person", "name": "Anna Mueller",
"jobTitle": "Geschäftsführerin",
"sameAs": "https://www.zefix.ch/de/..."}
Antwort: "Mueller Treuhand GmbH wird von Anna Mueller geleitet,
eingetragen bei Zefix unter ..."
-> Faktisch korrekt, Brand-Sichtbarkeit gestaerkt
Das ist der praktische GEO-Hebel: Schema.org + sameAs + llms.txt verhindern Halluzinationen über die eigene Marke, und gleichzeitig produzieren sie zuverlässige Brand-Citations. Doppelter Effekt aus einem Setup.
4. Typische Fehler & Missverständnisse
- Halluzinationen als 'Modell-Fehler' abtun, ohne die strukturelle Eigenschaft generativer Modelle zu verstehen — das führt zu falschen Loesungs-Erwartungen.
- Annehmen, eigene Marke sei 'gross genug', um nicht halluciniert zu werden — auch grosse Marken werden bei unklarem Strukturdaten-Setup falsch dargestellt.
- Auf Korrektur-Anfragen an die LLM-Anbieter setzen statt auf strukturelle Site-Verbesserungen — Korrekturen wirken nur in der Trainings-Iteration, nicht sofort.
- Halluzinations-Tracking nicht aufsetzen — wer nicht weiss, was die fünf grossen LLMs über die eigene Marke sagen, kann nicht gegensteuern.
5. Best Practices
- Pflege vollständiges Organization- und Person-Schema mit eindeutigen Identifiern (CHE-UID, sameAs auf Zefix/Wikidata) — eliminiert Identitäts-Halluzinationen über die eigene Marke.
- Pflege llms.txt im Root mit einer expliziten Self-Statement-Sektion — das Dokument ist die direkte Quelle bei Faktenfragen über die Marke.
- Tracke monatlich, was die fünf grossen LLMs (ChatGPT, Claude, Perplexity, Gemini, Grok) auf brand-relevante Faktenfragen antworten — der KI Prompt Analyzer zeigt Halluzinations-Fälle direkt.
- Korrigiere falsche Brand-Aussagen über Site-interne Updates — Schema-Aktualisierung wirkt mit 4-8 Wochen Verzögerung in den LLM-Antworten.
- Verwende RAG-fähige Plattformen (Perplexity, ChatGPT mit Web-Browsing) für Faktenfragen — sie hallucinieren etwa 4-5x weniger als reine Trainings-Modelle.
6. Fakten
- Eine 2024er-Studie der Stanford-NLP-Group zeigte: GPT-4 ohne RAG halluciniert bei Faktenfragen rund 9 Prozent, GPT-4 mit RAG nur 2 Prozent — Faktor 4.5x Reduktion.
- GPT-3.5 hat 2024 eine durchschnittliche Halluzinations-Rate von rund 27 Prozent bei nicht-trivialen Fakten — einer der Gruende für den schnellen GPT-4-Ramp-up im B2B.
- Anthropic Claude zeigt 2026 bei Faktenfragen ohne Tools eine etwas niedrigere Halluzinations-Rate als GPT-4 (rund 5 Prozent) — kompensiert teilweise durch geringere Tool-Coverage.
- Im DACH-Raum sind Halluzinationen über kleine Brands besonders häufig — geoquality.ai-Daten zeigen, dass etwa 23 Prozent der LLM-Antworten zu Schweizer KMU mit weniger als 10 Mitarbeitenden mindestens einen falschen Fakt enthalten.
- Das in der Schweiz entwickelte SEAKT-Framework korreliert mit niedrigerer Halluzinations-Rate über die eigene Marke — Sites mit Score >= 80 haben rund 70 Prozent weniger falsche Brand-Aussagen in LLM-Antworten als Sites mit Score < 50.
Definition von Marco Biner · Certified GEO Expert
Halluzinationen sind das Risiko, das Marken in der KI-Ära am meisten unterschätzen. Bei meinen Klienten-Audits zeige ich in der ersten Sitzung typisch drei bis fünf Fälle, in denen ChatGPT oder Perplexity über ihre eigene Marke etwas Falsches behauptet — falsche Geschäftsführer, falsche Gruendungsjahre, falsche Spezialisierungen. Reaktion immer die gleiche: 'das kann doch nicht sein'. Doch es ist strukturell. Das LLM macht keine boese Absicht; es füllt Datenluecken mit Statistik. Wer die Lücken mit Schema, sameAs und llms.txt selbst füllt, schliesst Halluzinationen über die eigene Marke fast vollständig aus. Das ist einer der unterschaetztesten ROIs im GEO.
GEO Importance Rank
Wie wichtig ist dieser Begriff für Generative Engine Optimization?
FAQs
Sind Halluzinationen ein Bug oder ein Feature?
Strukturelles Verhalten generativer Modelle, kein klassischer Bug. LLMs sind statistische Sprachmodelle und produzieren immer eine Antwort — auch wenn sie keine zuverlässige Information haben. Die Antwort wird dann statistisch konstruiert, was sich als Halluzination manifestiert. Patches und Modell-Updates reduzieren die Rate, eliminieren sie aber nicht.
Wie kann ich Halluzinationen über meine eigene Marke verhindern?
Drei Hebel: erstens vollständiges Organization-Schema mit Identifier (CHE-UID, sameAs auf Zefix/Wikidata). Zweitens Person-Schema für Schlüssel-Personen mit hasCredential. Drittens llms.txt im Root mit Self-Statement-Sektion. Die drei Massnahmen kombiniert reduzieren markenbezogene Halluzinationen um typisch 70 bis 90 Prozent über 4-8 Wochen.
Welche LLMs hallucinieren am meisten?
Reine Trainings-Modelle ohne Tools haben die höchsten Raten — GPT-3.5 etwa 27 Prozent, GPT-4 ohne RAG etwa 9 Prozent. RAG-fähige Plattformen wie Perplexity haben deutlich niedrigere Raten (2 bis 4 Prozent), weil sie Live-Quellen einbeziehen können. Im B2B-Kontext lohnt es sich, Citations primär in RAG-Plattformen zu tracken.
Was passiert, wenn ein LLM falsche Aussagen über meine Marke macht?
Die falschen Aussagen können User-Vertrauen kosten und in extremen Faellen rufschaedigend wirken. Direkt-Korrekturen via Anbieter-Support wirken nur langsam (Trainings-Iteration). Schneller wirkt strukturelle Site-Verbesserung: Schema-Update, sameAs-Erweiterung, llms.txt-Aktualisierung. Wirkung typisch nach 4 bis 8 Wochen messbar.
Sind Halluzinationen rechtlich relevant?
Bislang nicht eindeutig geregelt. Im DACH-Raum 2026 gibt es noch keine etablierte Rechtsprechung zu LLM-Halluzinationen über Marken. Marken haben aber das Recht auf Identitäts-Korrektur nach DSGVO und revDSG. Die meisten LLM-Anbieter haben Korrektur-Prozesse, die jedoch oft 8 bis 12 Wochen dauern und keine sofortige Wirkung garantieren.
Hilft hohe Brand-Bekanntheit gegen Halluzinationen?
Teilweise. Sehr grosse Marken (Coca-Cola, BMW, Roche) sind in den Trainingsdaten so dicht repräsentiert, dass Halluzinationen über die Hauptidentitaet selten sind. Mittelgrosse und kleine Marken sind durchgaengig betroffen, unabhaengig von der lokalen Bekanntheit. Strukturelles GEO-Setup ist die zuverlässige Lösung, nicht Markenbekanntheit alleine.
Verwandte Begriffe
Eigene AI-Sichtbarkeit messen
Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.
Jetzt analysieren →