Trainingsdaten

1. Kurzdefinition

Trainingsdaten sind die Texte, Bilder und Code-Beispiele, mit denen ein LLM während seiner Lern-Phase die Sprachverteilung und Faktenbasis erwirbt. Ihre Zusammensetzung bestimmt direkt, welche Marken, Personen und Themen das Modell ohne Live-Retrieval kennt — und ist damit ein zentrales Brand-Awareness-Reservoir im KI-Zeitalter.

2. Ausführliche Erklärung

Trainingsdaten sind das Fundament jedes Large Language Models. Während des Pre-Training-Schritts liest ein Modell wie GPT-4, Claude Sonnet oder Gemini durch hunderte Milliarden von Tokens — Web-Texte, Bücher, wissenschaftliche Publikationen, Code-Repos, Foren-Diskussionen — und lernt dabei statistische Muster zwischen Wörtern, Sätzen und Bedeutungen. Was im Trainingskorpus dicht repräsentiert ist, kann das Modell danach zuverlässig wiedergeben; was selten oder gar nicht enthalten war, bleibt eine Wissens-Lücke und wird bei Anfragen entweder eingestanden oder halluziniert.

Die Zusammensetzung der Trainingsdaten ist Branche-geheimnis, aber öffentliche Schätzungen geben Anhaltspunkte. Common Crawl (offene Web-Crawl-Sammlung) macht typisch 60 bis 80 Prozent der Pre-Training-Corpora aus — das heisst, jede Site, die Common Crawl indexiert, ist potentiell Teil des Trainings künftiger Modelle. Wikipedia ist mit hohem Gewicht vertreten (typisch 5 bis 15 Prozent, deutlich überrepräsentiert relativ zu ihrem Web-Anteil), weil sie als hochqualitative Quelle gilt. Reddit ist seit dem OpenAI-Lizenzdeal 2024 ebenfalls überrepräsentiert in ChatGPT-Trainingsdaten. Wissenschaftliche Open-Access-Publikationen (arXiv, PMC) bilden den Rest.

Für GEO sind Trainingsdaten der unsichtbare Brand-Awareness-Speicher. Eine Marke, die in Common-Crawl-Quellen tausendfach erwähnt wird, hat im Modell nach dem Training eine stabile Identitäts-Repräsentation — Anfragen über die Marke produzieren konsistente, korrekte Antworten ohne Live-Retrieval. Eine Marke, die nur in der eigenen Site auftaucht, fehlt im Training und wird nur über Live-RAG-Pipelines erkennbar (Perplexity, ChatGPT-Web). Das macht Brand Mentions auf Drittseiten zu einem strategisch wichtigen GEO-Hebel — sie sichern die langfristige Trainings-Repräsentation.

Knowledge-Cutoff ist ein eng verwandtes Konzept. Jedes Modell hat einen Stichtag, bis zu dem die Trainingsdaten reichen — GPT-4o etwa Juni 2024, Claude Sonnet 4.6 etwa April 2024, Gemini 2.5 etwa März 2025. Inhalte nach diesem Datum sind nur über Live-Retrieval-Mechanismen abrufbar. Für GEO bedeutet das: brandneue Sites haben keine Chance, in klassischen Trainings-Antworten zu erscheinen, müssen also auf RAG-fähige Plattformen (Perplexity, AI Overviews) setzen und dort ihre Sichtbarkeit aufbauen, bis das nächste Modell-Training startet.

Wichtig zur Abgrenzung: Trainingsdaten sind nicht statisch. Modelle werden alle 6 bis 12 Monate neu trainiert oder fein-abgestimmt; jeder neue Trainingszyklus integriert frische Web-Inhalte. Eine Site, die heute eine starke GEO-Präsenz aufbaut, wird in 12 bis 18 Monaten in den nächsten Modell-Versionen stabiler erscheinen — selbst ohne Live-RAG. Das ist der langfristige strategische Hebel von GEO, der über die kurzfristige Citation-Optimierung hinausgeht.

3. Praxisbeispiel

Schätzung der typischen Trainings-Korpus-Zusammensetzung moderner LLMs:

Quelle	Anteil	Qualitäts-Gewicht
Common Crawl (offenes Web)	60-80%	1.0x
Wikipedia	5-15%	3-5x überrepräsentiert
Reddit (ChatGPT seit 2024)	3-8%	2-3x
arXiv / PMC (Wissenschaft)	3-7%	2-3x
GitHub-Code	2-5%	1-2x
Books-Korpora	5-10%	1-2x
Eigene Lizenz-Daten (z.B. AP, Reuters)	1-3%	3-5x

Lehre für GEO: Brand Mentions in Wikipedia, Reddit oder wissenschaftlichen Open-Access-Publikationen sind 2-5x mehr wert als generische Web-Mentions, weil sie überrepräsentiert in den Trainings-Korpora sind. Eine einzige Wikipedia-Mention ist statistisch wertvoller als 50 Verzeichnis-Links.

4. Typische Fehler & Missverständnisse

×Annehmen, dass alle Web-Quellen gleich gewichtet ins Training fliessen — Wikipedia, Reddit und arXiv sind 2-5x überrepräsentiert.
×Auf Live-RAG verlassen ohne langfristige Trainingsdaten-Strategie — RAG ist das kurzfristige Tool, Trainings-Repräsentation der langfristige Brand-Anker.
×Knowledge-Cutoff-Datum ignorieren — Inhalte nach dem Cutoff sind nur über aktive Retrieval-Mechanismen sichtbar, nicht in klassischen Trainings-Antworten.
×Common-Crawl-Indexierung blockieren ohne Bewusstsein — wer GPTBot, ClaudeBot etc. in robots.txt blockiert, schliesst die Site auch aus zukünftigen Trainings-Iterationen aus.

5. Best Practices

✓Investiere in qualitative Mentions auf Wikipedia, Reddit, arXiv und vergleichbaren überrepräsentierten Quellen — sie haben überproportionalen Einfluss auf langfristige Trainings-Repräsentation.
✓Erlaube AI-Crawler in robots.txt explizit (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) — Voraussetzung für sowohl Live-RAG als auch zukünftige Trainings-Inklusion.
✓Pflege langfristige Konsistenz der Brand-Identität — wechselnde Beschreibungen verwirren das Modell, stabile Identität wird stabil gelernt.
✓Tracke Brand-Mentions in den Top-überrepräsentierten Quellen separat — eine Wikipedia-Mention ist statistisch wertvoller als 50 Verzeichnis-Links.
✓Plane GEO-Strategien mit 12 bis 18 Monaten Horizont — Trainings-Iterationen wirken nicht sofort, der ROI baut sich kumulativ auf.

6. Fakten

GPT-4o hat Knowledge-Cutoff Juni 2024; Claude Sonnet 4.6 etwa April 2024; Gemini 2.5 etwa März 2025; Modelle werden alle 6 bis 12 Monate aktualisiert.
Common Crawl ist die offene Web-Archiv-Initiative seit 2008 und stellt Petabyte an Web-Daten zur Verfügung — Hauptquelle der meisten Pre-Training-Korpora.
Wikipedia-Inhalte sind in Trainings-Korpora typisch 3-5x überrepräsentiert relativ zu ihrem realen Web-Anteil, weil sie als qualitativ hochwertig gelten.
OpenAI hat 2024 ein Lizenz-Abkommen mit Reddit geschlossen — seither ist Reddit-Content in ChatGPT-Trainingsdaten überproportional gewichtet.
Wissenschaftliche Open-Access-Publikationen auf arXiv und PMC sind überproportional in Trainingsdaten der grossen LLMs vertreten — wichtiger Faktor für YMYL-Themen.
Im DACH-Raum 2026 sind Sites mit Wikidata-QID statistisch um Faktor 8-12 häufiger in LLM-Antworten erwähnt als Sites ohne Wikidata-Repräsentation.

Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

Trainingsdaten sind der unsichtbare Brand-Anker, den die meisten Marketing-Verantwortlichen nicht im Blick haben. Während alle über RAG und Live-Citations reden, baut sich im Hintergrund die langfristige Trainings-Repräsentation auf — und genau die entscheidet, ob deine Marke in 18 Monaten in ChatGPT auch ohne Web-Browsing zuverlässig zitiert wird. Bei meinen Klienten setze ich daher zwei Hebel parallel: kurz-fristig RAG-Optimierung für sofortige Citations, langfristig qualitative Mentions auf Wikipedia, Reddit, arXiv für Trainings-Repräsentation. Wer nur kurzfristig spielt, verliert in 24 Monaten gegen Konkurrenz, die beides macht.

GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

66 /100

Wichtig Range 50–69

FAQs

Wie kommen Inhalte ins LLM-Training?

Über Web-Crawl-Pipelines wie Common Crawl, plus lizenzierte Quellen (Reddit, AP, Reuters), Wikipedia-Dumps und wissenschaftliche Open-Access-Korpora. Eine Site wird typisch dann ins Training aufgenommen, wenn sie Common-Crawl-indexiert ist UND von den Modell-Anbietern als qualitativ ausreichend gewertet wird. Gross-Filter eliminieren Spam, Low-Quality-Content und nicht-erlaubte Crawler-Zugänge.

Wie kann ich prüfen, ob meine Site im Training ist?

Indirekt: stelle Faktenfragen über die eigene Marke an ChatGPT ohne Web-Browsing, an Claude ohne Tools. Wenn das Modell konsistent korrekte Antworten produziert, ist die Marke ausreichend im Training repräsentiert. Wenn es halluziniert oder 'kenne ich nicht' sagt, fehlt die Trainings-Repräsentation. Tracking via geoquality.ai im Engine-Tab (ohne Web-Search-Modi).

Was ist der Knowledge-Cutoff?

Das Stichdatum, bis zu dem die Trainingsdaten eines Modells reichen. Inhalte nach diesem Datum sind nicht im Training enthalten und nur über Live-Retrieval-Mechanismen (Web-Browsing, MCP-Tools) abrufbar. Aktuelle Cutoffs (Mai 2026): GPT-4o Juni 2024, Claude Sonnet 4.6 April 2024, Gemini 2.5 März 2025.

Sind alle Trainings-Quellen gleich gewichtet?

Nein. Wikipedia und Reddit sind 2-5x überrepräsentiert relativ zu ihrem Web-Anteil, wissenschaftliche Open-Access-Quellen ähnlich. Generische Web-Inhalte und Verzeichnisse sind unterrepräsentiert. Die Konsequenz für GEO: eine Wikipedia-Mention ist statistisch wertvoller als 50 Verzeichnis-Mentions.

Wie lange dauert es, bis neue Inhalte ins Training kommen?

Typisch 12 bis 24 Monate. Modelle werden alle 6 bis 12 Monate neu trainiert; jeder Trainings-Zyklus integriert Web-Inhalte mit etwa 6 Monaten Verzögerung gegenüber dem Cutoff-Datum. Eine Site, die im Mai 2026 starkes GEO-Setup einführt, kann ab den 2027er-Modell-Versionen mit verbesserter Trainings-Repräsentation rechnen.

Kann ich verhindern, dass meine Inhalte ins Training fliessen?

Strukturell ja, durch Blockierung der AI-Crawler in <a href="/glossar/robots-txt">robots.txt</a> (GPTBot, ClaudeBot, PerplexityBot, Google-Extended). Konsequenz: keine zukünftige Trainings-Inklusion und parallel keine Live-RAG-Citations. Die meisten Brands akzeptieren das Trade-off zugunsten der Sichtbarkeit. Wer ausschliessen will, verliert komplett die <a href="/glossar/ai-sichtbarkeit"><a href="/glossar/llm-visibility">KI-Sichtbarkeit</a></a> auf den jeweiligen Plattformen.