Trainingsdaten
Auch bekannt als: Training Data, Trainingsdaten, Trainings-Korpus, Trainings-Korpora
1. Kurzdefinition
Trainingsdaten sind die Texte, Bilder und Code-Beispiele, mit denen ein LLM während seiner Lern-Phase die Sprachverteilung und Faktenbasis erwirbt. Ihre Zusammensetzung bestimmt direkt, welche Marken, Personen und Themen das Modell ohne Live-Retrieval kennt — und ist damit ein zentrales Brand-Awareness-Reservoir im KI-Zeitalter.
2. Ausführliche Erklärung
Trainingsdaten sind das Fundament jedes Large Language Models. Während des Pre-Training-Schritts liest ein Modell wie GPT-4, Claude Sonnet oder Gemini durch hunderte Milliarden von Tokens — Web-Texte, Bücher, wissenschaftliche Publikationen, Code-Repos, Foren-Diskussionen — und lernt dabei statistische Muster zwischen Wörtern, Sätzen und Bedeutungen. Was im Trainingskorpus dicht repräsentiert ist, kann das Modell danach zuverlässig wiedergeben; was selten oder gar nicht enthalten war, bleibt eine Wissens-Lücke und wird bei Anfragen entweder eingestanden oder halluziniert.
Die Zusammensetzung der Trainingsdaten ist Branche-geheimnis, aber öffentliche Schätzungen geben Anhaltspunkte. Common Crawl (offene Web-Crawl-Sammlung) macht typisch 60 bis 80 Prozent der Pre-Training-Corpora aus — das heisst, jede Site, die Common Crawl indexiert, ist potentiell Teil des Trainings künftiger Modelle. Wikipedia ist mit hohem Gewicht vertreten (typisch 5 bis 15 Prozent, deutlich überrepräsentiert relativ zu ihrem Web-Anteil), weil sie als hochqualitative Quelle gilt. Reddit ist seit dem OpenAI-Lizenzdeal 2024 ebenfalls überrepräsentiert in ChatGPT-Trainingsdaten. Wissenschaftliche Open-Access-Publikationen (arXiv, PMC) bilden den Rest.
Für GEO sind Trainingsdaten der unsichtbare Brand-Awareness-Speicher. Eine Marke, die in Common-Crawl-Quellen tausendfach erwähnt wird, hat im Modell nach dem Training eine stabile Identitäts-Repräsentation — Anfragen über die Marke produzieren konsistente, korrekte Antworten ohne Live-Retrieval. Eine Marke, die nur in der eigenen Site auftaucht, fehlt im Training und wird nur über Live-RAG-Pipelines erkennbar (Perplexity, ChatGPT-Web). Das macht Brand Mentions auf Drittseiten zu einem strategisch wichtigen GEO-Hebel — sie sichern die langfristige Trainings-Repräsentation.
Knowledge-Cutoff ist ein eng verwandtes Konzept. Jedes Modell hat einen Stichtag, bis zu dem die Trainingsdaten reichen — GPT-4o etwa Juni 2024, Claude Sonnet 4.6 etwa April 2024, Gemini 2.5 etwa März 2025. Inhalte nach diesem Datum sind nur über Live-Retrieval-Mechanismen abrufbar. Für GEO bedeutet das: brandneue Sites haben keine Chance, in klassischen Trainings-Antworten zu erscheinen, müssen also auf RAG-fähige Plattformen (Perplexity, AI Overviews) setzen und dort ihre Sichtbarkeit aufbauen, bis das nächste Modell-Training startet.
Wichtig zur Abgrenzung: Trainingsdaten sind nicht statisch. Modelle werden alle 6 bis 12 Monate neu trainiert oder fein-abgestimmt; jeder neue Trainingszyklus integriert frische Web-Inhalte. Eine Site, die heute eine starke GEO-Präsenz aufbaut, wird in 12 bis 18 Monaten in den nächsten Modell-Versionen stabiler erscheinen — selbst ohne Live-RAG. Das ist der langfristige strategische Hebel von GEO, der über die kurzfristige Citation-Optimierung hinausgeht.
3. Praxisbeispiel
Schätzung der typischen Trainings-Korpus-Zusammensetzung moderner LLMs:
| Quelle | Anteil | Qualitäts-Gewicht |
|---|---|---|
| Common Crawl (offenes Web) | 60-80% | 1.0x |
| Wikipedia | 5-15% | 3-5x überrepräsentiert |
| Reddit (ChatGPT seit 2024) | 3-8% | 2-3x |
| arXiv / PMC (Wissenschaft) | 3-7% | 2-3x |
| GitHub-Code | 2-5% | 1-2x |
| Books-Korpora | 5-10% | 1-2x |
| Eigene Lizenz-Daten (z.B. AP, Reuters) | 1-3% | 3-5x |
Lehre für GEO: Brand Mentions in Wikipedia, Reddit oder wissenschaftlichen Open-Access-Publikationen sind 2-5x mehr wert als generische Web-Mentions, weil sie überrepräsentiert in den Trainings-Korpora sind. Eine einzige Wikipedia-Mention ist statistisch wertvoller als 50 Verzeichnis-Links.
4. Typische Fehler & Missverständnisse
- Annehmen, dass alle Web-Quellen gleich gewichtet ins Training fliessen — Wikipedia, Reddit und arXiv sind 2-5x überrepräsentiert.
- Auf Live-RAG verlassen ohne langfristige Trainingsdaten-Strategie — RAG ist das kurzfristige Tool, Trainings-Repräsentation der langfristige Brand-Anker.
- Knowledge-Cutoff-Datum ignorieren — Inhalte nach dem Cutoff sind nur über aktive Retrieval-Mechanismen sichtbar, nicht in klassischen Trainings-Antworten.
- Common-Crawl-Indexierung blockieren ohne Bewusstsein — wer GPTBot, ClaudeBot etc. in robots.txt blockiert, schliesst die Site auch aus zukünftigen Trainings-Iterationen aus.
5. Best Practices
- Investiere in qualitative Mentions auf Wikipedia, Reddit, arXiv und vergleichbaren überrepräsentierten Quellen — sie haben überproportionalen Einfluss auf langfristige Trainings-Repräsentation.
- Erlaube AI-Crawler in robots.txt explizit (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) — Voraussetzung für sowohl Live-RAG als auch zukünftige Trainings-Inklusion.
- Pflege langfristige Konsistenz der Brand-Identität — wechselnde Beschreibungen verwirren das Modell, stabile Identität wird stabil gelernt.
- Tracke Brand-Mentions in den Top-überrepräsentierten Quellen separat — eine Wikipedia-Mention ist statistisch wertvoller als 50 Verzeichnis-Links.
- Plane GEO-Strategien mit 12 bis 18 Monaten Horizont — Trainings-Iterationen wirken nicht sofort, der ROI baut sich kumulativ auf.
6. Fakten
- GPT-4o hat Knowledge-Cutoff Juni 2024; Claude Sonnet 4.6 etwa April 2024; Gemini 2.5 etwa März 2025; Modelle werden alle 6 bis 12 Monate aktualisiert.
- Common Crawl ist die offene Web-Archiv-Initiative seit 2008 und stellt Petabyte an Web-Daten zur Verfügung — Hauptquelle der meisten Pre-Training-Korpora.
- Wikipedia-Inhalte sind in Trainings-Korpora typisch 3-5x überrepräsentiert relativ zu ihrem realen Web-Anteil, weil sie als qualitativ hochwertig gelten.
- OpenAI hat 2024 ein Lizenz-Abkommen mit Reddit geschlossen — seither ist Reddit-Content in ChatGPT-Trainingsdaten überproportional gewichtet.
- Wissenschaftliche Open-Access-Publikationen auf arXiv und PMC sind überproportional in Trainingsdaten der grossen LLMs vertreten — wichtiger Faktor für YMYL-Themen.
- Im DACH-Raum 2026 sind Sites mit Wikidata-QID statistisch um Faktor 8-12 häufiger in LLM-Antworten erwähnt als Sites ohne Wikidata-Repräsentation.
Definition von Marco Biner · Certified GEO Expert
Trainingsdaten sind der unsichtbare Brand-Anker, den die meisten Marketing-Verantwortlichen nicht im Blick haben. Während alle über RAG und Live-Citations reden, baut sich im Hintergrund die langfristige Trainings-Repräsentation auf — und genau die entscheidet, ob deine Marke in 18 Monaten in ChatGPT auch ohne Web-Browsing zuverlässig zitiert wird. Bei meinen Klienten setze ich daher zwei Hebel parallel: kurz-fristig RAG-Optimierung für sofortige Citations, langfristig qualitative Mentions auf Wikipedia, Reddit, arXiv für Trainings-Repräsentation. Wer nur kurzfristig spielt, verliert in 24 Monaten gegen Konkurrenz, die beides macht.
GEO Importance Rank
Wie wichtig ist dieser Begriff für Generative Engine Optimization?
FAQs
Wie kommen Inhalte ins LLM-Training?
Über Web-Crawl-Pipelines wie Common Crawl, plus lizenzierte Quellen (Reddit, AP, Reuters), Wikipedia-Dumps und wissenschaftliche Open-Access-Korpora. Eine Site wird typisch dann ins Training aufgenommen, wenn sie Common-Crawl-indexiert ist UND von den Modell-Anbietern als qualitativ ausreichend gewertet wird. Gross-Filter eliminieren Spam, Low-Quality-Content und nicht-erlaubte Crawler-Zugänge.
Wie kann ich prüfen, ob meine Site im Training ist?
Indirekt: stelle Faktenfragen über die eigene Marke an ChatGPT ohne Web-Browsing, an Claude ohne Tools. Wenn das Modell konsistent korrekte Antworten produziert, ist die Marke ausreichend im Training repräsentiert. Wenn es halluziniert oder 'kenne ich nicht' sagt, fehlt die Trainings-Repräsentation. Tracking via geoquality.ai im Engine-Tab (ohne Web-Search-Modi).
Was ist der Knowledge-Cutoff?
Das Stichdatum, bis zu dem die Trainingsdaten eines Modells reichen. Inhalte nach diesem Datum sind nicht im Training enthalten und nur über Live-Retrieval-Mechanismen (Web-Browsing, MCP-Tools) abrufbar. Aktuelle Cutoffs (Mai 2026): GPT-4o Juni 2024, Claude Sonnet 4.6 April 2024, Gemini 2.5 März 2025.
Sind alle Trainings-Quellen gleich gewichtet?
Nein. Wikipedia und Reddit sind 2-5x überrepräsentiert relativ zu ihrem Web-Anteil, wissenschaftliche Open-Access-Quellen ähnlich. Generische Web-Inhalte und Verzeichnisse sind unterrepräsentiert. Die Konsequenz für GEO: eine Wikipedia-Mention ist statistisch wertvoller als 50 Verzeichnis-Mentions.
Wie lange dauert es, bis neue Inhalte ins Training kommen?
Typisch 12 bis 24 Monate. Modelle werden alle 6 bis 12 Monate neu trainiert; jeder Trainings-Zyklus integriert Web-Inhalte mit etwa 6 Monaten Verzögerung gegenüber dem Cutoff-Datum. Eine Site, die im Mai 2026 starkes GEO-Setup einführt, kann ab den 2027er-Modell-Versionen mit verbesserter Trainings-Repräsentation rechnen.
Kann ich verhindern, dass meine Inhalte ins Training fliessen?
Strukturell ja, durch Blockierung der AI-Crawler in <a href="/glossar/robots-txt">robots.txt</a> (GPTBot, ClaudeBot, PerplexityBot, Google-Extended). Konsequenz: keine zukünftige Trainings-Inklusion und parallel keine Live-RAG-Citations. Die meisten Brands akzeptieren das Trade-off zugunsten der Sichtbarkeit. Wer ausschliessen will, verliert komplett die <a href="/glossar/ai-sichtbarkeit"><a href="/glossar/llm-visibility">KI-Sichtbarkeit</a></a> auf den jeweiligen Plattformen.
Verwandte Begriffe
Eigene AI-Sichtbarkeit messen
Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.
Jetzt analysieren →