Wichtig ai systems

Trainingsdaten

Auch bekannt als: Training Data, Trainingsdaten, Trainings-Korpus, Trainings-Korpora


Aktualisiert 2026-05-07 · von Marco Biner

1. Kurzdefinition

Trainingsdaten sind die Texte, Bilder und Code-Beispiele, mit denen ein LLM während seiner Lern-Phase die Sprachverteilung und Faktenbasis erwirbt. Ihre Zusammensetzung bestimmt direkt, welche Marken, Personen und Themen das Modell ohne Live-Retrieval kennt — und ist damit ein zentrales Brand-Awareness-Reservoir im KI-Zeitalter.

2. Ausführliche Erklärung

Trainingsdaten sind das Fundament jedes Large Language Models. Während des Pre-Training-Schritts liest ein Modell wie GPT-4, Claude Sonnet oder Gemini durch hunderte Milliarden von Tokens — Web-Texte, Bücher, wissenschaftliche Publikationen, Code-Repos, Foren-Diskussionen — und lernt dabei statistische Muster zwischen Wörtern, Sätzen und Bedeutungen. Was im Trainingskorpus dicht repräsentiert ist, kann das Modell danach zuverlässig wiedergeben; was selten oder gar nicht enthalten war, bleibt eine Wissens-Lücke und wird bei Anfragen entweder eingestanden oder halluziniert.

Die Zusammensetzung der Trainingsdaten ist Branche-geheimnis, aber öffentliche Schätzungen geben Anhaltspunkte. Common Crawl (offene Web-Crawl-Sammlung) macht typisch 60 bis 80 Prozent der Pre-Training-Corpora aus — das heisst, jede Site, die Common Crawl indexiert, ist potentiell Teil des Trainings künftiger Modelle. Wikipedia ist mit hohem Gewicht vertreten (typisch 5 bis 15 Prozent, deutlich überrepräsentiert relativ zu ihrem Web-Anteil), weil sie als hochqualitative Quelle gilt. Reddit ist seit dem OpenAI-Lizenzdeal 2024 ebenfalls überrepräsentiert in ChatGPT-Trainingsdaten. Wissenschaftliche Open-Access-Publikationen (arXiv, PMC) bilden den Rest.

Für GEO sind Trainingsdaten der unsichtbare Brand-Awareness-Speicher. Eine Marke, die in Common-Crawl-Quellen tausendfach erwähnt wird, hat im Modell nach dem Training eine stabile Identitäts-Repräsentation — Anfragen über die Marke produzieren konsistente, korrekte Antworten ohne Live-Retrieval. Eine Marke, die nur in der eigenen Site auftaucht, fehlt im Training und wird nur über Live-RAG-Pipelines erkennbar (Perplexity, ChatGPT-Web). Das macht Brand Mentions auf Drittseiten zu einem strategisch wichtigen GEO-Hebel — sie sichern die langfristige Trainings-Repräsentation.

Knowledge-Cutoff ist ein eng verwandtes Konzept. Jedes Modell hat einen Stichtag, bis zu dem die Trainingsdaten reichen — GPT-4o etwa Juni 2024, Claude Sonnet 4.6 etwa April 2024, Gemini 2.5 etwa März 2025. Inhalte nach diesem Datum sind nur über Live-Retrieval-Mechanismen abrufbar. Für GEO bedeutet das: brandneue Sites haben keine Chance, in klassischen Trainings-Antworten zu erscheinen, müssen also auf RAG-fähige Plattformen (Perplexity, AI Overviews) setzen und dort ihre Sichtbarkeit aufbauen, bis das nächste Modell-Training startet.

Wichtig zur Abgrenzung: Trainingsdaten sind nicht statisch. Modelle werden alle 6 bis 12 Monate neu trainiert oder fein-abgestimmt; jeder neue Trainingszyklus integriert frische Web-Inhalte. Eine Site, die heute eine starke GEO-Präsenz aufbaut, wird in 12 bis 18 Monaten in den nächsten Modell-Versionen stabiler erscheinen — selbst ohne Live-RAG. Das ist der langfristige strategische Hebel von GEO, der über die kurzfristige Citation-Optimierung hinausgeht.

3. Praxisbeispiel

Schätzung der typischen Trainings-Korpus-Zusammensetzung moderner LLMs:

QuelleAnteilQualitäts-Gewicht
Common Crawl (offenes Web)60-80%1.0x
Wikipedia5-15%3-5x überrepräsentiert
Reddit (ChatGPT seit 2024)3-8%2-3x
arXiv / PMC (Wissenschaft)3-7%2-3x
GitHub-Code2-5%1-2x
Books-Korpora5-10%1-2x
Eigene Lizenz-Daten (z.B. AP, Reuters)1-3%3-5x

Lehre für GEO: Brand Mentions in Wikipedia, Reddit oder wissenschaftlichen Open-Access-Publikationen sind 2-5x mehr wert als generische Web-Mentions, weil sie überrepräsentiert in den Trainings-Korpora sind. Eine einzige Wikipedia-Mention ist statistisch wertvoller als 50 Verzeichnis-Links.

4. Typische Fehler & Missverständnisse

5. Best Practices

6. Fakten


Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

Trainingsdaten sind der unsichtbare Brand-Anker, den die meisten Marketing-Verantwortlichen nicht im Blick haben. Während alle über RAG und Live-Citations reden, baut sich im Hintergrund die langfristige Trainings-Repräsentation auf — und genau die entscheidet, ob deine Marke in 18 Monaten in ChatGPT auch ohne Web-Browsing zuverlässig zitiert wird. Bei meinen Klienten setze ich daher zwei Hebel parallel: kurz-fristig RAG-Optimierung für sofortige Citations, langfristig qualitative Mentions auf Wikipedia, Reddit, arXiv für Trainings-Repräsentation. Wer nur kurzfristig spielt, verliert in 24 Monaten gegen Konkurrenz, die beides macht.


GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

66 /100
Wichtig Range 50–69

FAQs

Wie kommen Inhalte ins LLM-Training?

Über Web-Crawl-Pipelines wie Common Crawl, plus lizenzierte Quellen (Reddit, AP, Reuters), Wikipedia-Dumps und wissenschaftliche Open-Access-Korpora. Eine Site wird typisch dann ins Training aufgenommen, wenn sie Common-Crawl-indexiert ist UND von den Modell-Anbietern als qualitativ ausreichend gewertet wird. Gross-Filter eliminieren Spam, Low-Quality-Content und nicht-erlaubte Crawler-Zugänge.

Wie kann ich prüfen, ob meine Site im Training ist?

Indirekt: stelle Faktenfragen über die eigene Marke an ChatGPT ohne Web-Browsing, an Claude ohne Tools. Wenn das Modell konsistent korrekte Antworten produziert, ist die Marke ausreichend im Training repräsentiert. Wenn es halluziniert oder 'kenne ich nicht' sagt, fehlt die Trainings-Repräsentation. Tracking via geoquality.ai im Engine-Tab (ohne Web-Search-Modi).

Was ist der Knowledge-Cutoff?

Das Stichdatum, bis zu dem die Trainingsdaten eines Modells reichen. Inhalte nach diesem Datum sind nicht im Training enthalten und nur über Live-Retrieval-Mechanismen (Web-Browsing, MCP-Tools) abrufbar. Aktuelle Cutoffs (Mai 2026): GPT-4o Juni 2024, Claude Sonnet 4.6 April 2024, Gemini 2.5 März 2025.

Sind alle Trainings-Quellen gleich gewichtet?

Nein. Wikipedia und Reddit sind 2-5x überrepräsentiert relativ zu ihrem Web-Anteil, wissenschaftliche Open-Access-Quellen ähnlich. Generische Web-Inhalte und Verzeichnisse sind unterrepräsentiert. Die Konsequenz für GEO: eine Wikipedia-Mention ist statistisch wertvoller als 50 Verzeichnis-Mentions.

Wie lange dauert es, bis neue Inhalte ins Training kommen?

Typisch 12 bis 24 Monate. Modelle werden alle 6 bis 12 Monate neu trainiert; jeder Trainings-Zyklus integriert Web-Inhalte mit etwa 6 Monaten Verzögerung gegenüber dem Cutoff-Datum. Eine Site, die im Mai 2026 starkes GEO-Setup einführt, kann ab den 2027er-Modell-Versionen mit verbesserter Trainings-Repräsentation rechnen.

Kann ich verhindern, dass meine Inhalte ins Training fliessen?

Strukturell ja, durch Blockierung der AI-Crawler in <a href="/glossar/robots-txt">robots.txt</a> (GPTBot, ClaudeBot, PerplexityBot, Google-Extended). Konsequenz: keine zukünftige Trainings-Inklusion und parallel keine Live-RAG-Citations. Die meisten Brands akzeptieren das Trade-off zugunsten der Sichtbarkeit. Wer ausschliessen will, verliert komplett die <a href="/glossar/ai-sichtbarkeit"><a href="/glossar/llm-visibility">KI-Sichtbarkeit</a></a> auf den jeweiligen Plattformen.


Verwandte Begriffe

Eigene AI-Sichtbarkeit messen

Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.

Jetzt analysieren →