Wichtig ai systems

Context Window

Auch bekannt als: Kontext-Fenster, Context Length, LLM-Kontextgroesse, Token-Limit


Aktualisiert 2026-05-07 · von Marco Biner

1. Kurzdefinition

Das Context Window ist die maximale Anzahl Tokens, die ein LLM in einer einzelnen Anfrage verarbeiten kann — Input und Output zusammen. 2026 reichen die Werte von 8 000 (ältere Modelle) über 128 000 (GPT-4o) bis 200 000 Tokens (Claude Sonnet 4.6) und sogar 1 000 000+ (Gemini 1.5 Pro). Die Grösse bestimmt, wie viel Site-Inhalt gleichzeitig analysiert werden kann.

2. Ausführliche Erklärung

Das Context Window ist eines der konsequenzenreichsten technischen Limits eines LLM. Es definiert die maximale Anzahl Tokens, die in einer einzelnen Anfrage gleichzeitig im Kontext des Modells liegen können — Input (Prompt + alle abgerufenen Quellen + Chat-Historie) und Output (generierte Antwort) zusammengezaehlt. Wenn die Summe das Context Window übersteigt, muss der Inhalt gekürzt oder in mehrere Anfragen aufgeteilt werden — beides reduziert die Konsistenz der Antwort.

Die Entwicklung der Context-Window-Grössen ist eine der wichtigsten Verbesserungen der letzten drei Jahre. 2022 war GPT-3.5 mit 4 000 Tokens das Standard-Mass; 2023 brachte GPT-4 8 000 Tokens, dann 32 000 mit GPT-4-32k. 2024 sprang das Feld auf 128 000 (GPT-4o, Claude 3) und 200 000 (Claude 3.5 Sonnet). 2025 brachte Gemini 1.5 Pro mit 1 000 000 Tokens den ersten Mio-Token-Kontext, 2026 folgten weitere. Die praktische Konsequenz: Anfragen, die 2022 noch in mehrere Pipelines aufgeteilt werden mussten, passen heute in eine einzelne Pipeline — mit voller Kontextkonsistenz.

Für GEO ist das Context Window indirekt zentral, weil es die Tiefe der Site-Analyse bestimmt. Eine geoquality.ai-Pro-Analyse mit Multi-Page-Crawl von 5 Seiten verarbeitet typisch 80 000 bis 150 000 Tokens — Crawl-HTML, JSON-LD-Extracts, LLM-Prompts für E- und K-Dimension. In den 2022er 4k-Modellen hätte das in 20+ separaten Anfragen passieren müssen, mit entsprechendem Konsistenz-Verlust. In modernen 128k- bis 200k-Modellen passt der gesamte Site-Crawl in eine einzige Anfrage, und der LLM-Bewerter sieht alle Seiten gleichzeitig — kann also Cross-Page-Konsistenz bewerten.

Für User-seitige Anwendungen — etwa den AI GEO-Berater — spielt das Context Window eine zweite Rolle: Memory. Eine Multi-Turn-Chat-Session mit dem Berater speichert Konversations-Historie im Kontext. Bei alten 8k-Modellen musste die Historie nach 5-10 Turns gekürzt werden; bei 200k-Claude-Modellen passen 100+ Turns problemlos rein. Das ermöglicht echte langfristige Strategie-Sessions ohne Memory-Loss zwischen Turns.

Wichtig zur Abgrenzung: ein grosses Context Window heisst nicht automatisch bessere Antworten. Das Phänomen 'Lost in the Middle' beschreibt den Effekt, dass LLMs bei sehr langen Kontexten Information aus der Mitte des Prompts schlechter verarbeiten als Information am Anfang oder Ende. Ein 200k-Token-Prompt mit kritischer Information bei Token 100 000 wird statistisch weniger zuverlässig genutzt als derselbe Inhalt in einem fokussierten 20k-Prompt. RAG-Pipelines kompensieren das, indem sie nur die relevantesten Chunks auswählen statt den gesamten Site-Inhalt einzuwerfen.

3. Praxisbeispiel

Context-Window-Grössen der wichtigsten LLMs 2026:

ModellContext WindowWortaequivalent (de)
GPT-3.5 Turbo (legacy)16 000 Tokens~10 000 Wörter
GPT-4 Turbo128 000 Tokens~80 000 Wörter
GPT-4o / GPT-4o-mini128 000 Tokens~80 000 Wörter
Claude Sonnet 4.6200 000 Tokens~125 000 Wörter
Claude Haiku 4.5200 000 Tokens~125 000 Wörter
Gemini 1.5 Pro2 000 000 Tokens~1 250 000 Wörter
Mistral Large 2128 000 Tokens~80 000 Wörter

Ein 80 000-Wort-Buch passt also problemlos in moderne Claude- oder GPT-4-Anfragen, ein 1.2-Mio-Wort-Bibliothek nur in Gemini 1.5 Pro. Für typische Schweizer KMU-Site-Analysen mit 5-15 Seiten reichen 128 000 Tokens komfortabel — eine 10-seitige Treuhand-Site umfasst typisch 25 000 bis 60 000 Tokens.

4. Typische Fehler & Missverständnisse

5. Best Practices

6. Fakten


Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

Context Windows sind 2026 selten der Bottleneck — sie sind der Enabler. Bei jedem Pro-Audit für einen Klienten passt der gesamte Site-Crawl problemlos in eine einzige Claude-Anfrage, und der Bewerter sieht alle Seiten gleichzeitig. Das war 2022 noch undenkbar. Wer heute eine GEO-Pipeline baut, sollte trotzdem RAG-Retrieval nutzen, nicht den ganzen Site-Crawl einwerfen — nicht aus technischer Notwendigkeit, sondern wegen Antwort-Qualität. 'Lost in the Middle' ist real. Mein Mantra: grösseres Context Window heisst nicht weniger Disziplin beim Prompt-Design, sondern mehr Spielraum für fokussierte Pipelines.


GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

65 /100
Wichtig Range 50–69

FAQs

Wie gross sollte das Context Window meines LLM sein?

Für typische GEO-Workflows reichen 128 000 Tokens (GPT-4o, Claude Haiku 4.5) komfortabel — eine 10-seitige Site-Analyse braucht typisch 60 000 bis 100 000 Tokens. Für Multi-Turn-Strategie-Sessions oder Buch-länge-Analysen lohnen sich 200 000+ (Claude Sonnet 4.6) oder 1 000 000+ (Gemini 1.5 Pro).

Was passiert, wenn meine Anfrage das Context Window übersteigt?

Der API-Anbieter wirft einen Fehler ('context length exceeded') und die Anfrage scheitert. Manche Anbieter haben Auto-Truncation, die aelteste Information aus dem Kontext entfernt — das ist gefährlich, weil kritische Information dabei verloren gehen kann. Sauberer ist: vorab Token-Count prüfen und bei Bedarf in Sub-Anfragen splitten.

Sind grosse Context Windows immer besser?

Nicht automatisch. Das 'Lost in the Middle'-Phänomen zeigt: LLMs nutzen Information aus dem mittleren Drittel des Prompts schlechter als aus Anfang und Ende. Ein 200k-Prompt mit kritischer Info bei Token 100 000 wird statistisch weniger zuverlässig verarbeitet als derselbe Inhalt in 20k-Prompt. RAG-Filtering ist meistens die bessere Strategie.

Beeinflusst Context Window die API-Kosten?

Ja, direkt. Sowohl Input- als auch Output-Tokens werden abgerechnet. Eine 100 000-Token-Anfrage an GPT-4o kostet bei Input 0.25 USD, bei Output 1.00 USD pro 1 Mio Tokens — also 100 USD für Input + entsprechend Output. Anthropic Claude Sonnet 4.6 ist mit 3 USD/15 USD pro 1 Mio teurer aber präzier.

Was ist Prompt Caching?

Eine Anthropic- und OpenAI-Funktion, die wiederverwendete Prompt-Teile (etwa System-Prompts) cached und beim nächsten Request nur 10 Prozent der normalen Token-Kosten berechnet. Voraussetzung: Cache-Hit-Threshold typisch 1024 Tokens. Spart bei Multi-Turn-Sessions mit konstantem System-Prompt erheblich Kosten.

Warum hat Gemini 1.5 Pro so viel grösseres Context Window als GPT-4o?

Architektur-Unterschiede: Gemini nutzt eine spezialisierte Long-Context-Architektur mit Mixture-of-Experts (MoE), die effizienter mit sehr langen Kontexten umgeht. GPT-4o hat eine klassische Transformer-Architektur, die bei 128k schon technisch optimiert ist. Beide Ansaetze haben unterschiedliche Trade-offs in Präzision und Geschwindigkeit.


Verwandte Begriffe

Eigene AI-Sichtbarkeit messen

Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.

Jetzt analysieren →