Wichtig ai systems

Context Window

Auch bekannt als: Kontext-Fenster, Context Length, LLM-Kontextgroesse, Token-Limit

Aktualisiert 2026-05-07 · von Marco Biner

1. Kurzdefinition

Das Context Window ist die maximale Anzahl Tokens, die ein LLM in einer einzelnen Anfrage verarbeiten kann — Input und Output zusammen. 2026 reichen die Werte von 8 000 (ältere Modelle) über 128 000 (GPT-4o) bis 200 000 Tokens (Claude Sonnet 4.6) und sogar 1 000 000+ (Gemini 1.5 Pro). Die Grösse bestimmt, wie viel Site-Inhalt gleichzeitig analysiert werden kann.

2. Ausführliche Erklärung

Das Context Window ist eines der konsequenzenreichsten technischen Limits eines LLM. Es definiert die maximale Anzahl Tokens, die in einer einzelnen Anfrage gleichzeitig im Kontext des Modells liegen können — Input (Prompt + alle abgerufenen Quellen + Chat-Historie) und Output (generierte Antwort) zusammengezaehlt. Wenn die Summe das Context Window übersteigt, muss der Inhalt gekürzt oder in mehrere Anfragen aufgeteilt werden — beides reduziert die Konsistenz der Antwort.

Die Entwicklung der Context-Window-Grössen ist eine der wichtigsten Verbesserungen der letzten drei Jahre. 2022 war GPT-3.5 mit 4 000 Tokens das Standard-Mass; 2023 brachte GPT-4 8 000 Tokens, dann 32 000 mit GPT-4-32k. 2024 sprang das Feld auf 128 000 (GPT-4o, Claude 3) und 200 000 (Claude 3.5 Sonnet). 2025 brachte Gemini 1.5 Pro mit 1 000 000 Tokens den ersten Mio-Token-Kontext, 2026 folgten weitere. Die praktische Konsequenz: Anfragen, die 2022 noch in mehrere Pipelines aufgeteilt werden mussten, passen heute in eine einzelne Pipeline — mit voller Kontextkonsistenz.

Für GEO ist das Context Window indirekt zentral, weil es die Tiefe der Site-Analyse bestimmt. Eine geoquality.ai-Pro-Analyse mit Multi-Page-Crawl von 5 Seiten verarbeitet typisch 80 000 bis 150 000 Tokens — Crawl-HTML, JSON-LD-Extracts, LLM-Prompts für E- und K-Dimension. In den 2022er 4k-Modellen hätte das in 20+ separaten Anfragen passieren müssen, mit entsprechendem Konsistenz-Verlust. In modernen 128k- bis 200k-Modellen passt der gesamte Site-Crawl in eine einzige Anfrage, und der LLM-Bewerter sieht alle Seiten gleichzeitig — kann also Cross-Page-Konsistenz bewerten.

Für User-seitige Anwendungen — etwa den AI GEO-Berater — spielt das Context Window eine zweite Rolle: Memory. Eine Multi-Turn-Chat-Session mit dem Berater speichert Konversations-Historie im Kontext. Bei alten 8k-Modellen musste die Historie nach 5-10 Turns gekürzt werden; bei 200k-Claude-Modellen passen 100+ Turns problemlos rein. Das ermöglicht echte langfristige Strategie-Sessions ohne Memory-Loss zwischen Turns.

Wichtig zur Abgrenzung: ein grosses Context Window heisst nicht automatisch bessere Antworten. Das Phänomen 'Lost in the Middle' beschreibt den Effekt, dass LLMs bei sehr langen Kontexten Information aus der Mitte des Prompts schlechter verarbeiten als Information am Anfang oder Ende. Ein 200k-Token-Prompt mit kritischer Information bei Token 100 000 wird statistisch weniger zuverlässig genutzt als derselbe Inhalt in einem fokussierten 20k-Prompt. RAG-Pipelines kompensieren das, indem sie nur die relevantesten Chunks auswählen statt den gesamten Site-Inhalt einzuwerfen.

3. Praxisbeispiel

Context-Window-Grössen der wichtigsten LLMs 2026:

Modell	Context Window	Wortaequivalent (de)
GPT-3.5 Turbo (legacy)	16 000 Tokens	~10 000 Wörter
GPT-4 Turbo	128 000 Tokens	~80 000 Wörter
GPT-4o / GPT-4o-mini	128 000 Tokens	~80 000 Wörter
Claude Sonnet 4.6	200 000 Tokens	~125 000 Wörter
Claude Haiku 4.5	200 000 Tokens	~125 000 Wörter
Gemini 1.5 Pro	2 000 000 Tokens	~1 250 000 Wörter
Mistral Large 2	128 000 Tokens	~80 000 Wörter

Ein 80 000-Wort-Buch passt also problemlos in moderne Claude- oder GPT-4-Anfragen, ein 1.2-Mio-Wort-Bibliothek nur in Gemini 1.5 Pro. Für typische Schweizer KMU-Site-Analysen mit 5-15 Seiten reichen 128 000 Tokens komfortabel — eine 10-seitige Treuhand-Site umfasst typisch 25 000 bis 60 000 Tokens.

4. Typische Fehler & Missverständnisse

×Annehmen, dass ein grösseres Context Window automatisch bessere Antworten produziert — das 'Lost in the Middle'-Phänomen kann lange Kontexte qualitativ verschlechtern.
×Den gesamten Site-Inhalt in einem einzigen Prompt einwerfen statt mit RAG-Retrieval die relevanten Chunks zu selektieren — ineffizient und qualitativ unterlegen.
×Token-Limits ignorieren, weil 'Context ist gross genug' — viele alte Workflows wurden für 4k-8k-Modelle optimiert und produzieren bei grösseren Modellen unnoetigen Overhead.
×Kosten-Schätzungen auf Wortbasis machen — ein 200k-Context-Modell kann pro Anfrage erheblich teurer sein, weil typisch sowohl Input- als auch Output-Tokens skalieren.

5. Best Practices

✓Nutze RAG-Retrieval um relevante Chunks zu selektieren statt das ganze Korpus einzuwerfen — bessere Antwort-Qualität und niedrigere Kosten.
✓Platziere kritische Information am Anfang oder Ende des Prompts (nicht in der Mitte) um 'Lost in the Middle'-Effekte zu vermeiden.
✓Tracke Token-Verbrauch pro Anfrage in Production-Logs — hilft beim Identifizieren von ineffizienten Prompt-Patterns.
✓Nutze für Multi-Turn-Chats das Memory-Feature des Anbieters (z.B. Anthropic conversational state), statt die ganze Historie immer wieder einzuwerfen.
✓Bei sehr langen Eingaben prüfe, ob die Anfrage in mehrere fokussierte Sub-Anfragen aufgeteilt werden kann — oft besseres Resultat als ein Mega-Prompt.

6. Fakten

GPT-3.5 hatte 2022 ein Context Window von 4 096 Tokens; GPT-4 Turbo bietet 2024 128 000, Claude Sonnet 4.6 200 000, Gemini 1.5 Pro 2 000 000 — eine Verdoppelung etwa alle 9 Monate.
Das 'Lost in the Middle'-Phänomen wurde 2023 von Liu et al. in einer Stanford-NLP-Studie dokumentiert: LLMs nutzen Information am Prompt-Anfang und -Ende mit signifikant hoeherer Präzision als Information aus der Mitte.
Anthropics Claude bietet Prompt Caching ab 1024 Tokens Cache-Hit-Threshold — wiederverwendete System-Prompts kosten dann nur 10 Prozent der normalen Token-Rate.
Bei GPT-4o ist das Context Window strikt geteilt zwischen Input und Output: 128 000 Tokens Input + maximal 16 000 Tokens Output. Wer mehr Output braucht, muss die Anfrage iterieren.
Gemini 1.5 Pro mit 2 Mio Tokens kann ein gesamtes mittleres Buch in einer einzigen Anfrage verarbeiten — etwa 1 500 Seiten Roman oder 5 000 Seiten technische Doku.

Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

Context Windows sind 2026 selten der Bottleneck — sie sind der Enabler. Bei jedem Pro-Audit für einen Klienten passt der gesamte Site-Crawl problemlos in eine einzige Claude-Anfrage, und der Bewerter sieht alle Seiten gleichzeitig. Das war 2022 noch undenkbar. Wer heute eine GEO-Pipeline baut, sollte trotzdem RAG-Retrieval nutzen, nicht den ganzen Site-Crawl einwerfen — nicht aus technischer Notwendigkeit, sondern wegen Antwort-Qualität. 'Lost in the Middle' ist real. Mein Mantra: grösseres Context Window heisst nicht weniger Disziplin beim Prompt-Design, sondern mehr Spielraum für fokussierte Pipelines.

GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

65 /100

Wichtig Range 50–69

FAQs

Wie gross sollte das Context Window meines LLM sein?

Für typische GEO-Workflows reichen 128 000 Tokens (GPT-4o, Claude Haiku 4.5) komfortabel — eine 10-seitige Site-Analyse braucht typisch 60 000 bis 100 000 Tokens. Für Multi-Turn-Strategie-Sessions oder Buch-länge-Analysen lohnen sich 200 000+ (Claude Sonnet 4.6) oder 1 000 000+ (Gemini 1.5 Pro).

Was passiert, wenn meine Anfrage das Context Window übersteigt?

Der API-Anbieter wirft einen Fehler ('context length exceeded') und die Anfrage scheitert. Manche Anbieter haben Auto-Truncation, die aelteste Information aus dem Kontext entfernt — das ist gefährlich, weil kritische Information dabei verloren gehen kann. Sauberer ist: vorab Token-Count prüfen und bei Bedarf in Sub-Anfragen splitten.

Sind grosse Context Windows immer besser?

Nicht automatisch. Das 'Lost in the Middle'-Phänomen zeigt: LLMs nutzen Information aus dem mittleren Drittel des Prompts schlechter als aus Anfang und Ende. Ein 200k-Prompt mit kritischer Info bei Token 100 000 wird statistisch weniger zuverlässig verarbeitet als derselbe Inhalt in 20k-Prompt. RAG-Filtering ist meistens die bessere Strategie.

Beeinflusst Context Window die API-Kosten?

Ja, direkt. Sowohl Input- als auch Output-Tokens werden abgerechnet. Eine 100 000-Token-Anfrage an GPT-4o kostet bei Input 0.25 USD, bei Output 1.00 USD pro 1 Mio Tokens — also 100 USD für Input + entsprechend Output. Anthropic Claude Sonnet 4.6 ist mit 3 USD/15 USD pro 1 Mio teurer aber präzier.

Was ist Prompt Caching?

Eine Anthropic- und OpenAI-Funktion, die wiederverwendete Prompt-Teile (etwa System-Prompts) cached und beim nächsten Request nur 10 Prozent der normalen Token-Kosten berechnet. Voraussetzung: Cache-Hit-Threshold typisch 1024 Tokens. Spart bei Multi-Turn-Sessions mit konstantem System-Prompt erheblich Kosten.

Warum hat Gemini 1.5 Pro so viel grösseres Context Window als GPT-4o?

Architektur-Unterschiede: Gemini nutzt eine spezialisierte Long-Context-Architektur mit Mixture-of-Experts (MoE), die effizienter mit sehr langen Kontexten umgeht. GPT-4o hat eine klassische Transformer-Architektur, die bei 128k schon technisch optimiert ist. Beide Ansaetze haben unterschiedliche Trade-offs in Präzision und Geschwindigkeit.

Eigene AI-Sichtbarkeit messen

Kostenlose SEAKT™-Analyse für jede Website — Score in unter 2 Minuten.

Jetzt analysieren →