Tokenizer
Auch bekannt als: Tokenisierer, Subword-Tokenizer, BPE-Tokenizer, Byte-Pair-Encoding-Tokenizer
1. Kurzdefinition
Ein Tokenizer ist die Komponente eines LLM, die Eingabe-Text in kleinere Einheiten — sogenannte Tokens — zerlegt, bevor das Modell ihn verarbeiten kann. Tokens sind keine Wörter, sondern Subword-Fragmente, deren Granularität über das jeweilige Vokabular (typisch 30 000 bis 200 000 Einträge) bestimmt wird. Die Tokenisierung beeinflusst direkt Kosten, Geschwindigkeit und Performance jeder LLM-Anfrage.
2. Ausführliche Erklärung
Ein Tokenizer ist die unsichtbare Vorstufe jeder LLM-Verarbeitung. Bevor ein Modell wie GPT-4 oder Claude Sonnet einen Prompt verarbeiten kann, muss der Eingabe-Text in Tokens zerlegt werden — meist Subword-Fragmente, die mit einem Verfahren namens Byte-Pair-Encoding (BPE) oder einer Variante davon gebaut wurden. Das Token-Vokabular hat typisch 30 000 bis 200 000 Einträge; jeder Eintrag ist eine Buchstaben-Sequenz, die in den Trainings-Korpora häufig genug vorkam, um eine eigene ID zu rechtfertigen.
Die Token-Granularität ist sprach-abhängig. Englische Texte werden typisch in 1.0 bis 1.3 Tokens pro Wort zerlegt, deutsche in 1.5 bis 2.0 Tokens pro Wort, weil zusammengesetzte Substantive wie 'Quellensteuer-Beratung' nicht im Vokabular stehen und in mehrere Subword-Fragmente zerlegt werden (Quellen + steuer + -Beratung). Das hat zwei praktische Konsequenzen: erstens kosten deutsche Anfragen typisch 30 bis 50 Prozent mehr API-Tokens als vergleichbare englische, zweitens fragmentiert der Tokenizer Eigennamen oft unglücklich, was die semantische Verarbeitung erschwert.
Für GEO ist der Tokenizer indirekt relevant. Bei der RAG-Pipeline werden Site-Chunks in Tokens gezaehlt, nicht in Wörtern. Eine 60-Wort-Capsule entspricht typisch 80 bis 110 Tokens (deutsch) oder 60 bis 80 Tokens (englisch). Wer Capsule-Grössen plant, sollte die deutsche Token-Inflation kennen — eine 'kurze' Capsule auf Deutsch ist auf Englisch schon mittellang. Auch die Embedding-Berechnung arbeitet auf Tokens: ein Tokenizer-Fehler beim Eigennamen ('Mueller-Treuhand' wird zu zwei Tokens) verschiebt das Embedding leicht und kann die thematische Zuordnung verschlechtern.
Praktisch sichtbar wird der Tokenizer in API-Kosten und Context-Window-Limits. OpenAI berechnet Tokens, nicht Wörter; Anthropic ebenfalls. Ein Pro-User auf geoquality.ai, der eine 10-seitige Site analysieren lässt, nutzt typisch 80 000 bis 150 000 Tokens für Crawl + LLM-Bewertung — das übersteigt die alten 8k-Context-Modelle deutlich, passt aber problemlos in moderne 128k- bis 200k-Modelle. Ohne genug Context-Window muesste der Crawl in mehreren Pipelines aufgeteilt werden, was die Konsistenz der Bewertung reduziert.
Wichtig zur Abgrenzung: Tokenizer sind kein universeller Standard. OpenAI nutzt cl100k_base für GPT-4 und o200k_base für GPT-4o. Anthropic hat einen eigenen Tokenizer für Claude. Google Gemini wieder einen anderen. Die Token-Counts sind daher nicht direkt vergleichbar zwischen Plattformen — eine Anfrage mit 500 OpenAI-Tokens kann auf Claude 480 oder 530 Tokens kosten, je nach Vokabular-Ueberlappung.
3. Praxisbeispiel
Token-Counts mit OpenAIs tiktoken-Library:
import tiktoken
enc = tiktoken.encoding_for_model("gpt-4o")
samples = [
"Hello world",
"Hallo Welt",
"Quellensteuer-Beratung für Grenzgänger",
"Tax consulting for cross-border workers",
]
for text in samples:
tokens = enc.encode(text)
print(f"{len(tokens)} tokens: {text}")
# Erwartetes Ergebnis:
# 2 tokens: Hello world
# 3 tokens: Hallo Welt
# 9 tokens: Quellensteuer-Beratung für Grenzgänger
# 6 tokens: Tax consulting for cross-border workers
Die deutsche Phrase mit zusammengesetzten Substantiven kostet 50 Prozent mehr Tokens als die englische Uebersetzung — ein typisches Muster, das beim GEO-Setup im DACH-Raum wichtig wird. Ein langer Glossar-Eintrag mit 800 deutschen Wörtern entspricht etwa 1200 bis 1600 Tokens und passt damit problemlos in jede gaengige Antwort-Pipeline.
4. Typische Fehler & Missverständnisse
- Tokens und Wörter als gleichbedeutend behandeln — bei deutschen Texten ist die Token-Anzahl typisch 1.5 bis 2x die Wort-Anzahl, was Capsule-Planung verzerrt.
- Ungewoehnliche Eigennamen (Brand-Namen, Schweizer Ortschaften) ohne Test verwenden — der Tokenizer kann sie unglücklich fragmentieren und die semantische Präzision verringern.
- Token-Counts zwischen Anbietern direkt vergleichen — verschiedene Tokenizer haben verschiedene Vokabulare, Counts sind nicht 1:1 uebertragbar.
- API-Kosten unterschätzen, weil nur in Wörtern gerechnet wird — eine 1000-Wort-deutsche-Anfrage kann 1500 bis 2000 Tokens kosten und entsprechend mehr.
5. Best Practices
- Nutze tiktoken (OpenAI) oder anthropic-tokenizer für präzise Token-Counts vor produktiven API-Calls.
- Plane Capsule-Grössen in Tokens, nicht Wörtern — 60 Wörter Deutsch entsprechen 80-110 Tokens.
- Vermeide ungewoehnliche Sonderzeichen (typografische Anfuehrungszeichen, Unicode-Symbole) — sie kosten oft mehrere Tokens pro Zeichen.
- Bei API-Cost-Tracking immer Tokens, nicht Wörter, als Basis nehmen.
- Teste Eigennamen separat im Tokenizer — bei häufiger Fragmentierung lohnt sich oft eine alternative Schreibweise (z.B. 'Mueller Treuhand' statt 'Müller-Treuhand AG').
6. Fakten
- OpenAIs cl100k_base-Tokenizer (verwendet von GPT-4 bis 2024) hat 100 261 Einträge im Vokabular; o200k_base (GPT-4o) hat 199 997 Einträge.
- Anthropic Claude verwendet einen eigenen proprietaeren Tokenizer mit etwa 200 000 Vokabular-Einträgen; Token-Counts sind nicht direkt mit OpenAI vergleichbar.
- Deutsche Texte produzieren typisch 1.5 bis 2.0 Tokens pro Wort, englische 1.0 bis 1.3 — eine Folge der Vokabular-Verteilung in den Trainings-Korpora.
- Byte-Pair-Encoding (BPE) wurde 1994 als Datenkompressions-Algorithmus entwickelt und 2016 von Sennrich et al. für NLP adaptiert; heute Standard in fast allen LLMs.
- API-Kosten der grossen LLM-Anbieter werden in 1000-Token-Einheiten abgerechnet — typische 2026er-Preise: GPT-4o 2.50/10.00 USD pro 1M Input/Output, Claude Sonnet 4.6 3.00/15.00 USD.
Definition von Marco Biner · Certified GEO Expert
Tokenizer sind im DACH-Raum oft unterschätzt, obwohl sie direkt API-Kosten und Antwort-Präzision beeinflussen. Bei meinen Klienten erlebe ich regelmässig die Überraschung 'wieso kostet meine deutsche Anfrage doppelt so viel wie die englische?' — die Antwort ist Tokenizer-Geometrie. Wer das verstanden hat, schreibt Capsules bewusst in einer tokenizer-freundlichen Form: kurze Substantive, einfache Satzstrukturen, vermiedene Sonderzeichen. Das senkt nicht nur Kosten, sondern verbessert auch die Embedding-Präzision und damit die Citation-Wahrscheinlichkeit. Klein wirkende Optimierung mit ueberproportionalem Effekt.
GEO Importance Rank
Wie wichtig ist dieser Begriff für Generative Engine Optimization?
FAQs
Was ist der Unterschied zwischen Tokens und Wörtern?
Tokens sind Subword-Fragmente, die der Tokenizer aus seinem festen Vokabular auswaehlt. Ein Wort kann ein Token sein (haeufige englische Wörter wie 'the', 'and') oder mehrere Tokens (selten oder zusammengesetzte Wörter). Im Deutschen werden zusammengesetzte Substantive wie 'Quellensteuer-Beratung' typisch in 3-5 Tokens zerlegt — das beeinflusst sowohl Kosten als auch semantische Präzision.
Warum sind deutsche Texte tokenizer-teurer als englische?
Weil das Vokabular der grossen Tokenizer historisch auf englischen Trainings-Korpora optimiert wurde. Englische Wörter haben höhere Frequenz und bekommen oft eigene Token-IDs, deutsche zusammengesetzte Substantive werden meist fragmentiert. Faktor 1.5 bis 2x ist typisch — ein 1000-Wort-deutscher-Text kostet etwa 1500 bis 2000 Tokens.
Beeinflusst der Tokenizer die Suchqualitaet?
Indirekt ja. Wenn ein Tokenizer einen Eigennamen unglücklich fragmentiert ('Mueller-Treuhand' wird zu zwei Tokens), wird die Embedding-Position des Texts leicht verschoben. Die thematische Zuordnung leidet minimal, aber bei häufig fragmentierten Markennamen kann das die Citation-Wahrscheinlichkeit reduzieren.
Verwenden alle LLMs den gleichen Tokenizer?
Nein. OpenAI nutzt cl100k_base/o200k_base, Anthropic einen eigenen Claude-Tokenizer, Google Gemini einen anderen. Die Vokabulare ueberlappen teilweise, sind aber nicht identisch. Token-Counts zwischen Anbietern sind daher nicht direkt vergleichbar — eine Anfrage kostet bei OpenAI möglicherweise 480 Tokens, bei Anthropic 510, bei Gemini 470.
Wie zaehle ich Tokens für mein Schweizer KMU?
Mit der tiktoken-Library (OpenAI) für ChatGPT-Anfragen, mit Anthropics Tokenizer-Endpoint für Claude. Beides ist in wenigen Codezeilen einsetzbar. Wer keine API-Erfahrung hat, kann den Online-Tokenizer von OpenAI auf platform.openai.com/tokenizer nutzen — gibt für beliebige Texte den Token-Count und die Token-Aufteilung zurück.
Sind Tokens das gleiche wie Bytes?
Nein. Tokens sind Vokabular-IDs (Zahlen zwischen 0 und 200 000), nicht Byte-Sequenzen. Ein einzelnes Token kann für 1 Buchstaben oder 10 Buchstaben stehen, je nach Vokabular-Eintrag. Byte-basierte Tokenizer wie BPE sind aber bytenahe — sie operieren auf der UTF-8-Byte-Ebene, was sprachuebergreifend funktioniert.
Verwandte Begriffe
Eigene AI-Sichtbarkeit messen
Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.
Jetzt analysieren →