Nuetzlich ai systems

Tokenizer

Auch bekannt als: Tokenisierer, Subword-Tokenizer, BPE-Tokenizer, Byte-Pair-Encoding-Tokenizer


Aktualisiert 2026-05-07 · von Marco Biner

1. Kurzdefinition

Ein Tokenizer ist die Komponente eines LLM, die Eingabe-Text in kleinere Einheiten — sogenannte Tokens — zerlegt, bevor das Modell ihn verarbeiten kann. Tokens sind keine Wörter, sondern Subword-Fragmente, deren Granularität über das jeweilige Vokabular (typisch 30 000 bis 200 000 Einträge) bestimmt wird. Die Tokenisierung beeinflusst direkt Kosten, Geschwindigkeit und Performance jeder LLM-Anfrage.

2. Ausführliche Erklärung

Ein Tokenizer ist die unsichtbare Vorstufe jeder LLM-Verarbeitung. Bevor ein Modell wie GPT-4 oder Claude Sonnet einen Prompt verarbeiten kann, muss der Eingabe-Text in Tokens zerlegt werden — meist Subword-Fragmente, die mit einem Verfahren namens Byte-Pair-Encoding (BPE) oder einer Variante davon gebaut wurden. Das Token-Vokabular hat typisch 30 000 bis 200 000 Einträge; jeder Eintrag ist eine Buchstaben-Sequenz, die in den Trainings-Korpora häufig genug vorkam, um eine eigene ID zu rechtfertigen.

Die Token-Granularität ist sprach-abhängig. Englische Texte werden typisch in 1.0 bis 1.3 Tokens pro Wort zerlegt, deutsche in 1.5 bis 2.0 Tokens pro Wort, weil zusammengesetzte Substantive wie 'Quellensteuer-Beratung' nicht im Vokabular stehen und in mehrere Subword-Fragmente zerlegt werden (Quellen + steuer + -Beratung). Das hat zwei praktische Konsequenzen: erstens kosten deutsche Anfragen typisch 30 bis 50 Prozent mehr API-Tokens als vergleichbare englische, zweitens fragmentiert der Tokenizer Eigennamen oft unglücklich, was die semantische Verarbeitung erschwert.

Für GEO ist der Tokenizer indirekt relevant. Bei der RAG-Pipeline werden Site-Chunks in Tokens gezaehlt, nicht in Wörtern. Eine 60-Wort-Capsule entspricht typisch 80 bis 110 Tokens (deutsch) oder 60 bis 80 Tokens (englisch). Wer Capsule-Grössen plant, sollte die deutsche Token-Inflation kennen — eine 'kurze' Capsule auf Deutsch ist auf Englisch schon mittellang. Auch die Embedding-Berechnung arbeitet auf Tokens: ein Tokenizer-Fehler beim Eigennamen ('Mueller-Treuhand' wird zu zwei Tokens) verschiebt das Embedding leicht und kann die thematische Zuordnung verschlechtern.

Praktisch sichtbar wird der Tokenizer in API-Kosten und Context-Window-Limits. OpenAI berechnet Tokens, nicht Wörter; Anthropic ebenfalls. Ein Pro-User auf geoquality.ai, der eine 10-seitige Site analysieren lässt, nutzt typisch 80 000 bis 150 000 Tokens für Crawl + LLM-Bewertung — das übersteigt die alten 8k-Context-Modelle deutlich, passt aber problemlos in moderne 128k- bis 200k-Modelle. Ohne genug Context-Window muesste der Crawl in mehreren Pipelines aufgeteilt werden, was die Konsistenz der Bewertung reduziert.

Wichtig zur Abgrenzung: Tokenizer sind kein universeller Standard. OpenAI nutzt cl100k_base für GPT-4 und o200k_base für GPT-4o. Anthropic hat einen eigenen Tokenizer für Claude. Google Gemini wieder einen anderen. Die Token-Counts sind daher nicht direkt vergleichbar zwischen Plattformen — eine Anfrage mit 500 OpenAI-Tokens kann auf Claude 480 oder 530 Tokens kosten, je nach Vokabular-Ueberlappung.

3. Praxisbeispiel

Token-Counts mit OpenAIs tiktoken-Library:

import tiktoken

enc = tiktoken.encoding_for_model("gpt-4o")

samples = [
    "Hello world",
    "Hallo Welt",
    "Quellensteuer-Beratung für Grenzgänger",
    "Tax consulting for cross-border workers",
]

for text in samples:
    tokens = enc.encode(text)
    print(f"{len(tokens)} tokens: {text}")

# Erwartetes Ergebnis:
# 2 tokens: Hello world
# 3 tokens: Hallo Welt
# 9 tokens: Quellensteuer-Beratung für Grenzgänger
# 6 tokens: Tax consulting for cross-border workers

Die deutsche Phrase mit zusammengesetzten Substantiven kostet 50 Prozent mehr Tokens als die englische Uebersetzung — ein typisches Muster, das beim GEO-Setup im DACH-Raum wichtig wird. Ein langer Glossar-Eintrag mit 800 deutschen Wörtern entspricht etwa 1200 bis 1600 Tokens und passt damit problemlos in jede gaengige Antwort-Pipeline.

4. Typische Fehler & Missverständnisse

5. Best Practices

6. Fakten


Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

Tokenizer sind im DACH-Raum oft unterschätzt, obwohl sie direkt API-Kosten und Antwort-Präzision beeinflussen. Bei meinen Klienten erlebe ich regelmässig die Überraschung 'wieso kostet meine deutsche Anfrage doppelt so viel wie die englische?' — die Antwort ist Tokenizer-Geometrie. Wer das verstanden hat, schreibt Capsules bewusst in einer tokenizer-freundlichen Form: kurze Substantive, einfache Satzstrukturen, vermiedene Sonderzeichen. Das senkt nicht nur Kosten, sondern verbessert auch die Embedding-Präzision und damit die Citation-Wahrscheinlichkeit. Klein wirkende Optimierung mit ueberproportionalem Effekt.


GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

45 /100
Nuetzlich Range 30–49

FAQs

Was ist der Unterschied zwischen Tokens und Wörtern?

Tokens sind Subword-Fragmente, die der Tokenizer aus seinem festen Vokabular auswaehlt. Ein Wort kann ein Token sein (haeufige englische Wörter wie 'the', 'and') oder mehrere Tokens (selten oder zusammengesetzte Wörter). Im Deutschen werden zusammengesetzte Substantive wie 'Quellensteuer-Beratung' typisch in 3-5 Tokens zerlegt — das beeinflusst sowohl Kosten als auch semantische Präzision.

Warum sind deutsche Texte tokenizer-teurer als englische?

Weil das Vokabular der grossen Tokenizer historisch auf englischen Trainings-Korpora optimiert wurde. Englische Wörter haben höhere Frequenz und bekommen oft eigene Token-IDs, deutsche zusammengesetzte Substantive werden meist fragmentiert. Faktor 1.5 bis 2x ist typisch — ein 1000-Wort-deutscher-Text kostet etwa 1500 bis 2000 Tokens.

Beeinflusst der Tokenizer die Suchqualitaet?

Indirekt ja. Wenn ein Tokenizer einen Eigennamen unglücklich fragmentiert ('Mueller-Treuhand' wird zu zwei Tokens), wird die Embedding-Position des Texts leicht verschoben. Die thematische Zuordnung leidet minimal, aber bei häufig fragmentierten Markennamen kann das die Citation-Wahrscheinlichkeit reduzieren.

Verwenden alle LLMs den gleichen Tokenizer?

Nein. OpenAI nutzt cl100k_base/o200k_base, Anthropic einen eigenen Claude-Tokenizer, Google Gemini einen anderen. Die Vokabulare ueberlappen teilweise, sind aber nicht identisch. Token-Counts zwischen Anbietern sind daher nicht direkt vergleichbar — eine Anfrage kostet bei OpenAI möglicherweise 480 Tokens, bei Anthropic 510, bei Gemini 470.

Wie zaehle ich Tokens für mein Schweizer KMU?

Mit der tiktoken-Library (OpenAI) für ChatGPT-Anfragen, mit Anthropics Tokenizer-Endpoint für Claude. Beides ist in wenigen Codezeilen einsetzbar. Wer keine API-Erfahrung hat, kann den Online-Tokenizer von OpenAI auf platform.openai.com/tokenizer nutzen — gibt für beliebige Texte den Token-Count und die Token-Aufteilung zurück.

Sind Tokens das gleiche wie Bytes?

Nein. Tokens sind Vokabular-IDs (Zahlen zwischen 0 und 200 000), nicht Byte-Sequenzen. Ein einzelnes Token kann für 1 Buchstaben oder 10 Buchstaben stehen, je nach Vokabular-Eintrag. Byte-basierte Tokenizer wie BPE sind aber bytenahe — sie operieren auf der UTF-8-Byte-Ebene, was sprachuebergreifend funktioniert.


Verwandte Begriffe

Eigene AI-Sichtbarkeit messen

Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.

Jetzt analysieren →