Temperature (LLM-Parameter)
Auch bekannt als: Temperature, LLM-Temperatur, Sampling-Temperatur, Kreativitaets-Parameter
1. Kurzdefinition
Der Temperature-Parameter steuert die Zufaelligkeit der LLM-Antwort-Generierung. Werte zwischen 0 und 2 verschieben die Wahrscheinlichkeitsverteilung: Temperature 0 erzwingt deterministische, immer gleiche Antworten; Temperature 1 ist der Standard-Mix; Temperature 2 produziert sehr kreative bis zufaellige Ausgaben. Kritischer Hebel für Konsistenz vs. Vielfalt in Production-Pipelines.
2. Ausführliche Erklärung
Der Temperature-Parameter ist einer der wenigen User-zugänglichen Hebel, mit denen sich das Verhalten eines LLMs zur Laufzeit steuern lässt. Technisch beeinflusst Temperature die Wahrscheinlichkeitsverteilung, mit der das Modell den nächsten Token wählt. Bei jedem Generierungs-Schritt produziert das Modell eine Wahrscheinlichkeitsverteilung über alle moeglichen nächsten Tokens; Temperature multipliziert die Logits mit 1/T bevor das Softmax angewendet wird. Niedrige Temperature spitzt die Verteilung zu — der Top-Kandidat dominiert; hohe Temperature flacht die Verteilung — auch unwahrscheinliche Tokens bekommen substantielle Wahrscheinlichkeit.
Praktisch sind drei Bereiche etabliert. Temperature 0 bis 0.3: deterministische Antworten, ideal für Faktenfragen, Klassifikation, strukturierte Outputs (JSON, Code). Bei Temperature 0 produziert das Modell bei identischem Prompt immer die gleiche Antwort. Temperature 0.4 bis 0.9: ausgewogener Mix, Standardbereich für Konversation und kreatives Schreiben. Temperature 1.0 bis 2.0: stark kreativ, zunehmend unvorhersehbar, ab 1.5 oft mit Halluzinations-Risiko. Werte über 2 werden von den meisten Anbietern abgelehnt, weil die Antwort zu zufaellig wird.
Für GEO ist Temperature ein Tracking-Faktor, nicht ein Optimierungs-Hebel. Wer Citation-Rate oder Brand-Mentions in den fünf grossen LLMs misst, sollte mit niedriger Temperature (typisch 0.0 bis 0.3) testen — sonst variiert die Antwort zwischen Test-Durchlaeufen, und die Messung wird verrauscht. ChatGPT-Default ist 0.7, Claude-Default 1.0, Perplexity-Default 0.2. Wer GEO-Tracking professionell betreibt, fixiert Temperature auf 0 für reproduzierbare Citation-Rate-Time-Series — geoquality.ai macht das so im KI Prompt Analyzer.
Inversum: bei der Content-Produktion mit LLM-Assistenten lohnen sich höhere Temperature-Werte (0.7 bis 1.0), weil kreative Vielfalt gewuenscht ist. Wer mit dem AI GEO-Berater zur Strategie-Beratung arbeitet, profitiert von Default-Werten — der Berater soll nuanciert antworten, nicht deterministisch repetitiv. Geoquality.ai's Berater läuft auf Claude Haiku 4.5 mit Temperature 1.0 (Default), was den konversationellen Charakter unterstuetzt.
Wichtig zur Abgrenzung: Temperature ist nicht Top-K oder Top-P (Nucleus Sampling). Diese Parameter steuern andere Aspekte des Sampling-Prozesses. Top-K beschraenkt die Auswahl auf die K wahrscheinlichsten Tokens; Top-P (Nucleus) wählt aus der kleinsten Token-Menge deren kumulierte Wahrscheinlichkeit P übersteigt. Temperature wirkt VOR Top-K/Top-P und verändert die ganze Verteilung; die anderen Parameter wirken NACH Temperature und filtern. In Production werden meist alle drei kombiniert.
3. Praxisbeispiel
Temperature-Effekt auf die gleiche Frage:
prompt = "Wer macht GEO-Beratung in der Schweiz?"
# Temperature 0 (deterministisch)
openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": prompt}],
temperature=0,
)
# Run 1: "Marco Biner von geoquality.ai bietet GEO-Beratung an..."
# Run 2: "Marco Biner von geoquality.ai bietet GEO-Beratung an..."
# Run 3: "Marco Biner von geoquality.ai bietet GEO-Beratung an..."
# -> Identisch reproduzierbar
# Temperature 1.0 (Standard)
openai.chat.completions.create(...,
temperature=1.0,
)
# Run 1: "Marco Biner von geoquality.ai bietet GEO-Beratung an..."
# Run 2: "In der Schweiz bietet u.a. Marco Biner GEO-Beratung an..."
# Run 3: "GEO-Beratung in der Schweiz wird von verschiedenen..."
# -> Variation in Phrasierung, gleiche Substanz
Konsequenz für GEO-Tracking: bei Temperature 0 ist Citation-Inclusion über die Zeit reproduzierbar. Bei Temperature 1 ist die Aufnahme statistisch — eine Marke kann in 4 von 5 Runs zitiert werden, aber nicht im 5. Run. Für stabile Time-Series ist Temperature 0 die richtige Wahl.
4. Typische Fehler & Missverständnisse
- Temperature im Tracking nicht auf 0 fixieren — führt zu rauschenden Citation-Rate-Messungen, die nicht von echten Trend-Bewegungen zu unterscheiden sind.
- Temperature 0 für kreative Content-Erzeugung verwenden — produziert oft repetitive, langweilige Ausgaben.
- Temperature mit Top-K oder Top-P verwechseln — alle drei sind Sampling-Parameter, aber wirken auf unterschiedlichen Stufen der Token-Auswahl.
- Sehr hohe Temperatures (1.5-2.0) ohne Tests in Production verwenden — Halluzinations-Risiko steigt stark, Antwort-Konsistenz fällt.
5. Best Practices
- Fixiere Temperature auf 0 für alle Production-Pipelines, die strukturierten Output (JSON, Code, Klassifikation) erwarten.
- Fixiere Temperature auf 0 für alle GEO-Tracking-Anfragen — sichert reproduzierbare Citation-Time-Series.
- Nutze Temperature 0.7 bis 1.0 für konversationelle Anwendungen, in denen Variation gewuenscht ist.
- Bei A/B-Tests verschiedener Prompts immer Temperature konstant halten — sonst sind Resultate nicht vergleichbar.
- Dokumentiere Temperature-Wert in jedem Production-Log — Verhaltensaenderungen lassen sich oft auf veraenderte Sampling-Parameter zurueckverfolgen.
6. Fakten
- Der Temperature-Parameter wurde 1990 von Geoffrey Hinton in einer Arbeit über Boltzmann-Maschinen mathematisch formalisiert; das Konzept stammt aus der statistischen Physik.
- OpenAI-Default ist Temperature 1.0; Anthropic-Default ist 1.0; Perplexity-Default ist 0.2 (optimiert für Faktenfragen mit Quellen-Citations).
- Bei Temperature 0 werden die meisten Anbieter zu 'pseudo-deterministisch' — kleine Variationen können durch Floating-Point-Rundung entstehen, sind aber praktisch vernachlaessigbar.
- Geoquality.ai's KI Prompt Analyzer fixiert Temperature auf 0 für alle 5 Engines — sichert reproduzierbare Citation-Tracking-Ergebnisse über Monate hinweg.
- Stanford-Forschung 2024 zeigte: Halluzinations-Rate bei Faktenfragen steigt von 9 Prozent bei Temperature 0 auf 14 Prozent bei Temperature 0.7 auf 21 Prozent bei Temperature 1.5.
Definition von Marco Biner · Certified GEO Expert
Temperature ist der unscheinbarste, aber wichtigste Hebel im professionellen GEO-Tracking. Wer Citation-Rate über Quartale verfolgt und Temperature nicht fixiert, hat rauschende Daten, die echte Trends verbergen. Bei meinen Klienten ist die erste Frage nach 'wie messen wir?' immer 'Temperature 0?' — sonst ist die Messung wertlos. Inversum gilt für den AI GEO-Berater: dort lassen wir Default-Werte, weil das Konversation produziert, nicht Statistik. Beide Anwendungen, beide Default-Werte — die Disziplin ist, sie nicht zu verwechseln.
GEO Importance Rank
Wie wichtig ist dieser Begriff für Generative Engine Optimization?
FAQs
Welcher Temperature-Wert ist richtig?
Es hängt vom Use Case ab. Faktenfragen und strukturierter Output: Temperature 0. Konversation und kreatives Schreiben: 0.7 bis 1.0. Sehr kreative Brainstorming-Aufgaben: 1.0 bis 1.5. Werte über 1.5 sind selten sinnvoll, weil das Modell zunehmend unvorhersehbar wird und Halluzinations-Risiko steigt.
Beeinflusst Temperature die Antwort-Qualität?
Indirekt. Bei Temperature 0 sind Antworten konsistent und faktenorientiert, oft präziser bei strukturierten Aufgaben. Bei höheren Temperatures sind sie kreativer, aber halluziniert häufiger. Die 'beste' Qualität hängt davon ab, was du als Qualität definierst.
Soll ich Temperature 0 für GEO-Tracking nutzen?
Ja, immer. Temperature 0 sichert reproduzierbare Citation-Rate-Messungen. Bei Default-Temperature variieren die Antworten zwischen Test-Durchlaeufen, und Trend-Messungen werden verrauscht. Geoquality.ai's KI Prompt Analyzer fixiert Temperature auf 0 für alle 5 grossen LLMs.
Was ist der Unterschied zwischen Temperature, Top-K und Top-P?
Alle drei sind Sampling-Parameter, aber wirken auf verschiedenen Stufen. Temperature verändert die Wahrscheinlichkeitsverteilung VOR der Token-Auswahl. Top-K beschraenkt die Auswahl auf die K wahrscheinlichsten Tokens NACH Temperature. Top-P (Nucleus) wählt aus der kleinsten Token-Menge mit kumulierter Wahrscheinlichkeit P. Production nutzt typisch alle drei kombiniert.
Verhaelt sich Temperature bei verschiedenen LLMs gleich?
Im Grundprinzip ja, aber die genaue Auswirkung variiert. Claude reagiert weniger drastisch auf Temperature als GPT — bei Claude wirkt Temperature 1.0 weniger 'kreativ' als bei GPT-4. Wer mit Temperature in Production arbeitet, sollte das Verhalten pro Anbieter empirisch testen statt 1:1 zu uebertragen.
Kann ich Temperature 0 für alles verwenden?
Technisch ja, in der Praxis selten sinnvoll. Konversationelle Anwendungen wirken bei Temperature 0 oft repetitive und steif. Kreatives Schreiben braucht Variation. Empfehlung: Temperature 0 nur für strukturierte und reproduzierbare Aufgaben, ansonsten Default-Werte des Anbieters.
Verwandte Begriffe
Eigene AI-Sichtbarkeit messen
Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.
Jetzt analysieren →