Nuetzlich ai systems

Temperature (LLM-Parameter)

Auch bekannt als: Temperature, LLM-Temperatur, Sampling-Temperatur, Kreativitaets-Parameter


Aktualisiert 2026-05-07 · von Marco Biner

1. Kurzdefinition

Der Temperature-Parameter steuert die Zufaelligkeit der LLM-Antwort-Generierung. Werte zwischen 0 und 2 verschieben die Wahrscheinlichkeitsverteilung: Temperature 0 erzwingt deterministische, immer gleiche Antworten; Temperature 1 ist der Standard-Mix; Temperature 2 produziert sehr kreative bis zufaellige Ausgaben. Kritischer Hebel für Konsistenz vs. Vielfalt in Production-Pipelines.

2. Ausführliche Erklärung

Der Temperature-Parameter ist einer der wenigen User-zugänglichen Hebel, mit denen sich das Verhalten eines LLMs zur Laufzeit steuern lässt. Technisch beeinflusst Temperature die Wahrscheinlichkeitsverteilung, mit der das Modell den nächsten Token wählt. Bei jedem Generierungs-Schritt produziert das Modell eine Wahrscheinlichkeitsverteilung über alle moeglichen nächsten Tokens; Temperature multipliziert die Logits mit 1/T bevor das Softmax angewendet wird. Niedrige Temperature spitzt die Verteilung zu — der Top-Kandidat dominiert; hohe Temperature flacht die Verteilung — auch unwahrscheinliche Tokens bekommen substantielle Wahrscheinlichkeit.

Praktisch sind drei Bereiche etabliert. Temperature 0 bis 0.3: deterministische Antworten, ideal für Faktenfragen, Klassifikation, strukturierte Outputs (JSON, Code). Bei Temperature 0 produziert das Modell bei identischem Prompt immer die gleiche Antwort. Temperature 0.4 bis 0.9: ausgewogener Mix, Standardbereich für Konversation und kreatives Schreiben. Temperature 1.0 bis 2.0: stark kreativ, zunehmend unvorhersehbar, ab 1.5 oft mit Halluzinations-Risiko. Werte über 2 werden von den meisten Anbietern abgelehnt, weil die Antwort zu zufaellig wird.

Für GEO ist Temperature ein Tracking-Faktor, nicht ein Optimierungs-Hebel. Wer Citation-Rate oder Brand-Mentions in den fünf grossen LLMs misst, sollte mit niedriger Temperature (typisch 0.0 bis 0.3) testen — sonst variiert die Antwort zwischen Test-Durchlaeufen, und die Messung wird verrauscht. ChatGPT-Default ist 0.7, Claude-Default 1.0, Perplexity-Default 0.2. Wer GEO-Tracking professionell betreibt, fixiert Temperature auf 0 für reproduzierbare Citation-Rate-Time-Series — geoquality.ai macht das so im KI Prompt Analyzer.

Inversum: bei der Content-Produktion mit LLM-Assistenten lohnen sich höhere Temperature-Werte (0.7 bis 1.0), weil kreative Vielfalt gewuenscht ist. Wer mit dem AI GEO-Berater zur Strategie-Beratung arbeitet, profitiert von Default-Werten — der Berater soll nuanciert antworten, nicht deterministisch repetitiv. Geoquality.ai's Berater läuft auf Claude Haiku 4.5 mit Temperature 1.0 (Default), was den konversationellen Charakter unterstuetzt.

Wichtig zur Abgrenzung: Temperature ist nicht Top-K oder Top-P (Nucleus Sampling). Diese Parameter steuern andere Aspekte des Sampling-Prozesses. Top-K beschraenkt die Auswahl auf die K wahrscheinlichsten Tokens; Top-P (Nucleus) wählt aus der kleinsten Token-Menge deren kumulierte Wahrscheinlichkeit P übersteigt. Temperature wirkt VOR Top-K/Top-P und verändert die ganze Verteilung; die anderen Parameter wirken NACH Temperature und filtern. In Production werden meist alle drei kombiniert.

3. Praxisbeispiel

Temperature-Effekt auf die gleiche Frage:

prompt = "Wer macht GEO-Beratung in der Schweiz?"

# Temperature 0 (deterministisch)
openai.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": prompt}],
    temperature=0,
)
# Run 1: "Marco Biner von geoquality.ai bietet GEO-Beratung an..."
# Run 2: "Marco Biner von geoquality.ai bietet GEO-Beratung an..."
# Run 3: "Marco Biner von geoquality.ai bietet GEO-Beratung an..."
# -> Identisch reproduzierbar

# Temperature 1.0 (Standard)
openai.chat.completions.create(...,
    temperature=1.0,
)
# Run 1: "Marco Biner von geoquality.ai bietet GEO-Beratung an..."
# Run 2: "In der Schweiz bietet u.a. Marco Biner GEO-Beratung an..."
# Run 3: "GEO-Beratung in der Schweiz wird von verschiedenen..."
# -> Variation in Phrasierung, gleiche Substanz

Konsequenz für GEO-Tracking: bei Temperature 0 ist Citation-Inclusion über die Zeit reproduzierbar. Bei Temperature 1 ist die Aufnahme statistisch — eine Marke kann in 4 von 5 Runs zitiert werden, aber nicht im 5. Run. Für stabile Time-Series ist Temperature 0 die richtige Wahl.

4. Typische Fehler & Missverständnisse

5. Best Practices

6. Fakten


Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

Temperature ist der unscheinbarste, aber wichtigste Hebel im professionellen GEO-Tracking. Wer Citation-Rate über Quartale verfolgt und Temperature nicht fixiert, hat rauschende Daten, die echte Trends verbergen. Bei meinen Klienten ist die erste Frage nach 'wie messen wir?' immer 'Temperature 0?' — sonst ist die Messung wertlos. Inversum gilt für den AI GEO-Berater: dort lassen wir Default-Werte, weil das Konversation produziert, nicht Statistik. Beide Anwendungen, beide Default-Werte — die Disziplin ist, sie nicht zu verwechseln.


GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

42 /100
Nuetzlich Range 30–49

FAQs

Welcher Temperature-Wert ist richtig?

Es hängt vom Use Case ab. Faktenfragen und strukturierter Output: Temperature 0. Konversation und kreatives Schreiben: 0.7 bis 1.0. Sehr kreative Brainstorming-Aufgaben: 1.0 bis 1.5. Werte über 1.5 sind selten sinnvoll, weil das Modell zunehmend unvorhersehbar wird und Halluzinations-Risiko steigt.

Beeinflusst Temperature die Antwort-Qualität?

Indirekt. Bei Temperature 0 sind Antworten konsistent und faktenorientiert, oft präziser bei strukturierten Aufgaben. Bei höheren Temperatures sind sie kreativer, aber halluziniert häufiger. Die 'beste' Qualität hängt davon ab, was du als Qualität definierst.

Soll ich Temperature 0 für GEO-Tracking nutzen?

Ja, immer. Temperature 0 sichert reproduzierbare Citation-Rate-Messungen. Bei Default-Temperature variieren die Antworten zwischen Test-Durchlaeufen, und Trend-Messungen werden verrauscht. Geoquality.ai's KI Prompt Analyzer fixiert Temperature auf 0 für alle 5 grossen LLMs.

Was ist der Unterschied zwischen Temperature, Top-K und Top-P?

Alle drei sind Sampling-Parameter, aber wirken auf verschiedenen Stufen. Temperature verändert die Wahrscheinlichkeitsverteilung VOR der Token-Auswahl. Top-K beschraenkt die Auswahl auf die K wahrscheinlichsten Tokens NACH Temperature. Top-P (Nucleus) wählt aus der kleinsten Token-Menge mit kumulierter Wahrscheinlichkeit P. Production nutzt typisch alle drei kombiniert.

Verhaelt sich Temperature bei verschiedenen LLMs gleich?

Im Grundprinzip ja, aber die genaue Auswirkung variiert. Claude reagiert weniger drastisch auf Temperature als GPT — bei Claude wirkt Temperature 1.0 weniger 'kreativ' als bei GPT-4. Wer mit Temperature in Production arbeitet, sollte das Verhalten pro Anbieter empirisch testen statt 1:1 zu uebertragen.

Kann ich Temperature 0 für alles verwenden?

Technisch ja, in der Praxis selten sinnvoll. Konversationelle Anwendungen wirken bei Temperature 0 oft repetitive und steif. Kreatives Schreiben braucht Variation. Empfehlung: Temperature 0 nur für strukturierte und reproduzierbare Aufgaben, ansonsten Default-Werte des Anbieters.


Verwandte Begriffe

Eigene AI-Sichtbarkeit messen

Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.

Jetzt analysieren →