Nuetzlich ai systems

Fine-Tuning

Auch bekannt als: Feinabstimmung, Model Fine-Tuning, Domain Fine-Tuning, Task-spezifisches Training

Aktualisiert 2026-05-07 · von Marco Biner

1. Kurzdefinition

Fine-Tuning ist der Prozess, bei dem ein vortrainiertes LLM auf domain- oder task-spezifischen Daten weitertrainiert wird, um spezialisierte Antwort-Stile, Fach-Wissen oder Format-Disziplin zu erlernen. Es ist 2026 die teuerste, aber präziseste Form der Modell-Anpassung — und im GEO-Kontext meist nicht der richtige Hebel.

2. Ausführliche Erklärung

Fine-Tuning beschreibt die zweite Trainings-Phase eines LLM, in der das pre-trained Modell auf einem spezialisierten Datensatz weitergeschult wird. Während Pre-Training auf Hunderten Milliarden Tokens generischer Web-Inhalte läuft (Common Crawl, Wikipedia, etc.), arbeitet Fine-Tuning auf wenigen Tausend bis Millionen domain-spezifischen Beispielen — etwa medizinische Literatur, juristische Schriftsätze, oder Kundenservice-Dialoge. Resultat ist ein Modell, das Fach-Sprache, Format-Disziplin oder spezielle Reasoning-Muster beherrscht, die ein generisches Modell nicht zuverlässig liefert.

Drei Fine-Tuning-Methoden dominieren 2026. Full Fine-Tuning: alle Modell-Gewichte werden angepasst — teuer (typisch 10'000 bis 100'000 USD pro Tuning-Zyklus für ein 70B-Modell), aber maximal flexibel. LoRA (Low-Rank Adaptation): nur kleine Adapter-Matrizen werden trainiert, das Basis-Modell bleibt unverändert — billiger (100 bis 1'000 USD pro Tuning), schneller, fast genauso wirksam für viele Use-Cases. Instruction Fine-Tuning: Spezialfall, in dem das Modell mit Frage-Antwort-Paaren trainiert wird, um spezifische Antwort-Stile zu lernen — Standard für Production-Chatbots.

Für GEO ist Fine-Tuning meistens NICHT der richtige Hebel. Die beiden sinnvollen Anwendungsfälle: erstens spezialisierte Branchen-LLMs für interne Anwendungen (Anwaltskanzlei mit eigenem juristischem Modell), zweitens Brand-Voice-Konsistenz für Customer-Service-Chatbots. Für die generelle KI-Sichtbarkeit auf öffentlichen Antwortmaschinen wie ChatGPT, Perplexity und AI Overviews ist Fine-Tuning irrelevant — diese Plattformen nutzen ihre eigenen Modelle, fertig fine-tuned, und der Marken-Auftritt erfolgt über Schema, RAG-Fähigkeit und Authority-Signale, nicht über eigenes Modell-Training.

Die häufigste Verwechslung in der GEO-Praxis: Klienten fragen 'können wir ChatGPT auf unsere Marke fine-tunen?' — die Antwort ist nein. ChatGPT ist eine geschlossene Plattform; man kann sie nicht von aussen modifizieren. Was möglich ist: ein Custom-GPT erstellen (im ChatGPT-Plus-Abo), der eigene Daten via System-Prompt nutzt — das ist Prompt-Engineering, kein Fine-Tuning. Echtes Fine-Tuning ist nur bei Modellen verfügbar, die der Anbieter dafür freigegeben hat: OpenAI bietet Fine-Tuning für GPT-3.5 und GPT-4o-mini, Anthropic für Claude-Haiku-Modelle in Enterprise-Verträgen.

Wichtig zur Abgrenzung: Fine-Tuning ist nicht RAG. RAG fügt externe Quellen zur Inferenzzeit hinzu, ohne das Modell zu verändern — schnell, billig, dynamisch. Fine-Tuning verändert die Modell-Gewichte selbst — teuer, langsam, statisch (jeder Update braucht einen neuen Tuning-Zyklus). Für 95 Prozent der Anwendungsfälle ist RAG die richtige Wahl; Fine-Tuning lohnt sich nur bei spezifischer Domain-Sprache oder Format-Disziplin, die Prompt-Engineering nicht erreicht.

3. Praxisbeispiel

Vergleich der drei Anpassungs-Methoden:

Methode	Kosten	Setup-Zeit	Use Case
Prompt-Engineering	0 USD	Stunden	Generische Anpassungen
RAG	~100 USD/Monat	Tage	Live-Daten, externe Quellen
LoRA Fine-Tuning	100-1'000 USD	Wochen	Domain-Sprache, Format
Full Fine-Tuning	10'000-100'000 USD	Monate	Custom-Branchen-LLM

Code-Beispiel OpenAI Fine-Tuning für Customer-Service-Brand-Voice (LoRA-style):

# 1. Trainingsdaten als JSONL formatieren
{"messages": [
  {"role": "system", "content": "Du bist Mueller-Treuhand-Assistent."},
  {"role": "user", "content": "Wie melde ich mich für MWST an?"},
  {"role": "assistant", "content": "Bei der ESTV..."}
]}

# 2. Upload + Fine-Tune Job starten
openai.files.create(file=open("training.jsonl"), purpose="fine-tune")
openai.fine_tuning.jobs.create(
    training_file="file-abc123",
    model="gpt-4o-mini-2024-07-18"
)

# 3. Nach 1-3 Stunden: fine-tuned Modell verfügbar
# Aufruf: model="ft:gpt-4o-mini-2024-07-18:org::abc123"

4. Typische Fehler & Missverständnisse

×Fine-Tuning für öffentliche AI-Sichtbarkeit einsetzen wollen — ChatGPT, Perplexity etc. sind geschlossene Plattformen und nicht von aussen modifizierbar.
×Fine-Tuning mit Custom-GPTs verwechseln — Custom-GPTs sind System-Prompt-Modifikationen, kein echtes Fine-Tuning.
×Auf Fine-Tuning setzen ohne erst RAG zu probieren — 95 Prozent der Anwendungsfälle lassen sich mit RAG lösen, schneller und billiger.
×Fine-Tuning ohne ausreichende Trainingsdaten starten — unter 1'000 hochwertige Beispiele bringt typisch keinen messbaren Effekt, oft sogar Verschlechterung.

5. Best Practices

✓Probiere immer zuerst Prompt-Engineering, dann RAG, erst zuletzt Fine-Tuning — die Kosten-Hierarchie ist klar.
✓Bei Fine-Tuning: starte mit LoRA statt Full Fine-Tuning — 10-100x billiger, fast vergleichbare Ergebnisse für die meisten Use-Cases.
✓Sammle mindestens 1'000 hochwertige Trainingsdaten-Beispiele vor Tuning-Start — weniger bringt selten messbare Effekte.
✓Halte Trainingsdaten thematisch konsistent — gemischte Themen führen zu schwacher Generalisierung.
✓Validiere Fine-Tuning-Ergebnisse gegen ein separates Test-Set — ohne Held-out-Validation sind Tuning-Ergebnisse nicht verlässlich.

6. Fakten

Full Fine-Tuning eines 70-Milliarden-Parameter-Modells kostet 2026 typisch 10'000 bis 100'000 USD pro Trainings-Zyklus, abhängig von Trainings-Daten-Volumen und GPU-Stunden.
LoRA (Low-Rank Adaptation) wurde 2021 von Microsoft Research veröffentlicht und ist 2026 die meistgenutzte Fine-Tuning-Methode wegen ihres günstigen Kostens-Leistungs-Verhältnisses.
OpenAI bietet Fine-Tuning für GPT-3.5 und GPT-4o-mini öffentlich an; GPT-4o Full-Tuning ist nur in Enterprise-Verträgen verfügbar.
Anthropic bietet Claude-Fine-Tuning ausschliesslich in Enterprise-Verträgen an — kein öffentlicher Self-Service.
Mistral AI hat 2024 mit Mixtral 8x7B ein populäres Open-Source-Modell veröffentlicht, das viele Fine-Tuning-Communities nutzen — Standard-Wahl für unternehmensinterne LLMs im DACH-Raum.
Fine-Tuning braucht typisch 1'000 bis 100'000 hochwertige Beispiele für messbare Effekte; weniger als 500 bringt fast nie eine Verbesserung gegenüber dem Basis-Modell.

Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

Fine-Tuning ist 2026 in der GEO-Welt fast nie der richtige Hebel. Klienten kommen oft mit der Idee 'lasst uns ein eigenes Branchen-LLM bauen' und ich frage zurück: 'Wofür konkret?'. In 9 von 10 Fällen lautet die Antwort 'damit ChatGPT uns besser zitiert' — und die richtige Massnahme ist nicht Fine-Tuning, sondern Schema-Setup. Fine-Tuning ist sinnvoll für interne Customer-Service-Bots oder spezialisierte Brand-Voice-Anwendungen. Für öffentliche KI-Sichtbarkeit ist es Geld-verbrennen — die Plattformen nutzen ihre eigenen Modelle, und die kann man von aussen nicht modifizieren. Mein Standard-Tipp: erst SEAKT-Score auf 90 bringen, dann über Fine-Tuning nachdenken — meistens erübrigt sich das Thema dann.

GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

48 /100

Nuetzlich Range 30–49

FAQs

Was ist der Unterschied zwischen Fine-Tuning und RAG?

Fine-Tuning verändert die Modell-Gewichte selbst — teuer, langsam, statisch. RAG fügt externe Quellen zur Inferenzzeit hinzu, ohne das Modell zu verändern — billig, schnell, dynamisch. Für aktuelle Daten, externe Wissens-Quellen oder kostengünstige Anpassungen ist RAG die richtige Wahl. Fine-Tuning lohnt sich nur bei spezifischer Domain-Sprache oder Format-Disziplin.

Kann ich ChatGPT auf meine Marke fine-tunen?

Nein, nicht im klassischen Sinn. ChatGPT ist eine geschlossene Plattform, die OpenAI selbst trainiert. Was möglich ist: ein Custom-GPT erstellen (ChatGPT-Plus-Abo), der eigene Daten via System-Prompt nutzt — das ist aber Prompt-Engineering, kein Fine-Tuning. Echtes Fine-Tuning ist auf öffentlich verfügbaren Modellen wie GPT-4o-mini, Mistral oder LLaMA möglich.

Was kostet Fine-Tuning?

LoRA Fine-Tuning auf einem 7B-Modell typisch 100 bis 1'000 USD pro Zyklus. Full Fine-Tuning eines 70B-Modells 10'000 bis 100'000 USD. OpenAI Fine-Tuning für GPT-4o-mini ist günstiger durch managed Infrastructure: etwa 25 USD pro 1 Million Trainings-Tokens — ein typischer Tuning-Job kostet 50 bis 500 USD.

Wann lohnt sich Fine-Tuning für eine Marke?

Zwei Use-Cases: erstens domain-spezifische Sprache, die Prompt-Engineering nicht erreicht (medizinische Terminologie, juristische Format-Disziplin). Zweitens hochvolumige Customer-Service-Bots mit konsistentem Brand-Voice. Für GEO im Sinne von <a href="/glossar/llm-visibility">KI-Sichtbarkeit</a> auf öffentlichen Plattformen ist Fine-Tuning irrelevant.

Wie viele Trainingsdaten brauche ich für effektives Fine-Tuning?

Mindestens 1'000 hochwertige Beispiele. Unter 500 bringt fast nie messbare Effekte gegenüber dem Basis-Modell. Über 100'000 Beispiele führt zu Diminishing Returns — die Verbesserungs-Kurve flacht ab. Sweet Spot für die meisten Anwendungen: 5'000 bis 20'000 Beispiele.

Was ist LoRA?

Low-Rank Adaptation, eine Fine-Tuning-Methode von Microsoft Research aus 2021. Statt alle Modell-Gewichte anzupassen, trainiert LoRA kleine Adapter-Matrizen, die das Basis-Modell ergänzen. Resultat: 10-100x billigeres Tuning bei nahezu identischer Wirkung für die meisten Use-Cases. 2026 die Standard-Wahl in 80 Prozent der Fine-Tuning-Projekte.

Eigene AI-Sichtbarkeit messen

Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.

Jetzt analysieren →