Fine-Tuning
Auch bekannt als: Feinabstimmung, Model Fine-Tuning, Domain Fine-Tuning, Task-spezifisches Training
1. Kurzdefinition
Fine-Tuning ist der Prozess, bei dem ein vortrainiertes LLM auf domain- oder task-spezifischen Daten weitertrainiert wird, um spezialisierte Antwort-Stile, Fach-Wissen oder Format-Disziplin zu erlernen. Es ist 2026 die teuerste, aber präziseste Form der Modell-Anpassung — und im GEO-Kontext meist nicht der richtige Hebel.
2. Ausführliche Erklärung
Fine-Tuning beschreibt die zweite Trainings-Phase eines LLM, in der das pre-trained Modell auf einem spezialisierten Datensatz weitergeschult wird. Während Pre-Training auf Hunderten Milliarden Tokens generischer Web-Inhalte läuft (Common Crawl, Wikipedia, etc.), arbeitet Fine-Tuning auf wenigen Tausend bis Millionen domain-spezifischen Beispielen — etwa medizinische Literatur, juristische Schriftsätze, oder Kundenservice-Dialoge. Resultat ist ein Modell, das Fach-Sprache, Format-Disziplin oder spezielle Reasoning-Muster beherrscht, die ein generisches Modell nicht zuverlässig liefert.
Drei Fine-Tuning-Methoden dominieren 2026. Full Fine-Tuning: alle Modell-Gewichte werden angepasst — teuer (typisch 10'000 bis 100'000 USD pro Tuning-Zyklus für ein 70B-Modell), aber maximal flexibel. LoRA (Low-Rank Adaptation): nur kleine Adapter-Matrizen werden trainiert, das Basis-Modell bleibt unverändert — billiger (100 bis 1'000 USD pro Tuning), schneller, fast genauso wirksam für viele Use-Cases. Instruction Fine-Tuning: Spezialfall, in dem das Modell mit Frage-Antwort-Paaren trainiert wird, um spezifische Antwort-Stile zu lernen — Standard für Production-Chatbots.
Für GEO ist Fine-Tuning meistens NICHT der richtige Hebel. Die beiden sinnvollen Anwendungsfälle: erstens spezialisierte Branchen-LLMs für interne Anwendungen (Anwaltskanzlei mit eigenem juristischem Modell), zweitens Brand-Voice-Konsistenz für Customer-Service-Chatbots. Für die generelle KI-Sichtbarkeit auf öffentlichen Antwortmaschinen wie ChatGPT, Perplexity und AI Overviews ist Fine-Tuning irrelevant — diese Plattformen nutzen ihre eigenen Modelle, fertig fine-tuned, und der Marken-Auftritt erfolgt über Schema, RAG-Fähigkeit und Authority-Signale, nicht über eigenes Modell-Training.
Die häufigste Verwechslung in der GEO-Praxis: Klienten fragen 'können wir ChatGPT auf unsere Marke fine-tunen?' — die Antwort ist nein. ChatGPT ist eine geschlossene Plattform; man kann sie nicht von aussen modifizieren. Was möglich ist: ein Custom-GPT erstellen (im ChatGPT-Plus-Abo), der eigene Daten via System-Prompt nutzt — das ist Prompt-Engineering, kein Fine-Tuning. Echtes Fine-Tuning ist nur bei Modellen verfügbar, die der Anbieter dafür freigegeben hat: OpenAI bietet Fine-Tuning für GPT-3.5 und GPT-4o-mini, Anthropic für Claude-Haiku-Modelle in Enterprise-Verträgen.
Wichtig zur Abgrenzung: Fine-Tuning ist nicht RAG. RAG fügt externe Quellen zur Inferenzzeit hinzu, ohne das Modell zu verändern — schnell, billig, dynamisch. Fine-Tuning verändert die Modell-Gewichte selbst — teuer, langsam, statisch (jeder Update braucht einen neuen Tuning-Zyklus). Für 95 Prozent der Anwendungsfälle ist RAG die richtige Wahl; Fine-Tuning lohnt sich nur bei spezifischer Domain-Sprache oder Format-Disziplin, die Prompt-Engineering nicht erreicht.
3. Praxisbeispiel
Vergleich der drei Anpassungs-Methoden:
| Methode | Kosten | Setup-Zeit | Use Case |
|---|---|---|---|
| Prompt-Engineering | 0 USD | Stunden | Generische Anpassungen |
| RAG | ~100 USD/Monat | Tage | Live-Daten, externe Quellen |
| LoRA Fine-Tuning | 100-1'000 USD | Wochen | Domain-Sprache, Format |
| Full Fine-Tuning | 10'000-100'000 USD | Monate | Custom-Branchen-LLM |
Code-Beispiel OpenAI Fine-Tuning für Customer-Service-Brand-Voice (LoRA-style):
# 1. Trainingsdaten als JSONL formatieren
{"messages": [
{"role": "system", "content": "Du bist Mueller-Treuhand-Assistent."},
{"role": "user", "content": "Wie melde ich mich für MWST an?"},
{"role": "assistant", "content": "Bei der ESTV..."}
]}
# 2. Upload + Fine-Tune Job starten
openai.files.create(file=open("training.jsonl"), purpose="fine-tune")
openai.fine_tuning.jobs.create(
training_file="file-abc123",
model="gpt-4o-mini-2024-07-18"
)
# 3. Nach 1-3 Stunden: fine-tuned Modell verfügbar
# Aufruf: model="ft:gpt-4o-mini-2024-07-18:org::abc123"
4. Typische Fehler & Missverständnisse
- Fine-Tuning für öffentliche AI-Sichtbarkeit einsetzen wollen — ChatGPT, Perplexity etc. sind geschlossene Plattformen und nicht von aussen modifizierbar.
- Fine-Tuning mit Custom-GPTs verwechseln — Custom-GPTs sind System-Prompt-Modifikationen, kein echtes Fine-Tuning.
- Auf Fine-Tuning setzen ohne erst RAG zu probieren — 95 Prozent der Anwendungsfälle lassen sich mit RAG lösen, schneller und billiger.
- Fine-Tuning ohne ausreichende Trainingsdaten starten — unter 1'000 hochwertige Beispiele bringt typisch keinen messbaren Effekt, oft sogar Verschlechterung.
5. Best Practices
- Probiere immer zuerst Prompt-Engineering, dann RAG, erst zuletzt Fine-Tuning — die Kosten-Hierarchie ist klar.
- Bei Fine-Tuning: starte mit LoRA statt Full Fine-Tuning — 10-100x billiger, fast vergleichbare Ergebnisse für die meisten Use-Cases.
- Sammle mindestens 1'000 hochwertige Trainingsdaten-Beispiele vor Tuning-Start — weniger bringt selten messbare Effekte.
- Halte Trainingsdaten thematisch konsistent — gemischte Themen führen zu schwacher Generalisierung.
- Validiere Fine-Tuning-Ergebnisse gegen ein separates Test-Set — ohne Held-out-Validation sind Tuning-Ergebnisse nicht verlässlich.
6. Fakten
- Full Fine-Tuning eines 70-Milliarden-Parameter-Modells kostet 2026 typisch 10'000 bis 100'000 USD pro Trainings-Zyklus, abhängig von Trainings-Daten-Volumen und GPU-Stunden.
- LoRA (Low-Rank Adaptation) wurde 2021 von Microsoft Research veröffentlicht und ist 2026 die meistgenutzte Fine-Tuning-Methode wegen ihres günstigen Kostens-Leistungs-Verhältnisses.
- OpenAI bietet Fine-Tuning für GPT-3.5 und GPT-4o-mini öffentlich an; GPT-4o Full-Tuning ist nur in Enterprise-Verträgen verfügbar.
- Anthropic bietet Claude-Fine-Tuning ausschliesslich in Enterprise-Verträgen an — kein öffentlicher Self-Service.
- Mistral AI hat 2024 mit Mixtral 8x7B ein populäres Open-Source-Modell veröffentlicht, das viele Fine-Tuning-Communities nutzen — Standard-Wahl für unternehmensinterne LLMs im DACH-Raum.
- Fine-Tuning braucht typisch 1'000 bis 100'000 hochwertige Beispiele für messbare Effekte; weniger als 500 bringt fast nie eine Verbesserung gegenüber dem Basis-Modell.
Definition von Marco Biner · Certified GEO Expert
Fine-Tuning ist 2026 in der GEO-Welt fast nie der richtige Hebel. Klienten kommen oft mit der Idee 'lasst uns ein eigenes Branchen-LLM bauen' und ich frage zurück: 'Wofür konkret?'. In 9 von 10 Fällen lautet die Antwort 'damit ChatGPT uns besser zitiert' — und die richtige Massnahme ist nicht Fine-Tuning, sondern Schema-Setup. Fine-Tuning ist sinnvoll für interne Customer-Service-Bots oder spezialisierte Brand-Voice-Anwendungen. Für öffentliche KI-Sichtbarkeit ist es Geld-verbrennen — die Plattformen nutzen ihre eigenen Modelle, und die kann man von aussen nicht modifizieren. Mein Standard-Tipp: erst SEAKT-Score auf 90 bringen, dann über Fine-Tuning nachdenken — meistens erübrigt sich das Thema dann.
GEO Importance Rank
Wie wichtig ist dieser Begriff für Generative Engine Optimization?
FAQs
Was ist der Unterschied zwischen Fine-Tuning und RAG?
Fine-Tuning verändert die Modell-Gewichte selbst — teuer, langsam, statisch. RAG fügt externe Quellen zur Inferenzzeit hinzu, ohne das Modell zu verändern — billig, schnell, dynamisch. Für aktuelle Daten, externe Wissens-Quellen oder kostengünstige Anpassungen ist RAG die richtige Wahl. Fine-Tuning lohnt sich nur bei spezifischer Domain-Sprache oder Format-Disziplin.
Kann ich ChatGPT auf meine Marke fine-tunen?
Nein, nicht im klassischen Sinn. ChatGPT ist eine geschlossene Plattform, die OpenAI selbst trainiert. Was möglich ist: ein Custom-GPT erstellen (ChatGPT-Plus-Abo), der eigene Daten via System-Prompt nutzt — das ist aber Prompt-Engineering, kein Fine-Tuning. Echtes Fine-Tuning ist auf öffentlich verfügbaren Modellen wie GPT-4o-mini, Mistral oder LLaMA möglich.
Was kostet Fine-Tuning?
LoRA Fine-Tuning auf einem 7B-Modell typisch 100 bis 1'000 USD pro Zyklus. Full Fine-Tuning eines 70B-Modells 10'000 bis 100'000 USD. OpenAI Fine-Tuning für GPT-4o-mini ist günstiger durch managed Infrastructure: etwa 25 USD pro 1 Million Trainings-Tokens — ein typischer Tuning-Job kostet 50 bis 500 USD.
Wann lohnt sich Fine-Tuning für eine Marke?
Zwei Use-Cases: erstens domain-spezifische Sprache, die Prompt-Engineering nicht erreicht (medizinische Terminologie, juristische Format-Disziplin). Zweitens hochvolumige Customer-Service-Bots mit konsistentem Brand-Voice. Für GEO im Sinne von <a href="/glossar/llm-visibility">KI-Sichtbarkeit</a> auf öffentlichen Plattformen ist Fine-Tuning irrelevant.
Wie viele Trainingsdaten brauche ich für effektives Fine-Tuning?
Mindestens 1'000 hochwertige Beispiele. Unter 500 bringt fast nie messbare Effekte gegenüber dem Basis-Modell. Über 100'000 Beispiele führt zu Diminishing Returns — die Verbesserungs-Kurve flacht ab. Sweet Spot für die meisten Anwendungen: 5'000 bis 20'000 Beispiele.
Was ist LoRA?
Low-Rank Adaptation, eine Fine-Tuning-Methode von Microsoft Research aus 2021. Statt alle Modell-Gewichte anzupassen, trainiert LoRA kleine Adapter-Matrizen, die das Basis-Modell ergänzen. Resultat: 10-100x billigeres Tuning bei nahezu identischer Wirkung für die meisten Use-Cases. 2026 die Standard-Wahl in 80 Prozent der Fine-Tuning-Projekte.
Verwandte Begriffe
Eigene AI-Sichtbarkeit messen
Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.
Jetzt analysieren →