---
title: Fine-Tuning
slug: fine-tuning
canonical_url: https://www.geoquality.ai/glossar/fine-tuning
md_url: https://www.geoquality.ai/glossar/fine-tuning.md
language: de
last_modified: 2026-05-07T00:00:00+00:00
related_terms: [embedding, llm, rag, training-data]
content_hash: 8cb195d2e776d6ba
license: CC BY 4.0
author: Marco Biner (geoquality.ai)
schema_type: DefinedTerm
---

# Fine-Tuning

Fine-Tuning ist der Prozess, bei dem ein vortrainiertes LLM auf domain- oder task-spezifischen Daten weitertrainiert wird, um spezialisierte Antwort-Stile, Fach-Wissen oder Format-Disziplin zu erlernen. Es ist 2026 die teuerste, aber präziseste Form der Modell-Anpassung — und im GEO-Kontext meist nicht der richtige Hebel.

## Erläuterung

Fine-Tuning beschreibt die zweite Trainings-Phase eines LLM , in der das pre-trained Modell auf einem spezialisierten Datensatz weitergeschult wird. Während Pre-Training auf Hunderten Milliarden Tokens generischer Web-Inhalte läuft (Common Crawl, Wikipedia, etc.), arbeitet Fine-Tuning auf wenigen Tausend bis Millionen domain-spezifischen Beispielen — etwa medizinische Literatur, juristische Schriftsätze, oder Kundenservice-Dialoge. Resultat ist ein Modell, das Fach-Sprache, Format-Disziplin oder spezielle Reasoning-Muster beherrscht, die ein generisches Modell nicht zuverlässig liefert. Drei Fine-Tuning-Methoden dominieren 2026. Full Fine-Tuning : alle Modell-Gewichte werden angepasst — teuer (typisch 10'000 bis 100'000 USD pro Tuning-Zyklus für ein 70B-Modell), aber maximal flexibel. LoRA (Low-Rank Adaptation) : nur kleine Adapter-Matrizen werden trainiert, das Basis-Modell bleibt unverändert — billiger (100 bis 1'000 USD pro Tuning), schneller, fast genauso wirksam für viele Use-Cases. Instruction Fine-Tuning : Spezialfall, in dem das Modell mit Frage-Antwort-Paaren trainiert wird, um spezifische Antwort-Stile zu lernen — Standard für Production-Chatbots. Für GEO ist Fine-Tuning meistens NICHT der richtige Hebel. Die beiden sinnvollen Anwendungsfälle: erstens spezialisierte Branchen-LLMs für interne Anwendungen (Anwaltskanzlei mit eigenem juristischem Modell), zweitens Brand-Voice-Konsistenz für Customer-Service-Chatbots. Für die generelle KI-Sichtbarkeit auf öffentlichen Antwortmaschinen wie ChatGPT, Perplexity und AI Overviews ist Fine-Tuning irrelevant — diese Plattformen nutzen ihre eigenen Modelle, fertig fine-tuned, und der Marken-Auftritt erfolgt über Schema, RAG-Fähigkeit und Authority-Signale, nicht über eigenes Modell-Training. Die häufigste Verwechslung in der GEO-Praxis: Klienten fragen 'können wir ChatGPT auf unsere Marke fine-tunen?' — die Antwort ist nein. ChatGPT ist eine geschlossene Plattform; man kann sie nicht von aussen modifizieren. Was möglich ist: ein Custom-GPT erstellen (im ChatGPT-Plus-Abo), der eigene Daten via System-Prompt nutzt — das ist Prompt-Engineering, kein Fine-Tuning. Echtes Fine-Tuning ist nur bei Modellen verfügbar, die der Anbieter dafür freigegeben hat: OpenAI bietet Fine-Tuning für GPT-3.5 und GPT-4o-mini, Anthropic für Claude-Haiku-Modelle in Enterprise-Verträgen. Wichtig zur Abgrenzung: Fine-Tuning ist nicht RAG. RAG fügt externe Quellen zur Inferenzzeit hinzu, ohne das Modell zu verändern — schnell, billig, dynamisch. Fine-Tuning verändert die Modell-Gewichte selbst — teuer, langsam, statisch (jeder Update braucht einen neuen Tuning-Zyklus). Für 95 Prozent der Anwendungsfälle ist RAG die richtige Wahl; Fine-Tuning lohnt sich nur bei spezifischer Domain-Sprache oder Format-Disziplin, die Prompt-Engineering nicht erreicht.

## Praxisbeispiel

Vergleich der drei Anpassungs-Methoden: Methode Kosten Setup-Zeit Use Case Prompt-Engineering 0 USD Stunden Generische Anpassungen RAG ~100 USD/Monat Tage Live-Daten, externe Quellen LoRA Fine-Tuning 100-1'000 USD Wochen Domain-Sprache, Format Full Fine-Tuning 10'000-100'000 USD Monate Custom-Branchen-LLM Code-Beispiel OpenAI Fine-Tuning für Customer-Service-Brand-Voice (LoRA-style): # 1. Trainingsdaten als JSONL formatieren {"messages": [ {"role": "system", "content": "Du bist Mueller-Treuhand-Assistent."}, {"role": "user", "content": "Wie melde ich mich für MWST an?"}, {"role": "assistant", "content": "Bei der ESTV..."} ]} # 2. Upload + Fine-Tune Job starten openai.files.create(file=open("training.jsonl"), purpose="fine-tune") openai.fine_tuning.jobs.create( training_file="file-abc123", model="gpt-4o-mini-2024-07-18" ) # 3. Nach 1-3 Stunden: fine-tuned Modell verfügbar # Aufruf: model="ft:gpt-4o-mini-2024-07-18:org::abc123"

## Häufige Fehler

- Fine-Tuning für öffentliche AI-Sichtbarkeit einsetzen wollen — ChatGPT, Perplexity etc. sind geschlossene Plattformen und nicht von aussen modifizierbar.
- Fine-Tuning mit Custom-GPTs verwechseln — Custom-GPTs sind System-Prompt-Modifikationen, kein echtes Fine-Tuning.
- Auf Fine-Tuning setzen ohne erst RAG zu probieren — 95 Prozent der Anwendungsfälle lassen sich mit RAG lösen, schneller und billiger.
- Fine-Tuning ohne ausreichende Trainingsdaten starten — unter 1'000 hochwertige Beispiele bringt typisch keinen messbaren Effekt, oft sogar Verschlechterung.

## Best Practices

- Probiere immer zuerst Prompt-Engineering, dann RAG, erst zuletzt Fine-Tuning — die Kosten-Hierarchie ist klar.
- Bei Fine-Tuning: starte mit LoRA statt Full Fine-Tuning — 10-100x billiger, fast vergleichbare Ergebnisse für die meisten Use-Cases.
- Sammle mindestens 1'000 hochwertige Trainingsdaten-Beispiele vor Tuning-Start — weniger bringt selten messbare Effekte.
- Halte Trainingsdaten thematisch konsistent — gemischte Themen führen zu schwacher Generalisierung.
- Validiere Fine-Tuning-Ergebnisse gegen ein separates Test-Set — ohne Held-out-Validation sind Tuning-Ergebnisse nicht verlässlich.

## Fakten

- Full Fine-Tuning eines 70-Milliarden-Parameter-Modells kostet 2026 typisch 10'000 bis 100'000 USD pro Trainings-Zyklus, abhängig von Trainings-Daten-Volumen und GPU-Stunden.
- LoRA (Low-Rank Adaptation) wurde 2021 von Microsoft Research veröffentlicht und ist 2026 die meistgenutzte Fine-Tuning-Methode wegen ihres günstigen Kostens-Leistungs-Verhältnisses.
- OpenAI bietet Fine-Tuning für GPT-3.5 und GPT-4o-mini öffentlich an; GPT-4o Full-Tuning ist nur in Enterprise-Verträgen verfügbar.
- Anthropic bietet Claude-Fine-Tuning ausschliesslich in Enterprise-Verträgen an — kein öffentlicher Self-Service.
- Mistral AI hat 2024 mit Mixtral 8x7B ein populäres Open-Source-Modell veröffentlicht, das viele Fine-Tuning-Communities nutzen — Standard-Wahl für unternehmensinterne LLMs im DACH-Raum.
- Fine-Tuning braucht typisch 1'000 bis 100'000 hochwertige Beispiele für messbare Effekte; weniger als 500 bringt fast nie eine Verbesserung gegenüber dem Basis-Modell.

## FAQ

### Was ist der Unterschied zwischen Fine-Tuning und RAG?

Fine-Tuning verändert die Modell-Gewichte selbst — teuer, langsam, statisch. RAG fügt externe Quellen zur Inferenzzeit hinzu, ohne das Modell zu verändern — billig, schnell, dynamisch. Für aktuelle Daten, externe Wissens-Quellen oder kostengünstige Anpassungen ist RAG die richtige Wahl. Fine-Tuning lohnt sich nur bei spezifischer Domain-Sprache oder Format-Disziplin.

### Kann ich ChatGPT auf meine Marke fine-tunen?

Nein, nicht im klassischen Sinn. ChatGPT ist eine geschlossene Plattform, die OpenAI selbst trainiert. Was möglich ist: ein Custom-GPT erstellen (ChatGPT-Plus-Abo), der eigene Daten via System-Prompt nutzt — das ist aber Prompt-Engineering, kein Fine-Tuning. Echtes Fine-Tuning ist auf öffentlich verfügbaren Modellen wie GPT-4o-mini, Mistral oder LLaMA möglich.

### Was kostet Fine-Tuning?

LoRA Fine-Tuning auf einem 7B-Modell typisch 100 bis 1'000 USD pro Zyklus. Full Fine-Tuning eines 70B-Modells 10'000 bis 100'000 USD. OpenAI Fine-Tuning für GPT-4o-mini ist günstiger durch managed Infrastructure: etwa 25 USD pro 1 Million Trainings-Tokens — ein typischer Tuning-Job kostet 50 bis 500 USD.

### Wann lohnt sich Fine-Tuning für eine Marke?

Zwei Use-Cases: erstens domain-spezifische Sprache, die Prompt-Engineering nicht erreicht (medizinische Terminologie, juristische Format-Disziplin). Zweitens hochvolumige Customer-Service-Bots mit konsistentem Brand-Voice. Für GEO im Sinne von KI-Sichtbarkeit auf öffentlichen Plattformen ist Fine-Tuning irrelevant.

### Wie viele Trainingsdaten brauche ich für effektives Fine-Tuning?

Mindestens 1'000 hochwertige Beispiele. Unter 500 bringt fast nie messbare Effekte gegenüber dem Basis-Modell. Über 100'000 Beispiele führt zu Diminishing Returns — die Verbesserungs-Kurve flacht ab. Sweet Spot für die meisten Anwendungen: 5'000 bis 20'000 Beispiele.

### Was ist LoRA?

Low-Rank Adaptation, eine Fine-Tuning-Methode von Microsoft Research aus 2021. Statt alle Modell-Gewichte anzupassen, trainiert LoRA kleine Adapter-Matrizen, die das Basis-Modell ergänzen. Resultat: 10-100x billigeres Tuning bei nahezu identischer Wirkung für die meisten Use-Cases. 2026 die Standard-Wahl in 80 Prozent der Fine-Tuning-Projekte.

## Experten-Definition

Fine-Tuning ist 2026 in der GEO-Welt fast nie der richtige Hebel. Klienten kommen oft mit der Idee 'lasst uns ein eigenes Branchen-LLM bauen' und ich frage zurück: 'Wofür konkret?'. In 9 von 10 Fällen lautet die Antwort 'damit ChatGPT uns besser zitiert' — und die richtige Massnahme ist nicht Fine-Tuning, sondern Schema-Setup. Fine-Tuning ist sinnvoll für interne Customer-Service-Bots oder spezialisierte Brand-Voice-Anwendungen. Für öffentliche KI-Sichtbarkeit ist es Geld-verbrennen — die Plattformen nutzen ihre eigenen Modelle, und die kann man von aussen nicht modifizieren. Mein Standard-Tipp: erst SEAKT-Score auf 90 bringen, dann über Fine-Tuning nachdenken — meistens erübrigt sich das Thema dann.

## Verwandte Begriffe

- [Embedding (Vektorrepräsentation)](https://www.geoquality.ai/glossar/embedding.md) — Ein Embedding ist eine numerische Vektorrepräsentation von Text — typisch 768 bis 3072 Dimensionen lang —, die semantische Bedeutung in geometrischen Abstaenden codiert. Zwei thematisch ähnliche Texte haben Embeddings, die im Vektorraum nahe beieinanderliegen. Embeddings sind das mathematische Fundament jeder RAG-Pipeline und damit jeder modernen Antwortmaschine.
- [Large Language Model (LLM)](https://www.geoquality.ai/glossar/llm.md) — Ein Large Language Model (LLM) ist ein neuronales Netzwerk mit Milliarden bis Billionen Parametern, das auf grossen Textkorpora trainiert wurde, natürliche Sprache versteht und generiert — die technische Grundlage hinter ChatGPT, Claude, Gemini und allen anderen modernen KI-Antwortmaschinen.
- [RAG (Retrieval-Augmented Generation)](https://www.geoquality.ai/glossar/rag.md) — RAG ist eine LLM-Architektur, die Antworten nicht nur aus Trainingsdaten generiert, sondern zusätzlich Live-Quellen abruft und in den Antwort-Kontext einbettet. Sie ist 2026 der Standard für Antwortmaschinen wie ChatGPT mit Web-Browsing, Perplexity, Google AI Overviews und Claude mit Web-Search-Tool — und damit der zentrale Mechanismus, über den GEO-Optimierung wirksam wird.
- [Trainingsdaten](https://www.geoquality.ai/glossar/training-data.md) — Trainingsdaten sind die Texte, Bilder und Code-Beispiele, mit denen ein LLM während seiner Lern-Phase die Sprachverteilung und Faktenbasis erwirbt. Ihre Zusammensetzung bestimmt direkt, welche Marken, Personen und Themen das Modell ohne Live-Retrieval kennt — und ist damit ein zentrales Brand-Awareness-Reservoir im KI-Zeitalter.

## Quelle und Zitation

- HTML-Original: https://www.geoquality.ai/glossar/fine-tuning
- Lizenz: CC BY 4.0
- Zitiervorschlag: "Fine-Tuning (geoquality.ai Glossar, Biner 2026)"