---
title: Prompt Engineering
slug: prompt-engineering
canonical_url: https://www.geoquality.ai/glossar/prompt-engineering
md_url: https://www.geoquality.ai/glossar/prompt-engineering.md
language: de
last_modified: 2026-05-07T00:00:00+00:00
related_terms: [context-window, fine-tuning, hallucination, llm, rag, temperature-parameter]
content_hash: 37817c5881800a72
license: CC BY 4.0
author: Marco Biner (geoquality.ai)
schema_type: DefinedTerm
---

# Prompt Engineering

Prompt Engineering ist die Disziplin der gezielten Gestaltung von User-Eingaben, um aus einem LLM präzise und zuverlässig die gewünschten Antworten zu erhalten. Sie umfasst Techniken wie System-Prompts, Few-Shot-Examples, Chain-of-Thought-Reasoning und Rolle-Priming — und ist 2026 die zugänglichste Form der LLM-Anpassung.

## Erläuterung

Prompt Engineering ist die zentrale Praxis-Disziplin im professionellen LLM-Einsatz. Während Pre-Training und Fine-Tuning die Modell-Gewichte selbst verändern (teuer, langsam), arbeitet Prompt Engineering ausschliesslich mit der Eingabe — der gleiche LLM produziert dramatisch unterschiedliche Antwort-Qualitäten je nach Prompt-Design. Eine schlecht formulierte Anfrage liefert vage Marketing-Prosa, eine sauber strukturierte Anfrage produziert präzise, zitierfähige Antworten — bei identischem Modell und identischen Trainingsdaten . Fünf Techniken dominieren das professionelle Prompt Engineering 2026. System-Prompt : eine vorgelagerte Rollendefinition, die Persönlichkeit, Antwort-Stil und Format-Disziplin festlegt — Standard für alle Production-Anwendungen. Few-Shot-Examples : zwei bis fünf Beispiel-Frage-Antwort-Paare im Prompt, die das gewünschte Format demonstrieren — wirkt oft besser als 50 Zeilen Prompt-Text-Erklärung. Chain-of-Thought : explizite Aufforderung, Zwischen-Reasoning-Schritte zu zeigen ('Denke Schritt für Schritt') — verbessert Reasoning-Qualität in mathematischen oder logischen Aufgaben um Faktor 2-3. Role-Priming : Definition einer fachlichen Persona zu Beginn ('Du bist Schweizer Steuerexperte mit 20 Jahren Praxis') — zieht relevantes Trainings-Wissen in den Antwort-Vordergrund. Output-Format-Specification : explizite Vorgabe von JSON-Schema, Markdown-Struktur oder Anzahl-Bullet-Points — Pflicht für strukturierte API-Integrationen. Für GEO ist Prompt Engineering an zwei Stellen relevant. Erstens beim eigenen AI GEO-Berater: das geoquality.ai-Tool nutzt einen sorgfältig gestalteten System-Prompt mit klarer Rollen-Definition (SEAKT-Senior-Advisor, CHF 280/h-Tonalität, code-first), Tool-Use-Anweisungen und Antwort-Format-Disziplin ('250 Wörter, endet mit Erwartet-Sprung-Aussage'). Ohne diesen Prompt produziert dasselbe Modell generische Marketing-Empfehlungen. Zweitens beim Brand-Visibility-Tracking: jeder KI Prompt Analyzer-Test ist selbst ein Prompt-Engineering-Akt — die Frage muss klar formuliert sein, Akronym-Hinweise enthalten ('GEO meint Generative Engine Optimization, nicht Geographie'), und reproduzierbar bleiben über Test-Zyklen hinweg. Wichtig zur Abgrenzung: Prompt Engineering ist nicht Fine-Tuning. Prompt Engineering wirkt zur Inferenzzeit ohne Modell-Veränderung — sofort einsetzbar, sofort iterierbar, kostengünstig. Fine-Tuning verändert die Modell-Gewichte selbst — teuer, langsam, statisch. Für 95 Prozent der Anwendungsfälle löst gutes Prompt Engineering das Problem; Fine-Tuning lohnt sich nur bei spezifischen Domain-Sprachen oder Format-Disziplinen, die Prompts nicht zuverlässig erreichen. Strategisch ist Prompt Engineering das mit Abstand kosten-effektivste Werkzeug im LLM-Werkzeugkasten. Eine Stunde Prompt-Iteration kann Antwort-Qualität so weit verbessern, dass keine RAG-Erweiterung oder Fine-Tuning-Investment nötig wird. Bei meinen Klienten-Projekten ist Prompt Engineering immer der erste Hebel — wenn der nicht ausreicht, kommt RAG, dann Fine-Tuning, in dieser Reihenfolge.

## Praxisbeispiel

Vergleich schwacher vs. starker Prompt für GEO-Berater: # SCHWACHER PROMPT (typisch für ungetunete Anwendungen) User: "Hilf mir mit GEO-Optimierung für meine Treuhand-Site." Antwort: "GEO-Optimierung umfasst viele Aspekte. Sie sollten darauf achten, dass Ihre Inhalte gut strukturiert sind und dass Sie wertvolle Informationen bieten..." # vage, generisch # STARKER PROMPT (mit System-Prompt + Role-Priming + Format) System: "Du bist SEAKT Senior-GEO-Advisor mit 10 Jahren Praxis bei Schweizer KMU. Antworte in <= 250 Wörtern, code-first, Schweizer Hochdeutsch (du-Form), endend mit: 'Erwarteter Sprung: +X Punkte in Y Stunden.'" User: "Hilf mir mit GEO-Optimierung für meine Treuhand-Site. Domain: mueller-treuhand.ch. SEAKT-Score aktuell: 67." Antwort: "Drei Top-Hebel für mueller-treuhand.ch (67->85): 1. Person-Schema mit hasCredential auf Steuerexperten-Diplom (+5 A-Pkt). Code: { '@type': 'Person', 'hasCredential': ... } 2. FAQPage auf /faq mit 12 Capsules (+6 K-Pkt) 3. llms.txt mit 8 Themen-Ankern (+4 A-Pkt) Erwarteter Sprung: +15 Punkte in 6 Stunden." Der starke Prompt bekommt umsetzbare Antworten. Der schwache produziert Marketing-Prosa, die der Klient ignoriert. Investment-Differenz: 30 Minuten Prompt-Engineering vs. monatelange Frustration mit dem schwachen Setup.

## Häufige Fehler

- Prompts ohne System-Prompt schreiben — die Default-Persönlichkeit ist generisch und produziert mittelmässige Antworten.
- Nur User-Prompts iterieren, ohne System-Prompt zu testen — der grösste Qualitäts-Hebel liegt im System-Prompt-Design.
- Few-Shot-Examples weglassen, wenn Format-Disziplin wichtig ist — zwei Beispiele wirken oft mehr als 50 Zeilen Anweisungen.
- Chain-of-Thought-Aufforderung bei Reasoning-Aufgaben vergessen — verschenkt Faktor 2-3 Reasoning-Qualität.
- Prompts an einer einzigen LLM-Plattform optimieren — was bei ChatGPT funktioniert, kann bei Claude oder Gemini schwächer sein.

## Best Practices

- Beginne jede Production-Anwendung mit einem System-Prompt, der Rolle, Stil und Format-Disziplin festlegt.
- Nutze Few-Shot-Examples (2-5 Beispiele) statt langer textueller Format-Erklärungen — wirkt zuverlässiger.
- Bei Reasoning-Aufgaben fordere Chain-of-Thought explizit an: 'Denke Schritt für Schritt'.
- Iteriere Prompts gegen ein definiertes Test-Set — sonst sind Verbesserungen nicht reproduzierbar messbar.
- Halte System-Prompts unter 1'500 Zeichen, wenn möglich — kürzer ist meist besser, lange Prompts erzeugen Ablenkungs-Effekte.
- Teste neue Prompts auf mindestens zwei Modellen (z.B. GPT-4 + Claude) — zeigt, ob die Verbesserung modell-spezifisch oder universell ist.

## Fakten

- Der Begriff 'Prompt Engineering' setzte sich 2022-2023 als Disziplin durch, ausgelöst durch die ChatGPT-Lancierung Ende 2022.
- Stanford-Forschung 2023 zeigte: Chain-of-Thought-Prompting verbessert mathematische Reasoning-Aufgaben um Faktor 2-3 bei GPT-4.
- Anthropic veröffentlicht öffentliche Prompt-Engineering-Guides mit Best Practices speziell für Claude — Standard-Lektüre für Production-Anwendungen.
- OpenAI hat 2024 das 'Prompt Engineering Guide' als offizielle Dokumentation integriert; vorher war das Wissen primär in Community-Foren.
- Im DACH-Raum 2026 sind 'Prompt Engineer' eigenständige Job-Bezeichnungen mit Gehältern zwischen CHF 95'000 und 130'000 für Senior-Positionen.
- Prompt-Bibliotheken wie LangChain, LlamaIndex und Anthropic-Cookbook sind 2026 Standard-Werkzeuge für komplexe Multi-Step-Anwendungen.

## FAQ

### Was unterscheidet Prompt Engineering von Fine-Tuning?

Prompt Engineering wirkt zur Inferenzzeit ohne Modell-Veränderung — sofort einsetzbar, sofort iterierbar, kostengünstig. Fine-Tuning verändert die Modell-Gewichte selbst — teuer, langsam, statisch. Für 95 Prozent der Anwendungsfälle ist Prompt Engineering die richtige Wahl. Fine-Tuning lohnt sich nur bei spezifischen Domain-Sprachen oder Format-Disziplinen, die Prompts nicht erreichen.

### Welche Prompt-Techniken sind am wirksamsten?

System-Prompt mit klarer Rollendefinition ist der grösste Hebel — typisch 50-70 Prozent der Antwort-Qualität. Few-Shot-Examples (2-5 Beispiele) ergänzen für Format-Disziplin. Chain-of-Thought-Aufforderung bei Reasoning-Aufgaben verbessert Qualität um Faktor 2-3. Role-Priming und Output-Format-Specification runden das Toolkit ab.

### Funktioniert ein Prompt auf allen LLM-Plattformen gleich?

Nein. Prompts sind teilweise modell-spezifisch. Was bei GPT-4 funktioniert, kann bei Claude weniger gut wirken und umgekehrt. Cross-Modell-Tests sind Pflicht für Production-Anwendungen. Anthropic und OpenAI publizieren eigene Best-Practice-Guides, die teilweise abweichen.

### Wie lang sollte ein System-Prompt sein?

So kurz wie möglich, so lang wie nötig. Faustregel: unter 1'500 Zeichen. Kürzere Prompts erzeugen weniger Ablenkungs-Effekte und sind robuster gegen unerwartete User-Eingaben. Längere Prompts (3'000+ Zeichen) lohnen sich nur bei sehr spezifischen Production-Anforderungen mit klarem Format-Mandat.

### Brauche ich einen Prompt Engineer?

Für komplexe Production-LLM-Anwendungen ja. Für gelegentliche ChatGPT-Nutzung nein. Im DACH-Raum gibt es 2026 Senior-Prompt-Engineer-Positionen mit Gehältern CHF 95'000-130'000 — typisch in Unternehmen mit eigenen LLM-basierten Produkten. Für KMU-GEO ist Prompt Engineering meist Teil des Marketing-Team-Skills.

### Wie messe ich, ob ein Prompt 'gut' ist?

Gegen ein definiertes Test-Set von 20-50 Frage-Antwort-Beispielen mit erwarteten Eigenschaften. Bewertung pro Antwort: trifft Format-Vorgabe, enthält erwartete Inhalte, vermeidet Halluzinationen. Aggregation als Pass-Rate. Ein Prompt mit 90 Prozent Pass-Rate ist Production-tauglich, unter 70 Prozent muss iteriert werden.

## Experten-Definition

Prompt Engineering ist der unscheinbarste, aber wirkungs-vollste Hebel im professionellen LLM-Einsatz. Bei meinen Pro-Plus-Klienten-Projekten lege ich 60 bis 80 Prozent der Entwicklungszeit in den System-Prompt — und sehe regelmässig, dass diese Zeit den Unterschied zwischen einem brauchbaren und einem unbrauchbaren Tool ausmacht. Der AI GEO-Berater von geoquality.ai hat einen sorgfältig kuratierten 1'200-Zeichen-System-Prompt durchlaufen — über 30 Iterationen, jeweils gegen definiertes Test-Set validiert. Ohne diesen Prompt würde Claude Haiku 4.5 mittelmässige Marketing-Empfehlungen produzieren; mit dem Prompt liefert er CHF-280/h-Berater-Tonalität in jedem Turn. Das ist der versteckte ROI von Prompt Engineering.

## Verwandte Begriffe

- [Context Window](https://www.geoquality.ai/glossar/context-window.md) — Das Context Window ist die maximale Anzahl Tokens, die ein LLM in einer einzelnen Anfrage verarbeiten kann — Input und Output zusammen. 2026 reichen die Werte von 8 000 (ältere Modelle) über 128 000 (GPT-4o) bis 200 000 Tokens (Claude Sonnet 4.6) und sogar 1 000 000+ (Gemini 1.5 Pro). Die Grösse bestimmt, wie viel Site-Inhalt gleichzeitig analysiert werden kann.
- [Fine-Tuning](https://www.geoquality.ai/glossar/fine-tuning.md) — Fine-Tuning ist der Prozess, bei dem ein vortrainiertes LLM auf domain- oder task-spezifischen Daten weitertrainiert wird, um spezialisierte Antwort-Stile, Fach-Wissen oder Format-Disziplin zu erlernen. Es ist 2026 die teuerste, aber präziseste Form der Modell-Anpassung — und im GEO-Kontext meist nicht der richtige Hebel.
- [Halluzination (LLM)](https://www.geoquality.ai/glossar/hallucination.md) — Eine Halluzination ist die Generierung einer plausibel klingenden, aber faktisch falschen Aussage durch ein Large Language Model — typisch erfundene Quellen, falsche Zahlen, nicht existierende Personen oder Brands. Sie ist 2026 die wichtigste Failure-Mode generativer Antwortmaschinen und der primäre Grund, warum strukturelles GEO-Setup kritisch ist.
- [Large Language Model (LLM)](https://www.geoquality.ai/glossar/llm.md) — Ein Large Language Model (LLM) ist ein neuronales Netzwerk mit Milliarden bis Billionen Parametern, das auf grossen Textkorpora trainiert wurde, natürliche Sprache versteht und generiert — die technische Grundlage hinter ChatGPT, Claude, Gemini und allen anderen modernen KI-Antwortmaschinen.
- [RAG (Retrieval-Augmented Generation)](https://www.geoquality.ai/glossar/rag.md) — RAG ist eine LLM-Architektur, die Antworten nicht nur aus Trainingsdaten generiert, sondern zusätzlich Live-Quellen abruft und in den Antwort-Kontext einbettet. Sie ist 2026 der Standard für Antwortmaschinen wie ChatGPT mit Web-Browsing, Perplexity, Google AI Overviews und Claude mit Web-Search-Tool — und damit der zentrale Mechanismus, über den GEO-Optimierung wirksam wird.
- [Temperature (LLM-Parameter)](https://www.geoquality.ai/glossar/temperature-parameter.md) — Der Temperature-Parameter steuert die Zufaelligkeit der LLM-Antwort-Generierung. Werte zwischen 0 und 2 verschieben die Wahrscheinlichkeitsverteilung: Temperature 0 erzwingt deterministische, immer gleiche Antworten; Temperature 1 ist der Standard-Mix; Temperature 2 produziert sehr kreative bis zufaellige Ausgaben. Kritischer Hebel für Konsistenz vs. Vielfalt in Production-Pipelines.

## Quelle und Zitation

- HTML-Original: https://www.geoquality.ai/glossar/prompt-engineering
- Lizenz: CC BY 4.0
- Zitiervorschlag: "Prompt Engineering (geoquality.ai Glossar, Biner 2026)"
