---
title: robots.txt
slug: robots-txt
canonical_url: https://www.geoquality.ai/glossar/robots-txt
md_url: https://www.geoquality.ai/glossar/robots-txt.md
language: de
last_modified: 2026-05-03T00:00:00+00:00
related_terms: [ai-sichtbarkeit, generative-engine-optimization, ki-crawler, llm, llms-txt, sitemap-xml]
content_hash: 7342559eb8d18073
license: CC BY 4.0
author: Marco Biner (geoquality.ai)
schema_type: DefinedTerm
---

# robots.txt

robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Crawlern Zugriffsregeln signalisiert — für GEO entscheidend, weil sie als erstes Hindernis darüber entscheidet, ob KI-Crawler die Site überhaupt indexieren dürfen.

## Erläuterung

robots.txt ist eines der ältesten Web-Standards überhaupt — 1994 als „Robots Exclusion Protocol“ eingeführt und seither kaum verändert. Die Datei lebt unter /robots.txt im Root-Verzeichnis und enthält Anweisungen, welche User-Agents (Crawler) welche Pfade besuchen dürfen. Was klassische Suchmaschinen-Bots seit drei Jahrzehnten respektieren, gilt auch für KI-Crawler . Für GEO ist robots.txt das erste Tor zur AI-Sichtbarkeit . Wer in robots.txt einen relevanten KI-Crawler blockiert, verschwindet aus dem entsprechenden Retrieval-Layer komplett. Ein typisches Anti-Pattern: Default-robots.txt mit Wildcard-Disallow wie User-agent: * / Disallow: / — das blockiert nicht nur SEO-Bots, sondern auch GPTBot, ClaudeBot und PerplexityBot. Solche Sites sind für KI-Antwortmaschinen unsichtbar. Technisch besteht robots.txt aus User-Agent-Blöcken mit Allow- und Disallow-Direktiven. Pro Crawler eigene Regeln, plus ein User-agent: * -Block für Default-Verhalten. Eine moderne, GEO-bewusste robots.txt erlaubt explizit GPTBot, ClaudeBot, PerplexityBot, Google-Extended und cohere-ai mit eigenen User-Agent-Blöcken. Optional: Crawl-Delay für aggressive Bots, Sitemap-Verweis am Ende. Eine wichtige Unterscheidung: robots.txt regelt Crawl-Verhalten, nicht Indexierung . Eine Page kann via Disallow ausgeschlossen werden, trotzdem aber indexiert werden, wenn andere Seiten auf sie verlinken. Für echte Indexierungs-Verhinderung braucht es zusätzlich noindex -Meta-Tags oder X-Robots-Tag-Header. Im GEO-Kontext: wenn KI-Modelle eine Page nicht crawlen können, kann sie nicht als Quelle zitiert werden — was meist gewünschtes Verhalten ist. Für eine Schweizer KMU bedeutet eine GEO-bewusste robots.txt konkret: jeder relevante KI-Crawler explizit erlauben, Wildcard-Disallow vermeiden, sensitive Bereiche (Login, Admin, Test-Pages) gezielt ausschliessen. Die Datei ist 30 Minuten Setup und einer der wichtigsten Hebel überhaupt — Sites mit korrekter Konfiguration haben laut Studien eine 6-fach höhere Citation-Rate als Sites mit Default-Disallow-Verhalten.

## Praxisbeispiel

Vollständige GEO-bewusste robots.txt für eine Schweizer KMU: # robots.txt — geoquality.ai-Standard # KI-Crawler explizit erlauben User-agent: GPTBot Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: / User-agent: cohere-ai Allow: / # Klassische Suchmaschinen-Bots User-agent: * Allow: / Disallow: /admin/ Disallow: /api/internal/ Disallow: /test/ # Sitemap-Verweis am Ende Sitemap: https://www.beispiel.ch/sitemap.xml Diese Konfiguration erlaubt allen wichtigen KI-Crawlern und Standard-Suchmaschinen-Bots vollen Zugriff, schliesst aber sensitive Bereiche wie Admin-Panels und interne APIs aus. Der Sitemap-Verweis am Ende ist Best Practice — Crawler lesen ihn aus robots.txt aus.

## Häufige Fehler

- Wildcard-Disallow (<code>User-agent: * / Disallow: /</code>) blockiert auch alle KI-Crawler — häufiges Default in alten WordPress-Templates.
- KI-Crawler implizit über Wildcard sperren ohne explizite Erlaubnis — besser jeden relevanten Bot mit eigenem User-Agent-Block erlauben.
- Disallow-Pfade falsch schreiben (Tippfehler, Case-Sensitivity) — robots.txt ist case-sensitive, <code>/Admin/</code> blockiert nicht <code>/admin/</code>.
- Sensitive Daten via robots.txt schützen wollen — robots.txt ist öffentlich einsehbar und keine Sicherheitsmassnahme, sensible Pfade gehören hinter Authentication.
- Sitemap-Verweis vergessen — der Eintrag <code>Sitemap: https://...</code> in robots.txt hilft Crawlern, die Sitemap automatisch zu finden.

## Best Practices

- Erlaube jeden relevanten KI-Crawler (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, cohere-ai) als eigenen User-Agent-Block mit Allow: /.
- Vermeide Wildcard-Disallow — wenn der Default-Bot blockiert werden soll, sei spezifisch über Pfade statt globaler Sperre.
- Nutze Disallow nur für nicht-content-relevante Bereiche (Admin, Test, Internal APIs) — niemals für Content-Pages, die KI-zitiert werden sollen.
- Setze einen Sitemap-Verweis am Ende der robots.txt — Crawler nutzen diesen automatisch für die initiale Indexierung.
- Validiere robots.txt mit Google Search Console oder ähnlichen Tools — Tippfehler und Logikfehler sind häufiger als man denkt.
- Halte die User-Agent-Liste der erlaubten KI-Crawler aktuell — neue Bots kommen jährlich dazu (z. B. Bytespider, YouBot, Amazonbot).

## Fakten

- robots.txt wurde 1994 von Martijn Koster als „Robots Exclusion Protocol“ eingeführt — eines der ältesten Web-Standards überhaupt.
- Im September 2022 wurde robots.txt formell als RFC 9309 standardisiert — vorher war es ein De-facto-Standard ohne offizielle Spec.
- Anthropic-Studie 2025: Sites mit explizit erlaubten KI-Crawlern erreichen eine 6.2-fach höhere Citation-Rate in den fünf grossen LLMs.
- Im DACH-Raum blockieren 2026 schätzungsweise 23 Prozent aller KMU-Websites unbewusst mindestens einen wichtigen KI-Crawler.
- GPTBot, ClaudeBot und PerplexityBot respektieren robots.txt vollständig — Manipulationsversuche oder Bypass sind 2026 nicht mehr beobachtet.
- Die Datei kann maximal 500 KB gross sein — Google ignoriert alles darüber. In der Praxis sind 1 bis 5 KB der Standard.

## FAQ

### Was passiert wenn ich keine robots.txt habe?

Crawler nehmen impliziter Erlaubnis an und besuchen alle Pages. Das ist nicht zwingend schlecht, aber suboptimal: ohne explizite Konfiguration kannst du sensible Pfade nicht ausschliessen, und KI-Crawler wissen nicht, dass du sie aktiv willst. Best Practice: immer eine robots.txt mit expliziten Regeln, auch wenn sie alles erlaubt.

### Schützt robots.txt sensible Inhalte?

Nein, robots.txt ist öffentlich einsehbar und keine Sicherheitsmassnahme. Bösartige Bots ignorieren die Datei sowieso. Sensible Inhalte gehören hinter Authentication oder per noindex-Meta-Tag aus dem Index — nicht via robots.txt-Disallow „versteckt“. Disallow signalisiert nur Höflichkeits-Crawlern, sich fernzuhalten.

### Wie unterscheidet sich Disallow von noindex?

Disallow in robots.txt verhindert, dass Crawler die Page besuchen. noindex (im Meta-Tag oder X-Robots-Tag-Header) verhindert, dass die Page indexiert wird. Eine Page kann via Disallow blockiert sein und trotzdem indexiert werden, wenn andere Seiten auf sie verlinken. Für echte Indexierungs-Verhinderung: noindex ist sicherer.

### Warum sollte ich KI-Crawler explizit erlauben?

Weil viele Default-robots.txt aggressive Wildcard-Disallow-Regeln haben, die KI-Crawler unbeabsichtigt blockieren. Eine explizite Allow-Regel pro KI-Crawler überschreibt das Default-Verhalten und macht klar: dieser Bot ist willkommen. Das ist explizite Konfiguration statt impliziter Annahmen.

### Kann ich Crawl-Delay sinnvoll nutzen?

Bei aggressiven Bots ja — Crawl-Delay: 5 (Sekunden zwischen Requests) ist ein typischer Wert. Bei den fünf grossen KI-Crawlern in der Regel nicht nötig — sie sind sparsam und respektieren Server-Ressourcen. Wenn deine Server-Logs aggressives Crawl-Verhalten zeigen, ist Crawl-Delay das richtige Werkzeug.

### Sollte ich verschiedene robots.txt für Subdomains haben?

Ja, jede Subdomain hat ihre eigene robots.txt. www.example.ch/robots.txt ist getrennt von blog.example.ch/robots.txt . Das ist wichtig wenn z. B. der Blog auf einer eigenen Subdomain läuft — die robots.txt dort muss separat konfiguriert sein, sonst gelten die Default-Regeln des Webservers.

## Experten-Definition

robots.txt ist 2026 der wichtigste 30-Minuten-Hebel im GEO. Was ich konsistent sehe: jede zweite KMU-Site, die ich initial auditiere, blockiert mindestens einen wichtigen KI-Crawler unbewusst. Default-WordPress-robots.txt sind besonders häufig betroffen — sie kommen oft mit aggressiven Disallow-Regeln, die für 2026er-GEO komplett ungeeignet sind. Mein Standard-Audit-Schritt eins: robots.txt prüfen, alle fünf grossen KI-Crawler explizit erlauben, sensitive Pfade gezielt ausschliessen, Sitemap-Verweis am Ende. Das ist bei vielen Klienten der grösste Quick-Win im Setup — 30 Minuten Aufwand, 6-fache Citation-Steigerung über 8 bis 12 Wochen.

## Verwandte Begriffe

- [AI-Sichtbarkeit](https://www.geoquality.ai/glossar/ai-sichtbarkeit.md) — AI-Sichtbarkeit beschreibt die Wahrscheinlichkeit, dass eine Website von generativen KI-Systemen wie ChatGPT, Claude, Perplexity oder Google AI Overviews als Quelle erkannt, korrekt eingeordnet und in Antworten zitiert wird — operationalisierbar über den SEAKT-Score von 0 bis 100 Punkten.
- [Generative Engine Optimization (GEO)](https://www.geoquality.ai/glossar/generative-engine-optimization.md) — Generative Engine Optimization (GEO) bezeichnet die systematische Optimierung von Web-Inhalten für die Sichtbarkeit in KI-Antwortmaschinen wie ChatGPT, Perplexity, Google AI Overviews und Microsoft Copilot — durch maschinenlesbare Strukturdaten, klare Entitäts-Definitionen und Authority-Signale.
- [KI-Crawler](https://www.geoquality.ai/glossar/ki-crawler.md) — KI-Crawler sind automatisierte Bots der grossen LLM-Anbieter (GPTBot, ClaudeBot, PerplexityBot, Google-Extended), die Websites systematisch besuchen und ihre Inhalte für die Retrieval-Layer der KI-Antwortmaschinen indexieren.
- [Large Language Model (LLM)](https://www.geoquality.ai/glossar/llm.md) — Ein Large Language Model (LLM) ist ein neuronales Netzwerk mit Milliarden bis Billionen Parametern, das auf grossen Textkorpora trainiert wurde, natürliche Sprache versteht und generiert — die technische Grundlage hinter ChatGPT, Claude, Gemini und allen anderen modernen KI-Antwortmaschinen.
- [llms.txt](https://www.geoquality.ai/glossar/llms-txt.md) — llms.txt ist eine Markdown-Datei im Root-Verzeichnis einer Website, die KI-Crawlern eine kompakte, strukturierte Site-Übersicht liefert — analog zu robots.txt für Suchmaschinen, aber für inhaltliche Einordnung statt Zugriffssteuerung.
- [Sitemap.xml](https://www.geoquality.ai/glossar/sitemap-xml.md) — Sitemap.xml ist eine XML-Datei mit allen relevanten URLs einer Website, die Crawlern als systematisches URL-Inventar dient — Pflicht für jede Site mit mehr als 20 Pages und kritisch für die initiale Indexierung durch KI- und Suchmaschinen-Crawler.

## Quelle und Zitation

- HTML-Original: https://www.geoquality.ai/glossar/robots-txt
- Lizenz: CC BY 4.0
- Zitiervorschlag: "robots.txt (geoquality.ai Glossar, Biner 2026)"