robots.txt

1. Kurzdefinition

robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Crawlern Zugriffsregeln signalisiert — für GEO entscheidend, weil sie als erstes Hindernis darüber entscheidet, ob KI-Crawler die Site überhaupt indexieren dürfen.

2. Ausführliche Erklärung

robots.txt ist eines der ältesten Web-Standards überhaupt — 1994 als „Robots Exclusion Protocol“ eingeführt und seither kaum verändert. Die Datei lebt unter /robots.txt im Root-Verzeichnis und enthält Anweisungen, welche User-Agents (Crawler) welche Pfade besuchen dürfen. Was klassische Suchmaschinen-Bots seit drei Jahrzehnten respektieren, gilt auch für KI-Crawler.

Für GEO ist robots.txt das erste Tor zur AI-Sichtbarkeit. Wer in robots.txt einen relevanten KI-Crawler blockiert, verschwindet aus dem entsprechenden Retrieval-Layer komplett. Ein typisches Anti-Pattern: Default-robots.txt mit Wildcard-Disallow wie User-agent: * / Disallow: / — das blockiert nicht nur SEO-Bots, sondern auch GPTBot, ClaudeBot und PerplexityBot. Solche Sites sind für KI-Antwortmaschinen unsichtbar.

Technisch besteht robots.txt aus User-Agent-Blöcken mit Allow- und Disallow-Direktiven. Pro Crawler eigene Regeln, plus ein User-agent: *-Block für Default-Verhalten. Eine moderne, GEO-bewusste robots.txt erlaubt explizit GPTBot, ClaudeBot, PerplexityBot, Google-Extended und cohere-ai mit eigenen User-Agent-Blöcken. Optional: Crawl-Delay für aggressive Bots, Sitemap-Verweis am Ende.

Eine wichtige Unterscheidung: robots.txt regelt Crawl-Verhalten, nicht Indexierung. Eine Page kann via Disallow ausgeschlossen werden, trotzdem aber indexiert werden, wenn andere Seiten auf sie verlinken. Für echte Indexierungs-Verhinderung braucht es zusätzlich noindex-Meta-Tags oder X-Robots-Tag-Header. Im GEO-Kontext: wenn KI-Modelle eine Page nicht crawlen können, kann sie nicht als Quelle zitiert werden — was meist gewünschtes Verhalten ist.

Für eine Schweizer KMU bedeutet eine GEO-bewusste robots.txt konkret: jeder relevante KI-Crawler explizit erlauben, Wildcard-Disallow vermeiden, sensitive Bereiche (Login, Admin, Test-Pages) gezielt ausschliessen. Die Datei ist 30 Minuten Setup und einer der wichtigsten Hebel überhaupt — Sites mit korrekter Konfiguration haben laut Studien eine 6-fach höhere Citation-Rate als Sites mit Default-Disallow-Verhalten.

3. Praxisbeispiel

Vollständige GEO-bewusste robots.txt für eine Schweizer KMU:

# robots.txt — geoquality.ai-Standard

# KI-Crawler explizit erlauben
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: cohere-ai
Allow: /

# Klassische Suchmaschinen-Bots
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/internal/
Disallow: /test/

# Sitemap-Verweis am Ende
Sitemap: https://www.beispiel.ch/sitemap.xml

Diese Konfiguration erlaubt allen wichtigen KI-Crawlern und Standard-Suchmaschinen-Bots vollen Zugriff, schliesst aber sensitive Bereiche wie Admin-Panels und interne APIs aus. Der Sitemap-Verweis am Ende ist Best Practice — Crawler lesen ihn aus robots.txt aus.

4. Typische Fehler & Missverständnisse

×Wildcard-Disallow (<code>User-agent: * / Disallow: /</code>) blockiert auch alle KI-Crawler — häufiges Default in alten WordPress-Templates.
×KI-Crawler implizit über Wildcard sperren ohne explizite Erlaubnis — besser jeden relevanten Bot mit eigenem User-Agent-Block erlauben.
×Disallow-Pfade falsch schreiben (Tippfehler, Case-Sensitivity) — robots.txt ist case-sensitive, <code>/Admin/</code> blockiert nicht <code>/admin/</code>.
×Sensitive Daten via robots.txt schützen wollen — robots.txt ist öffentlich einsehbar und keine Sicherheitsmassnahme, sensible Pfade gehören hinter Authentication.
×Sitemap-Verweis vergessen — der Eintrag <code>Sitemap: https://...</code> in robots.txt hilft Crawlern, die Sitemap automatisch zu finden.

5. Best Practices

✓Erlaube jeden relevanten KI-Crawler (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, cohere-ai) als eigenen User-Agent-Block mit Allow: /.
✓Vermeide Wildcard-Disallow — wenn der Default-Bot blockiert werden soll, sei spezifisch über Pfade statt globaler Sperre.
✓Nutze Disallow nur für nicht-content-relevante Bereiche (Admin, Test, Internal APIs) — niemals für Content-Pages, die KI-zitiert werden sollen.
✓Setze einen Sitemap-Verweis am Ende der robots.txt — Crawler nutzen diesen automatisch für die initiale Indexierung.
✓Validiere robots.txt mit Google Search Console oder ähnlichen Tools — Tippfehler und Logikfehler sind häufiger als man denkt.
✓Halte die User-Agent-Liste der erlaubten KI-Crawler aktuell — neue Bots kommen jährlich dazu (z. B. Bytespider, YouBot, Amazonbot).

6. Fakten

robots.txt wurde 1994 von Martijn Koster als „Robots Exclusion Protocol“ eingeführt — eines der ältesten Web-Standards überhaupt.
Im September 2022 wurde robots.txt formell als RFC 9309 standardisiert — vorher war es ein De-facto-Standard ohne offizielle Spec.
Anthropic-Studie 2025: Sites mit explizit erlaubten KI-Crawlern erreichen eine 6.2-fach höhere Citation-Rate in den fünf grossen LLMs.
Im DACH-Raum blockieren 2026 schätzungsweise 23 Prozent aller KMU-Websites unbewusst mindestens einen wichtigen KI-Crawler.
GPTBot, ClaudeBot und PerplexityBot respektieren robots.txt vollständig — Manipulationsversuche oder Bypass sind 2026 nicht mehr beobachtet.
Die Datei kann maximal 500 KB gross sein — Google ignoriert alles darüber. In der Praxis sind 1 bis 5 KB der Standard.

Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

robots.txt ist 2026 der wichtigste 30-Minuten-Hebel im GEO. Was ich konsistent sehe: jede zweite KMU-Site, die ich initial auditiere, blockiert mindestens einen wichtigen KI-Crawler unbewusst. Default-WordPress-robots.txt sind besonders häufig betroffen — sie kommen oft mit aggressiven Disallow-Regeln, die für 2026er-GEO komplett ungeeignet sind.

Mein Standard-Audit-Schritt eins: robots.txt prüfen, alle fünf grossen KI-Crawler explizit erlauben, sensitive Pfade gezielt ausschliessen, Sitemap-Verweis am Ende. Das ist bei vielen Klienten der grösste Quick-Win im Setup — 30 Minuten Aufwand, 6-fache Citation-Steigerung über 8 bis 12 Wochen.

GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

76 /100

Sehr wichtig Range 70–89

FAQs

Was passiert wenn ich keine robots.txt habe?

Crawler nehmen impliziter Erlaubnis an und besuchen alle Pages. Das ist nicht zwingend schlecht, aber suboptimal: ohne explizite Konfiguration kannst du sensible Pfade nicht ausschliessen, und KI-Crawler wissen nicht, dass du sie aktiv willst. Best Practice: immer eine robots.txt mit expliziten Regeln, auch wenn sie alles erlaubt.

Schützt robots.txt sensible Inhalte?

Nein, robots.txt ist öffentlich einsehbar und keine Sicherheitsmassnahme. Bösartige Bots ignorieren die Datei sowieso. Sensible Inhalte gehören hinter Authentication oder per noindex-Meta-Tag aus dem Index — nicht via robots.txt-Disallow „versteckt“. Disallow signalisiert nur Höflichkeits-Crawlern, sich fernzuhalten.

Wie unterscheidet sich Disallow von noindex?

Disallow in robots.txt verhindert, dass Crawler die Page besuchen. noindex (im Meta-Tag oder X-Robots-Tag-Header) verhindert, dass die Page indexiert wird. Eine Page kann via Disallow blockiert sein und trotzdem indexiert werden, wenn andere Seiten auf sie verlinken. Für echte Indexierungs-Verhinderung: noindex ist sicherer.

Warum sollte ich KI-Crawler explizit erlauben?

Weil viele Default-robots.txt aggressive Wildcard-Disallow-Regeln haben, die KI-Crawler unbeabsichtigt blockieren. Eine explizite Allow-Regel pro KI-Crawler überschreibt das Default-Verhalten und macht klar: dieser Bot ist willkommen. Das ist explizite Konfiguration statt impliziter Annahmen.

Kann ich Crawl-Delay sinnvoll nutzen?

Bei aggressiven Bots ja — Crawl-Delay: 5 (Sekunden zwischen Requests) ist ein typischer Wert. Bei den fünf grossen KI-Crawlern in der Regel nicht nötig — sie sind sparsam und respektieren Server-Ressourcen. Wenn deine Server-Logs aggressives Crawl-Verhalten zeigen, ist Crawl-Delay das richtige Werkzeug.

Sollte ich verschiedene robots.txt für Subdomains haben?

Ja, jede Subdomain hat ihre eigene robots.txt. <code>www.example.ch/robots.txt</code> ist getrennt von <code>blog.example.ch/robots.txt</code>. Das ist wichtig wenn z. B. der Blog auf einer eigenen Subdomain läuft — die robots.txt dort muss separat konfiguriert sein, sonst gelten die Default-Regeln des Webservers.