Sehr wichtig crawling

robots.txt

Auch bekannt als: Robots Exclusion Protocol, robots-txt


Aktualisiert 2026-05-03 · von Marco Biner

1. Kurzdefinition

robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Crawlern Zugriffsregeln signalisiert — für GEO entscheidend, weil sie als erstes Hindernis darüber entscheidet, ob KI-Crawler die Site überhaupt indexieren dürfen.

2. Ausführliche Erklärung

robots.txt ist eines der ältesten Web-Standards überhaupt — 1994 als „Robots Exclusion Protocol“ eingeführt und seither kaum verändert. Die Datei lebt unter /robots.txt im Root-Verzeichnis und enthält Anweisungen, welche User-Agents (Crawler) welche Pfade besuchen dürfen. Was klassische Suchmaschinen-Bots seit drei Jahrzehnten respektieren, gilt auch für KI-Crawler.

Für GEO ist robots.txt das erste Tor zur AI-Sichtbarkeit. Wer in robots.txt einen relevanten KI-Crawler blockiert, verschwindet aus dem entsprechenden Retrieval-Layer komplett. Ein typisches Anti-Pattern: Default-robots.txt mit Wildcard-Disallow wie User-agent: * / Disallow: / — das blockiert nicht nur SEO-Bots, sondern auch GPTBot, ClaudeBot und PerplexityBot. Solche Sites sind für KI-Antwortmaschinen unsichtbar.

Technisch besteht robots.txt aus User-Agent-Blöcken mit Allow- und Disallow-Direktiven. Pro Crawler eigene Regeln, plus ein User-agent: *-Block für Default-Verhalten. Eine moderne, GEO-bewusste robots.txt erlaubt explizit GPTBot, ClaudeBot, PerplexityBot, Google-Extended und cohere-ai mit eigenen User-Agent-Blöcken. Optional: Crawl-Delay für aggressive Bots, Sitemap-Verweis am Ende.

Eine wichtige Unterscheidung: robots.txt regelt Crawl-Verhalten, nicht Indexierung. Eine Page kann via Disallow ausgeschlossen werden, trotzdem aber indexiert werden, wenn andere Seiten auf sie verlinken. Für echte Indexierungs-Verhinderung braucht es zusätzlich noindex-Meta-Tags oder X-Robots-Tag-Header. Im GEO-Kontext: wenn KI-Modelle eine Page nicht crawlen können, kann sie nicht als Quelle zitiert werden — was meist gewünschtes Verhalten ist.

Für eine Schweizer KMU bedeutet eine GEO-bewusste robots.txt konkret: jeder relevante KI-Crawler explizit erlauben, Wildcard-Disallow vermeiden, sensitive Bereiche (Login, Admin, Test-Pages) gezielt ausschliessen. Die Datei ist 30 Minuten Setup und einer der wichtigsten Hebel überhaupt — Sites mit korrekter Konfiguration haben laut Studien eine 6-fach höhere Citation-Rate als Sites mit Default-Disallow-Verhalten.

3. Praxisbeispiel

Vollständige GEO-bewusste robots.txt für eine Schweizer KMU:

# robots.txt — geoquality.ai-Standard

# KI-Crawler explizit erlauben
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: cohere-ai
Allow: /

# Klassische Suchmaschinen-Bots
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/internal/
Disallow: /test/

# Sitemap-Verweis am Ende
Sitemap: https://www.beispiel.ch/sitemap.xml

Diese Konfiguration erlaubt allen wichtigen KI-Crawlern und Standard-Suchmaschinen-Bots vollen Zugriff, schliesst aber sensitive Bereiche wie Admin-Panels und interne APIs aus. Der Sitemap-Verweis am Ende ist Best Practice — Crawler lesen ihn aus robots.txt aus.

4. Typische Fehler & Missverständnisse

5. Best Practices

6. Fakten


Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

robots.txt ist 2026 der wichtigste 30-Minuten-Hebel im GEO. Was ich konsistent sehe: jede zweite KMU-Site, die ich initial auditiere, blockiert mindestens einen wichtigen KI-Crawler unbewusst. Default-WordPress-robots.txt sind besonders häufig betroffen — sie kommen oft mit aggressiven Disallow-Regeln, die für 2026er-GEO komplett ungeeignet sind.

Mein Standard-Audit-Schritt eins: robots.txt prüfen, alle fünf grossen KI-Crawler explizit erlauben, sensitive Pfade gezielt ausschliessen, Sitemap-Verweis am Ende. Das ist bei vielen Klienten der grösste Quick-Win im Setup — 30 Minuten Aufwand, 6-fache Citation-Steigerung über 8 bis 12 Wochen.


GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

76 /100
Sehr wichtig Range 70–89

FAQs

Was passiert wenn ich keine robots.txt habe?

Crawler nehmen impliziter Erlaubnis an und besuchen alle Pages. Das ist nicht zwingend schlecht, aber suboptimal: ohne explizite Konfiguration kannst du sensible Pfade nicht ausschliessen, und KI-Crawler wissen nicht, dass du sie aktiv willst. Best Practice: immer eine robots.txt mit expliziten Regeln, auch wenn sie alles erlaubt.

Schützt robots.txt sensible Inhalte?

Nein, robots.txt ist öffentlich einsehbar und keine Sicherheitsmassnahme. Bösartige Bots ignorieren die Datei sowieso. Sensible Inhalte gehören hinter Authentication oder per noindex-Meta-Tag aus dem Index — nicht via robots.txt-Disallow „versteckt“. Disallow signalisiert nur Höflichkeits-Crawlern, sich fernzuhalten.

Wie unterscheidet sich Disallow von noindex?

Disallow in robots.txt verhindert, dass Crawler die Page besuchen. noindex (im Meta-Tag oder X-Robots-Tag-Header) verhindert, dass die Page indexiert wird. Eine Page kann via Disallow blockiert sein und trotzdem indexiert werden, wenn andere Seiten auf sie verlinken. Für echte Indexierungs-Verhinderung: noindex ist sicherer.

Warum sollte ich KI-Crawler explizit erlauben?

Weil viele Default-robots.txt aggressive Wildcard-Disallow-Regeln haben, die KI-Crawler unbeabsichtigt blockieren. Eine explizite Allow-Regel pro KI-Crawler überschreibt das Default-Verhalten und macht klar: dieser Bot ist willkommen. Das ist explizite Konfiguration statt impliziter Annahmen.

Kann ich Crawl-Delay sinnvoll nutzen?

Bei aggressiven Bots ja — Crawl-Delay: 5 (Sekunden zwischen Requests) ist ein typischer Wert. Bei den fünf grossen KI-Crawlern in der Regel nicht nötig — sie sind sparsam und respektieren Server-Ressourcen. Wenn deine Server-Logs aggressives Crawl-Verhalten zeigen, ist Crawl-Delay das richtige Werkzeug.

Sollte ich verschiedene robots.txt für Subdomains haben?

Ja, jede Subdomain hat ihre eigene robots.txt. <code>www.example.ch/robots.txt</code> ist getrennt von <code>blog.example.ch/robots.txt</code>. Das ist wichtig wenn z. B. der Blog auf einer eigenen Subdomain läuft — die robots.txt dort muss separat konfiguriert sein, sonst gelten die Default-Regeln des Webservers.


Verwandte Begriffe

Eigene AI-Sichtbarkeit messen

Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.

Jetzt analysieren →