Der unbeabsichtigte Türsteher-Fehler
Aus 287 DACH-Domains in unserer Studie zeigt sich ein erschreckendes Muster: 73 Prozent blockieren KI-Crawler — meist unbeabsichtigt. Sie haben in 2024 oder 2025 einen Standard-Schutz aus dem Internet kopiert, verstanden ihn nicht zu Ende, und blockieren jetzt GPTBot, ClaudeBot und PerplexityBot ohne es zu merken.
Die robots.txt ist der Türsteher deiner Website. Sie sagt jedem Bot, welche Bereiche er crawlen darf und welche nicht. Für klassisches SEO galt jahrelang: möglichst wenige Einschränkungen — Google soll alles sehen. Für KI-Crawler herrscht 2026 dieselbe Logik: wer in den Antworten erscheinen will, muss erlauben, dass die Crawler die Inhalte indexieren.
Die sechs relevanten KI-Crawler 2026
Hier die sechs wichtigsten KI-Crawler 2026:
- GPTBot (OpenAI): Crawlt für ChatGPT und ChatGPT Search. Marktanteil bei AI-Referrals: 20-30 Prozent.
- ClaudeBot (Anthropic): Crawlt für Claude und Claude.ai. Marktanteil: 5-10 Prozent.
- PerplexityBot: Crawlt für Perplexity. Marktanteil bei AI-Referrals: 50-60 Prozent (Marktführer).
- Google-Extended: Optionaler Crawler von Google für Gemini-Training (separates Opt-in von Googlebot).
- Applebot-Extended: Apples KI-Crawler. Wichtig wenn Apple Intelligence relevant wird.
- CCBot (Common Crawl): Liefert Trainingsdaten für viele LLMs, darunter Mistral und manche Anthropic-Models.
Wichtig: jeder dieser Bots respektiert robots.txt-Direktiven. Wer einen Bot per Disallow blockiert, erscheint in dessen Antworten nicht.
Die korrekte robots.txt-Konfiguration für 2026
Hier die empfohlene Standard-Konfiguration:
# robots.txt für DACH-KMU 2026
# Klassische Such-Bots
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# KI-Crawler (2026 explizit erlaubt)
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: CCBot
Allow: /
# Bereiche, die KEIN Bot indexieren soll
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /cart/
# Sitemaps
Sitemap: https://example.ch/sitemap.xml
Sitemap: https://example.ch/llms.txtDrei Prinzipien:
- Jeden Bot explizit nennen. Pauschale
User-agent: *-Regeln sind unscharf. - Sensible Bereiche separat. Admin, Cart, Checkout über
User-agent: *sperren — gilt dann für alle Bots, einschliesslich KI. - Sitemap + llms.txt verlinken. Verbindet die robots.txt mit deiner strukturellen Inhaltsdokumentation.
Die fünf häufigsten Konfigurations-Fehler
Diese fünf Patterns blockieren KI-Crawler unbeabsichtigt:
- Pauschales Disallow für alle Bots:
User-agent: *+Disallow: /— blockiert alles, auch KI. - Allowlist nur für Google: nur Googlebot wird explizit erlaubt — alle anderen sehen Disallow als Default.
- WordPress-Default ohne Anpassung: viele WP-Themes generieren restriktive robots.txt — muss manuell überschrieben werden.
- noindex-Header per HTTP: wirkt für alle Bots, auch KI — meist ungewollt.
- Cloudflare-Bot-Schutz zu aggressiv: blockiert KI-Crawler auf Server-Ebene, ohne dass es in robots.txt sichtbar ist.
Prüfe deine eigene robots.txt heute: rufe sie unter https://deine-domain.ch/robots.txt auf. Wenn du dort GPTBot/ClaudeBot/PerplexityBot nicht explizit erlaubst — Fehler.
Wann es Sinn macht, KI-Crawler zu blockieren
Drei Szenarien rechtfertigen ein bewusstes Blockieren:
- Urheberrechtlich geschützte Inhalte. Verlage mit lizensiertem Content (NZZ, Tagesanzeiger) blockieren KI-Crawler aus DSGVO/Copyright-Gründen.
- Sehr sensible Branchen. Anwälte mit Mandantengeheimnis, Ärzte mit Patientendaten — auch wenn diese Daten meist gar nicht öffentlich sind, blockieren viele zur Sicherheit.
- Wettbewerbsschützenswerte Inhalte. Detaillierte Preislisten oder proprietäre Methoden — können selektiv geschützt werden.
Für die meisten DACH-KMU gilt: Erlauben ist die richtige Wahl. Eine GEO-Strategie zielt auf Sichtbarkeit, und Sichtbarkeit setzt Crawl-Erlaubnis voraus.
Was du jetzt tun solltest
Konkret:
- Aktuelle robots.txt prüfen. Aufruf unter
/robots.txt— sind die 6 KI-Bots explizit erlaubt? - Vorlage oben anpassen. Domain-Name ersetzen, sensible Bereiche definieren, Sitemap-URL eintragen.
- Validieren. Mit Googles robots.txt-Tester und manueller Prüfung der KI-Bot-User-Agents.
- Mit llms.txt kombinieren. Zwei Dateien — robots.txt regelt Erlaubnis, llms.txt regelt Inhalts-Struktur. Beide ergänzen sich.
Die häufigste Reaktion in meiner Beratung: 'Wir wussten nicht, dass wir das blockieren.' Das ist heilbar — in 15 Minuten.