GPTBot, ClaudeBot, PerplexityBot: Das Crawler-Setup für DACH-KMU

Der unbeabsichtigte Türsteher-Fehler

Aus 287 DACH-Domains in unserer Studie zeigt sich ein erschreckendes Muster: 73 Prozent blockieren KI-Crawler — meist unbeabsichtigt. Sie haben in 2024 oder 2025 einen Standard-Schutz aus dem Internet kopiert, verstanden ihn nicht zu Ende, und blockieren jetzt GPTBot, ClaudeBot und PerplexityBot ohne es zu merken.

Die robots.txt ist der Türsteher deiner Website. Sie sagt jedem Bot, welche Bereiche er crawlen darf und welche nicht. Für klassisches SEO galt jahrelang: möglichst wenige Einschränkungen — Google soll alles sehen. Für KI-Crawler herrscht 2026 dieselbe Logik: wer in den Antworten erscheinen will, muss erlauben, dass die Crawler die Inhalte indexieren.

Die sechs relevanten KI-Crawler 2026

Hier die sechs wichtigsten KI-Crawler 2026:

GPTBot (OpenAI): Crawlt für ChatGPT und ChatGPT Search. Marktanteil bei AI-Referrals: 20-30 Prozent.
ClaudeBot (Anthropic): Crawlt für Claude und Claude.ai. Marktanteil: 5-10 Prozent.
PerplexityBot: Crawlt für Perplexity. Marktanteil bei AI-Referrals: 50-60 Prozent (Marktführer).
Google-Extended: Optionaler Crawler von Google für Gemini-Training (separates Opt-in von Googlebot).
Applebot-Extended: Apples KI-Crawler. Wichtig wenn Apple Intelligence relevant wird.
CCBot (Common Crawl): Liefert Trainingsdaten für viele LLMs, darunter Mistral und manche Anthropic-Models.

Wichtig: jeder dieser Bots respektiert robots.txt-Direktiven. Wer einen Bot per Disallow blockiert, erscheint in dessen Antworten nicht.

Die korrekte robots.txt-Konfiguration für 2026

Hier die empfohlene Standard-Konfiguration:

# robots.txt für DACH-KMU 2026

# Klassische Such-Bots
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# KI-Crawler (2026 explizit erlaubt)
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: CCBot
Allow: /

# Bereiche, die KEIN Bot indexieren soll
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /cart/

# Sitemaps
Sitemap: https://example.ch/sitemap.xml
Sitemap: https://example.ch/llms.txt

Drei Prinzipien:

Jeden Bot explizit nennen. Pauschale User-agent: *-Regeln sind unscharf.
Sensible Bereiche separat. Admin, Cart, Checkout über User-agent: * sperren — gilt dann für alle Bots, einschliesslich KI.
Sitemap + llms.txt verlinken. Verbindet die robots.txt mit deiner strukturellen Inhaltsdokumentation.

Die fünf häufigsten Konfigurations-Fehler

Diese fünf Patterns blockieren KI-Crawler unbeabsichtigt:

Pauschales Disallow für alle Bots: User-agent: * + Disallow: / — blockiert alles, auch KI.
Allowlist nur für Google: nur Googlebot wird explizit erlaubt — alle anderen sehen Disallow als Default.
WordPress-Default ohne Anpassung: viele WP-Themes generieren restriktive robots.txt — muss manuell überschrieben werden.
noindex-Header per HTTP: wirkt für alle Bots, auch KI — meist ungewollt.
Cloudflare-Bot-Schutz zu aggressiv: blockiert KI-Crawler auf Server-Ebene, ohne dass es in robots.txt sichtbar ist.

Prüfe deine eigene robots.txt heute: rufe sie unter https://deine-domain.ch/robots.txt auf. Wenn du dort GPTBot/ClaudeBot/PerplexityBot nicht explizit erlaubst — Fehler.

Wann es Sinn macht, KI-Crawler zu blockieren

Drei Szenarien rechtfertigen ein bewusstes Blockieren:

Urheberrechtlich geschützte Inhalte. Verlage mit lizensiertem Content (NZZ, Tagesanzeiger) blockieren KI-Crawler aus DSGVO/Copyright-Gründen.
Sehr sensible Branchen. Anwälte mit Mandantengeheimnis, Ärzte mit Patientendaten — auch wenn diese Daten meist gar nicht öffentlich sind, blockieren viele zur Sicherheit.
Wettbewerbsschützenswerte Inhalte. Detaillierte Preislisten oder proprietäre Methoden — können selektiv geschützt werden.

Für die meisten DACH-KMU gilt: Erlauben ist die richtige Wahl. Eine GEO-Strategie zielt auf Sichtbarkeit, und Sichtbarkeit setzt Crawl-Erlaubnis voraus.

Was du jetzt tun solltest

Konkret:

Aktuelle robots.txt prüfen. Aufruf unter /robots.txt — sind die 6 KI-Bots explizit erlaubt?
Vorlage oben anpassen. Domain-Name ersetzen, sensible Bereiche definieren, Sitemap-URL eintragen.
Validieren. Mit Googles robots.txt-Tester und manueller Prüfung der KI-Bot-User-Agents.
Mit llms.txt kombinieren. Zwei Dateien — robots.txt regelt Erlaubnis, llms.txt regelt Inhalts-Struktur. Beide ergänzen sich.

Die häufigste Reaktion in meiner Beratung: 'Wir wussten nicht, dass wir das blockieren.' Das ist heilbar — in 15 Minuten.

Häufige Fragen

Soll ich KI-Crawler erlauben oder blockieren?

Für die meisten DACH-KMU: erlauben. Eine GEO-Strategie setzt voraus, dass <a href="/glossar/ki-crawler">KI-Crawler</a> deine Inhalte indexieren können. Blockieren macht nur in Spezialfällen Sinn (Urheberrecht, Mandantengeheimnis, sehr sensible Inhalte).

Welche KI-Bots gibt es 2026?

Sechs relevante: <a href="/glossar/gptbot">GPTBot</a> (OpenAI), <a href="/glossar/claudebot">ClaudeBot</a> (Anthropic), <a href="/glossar/perplexitybot">PerplexityBot</a>, <a href="/glossar/google-extended">Google-Extended</a> (Gemini-Training), <a href="/glossar/applebot">Applebot-Extended</a> (Apple Intelligence), <a href="/glossar/ccbot">CCBot</a> (Common Crawl).

Was passiert, wenn ich GPTBot blockiere?

Du erscheinst in ChatGPT und ChatGPT Search nicht. Marktanteil-Verlust: 20-30 Prozent der <a href="/glossar/ai-referral-traffic">AI-Referrals</a>. Bei B2C-Anbietern oft schmerzhafter, weil ChatGPT dort die häufigste Engine ist.

Wie wirkt Google-Extended vs. Googlebot?

Googlebot crawlt für klassische Suche. Google-Extended ist ein separater Bot für Gemini-Training. Beide erlauben oder beide blockieren — ist eine Entscheidung. Standard 2026: beide erlauben, weil Gemini-Sichtbarkeit wichtig wird.

Soll ich CCBot erlauben?

Ja, für die meisten KMU. <a href="/glossar/ccbot">CCBot</a> liefert Trainingsdaten für Common Crawl — die Datenbasis vieler Open-Source-LLMs und manche Anthropic/Mistral-Models. Blockieren macht nur Sinn bei urheberrechtlich kritischen Inhalten.

Wie kombiniere ich robots.txt mit llms.txt?

<a href="/glossar/robots-txt">robots.txt</a> regelt Erlaubnis (Allow/Disallow), <a href="/glossar/llms-txt">llms.txt</a> regelt Inhalts-Struktur (was wichtig ist). Beide gehören in den Domain-Root. Best Practice: robots.txt referenziert llms.txt als zusätzliche Sitemap. Mehr im Post <a href="/blog/llms-txt-anleitung-schweiz">llms.txt erstellen</a>.

Der unbeabsichtigte Türsteher-Fehler

Die sechs relevanten KI-Crawler 2026

Die korrekte robots.txt-Konfiguration für 2026

Die fünf häufigsten Konfigurations-Fehler

Wann es Sinn macht, KI-Crawler zu blockieren

Was du jetzt tun solltest

Häufige Fragen

Weiterführende Artikel

llms.txt erstellen: Schritt-für-Schritt-Anleitung für Schweizer Websites

Schema.org für Schweizer KMU: 12 Code-Snippets zum Sofort-Einsetzen

Knowledge Graph für die eigene Website aufbauen: Die komplette Anleitung

Relevante GEO-Begriffe