Crawling

Q: Was ist Crawling?

Der systematische Prozess, mit dem Web-Crawler Inhalte einer Website abrufen, durchqueren und indexieren. Bots navigieren über Hyperlinks, laden HTML herunter, parsen Strukturdaten und übergeben sie an nachgelagerte Pipelines (Such-Index, LLM-Training, KI-Antwort-Pipelines).

Q: Was passiert, wenn Crawler meine Site nicht erreichen können?

Drei Effekte: erstens kein Eintrag in den jeweiligen Indizes (Google-Suche, ChatGPT-Search-Index, Perplexity-Index). Zweitens keine LLM-Trainings-Repräsentation. Drittens praktisch null KI-Sichtbarkeit . Crawler-Erlaubnis und -Effizienz sind Foundation jeder GEO-Strategie.

1. Kurzdefinition

Crawling bezeichnet den systematischen Prozess, mit dem Web-Crawler Inhalte einer Website abrufen, durchqueren und indexieren. Im KI-Zeitalter erweitert sich Crawling um spezialisierte KI-Crawler wie GPTBot, ClaudeBot, PerplexityBot und Google-Extended — neben dem klassischen Googlebot, der seit 1998 Web-Inhalte für Google-Suche sammelt.

2. Ausführliche Erklärung

Crawling ist der fundamentale Prozess, mit dem Suchmaschinen, KI-Plattformen und andere Web-Aggregatoren Inhalte aus dem offenen Web sammeln. Ein Crawler — auch Bot, Spider oder Web-Robot genannt — navigiert systematisch durch Hyperlinks, lädt HTML-Inhalte herunter, parst Strukturdaten und gibt die Daten an nachgelagerte Indexierungs-Pipelines weiter. Der erste Web-Crawler war 'World Wide Web Wanderer' von Matthew Gray (1993); Googlebot entstand 1998 mit der Google-Gründung und ist seither der dominante Web-Crawler weltweit.

Im KI-Zeitalter 2026 hat sich die Crawler-Landschaft fundamental erweitert. Neben dem klassischen Googlebot operieren mehrere spezialisierte KI-Crawler: GPTBot (OpenAI seit 2023), ClaudeBot (Anthropic seit 2023), PerplexityBot (Perplexity seit 2023), Google-Extended (Googles KI-spezifischer Crawler seit September 2023), Applebot-Extended (Apple seit 2024), und CCBot (Common Crawl, generische Trainings-Quelle seit 2008). Jeder dieser Crawler hat spezifische Funktionen, User-Agents und Compliance-Verhalten.

Für GEO ist Crawling-Verständnis fundamental. Sites müssen zwei Dinge sicherstellen: Erstens Crawler-Erlaubnis — die wichtigsten Bots in robots.txt explizit erlauben (oder zumindest nicht durch Wildcard-Disallow blockieren). Zweitens Crawl-Effizienz — Site-Architektur so gestalten, dass Crawler Inhalte effizient finden und parsen. Dazu gehören saubere Sitemap.xml-Pflege, internes Linking, schnelle Server-Antwortzeiten, und Server-Side-Rendering für JavaScript-lastige Seiten.

Drei Crawl-Strategien dominieren 2026. Erstens Polite Crawling: Crawler respektieren robots.txt-Direktiven, halten Crawl-Delay-Limits ein und identifizieren sich klar im User-Agent. Standard für seriöse Anbieter wie Google, OpenAI, Anthropic, Perplexity. Zweitens Aggressive Crawling: Bots ohne robots.txt-Compliance und mit hohem Request-Volumen pro Minute — typisch bei Spam-Crawlern, Daten-Scrapern und einigen Marketing-Tools. Drittens AI-spezifisches Crawling: speziell auf Strukturdaten und Capsule-Inhalte optimiert — die neueste Generation seit 2023. KI-Crawler bevorzugen JSON-LD-Strukturdaten, llms.txt-Self-Statements und semantisch klar markierte Inhalte.

Wichtig zur Abgrenzung: Crawling ist nicht Indexierung, ist nicht Rendering. Crawling bezeichnet das Abrufen der Inhalte. Indexierung ist der nachgelagerte Prozess der Speicherung in einer Such-Datenbank. Rendering ist die Browser-ähnliche Verarbeitung von HTML/CSS/JavaScript zur Berechnung des finalen Inhalts. Alle drei Prozesse zusammen bilden die Crawler-Pipeline; ein Site-Betreiber muss alle drei verstehen, um effektive GEO-Optimierung zu betreiben.

3. Praxisbeispiel

Crawler-Lifecycle für eine typische DACH-KMU-Site 2026:

# 1. Site-Discovery
Crawler findet die Site über externen Link, Sitemap-Submit
oder Domain-Registry-Daten.

# 2. robots.txt-Check
Crawler prüft https://example.ch/robots.txt:
  User-agent: GPTBot
  Allow: /
Falls erlaubt -> weitermachen. Falls Disallow -> abbrechen.

# 3. Sitemap.xml-Lesung
Crawler liest https://example.ch/sitemap.xml und
extrahiert URL-Liste mit lastmod-Timestamps.

# 4. Inhalt-Crawling
Crawler ruft jede URL ab, lädt HTML, parst:
  - Title, Meta-Description
  - JSON-LD-Strukturdaten
  - Inhalts-Hierarchie (h1, h2, h3)
  - Interne und externe Links
  - Bilder mit alt-Texten

# 5. Rate-Limiting
Crawler hält Crawl-Delay ein (typisch 1-5 Sekunden
zwischen Requests) um Server nicht zu ueberlasten.

# 6. Daten-Uebergabe an Index/Training
Crawler sendet gesammelte Daten an:
  - Such-Index (Googlebot -> Google-Suche)
  - LLM-Trainings-Pipeline (CCBot, GPTBot)
  - KI-Antwort-Index (PerplexityBot)

# 7. Re-Crawl-Frequenz
Wichtige Sites: taeglich oder mehrfach pro Woche
Standard-KMU-Sites: wöchentlich oder alle 2 Wochen
Statische Sites: monatlich oder seltener

Diese Lifecycle-Pflege ist die Foundation jeder GEO-Strategie. Ohne saubere Crawl-Erlaubnis und -Effizienz wirken keine anderen Optimierungs-Hebel.

4. Typische Fehler & Missverständnisse

×Crawler-Konfiguration einmalig setzen ohne Server-Log-Verifikation — robots.txt-Direktiven ohne Traffic-Prüfung sind unzuverlässig.
×Wildcard-Disallow ohne Crawler-spezifische Allows — typischer Bug, blockiert wichtige KI-Crawler unbeabsichtigt.
×JavaScript-only Sites ohne Server-Side-Rendering — Crawler interpretieren typisch nur statisches HTML, JS-only-Inhalte landen nicht im Index.
×Sitemap.xml veraltet halten — Crawler vertrauen auf lastmod-Timestamps für Update-Erkennung.
×Crawler-Delay zu aggressiv setzen — verlangsamt Index-Updates und kann Crawler-Frequenz reduzieren.

5. Best Practices

✓Pflege robots.txt mit expliziten Crawler-Allows für GPTBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot.
✓Halte Sitemap.xml aktuell mit korrekten lastmod-Timestamps für jede URL.
✓Nutze Server-Side-Rendering für JavaScript-lastige Seiten — Crawler-Coverage erhöht sich dramatisch.
✓Pflege internes Linking konsistent — Crawler folgen Links und finden so neue Inhalte effizient.
✓Stelle schnelle Server-Antwortzeiten sicher (< 500ms) — langsame Server reduzieren Crawl-Frequenz.
✓Verifiziere Crawler-Aktivität in Server-Logs nach jeder robots.txt-Änderung.

6. Fakten

Der erste Web-Crawler war 'World Wide Web Wanderer' von Matthew Gray (1993); Googlebot entstand 1998 mit der Google-Gründung.
2026 operieren mindestens 6 grosse KI-spezifische Crawler im DACH-Raum: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended, CCBot.
Auf typischen Schweizer KMU-Sites ist Bot-Traffic 2026 zwischen 30-45% des gesamten Traffic-Volumens — gestiegen von 20-25% (2018).
Googlebot bleibt 2026 der dominante Web-Crawler mit etwa 35-45% des gesamten Bot-Traffics auf typischen DACH-Sites.
GPTBot ist 2026 der zweitgrösste Bot-Traffic auf vielen DACH-KMU-Sites — gestiegen von 0% (vor August 2023) auf 5-10% des Bot-Traffics.
Crawler-Compliance mit robots.txt ist 2026 bei seriösen Anbietern (Google, OpenAI, Anthropic, Perplexity) bei über 99% — Spam-Crawler ignorieren typisch robots.txt.

Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

Crawling ist die unsichtbare Foundation jeder GEO-Strategie. Bei Klienten beginne ich jedes Audit mit zwei Crawler-Fragen: 'Welche Bots erlaubt eure robots.txt?' und 'Wie sieht euer Server-Log aus?'. In etwa 30% der Fälle fehlen wichtige KI-Crawler in der robots.txt-Konfiguration — der grösste verschenkte Hebel im DACH-KMU-Markt 2026. Mein Standard-Multi-Bot-Allow umfasst alle sechs grossen KI-Crawler plus Googlebot. Crawl-Effizienz ergänzt: saubere Sitemap.xml, Server-Side-Rendering, schnelle Antwortzeiten, internes Linking. Wer Crawling versteht, versteht GEO. Wer Crawler nicht erlaubt, verschenkt alle anderen Optimierungs-Hebel.

GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

65 /100

Wichtig Range 50–69

FAQs

Was ist Crawling?

Der systematische Prozess, mit dem Web-Crawler Inhalte einer Website abrufen, durchqueren und indexieren. Bots navigieren über Hyperlinks, laden HTML herunter, parsen <a href="/glossar/structured-data">Strukturdaten</a> und übergeben sie an nachgelagerte Pipelines (Such-Index, LLM-Training, KI-Antwort-Pipelines).

Welche Crawler sind 2026 wichtig?

Mindestens sechs KI-spezifische plus Googlebot: Googlebot (klassische Suche), GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google KI), Applebot-Extended (Apple Intelligence), CCBot (Common Crawl, Trainings-Quelle für viele LLMs).

Wie unterscheidet sich Crawling von Indexierung?

Crawling bezeichnet das Abrufen der Inhalte. Indexierung ist der nachgelagerte Prozess der Speicherung in einer Such-Datenbank für spätere Abfragen. Eine Site kann gecrawlt werden, ohne indexiert zu werden — etwa wenn das Crawlen auf 'noindex'-Direktive stösst.

Wie viel Bot-Traffic ist normal?

30-45% des gesamten Traffic-Volumens auf typischen Schweizer KMU-Sites 2026 — gestiegen von 20-25% (2018) durch zusätzliche KI-Crawler. Googlebot dominiert mit 35-45% des Bot-Traffics; GPTBot ist 2026 oft zweitgrösster Bot mit 5-10%.

Wie optimiere ich für effizientes Crawling?

Fünf Hebel: erstens robots.txt mit expliziten Crawler-Allows. Zweitens aktuelle Sitemap.xml mit lastmod-Timestamps. Drittens Server-Side-Rendering für JS-lastige Seiten. Viertens schnelle Server-Antwortzeiten (< 500ms). Fünftens konsistentes internes Linking, damit Crawler neue Inhalte finden.

Was passiert, wenn Crawler meine Site nicht erreichen können?

Drei Effekte: erstens kein Eintrag in den jeweiligen Indizes (Google-Suche, ChatGPT-Search-Index, Perplexity-Index). Zweitens keine LLM-Trainings-Repräsentation. Drittens praktisch null <a href="/glossar/ai-sichtbarkeit">KI-Sichtbarkeit</a>. Crawler-Erlaubnis und -Effizienz sind Foundation jeder GEO-Strategie.