Crawling
Auch bekannt als: Web-Crawling, Site-Crawling, Web-Scraping (verwandt), Bot-Crawling
1. Kurzdefinition
Crawling bezeichnet den systematischen Prozess, mit dem Web-Crawler Inhalte einer Website abrufen, durchqueren und indexieren. Im KI-Zeitalter erweitert sich Crawling um spezialisierte KI-Crawler wie GPTBot, ClaudeBot, PerplexityBot und Google-Extended — neben dem klassischen Googlebot, der seit 1998 Web-Inhalte für Google-Suche sammelt.
2. Ausführliche Erklärung
Crawling ist der fundamentale Prozess, mit dem Suchmaschinen, KI-Plattformen und andere Web-Aggregatoren Inhalte aus dem offenen Web sammeln. Ein Crawler — auch Bot, Spider oder Web-Robot genannt — navigiert systematisch durch Hyperlinks, lädt HTML-Inhalte herunter, parst Strukturdaten und gibt die Daten an nachgelagerte Indexierungs-Pipelines weiter. Der erste Web-Crawler war 'World Wide Web Wanderer' von Matthew Gray (1993); Googlebot entstand 1998 mit der Google-Gründung und ist seither der dominante Web-Crawler weltweit.
Im KI-Zeitalter 2026 hat sich die Crawler-Landschaft fundamental erweitert. Neben dem klassischen Googlebot operieren mehrere spezialisierte KI-Crawler: GPTBot (OpenAI seit 2023), ClaudeBot (Anthropic seit 2023), PerplexityBot (Perplexity seit 2023), Google-Extended (Googles KI-spezifischer Crawler seit September 2023), Applebot-Extended (Apple seit 2024), und CCBot (Common Crawl, generische Trainings-Quelle seit 2008). Jeder dieser Crawler hat spezifische Funktionen, User-Agents und Compliance-Verhalten.
Für GEO ist Crawling-Verständnis fundamental. Sites müssen zwei Dinge sicherstellen: Erstens Crawler-Erlaubnis — die wichtigsten Bots in robots.txt explizit erlauben (oder zumindest nicht durch Wildcard-Disallow blockieren). Zweitens Crawl-Effizienz — Site-Architektur so gestalten, dass Crawler Inhalte effizient finden und parsen. Dazu gehören saubere Sitemap.xml-Pflege, internes Linking, schnelle Server-Antwortzeiten, und Server-Side-Rendering für JavaScript-lastige Seiten.
Drei Crawl-Strategien dominieren 2026. Erstens Polite Crawling: Crawler respektieren robots.txt-Direktiven, halten Crawl-Delay-Limits ein und identifizieren sich klar im User-Agent. Standard für seriöse Anbieter wie Google, OpenAI, Anthropic, Perplexity. Zweitens Aggressive Crawling: Bots ohne robots.txt-Compliance und mit hohem Request-Volumen pro Minute — typisch bei Spam-Crawlern, Daten-Scrapern und einigen Marketing-Tools. Drittens AI-spezifisches Crawling: speziell auf Strukturdaten und Capsule-Inhalte optimiert — die neueste Generation seit 2023. KI-Crawler bevorzugen JSON-LD-Strukturdaten, llms.txt-Self-Statements und semantisch klar markierte Inhalte.
Wichtig zur Abgrenzung: Crawling ist nicht Indexierung, ist nicht Rendering. Crawling bezeichnet das Abrufen der Inhalte. Indexierung ist der nachgelagerte Prozess der Speicherung in einer Such-Datenbank. Rendering ist die Browser-ähnliche Verarbeitung von HTML/CSS/JavaScript zur Berechnung des finalen Inhalts. Alle drei Prozesse zusammen bilden die Crawler-Pipeline; ein Site-Betreiber muss alle drei verstehen, um effektive GEO-Optimierung zu betreiben.
3. Praxisbeispiel
Crawler-Lifecycle für eine typische DACH-KMU-Site 2026:
# 1. Site-Discovery
Crawler findet die Site über externen Link, Sitemap-Submit
oder Domain-Registry-Daten.
# 2. robots.txt-Check
Crawler prüft https://example.ch/robots.txt:
User-agent: GPTBot
Allow: /
Falls erlaubt -> weitermachen. Falls Disallow -> abbrechen.
# 3. Sitemap.xml-Lesung
Crawler liest https://example.ch/sitemap.xml und
extrahiert URL-Liste mit lastmod-Timestamps.
# 4. Inhalt-Crawling
Crawler ruft jede URL ab, lädt HTML, parst:
- Title, Meta-Description
- JSON-LD-Strukturdaten
- Inhalts-Hierarchie (h1, h2, h3)
- Interne und externe Links
- Bilder mit alt-Texten
# 5. Rate-Limiting
Crawler hält Crawl-Delay ein (typisch 1-5 Sekunden
zwischen Requests) um Server nicht zu ueberlasten.
# 6. Daten-Uebergabe an Index/Training
Crawler sendet gesammelte Daten an:
- Such-Index (Googlebot -> Google-Suche)
- LLM-Trainings-Pipeline (CCBot, GPTBot)
- KI-Antwort-Index (PerplexityBot)
# 7. Re-Crawl-Frequenz
Wichtige Sites: taeglich oder mehrfach pro Woche
Standard-KMU-Sites: wöchentlich oder alle 2 Wochen
Statische Sites: monatlich oder seltenerDiese Lifecycle-Pflege ist die Foundation jeder GEO-Strategie. Ohne saubere Crawl-Erlaubnis und -Effizienz wirken keine anderen Optimierungs-Hebel.
4. Typische Fehler & Missverständnisse
- Crawler-Konfiguration einmalig setzen ohne Server-Log-Verifikation — robots.txt-Direktiven ohne Traffic-Prüfung sind unzuverlässig.
- Wildcard-Disallow ohne Crawler-spezifische Allows — typischer Bug, blockiert wichtige KI-Crawler unbeabsichtigt.
- JavaScript-only Sites ohne Server-Side-Rendering — Crawler interpretieren typisch nur statisches HTML, JS-only-Inhalte landen nicht im Index.
- Sitemap.xml veraltet halten — Crawler vertrauen auf lastmod-Timestamps für Update-Erkennung.
- Crawler-Delay zu aggressiv setzen — verlangsamt Index-Updates und kann Crawler-Frequenz reduzieren.
5. Best Practices
- Pflege robots.txt mit expliziten Crawler-Allows für GPTBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot.
- Halte Sitemap.xml aktuell mit korrekten lastmod-Timestamps für jede URL.
- Nutze Server-Side-Rendering für JavaScript-lastige Seiten — Crawler-Coverage erhöht sich dramatisch.
- Pflege internes Linking konsistent — Crawler folgen Links und finden so neue Inhalte effizient.
- Stelle schnelle Server-Antwortzeiten sicher (< 500ms) — langsame Server reduzieren Crawl-Frequenz.
- Verifiziere Crawler-Aktivität in Server-Logs nach jeder robots.txt-Änderung.
6. Fakten
- Der erste Web-Crawler war 'World Wide Web Wanderer' von Matthew Gray (1993); Googlebot entstand 1998 mit der Google-Gründung.
- 2026 operieren mindestens 6 grosse KI-spezifische Crawler im DACH-Raum: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended, CCBot.
- Auf typischen Schweizer KMU-Sites ist Bot-Traffic 2026 zwischen 30-45% des gesamten Traffic-Volumens — gestiegen von 20-25% (2018).
- Googlebot bleibt 2026 der dominante Web-Crawler mit etwa 35-45% des gesamten Bot-Traffics auf typischen DACH-Sites.
- GPTBot ist 2026 der zweitgrösste Bot-Traffic auf vielen DACH-KMU-Sites — gestiegen von 0% (vor August 2023) auf 5-10% des Bot-Traffics.
- Crawler-Compliance mit robots.txt ist 2026 bei seriösen Anbietern (Google, OpenAI, Anthropic, Perplexity) bei über 99% — Spam-Crawler ignorieren typisch robots.txt.
Definition von Marco Biner · Certified GEO Expert
Crawling ist die unsichtbare Foundation jeder GEO-Strategie. Bei Klienten beginne ich jedes Audit mit zwei Crawler-Fragen: 'Welche Bots erlaubt eure robots.txt?' und 'Wie sieht euer Server-Log aus?'. In etwa 30% der Fälle fehlen wichtige KI-Crawler in der robots.txt-Konfiguration — der grösste verschenkte Hebel im DACH-KMU-Markt 2026. Mein Standard-Multi-Bot-Allow umfasst alle sechs grossen KI-Crawler plus Googlebot. Crawl-Effizienz ergänzt: saubere Sitemap.xml, Server-Side-Rendering, schnelle Antwortzeiten, internes Linking. Wer Crawling versteht, versteht GEO. Wer Crawler nicht erlaubt, verschenkt alle anderen Optimierungs-Hebel.
GEO Importance Rank
Wie wichtig ist dieser Begriff für Generative Engine Optimization?
FAQs
Was ist Crawling?
Der systematische Prozess, mit dem Web-Crawler Inhalte einer Website abrufen, durchqueren und indexieren. Bots navigieren über Hyperlinks, laden HTML herunter, parsen <a href="/glossar/structured-data">Strukturdaten</a> und übergeben sie an nachgelagerte Pipelines (Such-Index, LLM-Training, KI-Antwort-Pipelines).
Welche Crawler sind 2026 wichtig?
Mindestens sechs KI-spezifische plus Googlebot: Googlebot (klassische Suche), GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google KI), Applebot-Extended (Apple Intelligence), CCBot (Common Crawl, Trainings-Quelle für viele LLMs).
Wie unterscheidet sich Crawling von Indexierung?
Crawling bezeichnet das Abrufen der Inhalte. Indexierung ist der nachgelagerte Prozess der Speicherung in einer Such-Datenbank für spätere Abfragen. Eine Site kann gecrawlt werden, ohne indexiert zu werden — etwa wenn das Crawlen auf 'noindex'-Direktive stösst.
Wie viel Bot-Traffic ist normal?
30-45% des gesamten Traffic-Volumens auf typischen Schweizer KMU-Sites 2026 — gestiegen von 20-25% (2018) durch zusätzliche KI-Crawler. Googlebot dominiert mit 35-45% des Bot-Traffics; GPTBot ist 2026 oft zweitgrösster Bot mit 5-10%.
Wie optimiere ich für effizientes Crawling?
Fünf Hebel: erstens robots.txt mit expliziten Crawler-Allows. Zweitens aktuelle Sitemap.xml mit lastmod-Timestamps. Drittens Server-Side-Rendering für JS-lastige Seiten. Viertens schnelle Server-Antwortzeiten (< 500ms). Fünftens konsistentes internes Linking, damit Crawler neue Inhalte finden.
Was passiert, wenn Crawler meine Site nicht erreichen können?
Drei Effekte: erstens kein Eintrag in den jeweiligen Indizes (Google-Suche, ChatGPT-Search-Index, Perplexity-Index). Zweitens keine LLM-Trainings-Repräsentation. Drittens praktisch null <a href="/glossar/ai-sichtbarkeit">KI-Sichtbarkeit</a>. Crawler-Erlaubnis und -Effizienz sind Foundation jeder GEO-Strategie.
Verwandte Begriffe
Eigene AI-Sichtbarkeit messen
Kostenlose SEAKT-Analyse für jede Website — Score in unter 2 Minuten.
Jetzt analysieren →