---
title: Crawling
slug: crawling
canonical_url: https://www.geoquality.ai/glossar/crawling
md_url: https://www.geoquality.ai/glossar/crawling.md
language: de
last_modified: 2026-05-07T00:00:00+00:00
related_terms: [claudebot, google-extended, gptbot, ki-crawler, perplexitybot, robots-txt, sitemap-xml]
content_hash: 0bcd17006483953a
license: CC BY 4.0
author: Marco Biner (geoquality.ai)
schema_type: DefinedTerm
---

# Crawling

Crawling bezeichnet den systematischen Prozess, mit dem Web-Crawler Inhalte einer Website abrufen, durchqueren und indexieren. Im KI-Zeitalter erweitert sich Crawling um spezialisierte KI-Crawler wie GPTBot, ClaudeBot, PerplexityBot und Google-Extended — neben dem klassischen Googlebot, der seit 1998 Web-Inhalte für Google-Suche sammelt.

## Erläuterung

Crawling ist der fundamentale Prozess, mit dem Suchmaschinen, KI-Plattformen und andere Web-Aggregatoren Inhalte aus dem offenen Web sammeln. Ein Crawler — auch Bot, Spider oder Web-Robot genannt — navigiert systematisch durch Hyperlinks, lädt HTML-Inhalte herunter, parst Strukturdaten und gibt die Daten an nachgelagerte Indexierungs-Pipelines weiter. Der erste Web-Crawler war 'World Wide Web Wanderer' von Matthew Gray (1993); Googlebot entstand 1998 mit der Google-Gründung und ist seither der dominante Web-Crawler weltweit. Im KI-Zeitalter 2026 hat sich die Crawler-Landschaft fundamental erweitert. Neben dem klassischen Googlebot operieren mehrere spezialisierte KI-Crawler: GPTBot (OpenAI seit 2023), ClaudeBot (Anthropic seit 2023), PerplexityBot (Perplexity seit 2023), Google-Extended (Googles KI-spezifischer Crawler seit September 2023), Applebot-Extended (Apple seit 2024), und CCBot (Common Crawl, generische Trainings-Quelle seit 2008). Jeder dieser Crawler hat spezifische Funktionen, User-Agents und Compliance-Verhalten. Für GEO ist Crawling-Verständnis fundamental. Sites müssen zwei Dinge sicherstellen: Erstens Crawler-Erlaubnis — die wichtigsten Bots in robots.txt explizit erlauben (oder zumindest nicht durch Wildcard-Disallow blockieren). Zweitens Crawl-Effizienz — Site-Architektur so gestalten, dass Crawler Inhalte effizient finden und parsen. Dazu gehören saubere Sitemap.xml -Pflege, internes Linking , schnelle Server-Antwortzeiten, und Server-Side-Rendering für JavaScript-lastige Seiten. Drei Crawl-Strategien dominieren 2026. Erstens Polite Crawling : Crawler respektieren robots.txt-Direktiven, halten Crawl-Delay-Limits ein und identifizieren sich klar im User-Agent. Standard für seriöse Anbieter wie Google, OpenAI, Anthropic, Perplexity. Zweitens Aggressive Crawling : Bots ohne robots.txt-Compliance und mit hohem Request-Volumen pro Minute — typisch bei Spam-Crawlern, Daten-Scrapern und einigen Marketing-Tools. Drittens AI-spezifisches Crawling : speziell auf Strukturdaten und Capsule-Inhalte optimiert — die neueste Generation seit 2023. KI-Crawler bevorzugen JSON-LD -Strukturdaten, llms.txt -Self-Statements und semantisch klar markierte Inhalte. Wichtig zur Abgrenzung: Crawling ist nicht Indexierung , ist nicht Rendering . Crawling bezeichnet das Abrufen der Inhalte. Indexierung ist der nachgelagerte Prozess der Speicherung in einer Such-Datenbank. Rendering ist die Browser-ähnliche Verarbeitung von HTML/CSS/JavaScript zur Berechnung des finalen Inhalts. Alle drei Prozesse zusammen bilden die Crawler-Pipeline; ein Site-Betreiber muss alle drei verstehen, um effektive GEO-Optimierung zu betreiben.

## Praxisbeispiel

Crawler-Lifecycle für eine typische DACH-KMU-Site 2026: # 1. Site-Discovery Crawler findet die Site über externen Link, Sitemap-Submit oder Domain-Registry-Daten. # 2. robots.txt-Check Crawler prüft https://example.ch/robots.txt: User-agent: GPTBot Allow: / Falls erlaubt -> weitermachen. Falls Disallow -> abbrechen. # 3. Sitemap.xml-Lesung Crawler liest https://example.ch/sitemap.xml und extrahiert URL-Liste mit lastmod-Timestamps. # 4. Inhalt-Crawling Crawler ruft jede URL ab, lädt HTML, parst: - Title, Meta-Description - JSON-LD-Strukturdaten - Inhalts-Hierarchie (h1, h2, h3) - Interne und externe Links - Bilder mit alt-Texten # 5. Rate-Limiting Crawler hält Crawl-Delay ein (typisch 1-5 Sekunden zwischen Requests) um Server nicht zu ueberlasten. # 6. Daten-Uebergabe an Index/Training Crawler sendet gesammelte Daten an: - Such-Index (Googlebot -> Google-Suche) - LLM-Trainings-Pipeline (CCBot, GPTBot) - KI-Antwort-Index (PerplexityBot) # 7. Re-Crawl-Frequenz Wichtige Sites: taeglich oder mehrfach pro Woche Standard-KMU-Sites: wöchentlich oder alle 2 Wochen Statische Sites: monatlich oder seltener Diese Lifecycle-Pflege ist die Foundation jeder GEO-Strategie. Ohne saubere Crawl-Erlaubnis und -Effizienz wirken keine anderen Optimierungs-Hebel.

## Häufige Fehler

- Crawler-Konfiguration einmalig setzen ohne Server-Log-Verifikation — robots.txt-Direktiven ohne Traffic-Prüfung sind unzuverlässig.
- Wildcard-Disallow ohne Crawler-spezifische Allows — typischer Bug, blockiert wichtige KI-Crawler unbeabsichtigt.
- JavaScript-only Sites ohne Server-Side-Rendering — Crawler interpretieren typisch nur statisches HTML, JS-only-Inhalte landen nicht im Index.
- Sitemap.xml veraltet halten — Crawler vertrauen auf lastmod-Timestamps für Update-Erkennung.
- Crawler-Delay zu aggressiv setzen — verlangsamt Index-Updates und kann Crawler-Frequenz reduzieren.

## Best Practices

- Pflege robots.txt mit expliziten Crawler-Allows für GPTBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot.
- Halte Sitemap.xml aktuell mit korrekten lastmod-Timestamps für jede URL.
- Nutze Server-Side-Rendering für JavaScript-lastige Seiten — Crawler-Coverage erhöht sich dramatisch.
- Pflege internes Linking konsistent — Crawler folgen Links und finden so neue Inhalte effizient.
- Stelle schnelle Server-Antwortzeiten sicher (< 500ms) — langsame Server reduzieren Crawl-Frequenz.
- Verifiziere Crawler-Aktivität in Server-Logs nach jeder robots.txt-Änderung.

## Fakten

- Der erste Web-Crawler war 'World Wide Web Wanderer' von Matthew Gray (1993); Googlebot entstand 1998 mit der Google-Gründung.
- 2026 operieren mindestens 6 grosse KI-spezifische Crawler im DACH-Raum: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended, CCBot.
- Auf typischen Schweizer KMU-Sites ist Bot-Traffic 2026 zwischen 30-45% des gesamten Traffic-Volumens — gestiegen von 20-25% (2018).
- Googlebot bleibt 2026 der dominante Web-Crawler mit etwa 35-45% des gesamten Bot-Traffics auf typischen DACH-Sites.
- GPTBot ist 2026 der zweitgrösste Bot-Traffic auf vielen DACH-KMU-Sites — gestiegen von 0% (vor August 2023) auf 5-10% des Bot-Traffics.
- Crawler-Compliance mit robots.txt ist 2026 bei seriösen Anbietern (Google, OpenAI, Anthropic, Perplexity) bei über 99% — Spam-Crawler ignorieren typisch robots.txt.

## FAQ

### Was ist Crawling?

Der systematische Prozess, mit dem Web-Crawler Inhalte einer Website abrufen, durchqueren und indexieren. Bots navigieren über Hyperlinks, laden HTML herunter, parsen Strukturdaten und übergeben sie an nachgelagerte Pipelines (Such-Index, LLM-Training, KI-Antwort-Pipelines).

### Welche Crawler sind 2026 wichtig?

Mindestens sechs KI-spezifische plus Googlebot: Googlebot (klassische Suche), GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google KI), Applebot-Extended (Apple Intelligence), CCBot (Common Crawl, Trainings-Quelle für viele LLMs).

### Wie unterscheidet sich Crawling von Indexierung?

Crawling bezeichnet das Abrufen der Inhalte. Indexierung ist der nachgelagerte Prozess der Speicherung in einer Such-Datenbank für spätere Abfragen. Eine Site kann gecrawlt werden, ohne indexiert zu werden — etwa wenn das Crawlen auf 'noindex'-Direktive stösst.

### Wie viel Bot-Traffic ist normal?

30-45% des gesamten Traffic-Volumens auf typischen Schweizer KMU-Sites 2026 — gestiegen von 20-25% (2018) durch zusätzliche KI-Crawler. Googlebot dominiert mit 35-45% des Bot-Traffics; GPTBot ist 2026 oft zweitgrösster Bot mit 5-10%.

### Wie optimiere ich für effizientes Crawling?

Fünf Hebel: erstens robots.txt mit expliziten Crawler-Allows. Zweitens aktuelle Sitemap.xml mit lastmod-Timestamps. Drittens Server-Side-Rendering für JS-lastige Seiten. Viertens schnelle Server-Antwortzeiten (< 500ms). Fünftens konsistentes internes Linking, damit Crawler neue Inhalte finden.

### Was passiert, wenn Crawler meine Site nicht erreichen können?

Drei Effekte: erstens kein Eintrag in den jeweiligen Indizes (Google-Suche, ChatGPT-Search-Index, Perplexity-Index). Zweitens keine LLM-Trainings-Repräsentation. Drittens praktisch null KI-Sichtbarkeit . Crawler-Erlaubnis und -Effizienz sind Foundation jeder GEO-Strategie.

## Experten-Definition

Crawling ist die unsichtbare Foundation jeder GEO-Strategie. Bei Klienten beginne ich jedes Audit mit zwei Crawler-Fragen: 'Welche Bots erlaubt eure robots.txt?' und 'Wie sieht euer Server-Log aus?'. In etwa 30% der Fälle fehlen wichtige KI-Crawler in der robots.txt-Konfiguration — der grösste verschenkte Hebel im DACH-KMU-Markt 2026. Mein Standard-Multi-Bot-Allow umfasst alle sechs grossen KI-Crawler plus Googlebot. Crawl-Effizienz ergänzt: saubere Sitemap.xml, Server-Side-Rendering, schnelle Antwortzeiten, internes Linking. Wer Crawling versteht, versteht GEO . Wer Crawler nicht erlaubt, verschenkt alle anderen Optimierungs-Hebel.

## Verwandte Begriffe

- [ClaudeBot (Anthropic Crawler)](https://www.geoquality.ai/glossar/claudebot.md) — ClaudeBot ist Anthropic's Web-Crawler, lanciert 2023. Er sammelt Web-Inhalte für Claude-Trainings-Korpus und Claude-API-basierte Anwendungen mit Web-Search-Tool. Sites müssen ClaudeBot in robots.txt explizit erlauben — analog zu GPTBot — um Sichtbarkeit in Claude- und Anthropic-API-Plattformen zu sichern.
- [Google-Extended (Crawler)](https://www.geoquality.ai/glossar/google-extended.md) — Google-Extended ist Googles dedizierter KI-Crawler, lanciert September 2023. Im Gegensatz zum klassischen Googlebot speist Google-Extended nicht die klassischen Trefferlisten, sondern ausschliesslich KI-Produkte: Google AI Mode, AI Overviews und Gemini-Trainings-Korpus. Strukturelle Crawler-Differenzierung erlaubt User-Kontrolle über klassische vs. KI-Indexierung.
- [GPTBot (OpenAI Crawler)](https://www.geoquality.ai/glossar/gptbot.md) — GPTBot ist OpenAI's Web-Crawler, lanciert August 2023. Er sammelt Web-Inhalte für ChatGPT-Search-Index, Trainings-Korpus-Updates und API-basierte Anwendungen. Sites müssen GPTBot in robots.txt explizit erlauben oder zumindest nicht blockieren — Default-Wildcard-Disallow blockiert GPTBot und schliesst die Site aus dem OpenAI-Ecosystem aus.
- [KI-Crawler](https://www.geoquality.ai/glossar/ki-crawler.md) — KI-Crawler sind automatisierte Bots der grossen LLM-Anbieter (GPTBot, ClaudeBot, PerplexityBot, Google-Extended), die Websites systematisch besuchen und ihre Inhalte für die Retrieval-Layer der KI-Antwortmaschinen indexieren.
- [PerplexityBot (Crawler)](https://www.geoquality.ai/glossar/perplexitybot.md) — PerplexityBot ist Perplexity's Web-Crawler, lanciert 2023. Er sammelt Web-Inhalte für den Perplexity-Index, der Quick Search, Pro Search und Deep Research speist. Sites müssen PerplexityBot in robots.txt explizit erlauben — analog zu GPTBot und ClaudeBot — um in Perplexity-Citations zu erscheinen.
- [robots.txt](https://www.geoquality.ai/glossar/robots-txt.md) — robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Crawlern Zugriffsregeln signalisiert — für GEO entscheidend, weil sie als erstes Hindernis darüber entscheidet, ob KI-Crawler die Site überhaupt indexieren dürfen.
- [Sitemap.xml](https://www.geoquality.ai/glossar/sitemap-xml.md) — Sitemap.xml ist eine XML-Datei mit allen relevanten URLs einer Website, die Crawlern als systematisches URL-Inventar dient — Pflicht für jede Site mit mehr als 20 Pages und kritisch für die initiale Indexierung durch KI- und Suchmaschinen-Crawler.

## Quelle und Zitation

- HTML-Original: https://www.geoquality.ai/glossar/crawling
- Lizenz: CC BY 4.0
- Zitiervorschlag: "Crawling (geoquality.ai Glossar, Biner 2026)"
