---
title: Indexierung
slug: indexierung
canonical_url: https://www.geoquality.ai/glossar/indexierung
md_url: https://www.geoquality.ai/glossar/indexierung.md
language: de
last_modified: 2026-05-07T00:00:00+00:00
related_terms: [answer-capsule, canonical-tag, crawling, rag, robots-txt, schema-org, sitemap-xml]
content_hash: ec083c2ed1b9f246
license: CC BY 4.0
author: Marco Biner (geoquality.ai)
schema_type: DefinedTerm
---

# Indexierung

Indexierung bezeichnet die Speicherung gecrawlter Web-Inhalte in einer durchsuchbaren Datenbank — bei Google im Search Index, bei KI-Plattformen in plattform-spezifischen Indizes (ChatGPT-Search-Index, Perplexity-Index). Indexierung ist der nachgelagerte Schritt nach Crawling und Voraussetzung dafür, dass eine Site überhaupt in Suchergebnissen oder KI-Antworten erscheint.

## Erläuterung

Indexierung ist der nachgelagerte Prozess nach Crawling . Während Crawler Inhalte abrufen und parsen, sortiert und speichert die Indexierung diese Inhalte in einer durchsuchbaren Datenbank. Bei Google ist das der Google Search Index — eine Petabyte-grosse Datenbank, die Millionen Web-Seiten mit Stichwörtern, Strukturdaten und Ranking-Signalen verknüpft. Bei KI-Plattformen sind es spezialisierte Indizes: ChatGPT-Search nutzt einen Bing-basierten Index, Perplexity einen proprietären Index, Google AI Mode nutzt Googles eigenen Index angereichert mit Embeddings. Drei Indexierungs-Stati sind möglich. Erstens indexiert : die Site ist in der Datenbank gespeichert und erscheint in Suchergebnissen oder KI-Citations. Zweitens nicht indexiert : die Site wurde gecrawlt, aber nicht in den Index aufgenommen — typische Gründe sind Duplicate Content, Thin Content, oder explizite noindex -Direktiven. Drittens deindexiert : die Site war indexiert, wurde aber wieder entfernt — meist nach Quality-Verstössen, manueller Handlung oder Site-Migration ohne Redirects. Für GEO ist Indexierungs-Status fundamental, weil ohne Index keine Sichtbarkeit. Sites müssen drei Indexierungs-Pflichten erfüllen: Erstens Sitemap.xml -Pflege mit allen relevanten URLs und korrekten lastmod-Timestamps. Zweitens internes Linking , damit Crawler alle Seiten finden — Waisenseiten ohne eingehende Links werden oft nicht indexiert. Drittens Indexability-Signale via Schema.org-Markup, Canonical-Tags und klare URL-Strukturen, die Suchmaschinen die Indexierung erleichtern. Im KI-Zeitalter 2026 hat sich Indexierungs-Granularität fundamental erweitert. Klassische Suchmaschinen indexieren ganze Seiten als Einheiten. KI-Plattformen indexieren Chunks — typisch 200-800 Tokens grosse Inhaltsblöcke, die im Embedding-Vektorraum gespeichert werden. Diese Chunk-Indexierung erlaubt feingranulare RAG -Retrieval — wenn ein User in ChatGPT eine Frage stellt, sucht das System nach den semantisch ähnlichsten Chunks, nicht nach ganzen Seiten. Konsequenz: GEO-Optimierung muss auf Chunk-Ebene denken — saubere Answer Capsules von 40-80 Wörtern werden zu idealen Indexierungs-Einheiten. Wichtig zur Abgrenzung: Indexierung ist nicht Crawling, ist nicht Ranking. Crawling ist das Abrufen der Inhalte durch Bots. Indexierung ist die Speicherung in der Such-Datenbank. Ranking ist die Anordnung der indexierten Treffer für eine spezifische Anfrage. Eine Site kann gecrawlt werden, ohne indexiert zu werden (zum Beispiel bei noindex-Direktive); eine indexierte Site kann ohne Ranking-Ergebnis bleiben (zum Beispiel bei zu schwacher Authority für die Anfrage).

## Praxisbeispiel

Indexierungs-Workflow für eine neue KMU-Site: # Tag 1: Site-Launch - robots.txt mit explizitem Crawler-Allow - Sitemap.xml mit allen URLs erstellt - Sitemap an Google Search Console submitted # Tag 1-7: Erster Crawl-Zyklus Googlebot crawlt die Site, GPTBot folgt 1-3 Tage später. Inhalte werden geparst, Strukturdaten extrahiert. # Tag 7-30: Initial-Indexierung Google nimmt typisch 5-15 URLs in den Index auf, andere bleiben in 'Crawled - currently not indexed'-Status. # Tag 30-90: Vollindexierung Bei sauberer Foundation (Schema.org, Sitemap, internes Linking) erreichen 70-90% aller URLs Index-Status. Restliche URLs benötigen Authority-Aufbau oder Content- Verbesserung. # Verifikation: - Google Search Console: 'Index Coverage'-Report - site:example.ch in Google: zeigt indexierte URLs - Manuelle Anfragen in ChatGPT mit URL-Verweis # Bei Indexierungs-Problemen: 1. URL-Inspection in Google Search Console nutzen 2. Robots.txt auf versehentliche Disallows prüfen 3. Canonical-Tags auf richtige URL-Variante setzen 4. Internes Linking verstärken Sites mit sauberer Foundation erreichen typisch 90% Indexierungs-Rate über 90 Tage. Probleme zeigen sich oft an URLs in 'Crawled - currently not indexed'-Status — Hinweis auf Authority- oder Content-Defizite.

## Häufige Fehler

- Sitemap.xml einmalig submitten ohne Pflege — Crawler vertrauen auf lastmod-Timestamps für Update-Erkennung.
- Indexierungs-Status nicht regelmässig prüfen — Sites können stillschweigend deindexiert werden ohne Benachrichtigung.
- Bei Indexierungs-Problemen sofort Content löschen oder verschieben — verstärkt das Problem statt es zu lösen.
- Annehmen, dass Crawling automatisch Indexierung bedeutet — etwa 25-35% gecrawlter URLs werden initial nicht indexiert (typischer Wert).

## Best Practices

- Pflege Sitemap.xml als zentrales Index-Steuerungs-Werkzeug mit aktuellen lastmod-Timestamps.
- Submit Sitemap aktiv an Google Search Console und Bing Webmaster Tools.
- Nutze URL-Inspection-Tools für problematische URLs — zeigt konkrete Indexierungs-Hindernisse.
- Pflege internes Linking dicht — Waisenseiten ohne eingehende Links werden oft nicht indexiert.
- Setze Canonical-Tags konsistent für Duplicate-Content-Vermeidung.
- Tracke Indexierungs-Rate monatlich — gesunder Wert ist 80-95% aller relevanten URLs.

## Fakten

- Der Google Search Index speichert 2026 schätzungsweise über 130 Billionen Web-Seiten — eine der grössten Datenbanken weltweit.
- Im DACH-Raum 2026 erreichen typische KMU-Sites etwa 80-90% Indexierungs-Rate ihrer relevanten URLs nach 90 Tagen.
- Etwa 25-35% aller gecrawlten URLs werden initial nicht indexiert — typisch wegen Thin Content, Duplicate Content oder schwacher Authority.
- KI-Plattformen wie ChatGPT-Search und Perplexity indexieren auf Chunk-Ebene (200-800 Tokens), nicht auf Seiten-Ebene wie klassische Suchmaschinen.
- Google Search Console zeigt drei Indexierungs-Stati: 'Submitted and indexed', 'Crawled - currently not indexed', 'Discovered - currently not indexed'.
- Schema.org-Strukturdaten erhöhen Indexierungs-Wahrscheinlichkeit um schätzungsweise 15-25% gegenüber unstrukturiertem HTML.

## FAQ

### Was ist der Unterschied zwischen Crawling und Indexierung?

Crawling ist das Abrufen der Inhalte durch Bots. Indexierung ist die nachgelagerte Speicherung in der Such-Datenbank. Eine Site kann gecrawlt werden, ohne indexiert zu werden — etwa bei noindex-Direktive, Thin Content oder schwacher Authority. Beide Prozesse zusammen bilden die Voraussetzung für Sichtbarkeit.

### Wie lange dauert die Indexierung einer neuen Site?

Erste URLs typisch in 5-15 Tagen, Vollindexierung (70-90% aller URLs) in 30-90 Tagen — abhängig von Site-Grösse, Authority und Foundation-Qualität. Schneller bei sauberer Sitemap, internem Linking und Schema.org-Pflege.

### Warum werden manche meiner Seiten nicht indexiert?

Vier häufige Gründe: erstens Thin Content (zu wenig Substanz). Zweitens Duplicate Content ohne Canonical-Tag. Drittens noindex-Direktive (manchmal versehentlich). Viertens zu schwache interne Verlinkung — Waisenseiten ohne eingehende Links werden oft nicht indexiert.

### Wie prüfe ich Indexierungs-Status?

Drei Methoden: erstens Google Search Console 'Index Coverage'-Report. Zweitens 'site:example.ch'-Suche in Google zeigt indexierte URLs. Drittens URL-Inspection-Tool für problematische URLs mit konkreten Indexierungs-Hindernissen.

### Wie unterscheidet sich Indexierung bei KI-Plattformen?

Klassische Suchmaschinen indexieren ganze Seiten. KI-Plattformen wie ChatGPT-Search und Perplexity indexieren Chunks (200-800 Tokens) im Embedding-Vektorraum. Diese Chunk-Indexierung erlaubt feingranulare RAG-Retrieval — Capsule-Format wird zur idealen Indexierungs-Einheit.

### Kann ich Indexierungs-Geschwindigkeit beeinflussen?

Ja, durch fünf Hebel: erstens aktiver Sitemap-Submit. Zweitens dichtes internes Linking. Drittens Schema.org-Markup für strukturelle Klarheit. Viertens schnelle Server-Antwortzeiten. Fünftens regelmässige Inhalts-Updates mit dateModified-Pflege — signalisiert Crawler-Aufmerksamkeit.

## Experten-Definition

Indexierung ist die unsichtbare Bedingung für jede Sichtbarkeit. Bei Klienten beginne ich nach jedem Site-Launch mit drei Wochen Indexierungs-Monitoring: Wie viele URLs sind im Google-Index? Wie viele in 'Crawled - currently not indexed'? Bei der Mehrheit der KMU-Klienten finden wir 20-30% nicht-indexierte URLs — typisch wegen Thin Content oder schwacher interner Verlinkung. Im KI-Zeitalter ist Indexierung zusätzlich auf Chunk-Ebene gedacht: saubere Answer Capsules werden zu idealen RAG-Retrieval-Einheiten. Wer nur klassische Site-Indexierung optimiert, verschenkt die KI-Sichtbarkeits-Schicht. Mein Standard-Setup deckt beides ab: Sitemap-Pflege plus Capsule-Format.

## Verwandte Begriffe

- [Answer Capsule](https://www.geoquality.ai/glossar/answer-capsule.md) — Eine Answer Capsule ist ein eigenständig zitierfaehiger Textblock auf einer Website, der eine konkrete Frage in 40 bis 80 Wörtern vollständig, präzise und ohne Kontextabhaengigkeit beantwortet — gebaut für Wort-für-Wort-Übernahme durch ChatGPT, Perplexity und Google AI Overviews.
- [Canonical Tag](https://www.geoquality.ai/glossar/canonical-tag.md) — Der Canonical Tag ist ein <link rel="canonical">-Element im HTML-Head, das die kanonische URL einer Seite definiert — verhindert Duplicate-Content-Probleme und konsolidiert Authority-Signale auf eine einzige Hauptversion.
- [Crawling](https://www.geoquality.ai/glossar/crawling.md) — Crawling bezeichnet den systematischen Prozess, mit dem Web-Crawler Inhalte einer Website abrufen, durchqueren und indexieren. Im KI-Zeitalter erweitert sich Crawling um spezialisierte KI-Crawler wie GPTBot, ClaudeBot, PerplexityBot und Google-Extended — neben dem klassischen Googlebot, der seit 1998 Web-Inhalte für Google-Suche sammelt.
- [RAG (Retrieval-Augmented Generation)](https://www.geoquality.ai/glossar/rag.md) — RAG ist eine LLM-Architektur, die Antworten nicht nur aus Trainingsdaten generiert, sondern zusätzlich Live-Quellen abruft und in den Antwort-Kontext einbettet. Sie ist 2026 der Standard für Antwortmaschinen wie ChatGPT mit Web-Browsing, Perplexity, Google AI Overviews und Claude mit Web-Search-Tool — und damit der zentrale Mechanismus, über den GEO-Optimierung wirksam wird.
- [robots.txt](https://www.geoquality.ai/glossar/robots-txt.md) — robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Crawlern Zugriffsregeln signalisiert — für GEO entscheidend, weil sie als erstes Hindernis darüber entscheidet, ob KI-Crawler die Site überhaupt indexieren dürfen.
- [Schema.org](https://www.geoquality.ai/glossar/schema-org.md) — Schema.org ist das von Google, Microsoft, Yahoo und Yandex gemeinsam entwickelte Vokabular zur strukturierten Beschreibung von Web-Inhalten — der De-facto-Standard für maschinenlesbare Auszeichnung und das technische Fundament jeder GEO-Strategie.
- [Sitemap.xml](https://www.geoquality.ai/glossar/sitemap-xml.md) — Sitemap.xml ist eine XML-Datei mit allen relevanten URLs einer Website, die Crawlern als systematisches URL-Inventar dient — Pflicht für jede Site mit mehr als 20 Pages und kritisch für die initiale Indexierung durch KI- und Suchmaschinen-Crawler.

## Quelle und Zitation

- HTML-Original: https://www.geoquality.ai/glossar/indexierung
- Lizenz: CC BY 4.0
- Zitiervorschlag: "Indexierung (geoquality.ai Glossar, Biner 2026)"