Named Entity Recognition (NER)

1. Kurzdefinition

Named Entity Recognition (NER) ist die NLP-Aufgabe, in einem Text automatisch Entitäts-Erwähnungen zu identifizieren und zu klassifizieren — typisch Personen, Organisationen, Orte, Daten und Geld-Beträge. NER ist der vorgelagerte Schritt vor Entity-Disambiguierung und damit Voraussetzung für jede strukturelle Wissens-Extraktion aus Web-Inhalten.

2. Ausführliche Erklärung

Named Entity Recognition, kurz NER, ist eine der ältesten und wichtigsten NLP-Aufgaben. Seit den frühen 1990er-Jahren beschäftigt sich die Forschung damit, in Fliesstext automatisch zu erkennen, welche Wort-Folgen Eigennamen sind und welcher Kategorie sie angehören. Standard-Klassen sind PERSON (Personen-Namen), ORG (Organisationen), LOC (Orte), DATE (Daten), MONEY (Geld-Beträge), PRODUCT (Produkt-Namen) und EVENT (Veranstaltungen). Moderne NER-Modelle erreichen 2026 in etablierten Sprachen wie Englisch und Deutsch Genauigkeit über 95 Prozent für Standard-Klassen.

NER ist der vorgelagerte Schritt vor Entity-Disambiguierung. NER beantwortet die Frage 'ist diese Wort-Folge eine Entität und welcher Kategorie?', Disambiguierung beantwortet die Frage 'welche spezifische Entität ist gemeint?'. Beide Schritte zusammen ermöglichen erst echte semantische Verarbeitung: ein System, das im Satz 'Marco Biner gründete geoquality.ai 2024 in Zürich' erkennt, dass 'Marco Biner' eine PERSON ist, 'geoquality.ai' eine ORG, '2024' ein DATE und 'Zürich' ein LOC, und diese Entitäten dann eindeutig im Wissensgraphen verlinkt, baut strukturierte Wissens-Repräsentationen aus unstrukturiertem Text auf.

Drei NER-Architekturen dominieren 2026. Klassische Statistik-Modelle wie CRF (Conditional Random Fields) sind schnell und billig, aber weniger genau — sinnvoll für High-Volume-Pipelines mit eingeschränktem Compute-Budget. BERT-basierte Modelle wie spaCy v3 oder Hugging-Face-Transformer-Pipelines sind 2026 der Standard für Production-NER mit guter Genauigkeit-Geschwindigkeit-Balance. LLM-basierte NER via GPT-4, Claude oder Gemini liefern höchste Genauigkeit und können auch obskure Entitäts-Kategorien erkennen, sind aber teurer und langsamer.

Für GEO ist NER der unsichtbare Mechanismus, mit dem Such-Engines und LLMs Brand-Mentions auf der Welt-Web erfassen. Ein Brand-Name, der in 1'200 verschiedenen Web-Texten korrekt als ORG erkannt und mit der eigenen Site verlinkt wird, baut starke Brand-Awareness-Repräsentation in Knowledge Graphs auf. Wichtig: NER funktioniert besser, wenn die Brand selbst Brand-NER-freundlich formuliert ist — eindeutiger Name (nicht 'beste Beratung GmbH'), konsistente Schreibweise, klare Schema.org-Markierung als Organization.

Wichtig zur Abgrenzung: NER ist nicht IE (Information Extraction) im weiteren Sinne. NER beschränkt sich auf das Erkennen und Klassifizieren benannter Entitäten. IE umfasst zusätzlich Relations-Extraktion ('wer-machte-was-mit-wem'), Event-Extraktion und Coreference-Resolution. Alle drei Schritte zusammen ermöglichen vollständige Wissens-Graphen-Konstruktion aus Web-Inhalten — ein Forschungsfeld, das 2026 weiterhin aktiv ist.

3. Praxisbeispiel

NER-Output am Beispiel eines deutschen Treuhand-Texts:

Eingabe-Text:
  'Marco Biner gründete geoquality.ai 2024 in Zürich. 
   Die Firma berät Schweizer KMU für 1200 CHF pro Stunde.'

spaCy-NER-Output (de_core_news_lg):
  Marco Biner       PER   (Person)
  geoquality.ai     ORG   (Organisation)
  2024              DATE  (Datum)
  Zürich            LOC   (Ort)
  Schweizer         MISC  (Misc-Klasse)
  KMU               ORG
  1200 CHF          MONEY (Geld-Betrag)

# In Python:
import spacy
nlp = spacy.load('de_core_news_lg')
doc = nlp(text)
for ent in doc.ents:
    print(f'{ent.text:20} {ent.label_}')

Diese Entitäten werden dann typisch in eine Disambiguierungs-Pipeline geschoben, die jede Entität mit einer Wikidata-QID oder einer eigenen Knowledge-Graph-ID verknüpft.

4. Typische Fehler & Missverständnisse

×Annehmen, dass NER alle Entitäten in einem Text findet — Long-Tail-Entitäten und domain-spezifische Begriffe werden oft verfehlt.
×NER und Entity-Disambiguierung verwechseln — NER erkennt nur, dass etwas eine Entität ist; Disambiguierung ordnet sie einer spezifischen Identität zu.
×Brand-Namen wählen, die NER-feindlich sind — generische Namen wie 'Beste Beratung GmbH' werden oft als Adjektiv-Phrasen statt Organisationen klassifiziert.
×NER-Modelle ohne Domain-Anpassung in spezialisierten Bereichen einsetzen — medizinische, juristische oder Schweizer Branchen-Entitäten brauchen oft Custom-Trainings.

5. Best Practices

✓Verwende eindeutige, NER-freundliche Brand-Namen — kurze Eigennamen ohne generische Adjektive werden zuverlässig als ORG klassifiziert.
✓Pflege Schema.org-Organization-Schema mit klarem name-Feld als zusätzlichen NER-Hinweis für Crawler.
✓Bei Custom-NER-Pipelines: spaCy v3 oder Hugging-Face-Transformer als Standard-Werkzeug, mit BERT-Modellen für höchste Genauigkeit.
✓Validiere NER-Output mit Spot-Checks gegen ein definiertes Test-Set — automatische Modelle haben Schwächen bei seltenen Entitäten.
✓Bei mehrsprachigen Sites: nutze sprachspezifische NER-Modelle (de_core_news_lg für Deutsch, en_core_web_lg für Englisch) statt generischer Multilingual-Modelle.

6. Fakten

Named Entity Recognition wurde 1995 in der MUC-6-Konferenz (Message Understanding Conference) als formale NLP-Aufgabe eingeführt; Standard-Klassen wurden dort definiert.
Moderne BERT-basierte NER-Modelle erreichen 2026 in Englisch und Deutsch Genauigkeit über 95 Prozent für Standard-Klassen wie PERSON, ORG, LOC.
spaCy ist die meistgenutzte Open-Source-NLP-Bibliothek für NER in Production-Pipelines — Standard-Werkzeug in 60-70% der DACH-Unternehmen mit eigener NLP-Pipeline.
LLM-basierte NER via GPT-4 oder Claude ist 2-5x teurer als spaCy, aber 5-15 Prozentpunkte genauer bei seltenen oder mehrdeutigen Entitäten.
Im DACH-Raum sind NER-Genauigkeiten für Schweizer-spezifische Entitäten (Zefix-Firmen, Schweizer Ortschaften) etwa 3-5 Prozentpunkte niedriger als für internationale Entitäten — Folge unterrepräsentierter Trainingsdaten.
Die Kombination aus NER + Entity-Disambiguierung + Knowledge-Graph-Konstruktion ist 2026 die Standard-Pipeline für die Datengenerierung von Knowledge Panels und LLM-Trainingsdaten.

Definition von Marco Biner · Certified GEO Expert

Marco Biner — Founder geoquality.ai, Certified GEO Expert

NER ist die unsichtbare Voraussetzung für jede semantische Verarbeitung im Web. Bei meinen Klienten thematisiere ich NER selten direkt — es ist ein technischer Mechanismus auf Crawler-Ebene. Aber die Konsequenzen für die Brand-Strategie sind praktisch: ein eindeutiger, NER-freundlicher Name ist ein struktureller Wettbewerbsvorteil. 'Mueller Treuhand' wird zuverlässig als ORG erkannt; 'Beste Steuer-Lösung GmbH' wird halb als Adjektiv-Phrase klassifiziert. Bei Brand-Naming-Beratungen empfehle ich daher immer: kurz, eindeutig, mit Eigennamen-Charakter. Das macht die Brand für Maschinen lesbar — und damit zitierbar.

GEO Importance Rank

Wie wichtig ist dieser Begriff für Generative Engine Optimization?

52 /100

Wichtig Range 50–69

FAQs

Wie funktioniert NER technisch?

Klassische NER nutzt CRF-Modelle (Conditional Random Fields) mit handgefertigten Features. Moderne NER nutzt BERT-basierte Transformer, die kontextuelle Embeddings produzieren und damit auch unbekannte Entitäten klassifizieren können. LLM-basierte NER via GPT-4 oder Claude ist die genaueste, aber teuerste Variante.

Was sind die Standard-NER-Kategorien?

Die Standard-Klassen seit MUC-6 (1995) sind: PERSON (Personen-Namen), ORG (Organisationen), LOC (Orte), DATE (Daten), MONEY (Geld-Beträge). Erweiterte Sets enthalten zusätzlich PRODUCT (Produkt-Namen), EVENT (Veranstaltungen), WORK_OF_ART, LAW, NORP (Nationalitäten/Religiöse-Gruppen).

Welche NER-Tools sind in DACH-Production üblich?

spaCy v3 mit den deutschen Modellen (de_core_news_lg, de_core_news_sm) ist die häufigste Wahl. Hugging-Face-Transformer-Pipelines mit BERT- oder XLM-RoBERTa-Modellen sind ebenfalls verbreitet. Stanford NER ist eine Legacy-Option. LLM-basierte NER via API ist im Aufstieg, aber teurer.

Wirkt sich NER-Genauigkeit auf GEO aus?

Indirekt ja. Brand-Mentions, die von NER-Pipelines korrekt als ORG klassifiziert werden, fliessen in Knowledge-Graph-Konstruktion ein. Brand-Namen, die NER-Pipelines verfehlen, bauen schwächere Brand-Awareness in den Trainingsdaten künftiger LLMs auf. Eindeutige, NER-freundliche Brand-Namen haben strukturellen Vorteil.

Was sind NER-feindliche Brand-Namen?

Generische Namen mit Adjektiv-Phrasen-Charakter wie 'Beste Beratung GmbH', 'Schnelle Lösungen', 'Erste Wahl Service'. Diese werden von NER-Modellen oft nicht als ORG, sondern als beschreibende Phrase klassifiziert. NER-freundlich sind kurze, eindeutige Eigennamen ohne generische Bestandteile — etwa 'Mueller Treuhand' oder 'Helvetia AG'.

Brauche ich für SchweiZer NER eigene Modelle?

Für allgemeine Texte reichen Standard-Modelle wie de_core_news_lg. Für Schweizer-spezifische Entitäten (Zefix-Firmen-Eigenheiten, Schweizer Ortsnamen, schweizerdeutsche Eigennamen) sind Custom-Trainings mit Schweizer Korpora hilfreich. Im DACH-KMU-Markt selten nötig, in spezialisierten Anwendungen wie juristischer NLP relevant.