Was ist Datendeduplizierung?

Definition Datendeduplizierung

Datendeduplizierung ist der Prozess der Identifikation von Datensätzen, die sich auf dieselbe reale Entität beziehen (ein Kunde, Produkt, Lieferant oder Standort), und deren Konsolidierung in einem einzigen, genauen Datensatz.

Wie entstehen Duplikate überhaupt?

Duplikate sammeln sich im normalen Geschäftsbetrieb an: Ein Kunde gibt eine Bestellung über zwei verschiedene Kanäle auf und erhält zwei Konten, ein Lieferant wird von zwei Teams manuell mit leicht unterschiedlichen Schreibweisen erfasst, oder ein Produkt wird aus mehreren Quellen mit unterschiedlichen internen Kennungen importiert. Systeme, denen Validierungsregeln oder die Durchsetzung von eindeutigen Schlüsseln fehlen, sind besonders anfällig für Duplikate im Laufe der Zeit.

Wie funktioniert Deduplizierung?

Der Prozess umfasst typischerweise drei Schritte. Zunächst Matching: Vergleich von Datensätzen mit exakter oder unscharfer Logik (zum Beispiel die Erkenntnis, dass „Müller GmbH" und „Muller GmbH" wahrscheinlich dieselbe Entität sind). Zweitens Scoring: Bewertung von Kandidaten-Übereinstimmungen nach Konfidenz. Drittens Merging: Zusammenführung der gefundenen Datensätze in einen, wobei Survivorship Rules angewendet werden, um zu entscheiden, welcher Wert für jedes Feld behalten wird, wenn Datensätze sich widersprechen. Das Ergebnis fließt in einen Golden Record ein.

Was ist der Unterschied zwischen Deduplizierung und Datenbereinigung?

Deduplizierung zielt speziell auf doppelte Datensätze ab. Datenqualität und Datenbereinigung behandeln ein breiteres Spektrum von Problemen (fehlerhafte Werte, fehlende Felder, inkonsistente Formatierung) innerhalb einzelner Datensätze, unabhängig davon, ob Duplikate vorhanden sind. In der Praxis werden beide zusammen als Teil eines Master Data Management-Programms durchgeführt.