Definition von Daten-Profiling
Daten-Profiling ist der Prozess der Untersuchung eines Datensatzes, um seine Struktur, seinen Inhalt und seine Qualität zu verstehen, bevor er verwendet oder verschoben wird. Anstatt Daten zu korrigieren, liefert Profiling eine Diagnose: wie vollständig jedes Feld ist, welche Werte vorkommen und wie häufig, wo Formate inkonsistent sind, und wo Duplikate oder Anomalien existieren.
Was analysiert Profiling?
Typische Profiling-Kontrollen umfassen Vollständigkeit (welcher Prozentsatz von Datensätzen einen Wert in jedem Feld hat), Wertverteilung (der Bereich und die Häufigkeit von Werten, wodurch Ausreißer wie ein Produktpreis von -40 sichtbar werden), Formatkonsistenz (Daten, die als sowohl 01.02.2025 als auch 2025-02-01 gespeichert sind), Eindeutigkeit (Felder, die eindeutig sein sollten, wie SKUs, es aber nicht sind), und Beziehungen (ob Verweise zwischen Datensätzen tatsächlich auflösbar sind).
Warum ist es wichtig?
Profiling ist der wesentliche erste Schritt vor Datenmigration, Systemintegration oder jeder Datenqualitätsinitiative. Migrationsprojekte schlagen meistens fehl, weil Probleme mit Quelldaten erst während des Projekts entdeckt werden; Profiling bringt sie von vornherein ans Licht, wenn die Behebung am kostengünstigsten ist. In MDM-Plattformen arbeiten Profiling- und Qualitätswerkzeuge zusammen, um Daten zu analysieren, zu bereinigen und zu standardisieren und so Raterei in einen definierten Bereinigungsplan umzuwandeln.
Wie unterscheidet es sich von Datenvalidierung?
Datenvalidierung erzwingt Regeln für Daten, wenn diese in ein System eintreten oder sich durch dieses bewegen, und lehnt Datensätze ab, die fehlschlagen. Profiling ist explorerativ: es untersucht Daten, die bereits vorhanden sind, um ihren tatsächlichen Zustand zu offenbaren. Profiling-Ergebnisse werden häufig verwendet, um die Validierungsregeln zu definieren, die verhindern, dass die gleichen Probleme erneut auftreten.