Was ist Datenqualität

Definition von Datenqualität

Datenqualität misst, inwieweit Daten für ihren Verwendungszweck geeignet sind. Daten gelten als hochwertig, wenn sie präzise, vollständig, systemübergreifend konsistent und aktuell sind. Sobald sie in einer dieser Dimensionen Mängel aufweisen, werden die darauf basierenden Entscheidungen und Prozesse weniger zuverlässig.

Was führt zu niedriger Datenqualität?

Die Probleme entstehen meist aus den gleichen Quellen: manuell und inkonsistent eingegebene Daten, Systeme, die kein gemeinsames Format verwenden, Datensätze, die nach der Ersterfassung nie aktualisiert werden, oder Zusammenführungen von Datensätzen ohne Berücksichtigung von Duplikaten. Eine Kundendatenbank, in der dieselbe Person unter leicht unterschiedlichen Namen dreimal vorkommt, oder ein Produktkatalog, bei dem die Hälfte der Einträge ein Gewichtsfeld vermisst, sind beide Datenqualitätsprobleme – selbst wenn die zugrunde liegenden Informationen technisch korrekt sind.

Warum ist es wichtig?

Schlechte Datenqualität offenbart sich meist erst, wenn etwas schiefgeht. Ein Marketing-Team verschickt eine Kampagne an inaktive Kunden, die eigentlich letzte Woche gekauft haben. Ein Finanzbericht zählt Umsatz doppelt, weil zwei Systeme dieselbe Transaktion unterschiedlich erfasst haben. Ein Logistikunternehmen versendet an eine veraltete Adresse. In jedem Fall liegt das eigentliche Problem bei Daten, die nicht präzise, vollständig oder konsistent genug waren, um darauf zu vertrauen.

Je weiter schlechte Daten durch eine Organisation reisen, bevor jemand sie entdeckt, desto teurer wird es, sie zu korrigieren.

Wie wird Datenqualität aufrechterhalten?

Es ist in der Regel einfacher, Qualitätsprobleme an der Eingangsstelle zu vermeiden, als sie später zu bereinigen. Das bedeutet Validierungsregeln für Formulare und APIs, klare Dateneigentümerschaft, sodass jemand die Aktualität von Datensätzen sicherstellt, und automatisierte Überprüfungen, die Anomalien kennzeichnen, während Daten durch Datenpipelines fließen.

Data Lineage unterstützt die Qualitätssicherung, indem es möglich wird, den Ursprung eines Problems zu verfolgen, statt eine fehlerhafte Zahl in einem Bericht zu entdecken, ohne ihre Quelle zu finden. Master Data Management (MDM) adressiert ein besonders häufiges Qualitätsproblem: mehrere widersprüchliche Versionen desselben Datensatzes in verschiedenen Systemen. Durch die Etablierung einer einzigen autoritativen Version beseitigt MDM eine ganze Kategorie von Inkonsistenzen, die sonst Datensatz für Datensatz verwaltet werden müssten.

Wer trägt die Verantwortung?

Datenqualität wird selten von einem einzelnen Team verantwortet. Data Engineers erstellen die Überprüfungen und Pipelines, die Probleme frühzeitig erkennen. Business Teams sind oft den Daten am nächsten und am besten in der Position, um zu erkennen, wenn etwas nicht stimmt. In Organisationen, die Datenqualität ernst nehmen, legt eine Data-Governance-Funktion die Standards fest und koordiniert zwischen beiden.