Was ist Datenqualität

Definition von Datenqualität

Datenqualität ist ein Maß dafür, wie gut Daten für ihren Verwendungszweck geeignet sind. Daten gelten als hochwertig, wenn sie präzise, vollständig, systemübergreifend konsistent und aktuell sind. Wenn sie in einer dieser Dimensionen Schwächen aufweisen, werden die auf ihnen basierenden Entscheidungen und Prozesse weniger zuverlässig.

Was führt zu schlechter Datenqualität?

Die Probleme entstehen typischerweise aus den gleichen Quellen: manuell und inkonsistent erfasste Daten, Systeme ohne gemeinsames Datenformat, niemals aktualisierte Datensätze nach der Ersterfassung oder Zusammenführungen von Datensätzen, die Duplikate nicht berücksichtigen. Eine Kundendatenbank, in der die gleiche Person unter leicht unterschiedlichen Namen dreimal vorkommt, oder ein Produktkatalog, bei dem die Hälfte der Einträge kein Gewichtsfeld hat, sind beide Datenqualitätsprobleme – selbst wenn die zugrunde liegenden Informationen technisch korrekt sind.

Warum ist das wichtig?

Schlechte Datenqualität offenbart sich oft erst, wenn sie zu Problemen führt. Ein Marketing-Team sendet eine Kampagne an inaktive Kunden, die tatsächlich letzte Woche gekauft haben. Ein Finanzbericht zählt Umsatz doppelt, weil zwei Systeme dieselbe Transaktion unterschiedlich erfasst haben. Ein Logistikunternehmen liefert an eine veraltete Adresse. In jedem Fall liegt das Kernproblem in Daten, die nicht präzise, vollständig oder konsistent genug sind, um ihnen zu vertrauen.

Je weiter fehlerhafte Daten durch eine Organisation wandern, bevor jemand sie entdeckt, desto teurer wird die Behebung.

Wie wird Datenqualität aufrechterhalten?

Es ist grundsätzlich einfacher, Qualitätsprobleme bereits bei der Dateneingabe zu verhindern, als sie später zu beheben. Das bedeutet Validierungsregeln in Formularen und APIs, klare Datenverantwortung, damit jemand für die Aktualität der Datensätze zuständig ist, sowie automatisierte Prüfungen, die Anomalien kennzeichnen, wenn Daten durch Daten-Pipelines fließen.

Data Lineage unterstützt die Qualitätsarbeit, indem es möglich wird, den Ursprung eines Problems nachzuverfolgen, statt eine fehlerhafte Kennzahl in einem Bericht zu entdecken und keine Möglichkeit zu haben, ihre Quelle zu finden. Master Data Management (MDM) adressiert eines der häufigsten Qualitätsprobleme gezielt: mehrere widersprüchliche Versionen desselben Datensatzes in verschiedenen Systemen. Durch die Etablierung einer einzigen autorisierten Version eliminiert MDM eine ganze Kategorie von Inkonsistenzen, die sonst datensatz für datensatz verwaltet werden müssten.

Wer ist dafür verantwortlich?

Datenqualität wird selten von einem einzelnen Team verantwortet. Datentechnik-Teams bauen die Prüfungen und Pipelines, die Probleme frühzeitig erkennen. Business-Teams sind oft den Daten am nächsten und am besten positioniert, um zu erkennen, wenn etwas nicht stimmt. In Organisationen, die das ernst nehmen, setzt eine Data-Governance-Funktion die Standards und koordiniert über beide Bereiche hinweg.