Data Lineage Definition
Data Lineage ist eine Dokumentation darüber, woher Daten stammen, wie sie transformiert wurden und wo sie enden. Sie verfolgt den vollständigen Weg eines Datensatzes durch Systeme und Prozesse, sodass jeder, der eine Zahl in einem Bericht sieht, diese zurückverfolgen und genau nachvollziehen kann, wie sie zustande gekommen ist.
Wie sieht das in der Praxis aus?
Angenommen, eine Umsatzzahl erscheint in einem Executive Dashboard. Data Lineage zeigt dir: Diese Zahl stammt aus der Bestelltabelle der E-Commerce-Plattform, wurde mit Rückerstattungsdatensätzen aus dem Finanzsystem verknüpft, hatte Retouren in einem Transformationsschritt subtrahiert und wurde letzte Nacht um 2 Uhr in das Data Warehouse geladen. Wenn die Zahl falsch aussieht, zeigt dir die Lineage genau, wo du nachschauen musst.
Die meisten Lineage-Informationen werden erfasst und visuell dargestellt — als Graph, der die Kette von Quellen, Pipelines, Transformationen und Zielen mit Pfeilen verbundenen zeigt.
Warum ist das wichtig?
Ohne Lineage bedeutet die Verfolgung eines Datenproblems, mehrere Teams zu fragen, woher ihre Zahlen stammen, und zu hoffen, dass jemand sich daran erinnert. Mit Lineage ist die Antwort dokumentiert und nachvollziehbar. Das ist besonders in folgenden Situationen wichtig:
- Fehlersuche — wenn ein Bericht ein unerwartetes Ergebnis zeigt, zeigt die Lineage den Schritt, an dem etwas schiefgelaufen ist
- Compliance — Regelungen wie die DSGVO erfordern, dass Organisationen wissen, wo sich personenbezogene Daten befinden und wie sie sich bewegen; Lineage macht dies nachvollziehbar
- Change Management — bevor eine Datenbankspalte oder einen Pipeline-Schritt änderst, zeigt Lineage, was sonst davon abhängt und was kaputt gehen könnte
Wer nutzt das und wo passt es hin?
Datentechnik-Spezialisten nutzen Lineage zum Debuggen von Data Pipelines und zur Bewertung der Auswirkungen von Änderungen, bevor sie diese durchführen. Compliance- und Legal-Teams nutzen es, um auf Audits zu reagieren, besonders wenn personenbezogene Daten betroffen sind. Analysten nutzen es, um zu überprüfen, dass die Zahlen, über die sie berichten, auf die erwartete Weise berechnet werden.
Sie spielt auch eine praktische Rolle bei Master Data Management (MDM). Wenn ein Golden Record durch das Zusammenführen von Daten aus mehreren Quellsystemen erstellt wird, dokumentiert Lineage, welche Quellen beigetragen haben und welche Regeln angewendet wurden. Falls ein zusammengeführter Record einen Fehler enthält, ermöglicht dir die Lineage, diesen bis zu seinem Ursprung zurückzuverfolgen, anstatt jedes nachgelagerte System manuell zu überprüfen.