Was ist Data Lineage

Data Lineage Definition

Data Lineage ist eine Dokumentation, woher Daten stammen, wie sie transformiert wurden und wo sie enden. Es verfolgt die vollständige Reise eines Datensatzes über Systeme und Prozesse hinweg, sodass jeder, der eine Zahl in einem Bericht sieht, rückwärts nachvollziehen kann, wie diese genau erzeugt wurde.

Wie sieht das in der Praxis aus?

Angenommen, eine Umsatzzahl erscheint in einem Executive Dashboard. Data Lineage zeigt dir: Diese Zahl stammt aus der Tabelle „orders" der E-Commerce-Plattform, wurde mit Rückerstattungseinträgen aus dem Finanzsystem zusammengeführt, hatte Retouren in einem Transformationsschritt abgezogen und wurde gestern Nacht um 2 Uhr in das Data Warehouse geladen. Wenn die Zahl fehlerhaft aussieht, zeigt dir die Lineage genau, wo du nachschauen musst.

Die meiste Lineage wird erfasst und visuell dargestellt – als Graph, der die Kette von Quellen, Pipelines, Transformationen und Zielen mit Pfeilen verbundenen zeigt.

Warum ist das wichtig?

Ohne Lineage bedeutet die Fehlersuche bei Datenproblemen, mehrere Teams zu fragen, woher ihre Zahlen stammen, und zu hoffen, dass sich jemand erinnert. Mit Lineage ist die Antwort dokumentiert und nachvollziehbar. Das ist besonders in einigen Situationen relevant:

  • Debugging — wenn ein Bericht ein unerwartetes Ergebnis zeigt, zeigt die Lineage den Schritt, wo etwas schiefgelaufen ist
  • Compliance — Regelungen wie die DSGVO erfordern von Organisationen, zu wissen, wo persönliche Daten vorhanden sind und wie sie sich bewegen; Lineage macht das beantwortbar
  • Change Management — bevor eine Datenbankspalte oder einen Pipeline-Schritt änderst, zeigt dir die Lineage, was sonst noch davon abhängt und was beschädigt werden könnte

Wer nutzt es und wo passt es hin?

Data Engineers nutzen Lineage zum Debuggen von Datenpipelines und zur Bewertung der Auswirkungen von Änderungen, bevor sie diese durchführen. Compliance- und Legal-Teams nutzen es, um auf Audits zu reagieren, besonders wenn persönliche Daten betroffen sind. Analysten nutzen es, um zu überprüfen, dass die Zahlen, über die sie berichten, so berechnet werden, wie sie es erwarten.

Es spielt auch eine praktische Rolle im Master Data Management (MDM). Wenn ein Golden Record durch das Zusammenführen von Daten aus mehreren Quellsystemen erzeugt wird, dokumentiert die Lineage, welche Quellen beigetragen haben und welche Regeln angewendet wurden. Wenn ein zusammengeführter Record einen Fehler enthält, ermöglicht dir die Lineage, ihn auf seinen Ursprung zurückzuverfolgen, statt jedes Upstream-System manuell zu überprüfen.