Cos'è la Data Lineage

Definizione di Data Lineage

Data lineage è la registrazione dell'origine dei dati, di come sono stati trasformati e della loro destinazione finale. Traccia il percorso completo di un dato attraverso i sistemi e i processi, in modo che chiunque esamini una cifra in un report possa risalire all'indietro e comprendere esattamente come è stata prodotta.

Come si presenta nella pratica?

Immagina che una cifra di ricavi appaia in un dashboard esecutivo. La data lineage ti dice: quel numero proviene dalla tabella degli ordini della piattaforma di e-commerce, è stato unito ai record dei rimborsi dal sistema finanziario, ha avuto i resi sottratti in una fase di trasformazione ed è stato caricato nel data warehouse la scorsa notte alle 2 del mattino. Se il numero sembra sbagliato, la lineage ti dice esattamente dove guardare.

La maggior parte della lineage viene acquisita e visualizzata graficamente, come un diagramma che mostra la catena di fonti, pipeline, trasformazioni e destinazioni collegate da frecce.

Perché è importante?

Senza lineage, rintracciare un problema nei dati significa chiedere a diversi team da dove provengono i loro numeri e sperare che qualcuno se ne ricordi. Con la lineage, la risposta è documentata e controllabile. Questo è importante in particolare in alcune situazioni:

  • Debug — quando un report mostra un risultato inaspettato, la lineage punta al passaggio in cui qualcosa è andato storto
  • Conformità normativa — normative come il GDPR richiedono alle organizzazioni di sapere dove risiedono i dati personali e come si muovono; la lineage rende questa risposta possibile
  • Gestione dei cambiamenti — prima di modificare una colonna del database o una fase della pipeline, la lineage mostra cos'altro dipende da essa e cosa potrebbe rompersi

Chi la utilizza e dove si inserisce?

I data engineer utilizzano la lineage per eseguire il debug delle pipeline di dati e valutare l'impatto dei cambiamenti prima di implementarli. I team di conformità e legali la utilizzano per rispondere agli audit, soprattutto quando sono coinvolti dati personali. Gli analisti la utilizzano per verificare che i numeri su cui stanno riferendo siano calcolati nel modo che si aspettano.

Svolge anche un ruolo pratico nella Master Data Management (MDM). Quando un record principale viene prodotto unendo dati provenienti da diversi sistemi di origine, la lineage registra quali fonti hanno contribuito e quali regole sono state applicate. Se un record unito contiene un errore, la lineage è ciò che ti permette di risalire all'origine anziché controllare manualmente ogni sistema upstream.