Che cos'è la Data Lineage

Definizione di Data Lineage

Data lineage è una registrazione dell'origine dei dati, di come sono stati trasformati e della loro destinazione finale. Traccia il percorso completo di un dato attraverso sistemi e processi, permettendo a chiunque esamini una cifra in un report di risalire indietro e comprendere esattamente come è stata generata.

Come funziona nella pratica?

Supponiamo che una cifra di ricavi compaia in una dashboard esecutiva. Data lineage vi comunica: quel numero proviene dalla tabella degli ordini della piattaforma ecommerce, è stato unito ai record dei rimborsi dal sistema finanziario, i resi sono stati sottratti in una fase di trasformazione, e il dato è stato caricato nel data warehouse la notte scorsa alle 2 del mattino. Se il numero sembra errato, la lineage vi indica esattamente dove cercare.

La maggior parte della lineage viene acquisita e visualizzata graficamente, come un grafico che mostra la catena di fonti, pipeline, trasformazioni e destinazioni collegati da frecce.

Perché è importante?

Senza lineage, risalire a un problema nei dati significa chiedere a diversi team da dove provengono i loro numeri e sperare che qualcuno se lo ricordi. Con la lineage, la risposta è documentata e verificabile. Questo è importante in particolare in alcuni scenari:

  • Debugging — quando un report mostra un risultato inaspettato, la lineage punta al passaggio in cui qualcosa è andato storto
  • Conformità normativa — normative come il GDPR richiedono alle organizzazioni di sapere dove risiedono i dati personali e come si muovono; la lineage rende ciò verificabile
  • Gestione dei cambiamenti — prima di modificare una colonna del database o una fase della pipeline, la lineage mostra cosa dipende da essa e cosa potrebbe interrompersi

Chi la utilizza e dove si colloca?

I data engineer utilizzano la lineage per eseguire il debug delle data pipeline e valutare l'impatto dei cambiamenti prima di implementarli. I team di conformità normativa e legale la utilizzano per rispondere agli audit, in particolare quando sono coinvolti dati personali. Gli analisti la utilizzano per verificare che i numeri su cui stanno facendo rapporto siano calcolati nel modo in cui si aspettano.

Svolge inoltre un ruolo pratico nella Master Data Management (MDM). Quando un record principale viene generato unendo dati da diversi sistemi di origine, la lineage registra quali fonti hanno contribuito e quali regole sono state applicate. Se un record unito contiene un errore, la lineage è ciò che vi permette di risalire alla sua origine piuttosto che controllare manualmente ogni sistema upstream.