Definizione di Qualità dei Dati
La qualità dei dati misura quanto i dati siano idonei allo scopo per cui vengono utilizzati. I dati sono considerati di alta qualità quando sono accurati, completi, coerenti tra i sistemi e aggiornati. Quando non soddisfano uno di questi aspetti, le decisioni e i processi che si basano su di essi diventano meno affidabili.
Cosa rende i dati di bassa qualità?
I problemi tendono a derivare dalle stesse fonti: dati inseriti manualmente e in modo incoerente, sistemi che non condividono un formato comune, record mai aggiornati dopo l'inserimento iniziale, o fusioni tra dataset che non tengono conto dei duplicati. Un database clienti in cui la stessa persona appare tre volte con nomi leggermente diversi, o un catalogo prodotti dove metà delle voci manca del campo peso, sono entrambi problemi di qualità dei dati, anche se le informazioni sottostanti sono tecnicamente corrette.
Perché è importante?
La scarsa qualità dei dati ha il difetto di nascondersi finché non causa problemi. Un team di marketing invia una campagna a clienti inattivi che in realtà hanno effettuato un acquisto la settimana scorsa. Un report finanziario conta due volte i ricavi perché due sistemi hanno registrato la stessa transazione diversamente. Un'operazione logistica spedisce a un indirizzo obsoleto. In ogni caso il problema sottostante è rappresentato da dati che non erano abbastanza accurati, completi o coerenti per essere affidabili.
Quanto più i dati scadenti percorrono un'organizzazione prima che qualcuno li scopra, tanto più costoso diventa ripararli.
Come si mantiene la qualità dei dati?
In genere è più facile prevenire i problemi di qualità al momento dell'inserimento piuttosto che risolverli in seguito. Ciò significa implementare regole di validazione su moduli e API, definire chiaramente la responsabilità dei dati affinché qualcuno sia incaricato di mantenere i record aggiornati, e verifiche automatizzate che segnalano anomalie mentre i dati si spostano attraverso le pipeline di dati.
Il lineage dei dati supporta il lavoro di qualità rendendo possibile tracciare l'origine di un problema, piuttosto che scoprire un dato errato in un report senza alcun modo di trovarne la fonte. La Master Data Management (MDM) affronta uno dei problemi di qualità più comuni in particolare: multiple versioni conflittuali dello stesso record in diversi sistemi. Stabilendo una singola versione autorevole, MDM elimina un'intera categoria di incoerenza che altrimenti dovrebbe essere gestita record per record.
Chi ne è responsabile?
La qualità dei dati è raramente gestita da un singolo team. I data engineer costruiscono i controlli e le pipeline che catturano i problemi precocemente. I team di business sono spesso più a contatto con i dati e nella posizione migliore per accorgersi quando qualcosa non va. Nelle organizzazioni che lo prendono sul serio, una funzione di data governance stabilisce gli standard e coordina tra entrambi.