Definizione di Qualità dei Dati
La qualità dei dati è una misura di quanto i dati siano idonei allo scopo per cui vengono utilizzati. I dati sono considerati di alta qualità quando sono accurati, completi, coerenti tra i sistemi e aggiornati. Quando risultano insufficienti in una di queste dimensioni, le decisioni e i processi che ne dipendono diventano meno affidabili.
Che cosa rende i dati di bassa qualità?
I problemi tendono a provenire dagli stessi luoghi: dati inseriti manualmente in modo incoerente, sistemi che non condividono un formato comune, record che non vengono mai aggiornati dopo l'immissione iniziale, o fusioni tra dataset che non tengono conto dei duplicati. Un database clienti in cui la stessa persona appare tre volte con nomi leggermente diversi, o un catalogo prodotti in cui metà delle voci manca di un campo peso, sono entrambi problemi di qualità dei dati, anche se le informazioni sottostanti sono tecnicamente corrette.
Perché è importante?
La scarsa qualità dei dati tende a rimanere nascosta finché non causa un problema. Un team di marketing invia una campagna a clienti inattivi che in realtà hanno effettuato un acquisto la settimana scorsa. Un rapporto finanziario conta due volte i ricavi perché due sistemi hanno registrato la stessa transazione diversamente. Un'operazione logistica spedisce a un indirizzo obsoleto. In ogni caso il problema sottostante è costituito da dati che non erano sufficientemente accurati, completi o coerenti per essere affidabili.
Più a lungo i dati errati viaggiano attraverso un'organizzazione prima che qualcuno li individui, più costoso diventa correggerli.
Come si mantiene la qualità dei dati?
In genere è più facile prevenire i problemi di qualità al punto di immissione piuttosto che correggerli in seguito. Ciò significa regole di convalida su moduli e API, chiara proprietà dei dati in modo che qualcuno sia responsabile di mantenere i record attuali, e controlli automatizzati che segnalano anomalie mentre i dati si muovono attraverso le pipeline di dati.
La lineage dei dati supporta il lavoro sulla qualità rendendo possibile tracciare l'origine di un problema, piuttosto che scoprire un dato errato in un rapporto senza alcun modo di trovarne la fonte. La Gestione dei Dati Master (MDM) affronta uno dei problemi di qualità più comuni in modo specifico: versioni multiple e conflittuali dello stesso record su sistemi diversi. Stabilendo un'unica versione autorevole, MDM elimina un'intera categoria di incoerenza che altrimenti dovrebbe essere gestita record per record.
Chi ne è responsabile?
La qualità dei dati è raramente gestita da un singolo team. Gli ingegneri dati costruiscono i controlli e le pipeline che catturano i problemi in anticipo. I team di business sono spesso più vicini ai dati e nella posizione migliore per notare quando qualcosa non sembra corretto. Nelle organizzazioni che la considerano seriamente, una funzione di data governance stabilisce gli standard e coordina entrambi i lati.