Data Quality Governance: come implementarla e mantenerla

Punti chiave

La governance della qualità dei dati non è un progetto una tantum. È una disciplina operativa continua.
La proprietà dei dati, gli standard e l'enforcement devono esistere a livello di dato, non solo nei documenti di policy.
La maggior parte dei fallimenti derivano da una modellazione debole dei dati alla fonte, non dalla mancanza di strumenti di monitoraggio.
Integrare le regole di qualità nelle pipeline di dati previene i problemi invece di segnalarli.

La maggior parte delle organizzazioni sa che i propri dati hanno problemi di qualità. Record duplicati di fornitori, attributi di prodotto che significano cose diverse tra i sistemi, e valori mancanti che emergono solo quando qualcuno tenta di generare un report. Meno chiaro è chi possiede questi problemi e cosa dovrebbe effettivamente essere fatto al riguardo.

Questo gap è esattamente quello che la data quality governance dovrebbe colmare.

Cosa significa veramente Data Quality Governance

La governance dei dati e la qualità dei dati sono correlate ma non identiche. La governance definisce le regole: chi possiede i dati, come sono classificati, quali standard si applicano, chi ha accesso. La qualità dei dati è il risultato operativo: se i dati effettivamente soddisfano quegli standard in un dato momento.

La data quality governance è il punto di collegamento tra i due. È l'insieme di processi, ruoli e controlli che traducono un framework di governance dei dati in risultati misurabili di qualità. La data quality management è l'esecuzione quotidiana di questo lavoro. Il risultato, quando entrambi funzionano correttamente, è l'integrità dei dati: record accurati, consistenti e affidabili in ogni sistema che li utilizza.

Un rapporto del 2025 dell'IBM Institute for Business Value ha rilevato che il 43% dei chief operations officer identifica i problemi di qualità dei dati come loro priorità principale. Più di un quarto delle organizzazioni stima di perdere oltre 5 milioni di dollari annualmente a causa di una scarsa qualità dei dati.

Queste perdite raramente risultano da una singola decisione sbagliata. Si accumulano da piccoli fallimenti sistemici: nessuna definizione concordata di cosa significhi "completo" per un record di prodotto, nessun processo per catturare i duplicati prima che raggiungano i sistemi downstream, nessuno responsabile quando i dati si discostano dalle specifiche.

Il vero meccanismo di fallimento

Le aziende tendono a trattare la qualità dei dati come un compito di pulizia. Qualcosa va storto, un team esegue uno script di correzione, e il problema viene chiuso. Tre mesi dopo, lo stesso problema riappare.

La ragione è strutturale. Se il modello di dati permette ai dati scadenti di passare all'ingestion, e non ci sono regole applicate in quel punto, la pulizia dei dati è sempre reattiva. Stai rimuovendo problemi dopo che si sono già propagati in report, motori di pricing, transazioni ERP e output rivolti ai clienti.

Il singolo predittore più importante di scarsa qualità dei dati è un modello di dati mai progettato tenendo in mente la qualità.

Nei progetti che abbiamo implementato per produttori di attrezzature industriali, la causa principale era quasi sempre la stessa: campi attributo definiti come testo libero, nessun vocabolario controllato, e nessun campo obbligatorio a livello di prodotto. Ogni team inseriva i dati diversamente. Quando il catalogo raggiungeva la piattaforma di e-commerce, il matching e la deduplicazione richiedevano settimane di lavoro manuale prima di ogni ciclo di lancio di prodotto.

I framework di governance che si concentrano solo su policy di proprietà e accesso senza toccare il modello di dati sottostante non risolveranno questo. La data quality governance inizia upstream, nel punto in cui i dati vengono definiti e inseriti, non dove vengono reportati.

Come appare un framework che funziona

La data quality governance che effettivamente regge in produzione richiede cinque componenti. La loro importanza non è uguale, e la sequenza di implementazione è importante.

Dimensioni di qualità definite con target misurabili

Accuratezza, completezza, consistenza, tempestività, unicità, validità e conformità sono le dimensioni principali della qualità dei dati. L'usabilità copre se i dati sono strutturati in modo che i team downstream possono effettivamente lavorarci, e vale la pena aggiungerla quando i dati attraversano i confini dei sistemi. Le definizioni devono essere specifiche. La "completezza" per un record di prodotto presso un distributore di materiali edili potrebbe significare che tutti i 14 attributi obbligatori sono compilati, incluso l'unità di misura, la classificazione dei pericoli e le dimensioni dell'imballaggio. Ogni dimensione ha anche bisogno di un target, un metodo di misurazione e una cadenza di revisione. Senza queste tre cose, una dimensione di qualità è solo un'etichetta.

Proprietà dei dati a livello di attributo

Assegnare un data owner a una tabella o un dominio è troppo generico. L'accountability della qualità funziona quando è a livello di attributo. Qualcuno è responsabile dell'accuratezza del numero materiale. Qualcun altro possiede i campi della descrizione del prodotto. Quando un campo si degrada, sai immediatamente di chi è il lavoro correggerlo. La maggior parte delle organizzazioni evita questo livello di specificità fino a quando un audit normativo non la costringe. Ruoli chiari di governance dei dati, che definiscono chi possiede cosa e a quale livello di granularità, sono quello che previene questo.

Regole di validazione integrate nell'ingestion

Questo è il punto in cui la maggior parte dei programmi di data quality governance funzionano o falliscono. Le regole di qualità dovrebbero attivarsi nel momento in cui i dati entrano in un sistema. Un campo obbligatorio lasciato vuoto dovrebbe far fallire il record direttamente, non passarlo attraverso e farlo emergere in un report settimanale di qualità tre giorni dopo. Un valore al di fuori di un set consentito dovrebbe essere rifiutato all'ingestion dei dati, con un messaggio di errore specifico.

I nostri clienti nel settore della distribuzione di attrezzature di sicurezza spesso vengono da noi dopo anni di controlli di qualità post-ingestion. I controlli esistevano. I problemi di qualità dei dati non scomparivano. La differenza, una volta che la validazione automatica si è spostata upstream nella pipeline di ingestion stessa, è stata immediata: i tassi di errore sono diminuiti, i cicli di rielaborazione si sono accorciati, e i sistemi downstream hanno smesso di ricevere record corrotti. La standardizzazione dei dati, imponendo formati, unità e valori controllati consistenti all'ingresso, ha fatto sì che le metriche di qualità dei dati riflettessero effettivamente la realtà piuttosto che misurare l'output di uno script di pulizia.

La data profiling prima di costruire le regole di validazione è importante qui. Se non conosci la distribuzione dei valori in un campo, la gamma di formati utilizzati, o dove i null si concentrano, le regole che scrivi saranno troppo lasche o troppo rigide. La profiling trasforma assunzioni in specifiche.

Audit trail e data lineage

Non puoi governare quello che non puoi tracciare. Quando una specifica di prodotto cambia, il sistema dovrebbe registrare chi l'ha cambiata, quando e da quale valore. Quando un record fallisce un controllo di qualità, dovrebbe esserci un log di quale regola ha fallito e cosa è successo dopo.

Negli ambienti multi-sistema, il lineage è importante quanto l'audit trail stesso. Un record di prodotto che ha origine in un ERP, passa attraverso un PIM e pubblica su tre canali di vendita può degradarsi in qualsiasi punto di quella catena. La metadata management, catturando da dove viene ogni campo e quali trasformazioni ha attraversato, è quello che rende possibile individuare il punto di ingresso di un fallimento. Un data catalog che indicizza questi metadati dà ai team un unico posto per tracciare i problemi senza interrogare ogni sistema individualmente.

Approvazioni di workflow per i cambiamenti critici dei dati

I cambiamenti ai tier di pricing, alle classificazioni di prodotto o agli attributi normativi tipicamente richiedono una seconda revisione prima della pubblicazione. Nelle industrie con rigidi requisiti di conformità normativa, come chimica, dispositivi medici e materiali pericolosi, un workflow di approvazione non è opzionale. È il meccanismo che impedisce ai dati governati di essere sovrascritti senza una registrazione. Il passo di approvazione non ha bisogno di coprire ogni cambio, solo quelli dove un errore è costoso da invertire.

Questi cinque componenti si rafforzano reciprocamente. La proprietà senza regole di validazione significa che le persone responsabili ricevono comunque dati scadenti. La validazione senza lineage significa che catturi gli errori ma non riesci a spiegare da dove vengono. Un programma di data quality governance con tutti e cinque i componenti in atto a livello base supererà uno che costruisce un singolo componente bene mentre lascia gli altri non affrontati.

Il lato organizzativo è più difficile del lato tecnico

I componenti tecnici della data quality governance sono ben compresi. La parte più difficile è quella organizzativa.

La maggior parte delle aziende ha più team che toccano gli stessi dati. Il team ERP possiede l'item master. Il team di marketing gestisce il contenuto del prodotto. Il team logistica aggiorna i dati dimensionali. Nessuno di loro dipende l'uno dall'altro, e i loro incentivi per la qualità dei dati sono diversi. Un team di data governance, o al minimo un gruppo di governance cross-funzionale, è quello che dà alle organizzazioni un modo per risolvere questi conflitti senza escalare ogni disputa sui dati alla leadership senior.

Senza una funzione di data stewardship che attraversa i confini dei team, le policy di governance tendono a essere seguite da chi le ha scritte e ignorate da tutti gli altri.

Un ruolo di data steward non deve essere una posizione a tempo pieno. Nelle operazioni più piccole, può essere una responsabilità designata per qualcuno già vicino ai dati. Quello che importa è che qualcuno sia responsabile dei risultati di qualità, abbia l'autorità per implementare gli standard, e abbia visibilità nei sistemi dove vivono i dati.

Le revisioni regolari della qualità dei dati, con metriche concordate e partecipazione degli stakeholder, sono quello che impedisce a un programma di data quality governance di diventare un documento che nessuno legge dopo il rollout iniziale.

Gli strumenti supportano la governance. Non la sostituiscono.

C'è una categoria di software commercializzato come piattaforme "data quality" o "data governance". Alcuni fanno un vero lavoro. Ma senza strutture di proprietà, standard definiti e logica di validazione in atto, gli strumenti aggiungono dashboard a un problema che non ha ancora un proprietario.

Uno strumento di data quality monitoring ti mostra dove la qualità si sta degradando. Questa è un'informazione utile. Ma se non ci sono standard definiti da misurare, il dashboard mostra numeri senza contesto. Se non c'è una struttura di proprietà, mostra problemi di cui nessuno è responsabile di risolvere. Lo strumento diventa evidenza di un gap di data quality governance, non una soluzione ad esso.

AtroCore sostiene che la data quality governance debba essere applicata a livello di modello di dati. La sua piattaforma di gestione dei dati anagrafici utilizza un modello di dati basato su EAV che permette alle organizzazioni di definire quali attributi sono obbligatori, quali valori sono validi, e quali cambiamenti richiedono approvazione prima di entrare in vigore. Il risultato è un'unica fonte di verità per i dati di prodotto, fornitore e altri dati anagrafici: dati affidabili che rimangono consistenti in ogni sistema connesso. Gli audit trail e la sincronizzazione bidirezionale con ERP e piattaforme di e-commerce significano che i controlli di qualità dei dati seguono il record attraverso l'intero ciclo di vita, coprendo ogni sistema che i dati toccano.

Da dove cominciare

Inizia con le entità di dati che causano i maggiori danni downstream. Per produttori e distributori, di solito sono il master di prodotto o il record di fornitore. Mappa quali attributi esistono, chi li popola, e quali sono i tassi di riempimento e accuratezza attuali. Quell'audit farà emergere i tre o cinque fallimenti che vale la pena affrontare per primo nel tuo sforzo di data quality governance.

Stabilisci la proprietà per quegli attributi specifici prima di acquistare qualsiasi strumento. Scrivi regole di qualità che siano abbastanza specifiche per essere testabili. "Le descrizioni di prodotto dovrebbero essere accurate" non è una regola. "Le descrizioni di prodotto devono essere tra 100 e 500 caratteri, non contenere tag HTML, ed essere compilate per tutti gli SKU attivi" è una regola. I dati affidabili derivano da quel tipo di specificità. Niente altro li produce.

La data quality governance fallisce quando le organizzazioni la trattano come un progetto con una data di completamento. Le aziende che la affrontano correttamente la trattano come una proprietà operativa della loro infrastruttura di dati, costruita nel modo in cui i dati vengono creati, spostati e modificati, poi sostenuta come una disciplina continua.