Cos'è il Data Profiling?

Definizione di Data Profiling

Il data profiling è il processo di analisi di un dataset per comprenderne la struttura, il contenuto e la qualità prima di utilizzarlo o trasferirlo. Anziché correggere i dati, il profiling produce una diagnosi: quanto è completo ogni campo, quali valori compaiono e con quale frequenza, dove i formati sono incoerenti e dove esistono duplicati o anomalie.

Cosa analizza il profiling?

I controlli di profiling tipici includono completezza (quale percentuale di record contiene un valore in ogni campo), distribuzione dei valori (l'intervallo e la frequenza dei valori, che espone outlier come un prezzo prodotto pari a -40), coerenza dei formati (date memorizzate sia come 01/02/2025 che come 2025-02-01), univocità (campi che dovrebbero essere univoci, come gli SKU, ma non lo sono) e relazioni (se i riferimenti tra record si risolvono effettivamente).

Perché è importante?

Il profiling è il primo passo essenziale prima di una migrazione dati, dell'integrazione di sistemi o di qualsiasi iniziativa di qualità dei dati. I progetti di migrazione falliscono più spesso perché i problemi dei dati di origine vengono scoperti a metà progetto; il profiling li identifica in anticipo, quando è più economico risolverli. Nelle piattaforme MDM, i tool di profiling e qualità lavorano insieme per analizzare, bonificare e standardizzare i dati, trasformando le supposizioni in un piano di pulizia definito.

Come differisce dalla convalida dei dati?

La convalida dei dati applica regole ai dati mentre entrano o si muovono attraverso un sistema, rifiutando i record che non le soddisfano. Il profiling è esplorativo: esamina i dati già esistenti per rivelare il loro stato effettivo. I risultati del profiling vengono frequentemente utilizzati per definire le regole di convalida che prevengono il ripetersi degli stessi problemi.