Cos'è la Deduplicazione dei Dati?

Definizione di Deduplicazione dei Dati

La Deduplicazione dei Dati è il processo di identificazione dei record che si riferiscono alla stessa entità del mondo reale (un cliente, prodotto, fornitore o ubicazione) e loro consolidamento in un unico record accurato.

Come compaiono in primo luogo i duplicati?

I duplicati si accumulano durante le normali operazioni aziendali: un cliente effettua un ordine attraverso due canali diversi e ottiene due account, un fornitore viene inserito manualmente da due team con variazioni di spelling, oppure un prodotto viene importato da più fonti con identificativi interni diversi. I sistemi che mancano di regole di convalida o di applicazione di chiavi univoche sono particolarmente soggetti a duplicazione nel tempo.

Come funziona la deduplicazione?

Il processo prevede tipicamente tre step. Primo, matching: confronto dei record utilizzando logica esatta o fuzzy (ad esempio, riconoscere che "Müller GmbH" e "Muller GmbH" sono probabilmente la stessa entità). Secondo, scoring: classificazione dei candidati corrispondenti per livello di confidenza. Terzo, merging: combinazione dei record corrispondenti in uno solo, applicando regole di survivorship per decidere quale valore mantenere per ogni campo in caso di conflitto tra record. Il risultato alimenta un Golden Record.

Qual è la differenza tra deduplicazione e data cleansing?

La deduplicazione ha come bersaglio specifico i record duplicati. La qualità dei dati e il cleansing affrontano un insieme più ampio di problemi (valori non corretti, campi mancanti, formattazione incoerente) all'interno di singoli record, indipendentemente dall'esistenza di duplicati. In pratica, entrambe vengono eseguite insieme come parte di un programma di Master Data Management.