Qu'est-ce que la déduplication de données ?

Définition de la déduplication de données

La déduplication de données est le processus d'identification des enregistrements qui font référence à la même entité du monde réel (un client, un produit, un fournisseur ou un lieu) et de leur consolidation en un seul enregistrement précis et unique.

Comment les doublons apparaissent-ils en premier lieu ?

Les doublons s'accumulent au cours des opérations commerciales normales : un client passe une commande via deux canaux différents et obtient deux comptes, un fournisseur est saisi manuellement par deux équipes avec des orthographes légèrement différentes, ou un produit est importé de plusieurs sources avec des identifiants internes distincts. Les systèmes qui manquent de règles de validation ou d'application de clés uniques sont particulièrement sujets à la duplication au fil du temps.

Comment fonctionne la déduplication ?

Le processus implique généralement trois étapes. Premièrement, l'appairage : comparer les enregistrements en utilisant une logique exacte ou approximative (par exemple, reconnaître que « Müller GmbH » et « Muller GmbH » sont probablement la même entité). Deuxièmement, la notation : classer les correspondances candidates par degré de confiance. Troisièmement, la fusion : combiner les enregistrements appairés en un seul, en appliquant des règles de survie pour décider quelle valeur conserver pour chaque champ en cas de conflit entre les enregistrements. Le résultat alimente un Disque d'Or.

Quelle est la différence entre la déduplication et le nettoyage de données ?

La déduplication cible spécifiquement les enregistrements en double. La qualité des données et le nettoyage traitent un ensemble plus large de problèmes (valeurs incorrectes, champs manquants, formatage incohérent) au sein d'enregistrements individuels, indépendamment de l'existence ou non de doublons. En pratique, les deux sont effectués ensemble dans le cadre d'un programme de Gestion des données de référence.