Définition du profilage de données
Le profilage de données est le processus d'examen d'un ensemble de données pour comprendre sa structure, son contenu et sa qualité avant de l'utiliser ou de le déplacer. Plutôt que de corriger les données, le profilage produit un diagnostic : le degré de complétude de chaque champ, les valeurs qui apparaissent et leur fréquence, les formats incohérents, et les doublons ou anomalies existants.
Qu'est-ce que le profilage analyse ?
Les vérifications de profilage typiques incluent la complétude (quel pourcentage d'enregistrements possède une valeur dans chaque champ), la distribution des valeurs (l'étendue et la fréquence des valeurs, qui expose les valeurs aberrantes comme un prix produit de -40), la cohérence des formats (les dates stockées à la fois sous 01/02/2025 et 2025-02-01), l'unicité (les champs qui devraient être uniques, comme les SKU, mais ne le sont pas), et les relations (si les références entre enregistrements se résolvent réellement).
Pourquoi est-ce important ?
Le profilage est l'étape essentielle avant toute migration de données, intégration système ou initiative de qualité des données. Les projets de migration échouent le plus souvent parce que les problèmes de données source sont découverts en cours de projet ; le profilage les détecte en amont, quand ils sont les moins coûteux à corriger. Dans les plateformes MDM, les outils de profilage et de qualité travaillent ensemble pour analyser, nettoyer et standardiser les données, transformant la supposition en un plan de nettoyage structuré.
En quoi diffère-t-il de la validation de données ?
La validation de données applique des règles aux données lors de leur entrée ou déplacement dans un système, en rejetant les enregistrements qui ne les respectent pas. Le profilage est exploratoire : il examine les données qui existent déjà pour révéler leur état réel. Les résultats du profilage sont fréquemment utilisés pour définir les règles de validation qui empêchent les mêmes problèmes de se reproduire.