Qu'est-ce que la qualité des données

Définition de la qualité des données

La qualité des données mesure l'adéquation des données à l'usage auquel elles sont destinées. Les données sont considérées comme de haute qualité lorsqu'elles sont exactes, complètes, cohérentes entre les systèmes et à jour. Quand elles présentent des lacunes sur l'une de ces dimensions, les décisions et processus qui en dépendent deviennent moins fiables.

Qu'est-ce qui rend les données de mauvaise qualité ?

Les problèmes proviennent généralement des mêmes sources : données saisies manuellement de manière incohérente, systèmes qui ne partagent pas un format commun, enregistrements jamais mis à jour après la saisie initiale, ou fusions de datasets qui ne tiennent pas compte des doublons. Une base de données client où la même personne apparaît trois fois sous des noms légèrement différents, ou un catalogue produits où la moitié des entrées manquent un champ poids, sont tous deux des problèmes de qualité des données, même si l'information sous-jacente est techniquement correcte.

Pourquoi c'est important ?

La mauvaise qualité des données a tendance à rester cachée jusqu'à ce qu'elle cause un problème. Une équipe marketing envoie une campagne à des clients inactifs qui ont en réalité acheté la semaine dernière. Un rapport financier double-compte le chiffre d'affaires parce que deux systèmes ont enregistré la même transaction différemment. Une opération logistique livre à une adresse obsolète. Dans chaque cas, le problème sous-jacent est des données qui n'étaient pas assez exactes, complètes ou cohérentes pour être fiables.

Plus les mauvaises données circulent dans une organisation avant que quelqu'un ne les découvre, plus il devient coûteux de les corriger.

Comment maintient-on la qualité des données ?

Il est généralement plus facile de prévenir les problèmes de qualité au point d'entrée que de les corriger ensuite. Cela signifie des règles de validation sur les formulaires et les API, une propriété claire des données afin que quelqu'un soit responsable de tenir à jour les enregistrements, et des vérifications automatisées qui signalent les anomalies au fur et à mesure que les données circulent dans les pipelines de données.

La traçabilité des données soutient le travail de qualité en permettant de retracer l'origine d'un problème, plutôt que de découvrir un mauvais chiffre dans un rapport sans aucun moyen d'en trouver la source. Master Data Management (MDM) répond à l'un des problèmes de qualité les plus courants spécifiquement : plusieurs versions conflictuelles d'un même enregistrement dans différents systèmes. En établissant une version unique faisant autorité, MDM élimine toute une catégorie d'incohérence qui devrait autrement être gérée enregistrement par enregistrement.

Qui en est responsable ?

La qualité des données est rarement la responsabilité d'une seule équipe. Les data engineers construisent les vérifications et pipelines qui détectent les problèmes rapidement. Les équipes métier sont souvent les plus proches des données et les mieux placées pour remarquer quand quelque chose ne semble pas correct. Dans les organisations qui prennent cela au sérieux, une fonction de gouvernance des données établit les normes et coordonne les efforts des deux côtés.