Qu'est-ce que la qualité des données

Définition de la qualité des données

La qualité des données mesure le degré d'adéquation des données à l'usage auquel elles sont destinées. Les données sont considérées de haute qualité lorsqu'elles sont exactes, complètes, cohérentes entre les systèmes et à jour. Quand elles ne répondent pas à l'une de ces dimensions, les décisions et processus qui en dépendent deviennent moins fiables.

Qu'est-ce qui rend les données de mauvaise qualité ?

Les problèmes proviennent généralement des mêmes sources : données saisies manuellement de façon incohérente, systèmes ne partageant pas un format commun, enregistrements jamais mis à jour après la saisie initiale, ou fusions de bases de données qui ne tiennent pas compte des doublons. Une base de données clients où la même personne apparaît trois fois sous des noms légèrement différents, ou un catalogue produits où la moitié des articles manquent un champ poids, sont tous deux des problèmes de qualité des données, même si l'information sous-jacente est techniquement correcte.

Pourquoi cela compte-t-il ?

La mauvaise qualité des données a tendance à rester inaperçue jusqu'au moment où elle provoque un problème. Une équipe marketing envoie une campagne aux clients inactifs qui ont en réalité acheté la semaine dernière. Un rapport financier double-compte les revenus parce que deux systèmes ont enregistré la même transaction différemment. Une opération logistique livre à une adresse obsolète. Dans chaque cas, le problème sous-jacent est une donnée qui n'était pas assez exacte, complète ou cohérente pour être fiable.

Plus les mauvaises données circulent longtemps dans une organisation avant que quelqu'un ne les découvre, plus leur correction devient coûteuse.

Comment maintient-on la qualité des données ?

Il est généralement plus facile de prévenir les problèmes de qualité au point de saisie que de les corriger après coup. Cela signifie mettre en place des règles de validation sur les formulaires et les API, une propriété claire des données pour que quelqu'un soit responsable de tenir les enregistrements à jour, et des vérifications automatisées qui signalent les anomalies à mesure que les données circulent dans les pipelines de données.

La traçabilité des données soutient le travail de qualité en permettant de retracer l'origine d'un problème, plutôt que de découvrir un mauvais chiffre dans un rapport sans aucun moyen de trouver sa source. La Gestion des données de référence (MDM) s'attaque spécifiquement à l'un des problèmes de qualité les plus courants : l'existence de plusieurs versions conflictuelles du même enregistrement dans différents systèmes. En établissant une seule version faisant autorité, MDM supprime toute une catégorie d'incohérences qui devraient sinon être gérées enregistrement par enregistrement.

Qui en est responsable ?

La qualité des données est rarement la responsabilité d'une seule équipe. Les data engineers construisent les vérifications et pipelines qui détectent les problèmes tôt. Les équipes métier sont souvent les plus proches des données et les mieux placées pour détecter quand quelque chose semble anormal. Dans les organisations qui la prennent au sérieux, une fonction de gouvernance des données établit les normes et coordonne entre les deux.