La plupart des entreprises savent déjà qu'elles ont un problème de données. Les rapports se contredisent. Le même client apparaît sous trois noms différents dans quatre systèmes. Quelqu'un à l'approvisionnement travaille avec une liste de fournisseurs mise à jour il y a deux ans. Personne ne sait vraiment quelle version du catalogue produits est actuelle.
Ce ne sont pas des cas isolés. Ce sont les conditions normales de fonctionnement d'un fabricant ou distributeur de taille moyenne utilisant un mix standard d'ERP, CRM, e-commerce et systèmes de données produits jamais conçus pour partager un modèle de données commun. Chaque système a été implémenté pour un objectif spécifique, chacun a sa propre manière de représenter les mêmes entités, et les maintenir synchronisés a toujours été un processus manuel et sujet aux erreurs.
Les outils censés résoudre ce problème s'appellent outils de gouvernance des données. Mais ce terme couvre une large gamme de logiciels, et les catégories se chevauchent rapidement. Cet article explique ce que ces outils font réellement, quelles capacités importent pour les fabricants et distributeurs, et comment la gestion des données maîtresses et l'intégration système s'inscrivent dans le tableau.
Ce que les outils de gouvernance des données font réellement
La gouvernance des données est la pratique de gérer la disponibilité, l'utilisabilité, l'intégrité et la sécurité des données de votre organisation. Les outils de cette catégorie fournissent l'infrastructure technique pour appliquer les politiques, tracer la lignée des données, mesurer la qualité des données, contrôler l'accès et maintenir la cohérence des données entre les systèmes.
Le besoin est réel. Selon Gartner, une mauvaise qualité des données coûte aux organisations au moins 12,9 millions de dollars par an en moyenne. Ce chiffre n'inclut pas les conséquences en aval : mauvaises décisions d'achat, défaillances de conformité, lancements de produits retardés, ou systèmes ERP et e-commerce fonctionnant sur des données désynchronisées.
Les outils de gouvernance des données ne résolvent pas tous ces problèmes seuls. Mais ils fournissent les mécanismes pour détecter les problèmes tôt, assigner les responsabilités et réduire la vitesse à laquelle les mauvaises données se propagent dans une organisation.
Cadres, rôles et maturité
La gouvernance des données ne se fait pas par les outils seuls. Les outils implémentent les règles, mais quelqu'un doit les définir, en être responsable et les appliquer quand elles sont enfreintes.
La plupart des programmes de gouvernance matures sont construits autour de trois rôles. Le propriétaire de données est un acteur métier (pas une personne IT) qui est responsable de la qualité et de l'utilisation des données dans un domaine spécifique. Le gestionnaire de données effectue le travail quotidien : examen des enregistrements, résolution des problèmes de qualité, application des règles de classification et maintenance du glossaire métier. Le gestionnaire technique des données gère le côté technique : stockage, contrôles d'accès et infrastructure. Sans ces rôles définis et pourvus par des personnes réelles ayant une véritable responsabilité, les outils de gouvernance deviennent des tableaux de bord sur lesquels personne n'agit.
Le cadre de référence industriel pour la gestion des données est DAMA-DMBOK (Data Management Body of Knowledge), qui organise la gouvernance des données sur onze domaines de connaissances, y compris la qualité des données, les métadonnées, les données maîtresses et l'intégration des données. Ce n'est pas une méthodologie prescriptive mais une carte utile pour identifier où votre programme a des lacunes. La plupart des entreprises mettant en place une gouvernance pour la première fois découvrent qu'elles sont correctement couvertes dans un ou deux domaines et n'ont presque rien en place pour les autres.
La maturité de la gouvernance suit un arc prévisible. Les organisations commencent généralement à un niveau ad hoc, où la qualité des données est gérée de manière réactive et aucune propriété formelle n'existe. Elles progressent à travers des politiques définies, puis l'application systématique, et atteignent finalement un état où la gouvernance est proactive : les problèmes sont détectés avant d'atteindre les systèmes de production et la qualité des données est mesurée en continu. La plupart des fabricants et distributeurs de taille moyenne se situent quelque part au milieu de cet arc, avec des politiques qui existent mais sont appliquées de manière incohérente et des outils qui surveillent plutôt que préviennent.
Les capacités essentielles
Pas tous les outils de cet espace couvrent le même terrain. Voici à quoi ressemblent les principales catégories de capacités dans la pratique.
La gestion de la qualité des données est la couche la plus fondamentale. Elle couvre le profilage (comprendre à quoi ressemblent vraiment vos données), la validation (vérifier les enregistrements par rapport aux règles définies), la déduplication et les contrôles de complétude. Sans cela, la gouvernance reste théorique. Vous pouvez définir toutes les politiques que vous voulez, mais s'il n'y a pas de mécanisme automatisé pour détecter qu'un enregistrement produit manque un attribut requis ou qu'un fournisseur apparaît deux fois avec des noms légèrement différents, ces politiques ne seront pas appliquées de manière cohérente.
Les outils de gestion des métadonnées et catalogs de données vous donnent un inventaire consultable de vos actifs de données : ce qui existe, où il se trouve, qui en est propriétaire et ce qu'il signifie. Dans les plus grandes organisations, cela seul permet d'économiser du temps considérable quand les équipes essaient de localiser et de valider un ensemble de données avant de l'utiliser. Le catalogue permet également de définir des glossaires métier, afin que « client » dans le département financier signifie la même chose que « client » dans le système de vente.
La lignée des données suit comment les données se déplacent et se transforment entre les systèmes. Quand un calcul dans un rapport financier s'avère incorrect, la lignée vous permet de tracer le problème jusqu'à sa source plutôt que de passer des jours à enquêter manuellement. Pour les industries réglementées, la documentation de la lignée est une exigence de conformité dans le cadre de réglementations comme le RGPD et le BCBS 239. Mais la lignée est aussi opérationnellement utile pour les entreprises qui ne sont pas dans les industries réglementées : si vous devez modifier le calcul d'un attribut produit dans votre ERP, la lignée vous indique tous les systèmes en aval qui seront affectés avant de faire le changement, pas après.
Les outils de catalogs de données autonomes (Collibra, Alation, Microsoft Purview sont les plus largement déployés) se concentrent principalement sur la gestion des métadonnées, la lignée et la gestion du glossaire. Ils sont forts pour rendre les données découvrables et documentées. Ce qu'ils ne couvrent pas est la couche de données maîtresses ou l'infrastructure d'intégration. Pour les entreprises qui ont déjà un système MDM propre et bien gouverné et qui ont besoin d'ajouter la découvrabilité et la lignée par-dessus, un outil de catalogue a du sens. Pour les entreprises qui ont encore des données maîtresses fragmentées et une mauvaise intégration, un catalogue est le mauvais point de départ.
Le contrôle d'accès et l'application des politiques assurent que les bonnes personnes peuvent voir les bonnes données et que les politiques sont appliquées de manière cohérente, pas seulement documentées dans une feuille de calcul. L'accès basé sur les rôles, le masquage des données pour les champs sensibles et la journalisation d'audit entrent tous dans cette catégorie.
Les outils de flux de travail et de gestion des données gèrent le côté humain : qui examine un enregistrement, qui approuve une modification, qui est notifié quand un seuil est dépassé. Cela importe particulièrement dans les entreprises où les responsabilités en matière de données traversent les départements. Un fabricant avec des données produits détenues en partie par l'ingénierie et en partie par le marketing a besoin d'un processus structuré pour résoudre les conflits, pas seulement de bonnes intentions.
La plupart des outils de gouvernance d'entreprise couvrent plusieurs de ces domaines. La question est de savoir quelles capacités importent le plus pour votre contexte et si l'outil est construit pour gérer les volumes de données et la complexité structurelle que vous avez réellement.
Où la gouvernance des données et MDM se chevauchent
La gestion des données maîtresses (MDM) et la gouvernance des données sont liées mais pas identiques.
La gouvernance des données définit les politiques et les processus : qui peut créer un nouvel enregistrement fournisseur, quels champs sont requis et qui doit approuver une modification avant qu'elle soit publiée sur les systèmes connectés. MDM fournit le référentiel central et géré où se trouvent vos données partagées les plus critiques : clients, fournisseurs, produits, matériaux et emplacements. Gouverner les politiques sans avoir une couche de données maîtresses propre signifie que vous appliquez toujours des règles contre des entrées fragmentées et incohérentes. Construire un système MDM sans gouvernance signifie que les données se dégraderont au fil du temps parce qu'il n'y a pas de processus systématique pour les maintenir.
Dans les projets que nous avons implémentés pour des fabricants et des distributeurs, les deux problèmes sont presque toujours présents ensemble. Les politiques de gouvernance existent sur papier, mais les données maîtresses sont éparpillées dans un ERP, une base de données produits héritée et plusieurs feuilles de calcul que quelqu'un met à jour manuellement. L'application est impossible car il n'y a pas un seul endroit où vivent les enregistrements autorisés.
Une plateforme MDM appropriée sert de source unique de vérité. Elle centralise les données entre les domaines, applique les règles de validation, gère les relations entre entités et maintient un historique des modifications. Les outils de gouvernance peuvent alors fonctionner contre une base propre et cohérente plutôt que de tenter de réconcilier des sources contradictoires après coup.
L'étendue des données maîtresses varie selon l'entreprise. Pour un fabricant, les domaines critiques sont généralement les produits, les matériaux et les fournisseurs. Pour un distributeur, les clients et la tarification sont généralement ajoutés à cette liste. La plateforme MDM doit gérer tous ces domaines avec des contrôles de gouvernance cohérents, pas seulement le domaine pour lequel le logiciel a été conçu à l'origine.
La gestion des données de référence est une discipline connexe mais distincte qui est souvent intégrée à MDM. Les données de référence couvrent les listes de classification, les tables de codes et les valeurs de recherche sur lesquelles d'autres données dépendent : codes de pays, codes d'unité de mesure, catégories de produits et valeurs d'état. Quand ces listes sont incohérentes entre les systèmes (un système utilise « EA » pour chaque, un autre utilise « PCS »), chaque intégration qui cartographie entre elles introduit une erreur potentielle. Centraliser les données de référence dans le hub MDM et les distribuer de manière cohérente aux systèmes connectés élimine toute une classe de problèmes de qualité des données que la plupart des programmes de gouvernance négligent.
Intégration système : la pièce manquante dans la plupart des implémentations
La gouvernance des données s'effondre au niveau de l'intégration. Une entreprise peut avoir d'excellentes politiques, un système MDM bien maintenu et des données maîtresses propres, et découvrir quand même que l'ERP a trois jours de retard sur la base de données produits, la plateforme e-commerce fonctionne sur la liste de prix du mois dernier et les données client dans le CRM ne correspondent pas à ce qui se trouve dans le système de facturation.
C'est parce que la plupart des cadres de gouvernance traitent l'intégration comme le problème de quelqu'un d'autre. L'équipe de gouvernance définit les règles. L'équipe IT gère les intégrations. Il est rare qu'il y ait une vision partagée de ce qui se passe quand une modification du système MDM doit se propager à six systèmes connectés dans la bonne séquence sans perte de données ou erreurs de transformation.
Une plateforme d'intégration système comble cette lacune. Elle connecte le hub MDM à tous les systèmes externes, automatise l'échange bidirectionnel de données et assure qu'une modification du dossier fournisseur se propage à tous les systèmes qui en dépendent sans intervention manuelle. Sans cette couche, la gouvernance est réactive : vous détectez les erreurs après qu'elles se soient déjà propagées. Avec elle, la gouvernance devient préventive.
Les exigences pratiques pour cette couche d'intégration ne sont pas compliquées en concept, mais difficiles à bien implémenter :
- Support des protocoles standard (API REST, SOAP, EDI, formats de fichiers plats)
- Cartographie configurable entre différents schémas de données
- Synchronisation planifiée et événementielle
- Journalisation d'erreurs et alertes en cas d'échec de synchronisation
- Capacité à gérer de grands volumes de données sans dégradation des performances
Pour les fabricants gérant des dizaines de milliers de SKU dans l'ERP, l'e-commerce et les portails distributeurs, ce ne sont pas des fonctionnalités optionnelles. Ce sont la différence entre un programme de gouvernance qui fonctionne et un qui nécessite une correction manuelle constante.
Quoi chercher lors de l'évaluation des outils
Le marché des outils de gouvernance des données comprend tout, des produits autonomes de catalogs de données aux plates-formes complètes qui combinent MDM, gouvernance, lignée et intégration dans un seul système. Le choix dépend de votre plus grande douleur et de la manière dont votre architecture est structurée.
Quelques points à évaluer honnêtement avant de sélectionner un outil :
- Flexibilité du modèle de données. Vos structures de données ne sont probablement pas standard. Les fournisseurs ont des attributs différents des clients. Les produits dans la catégorie des composants électriques ont des exigences de classification différentes de ceux du matériel de construction. Une plateforme de gouvernance qui vous force dans un schéma fixe créera plus de contournements qu'elle ne résout. C'est l'une des plaintes les plus courantes que nous entendons de la part d'entreprises qui changent de premier outil de gouvernance.
- Profondeur d'intégration. Vérifiez si l'outil peut se connecter à vos systèmes réels, pas seulement aux systèmes populaires. De nombreuses plates-formes listent Salesforce et SAP comme intégrations, mais ont un support limité pour tout ce qui dépasse cette liste.
- Configurabilité sans code personnalisé. D'après notre expérience, les entreprises qui doivent engager le fournisseur chaque fois qu'elles ont besoin d'une nouvelle règle de données ou d'un flux de travail abandonnent finalement le programme de gouvernance en 18 mois. La capacité à configurer les règles, les validations et les flux de travail vous-même importe.
- Flexibilité de déploiement. Sur site, cloud ou hybride. Certaines industries et tailles d'entreprise ont de véritables contraintes ici que les préférences du fournisseur ne peuvent pas contourner.
- Ouverture. Les modèles de données propriétaires et les API fermées créent un verrouillage à long terme qui ne devient visible que quand vous devez migrer ou étendre le système.
AtroCore en tant que plateforme MDM et d'intégration open source
AtroCore est une plateforme open source construite pour couvrir les couches MDM et d'intégration système ensemble. Elle utilise un modèle hautement configurable d'entité-attribut-valeur, afin que les structures de données s'adaptent à votre domaine plutôt que l'inverse. Les règles de validation, les flux de travail d'approbation à plusieurs étapes et les relations d'entités sont tous configurables via l'interface utilisateur sans code personnalisé.
Du côté de l'intégration, AtroCore fournit une API REST entièrement documentée et des modules d'importation/exportation natifs qui supportent l'échange de données automatisé et bidirectionnel avec les systèmes ERP, les plates-formes e-commerce et les outils CRM. La plateforme fonctionne sous GPLv3, avec propriété complète du code et options de déploiement sur site ou cloud.
Ce n'est pas un outil autonome de catalog de données ou de lignée. Il est construit pour les entreprises qui ont besoin d'un hub de données maîtresses centralisé avec des contrôles de gouvernance forts et une réelle profondeur d'intégration dans un seul système configurable.
La réalité pratique
Les projets de gouvernance des données échouent plus souvent qu'ils ne réussissent, non pas parce que les outils sont mauvais mais parce que le périmètre de mise en œuvre est trop large et la propriété est peu claire. Les entreprises qui obtiennent des résultats durables ont tendance à commencer par un domaine spécifique (données produits, données fournisseurs ou données clients) et à s'étendre à partir de là une fois le processus établi.
Commencer à petite échelle facilite également la construction du soutien interne. Une initiative de gouvernance qui promet de tout réparer dans tous les systèmes en 18 mois fera face à la résistance de chaque équipe qui sait son autonomie contrainte. Une initiative qui commence par résoudre une douleur spécifique et visible (dossiers fournisseurs en double, attributs produits incohérents dans l'ERP par rapport à la boutique en ligne) construit la crédibilité avant d'étendre le périmètre.
Le choix de l'outil importe moins que beaucoup de fournisseurs ne le suggèrent. Ce qui importe est que la plateforme soit suffisamment flexible pour correspondre à votre modèle de données réel, intégrée assez profondément pour éliminer le travail de synchronisation manuel qui consomme votre équipe, et suffisamment ouverte pour que vous ne soyez pas verrouillé dans une feuille de route que vous ne pouvez pas influencer.
Si vous évaluez les options, AtroCore mérite d'être évaluée pour la couche MDM et d'intégration, surtout si votre architecture actuelle implique de multiples systèmes déconnectés et que vous avez besoin d'une plateforme qui peut s'adapter à des structures de données complexes et spécifiques au domaine.