Qu'est-ce qu'un Data Warehouse ?

Définition du Data Warehouse

Un Data Warehouse est un système centralisé conçu pour stocker de grands volumes de données structurées provenant de multiples sources dans un format optimisé pour l'analyse et les rapports, et non pour les opérations quotidiennes. Il rassemble les données historiques de toute l'organisation afin que les analystes et les décideurs puissent les interroger, identifier les tendances et générer des rapports sans affecter les performances des systèmes qui gèrent l'activité.

En quoi diffère-t-il d'une base de données standard ?

Une base de données opérationnelle (comme celle qui se cache derrière un panier e-commerce ou un système ERP) est construite pour la rapidité en lecture et écriture de dossiers individuels : traiter les commandes, mettre à jour les niveaux de stock, enregistrer les transactions. Un data warehouse remplit une fonction différente : exécuter des requêtes complexes sur des millions de dossiers pour répondre à des questions comme « quelles ont été les ventes totales par région au cours des trois dernières années ? »

Cette différence se reflète dans la structure. Les bases de données opérationnelles sont généralement normalisées : les données sont réparties entre de nombreuses tables liées pour réduire la redondance. Les data warehouses utilisent souvent une structure plus plate et dénormalisée (parfois appelée schéma en étoile ou en flocon de neige) qui rend les requêtes analytiques plus rapides et plus simples à écrire.

Quelles données vont dans un data warehouse ?

Les données sont généralement chargées à partir de systèmes opérationnels — plateformes de vente, ERPs, outils CRM, logiciels de logistique, en utilisant des processus ETL ou ELT. Une fois à l'intérieur, elles sont stockées historiquement : les dossiers ne sont pas écrasés lorsque quelque chose change ; au lieu de cela, de nouvelles versions sont ajoutées aux côtés des anciennes. Cela permet d'analyser l'évolution des choses au fil du temps.

Quel est le lien avec un Data Lake ?

Un Data Lake stocke les données brutes et non traitées dans leur format d'origine : structurées, semi-structurées et non structurées (journaux, images, documents). Un data warehouse stocke des données qui ont déjà été nettoyées, structurées et modélisées pour l'analyse. Les deux sont souvent utilisés ensemble : les données brutes arrivent dans le lac, sont traitées, et le résultat affiné est chargé dans l'entrepôt pour les rapports. Certaines plates-formes modernes brouillent cette distinction sous le terme data lakehouse.