¿Qué es un Data Warehouse?

Definición de Data Warehouse

Un Data Warehouse es un sistema centralizado diseñado para almacenar grandes volúmenes de datos estructurados procedentes de múltiples fuentes en un formato optimizado para análisis e informes, no para operaciones del día a día. Integra datos históricos de toda la organización para que analistas y tomadores de decisiones puedan consultarlos, identificar tendencias y generar reportes sin afectar el rendimiento de los sistemas que ejecutan el negocio.

¿En qué se diferencia de una base de datos normal?

Una base de datos operacional (como la que está detrás de un checkout de e-commerce o un sistema ERP) está construida para velocidad en la lectura y escritura de registros individuales: procesar órdenes, actualizar niveles de inventario, registrar transacciones. Un data warehouse está construido para una tarea diferente: ejecutar consultas complejas a través de millones de registros para responder preguntas como "¿cuáles fueron las ventas totales por región durante los últimos tres años?"

La diferencia estructural refleja esto. Las bases de datos operacionales típicamente están normalizadas: los datos se dividen entre muchas tablas relacionadas para reducir duplicación. Los data warehouses a menudo utilizan una estructura más plana y desnormalizada (a veces llamada esquema de estrella o copo de nieve) que hace que las consultas analíticas sean más rápidas y simples de escribir.

¿Qué datos van en un data warehouse?

Los datos típicamente se cargan desde sistemas operacionales —plataformas de ventas, ERPs, herramientas de CRM, software de logística— utilizando procesos ETL o ELT. Una vez dentro, se almacenan históricamente: los registros no se sobrescriben cuando algo cambia; en su lugar, se añaden nuevas versiones junto a las antiguas. Esto permite analizar cómo cambiaron las cosas con el tiempo.

¿Cuál es su relación con un Data Lake?

Un Data Lake almacena datos sin procesar en su formato original: estructurados, semi-estructurados y no estructurados (logs, imágenes, documentos). Un data warehouse almacena datos que ya han sido limpiados, estructurados y modelados para análisis. Los dos se utilizan a menudo juntos: los datos sin procesar llegan al lago, se procesan, y el resultado refinado se carga en el warehouse para informes. Algunas plataformas modernas difuminan esta distinción bajo el término data lakehouse.