Qué es linaje de datos

Definición de linaje de datos

Linaje de datos es un registro de dónde provienen los datos, cómo se han transformado y dónde terminan. Rastrea el recorrido completo de un dato a través de sistemas y procesos, para que cualquiera que consulte una cifra en un informe pueda retroceder y entender exactamente cómo se produjo.

¿Cómo se ve en la práctica?

Supongamos que una cifra de ingresos aparece en un panel ejecutivo. El linaje de datos te dice: ese número proviene de la tabla de pedidos de la plataforma de ecommerce, se combinó con registros de reembolsos del sistema financiero, se le restaron las devoluciones en un paso de transformación, y se cargó en el almacén de datos anoche a las 2am. Si el número parece incorrecto, el linaje te indica exactamente dónde buscar.

La mayoría del linaje se captura y visualiza de forma gráfica, como un diagrama que muestra la cadena de orígenes, canalizaciones, transformaciones y destinos conectados por flechas.

¿Por qué es importante?

Sin linaje, rastrear un problema de datos significa preguntarle a varios equipos de dónde provienen sus números y esperar que alguien lo recuerde. Con él, la respuesta está documentada y es auditable. Esto es especialmente importante en algunas situaciones:

  • Depuración — cuando un informe muestra un resultado inesperado, el linaje señala el paso donde algo salió mal
  • Cumplimiento normativo — regulaciones como GDPR requieren que las organizaciones sepan dónde residen los datos personales y cómo se mueven; el linaje lo hace verificable
  • Gestión de cambios — antes de modificar una columna de base de datos o un paso de canalización, el linaje muestra qué más depende de ella y qué podría romperse

¿Quién lo usa y dónde encaja?

Los ingenieros de datos utilizan el linaje para depurar canalizaciones de datos y evaluar el impacto de los cambios antes de realizarlos. Los equipos de cumplimiento normativo y legal lo utilizan para responder a auditorías, particularmente cuando intervienen datos personales. Los analistas lo utilizan para verificar que las cifras que reportan se calculen de la manera esperada.

También juega un papel práctico en Master Data Management (MDM). Cuando un registro maestro se produce fusionando datos de varios sistemas de origen, el linaje registra qué orígenes contribuyeron y qué reglas se aplicaron. Si un registro fusionado contiene un error, el linaje es lo que te permite rastrearlo hasta su origen en lugar de verificar manualmente cada sistema anterior.