Qué es la Calidad de Datos

Definición de Calidad de Datos

La calidad de datos es una medida de qué tan adecuados son los datos para el propósito para el cual se utilizan. Los datos se consideran de alta calidad cuando son precisos, completos, consistentes en todos los sistemas y están actualizados. Cuando falla en cualquiera de esas dimensiones, las decisiones y procesos que dependen de ellos se vuelven menos confiables.

¿Qué causa baja calidad de datos?

Los problemas suelen originarse en los mismos lugares: datos ingresados manualmente de forma inconsistente, sistemas que no comparten un formato común, registros que nunca se actualizan después de la entrada inicial, o fusiones entre conjuntos de datos que no consideran duplicados. Una base de datos de clientes donde la misma persona aparece tres veces bajo nombres ligeramente diferentes, o un catálogo de productos donde la mitad de las entradas carecen de un campo de peso, son ambos problemas de calidad de datos, incluso si la información subyacente es técnicamente correcta.

¿Por qué es importante?

La baja calidad de datos tiene la particularidad de ocultarse hasta que causa algo que falla. Un equipo de marketing envía una campaña a clientes inactivos que en realidad compraron la semana pasada. Un informe financiero cuenta dos veces los ingresos porque dos sistemas registraron la misma transacción de forma diferente. Una operación logística envía a una dirección desactualizada. En cada caso, el problema subyacente son datos que no eran lo suficientemente precisos, completos o consistentes para ser confiables.

Cuanto más lejos viajan los datos deficientes a través de una organización antes de que alguien los detecte, más caro es corregirlos.

¿Cómo se mantiene la calidad de datos?

Por lo general, es más fácil prevenir problemas de calidad en el punto de entrada que limpiarlos después. Esto significa reglas de validación en formularios y API, una clara propiedad de datos para que alguien sea responsable de mantener los registros actualizados, y controles automatizados que marquen anomalías mientras los datos se mueven a través de tuberías de datos.

La linaje de datos respalda el trabajo de calidad al hacer posible rastrear dónde se originó un problema, en lugar de descubrir una cifra incorrecta en un informe sin forma de encontrar su origen. La Gestión de Datos Maestros (MDM) aborda uno de los problemas de calidad más comunes específicamente: múltiples versiones conflictivas del mismo registro en diferentes sistemas. Al establecer una única versión autorizada, MDM elimina una categoría completa de inconsistencia que de otro modo tendría que gestionarse registro por registro.

¿Quién es responsable?

La calidad de datos rara vez es propiedad de un solo equipo. Los ingenieros de datos construyen los controles y tuberías que detectan problemas temprano. Los equipos de negocio a menudo están más cerca de los datos y están mejor posicionados para detectar cuándo algo no se ve bien. En organizaciones que lo toman en serio, una función de gobernanza de datos establece los estándares y coordina entre ambos.