¿Qué es la Calidad de Datos?

Definición de Calidad de Datos

La calidad de datos es una medida de cuán adecuados son los datos para el propósito para el cual se utilizan. Los datos se consideran de alta calidad cuando son precisos, completos, consistentes en todos los sistemas y están actualizados. Cuando no cumplen con alguno de esos aspectos, las decisiones y procesos que dependen de ellos se vuelven menos confiables.

¿Qué causa datos de baja calidad?

Los problemas suelen provenir de los mismos orígenes: datos ingresados manualmente de forma inconsistente, sistemas que no comparten un formato común, registros que nunca se actualizan después del ingreso inicial, o fusiones entre conjuntos de datos que no consideran duplicados. Una base de datos de clientes donde la misma persona aparece tres veces bajo nombres ligeramente diferentes, o un catálogo de productos donde la mitad de las entradas carecen de un campo de peso, son ambos problemas de calidad de datos, aunque la información subyacente sea técnicamente correcta.

¿Por qué importa?

La baja calidad de datos tiene la característica de ocultarse hasta que causa un problema. Un equipo de marketing envía una campaña a clientes inactivos que en realidad realizaron compras la semana pasada. Un informe financiero duplica los ingresos porque dos sistemas registraron la misma transacción de manera diferente. Una operación logística envía a una dirección desactualizada. En cada caso, el problema subyacente son datos que no eran lo suficientemente precisos, completos o consistentes para ser confiables.

Cuanto más lejos viajan los datos incorrectos a través de una organización antes de que alguien los detecte, más costoso es corregirlos.

¿Cómo se mantiene la calidad de datos?

Generalmente es más fácil prevenir problemas de calidad en el punto de ingreso que limpiarlos después. Eso significa reglas de validación en formularios y APIs, una clara asignación de responsabilidad sobre los datos para que alguien sea responsable de mantener los registros actualizados, y verificaciones automatizadas que marquen anomalías a medida que los datos se desplazan a través de canalizaciones de datos.

El linaje de datos respalda el trabajo de calidad al permitir rastrear dónde se originó un problema, en lugar de descubrir una cifra incorrecta en un informe sin forma de encontrar su origen. La Gestión de Datos Maestros (MDM) aborda uno de los problemas de calidad más comunes específicamente: múltiples versiones conflictivas del mismo registro en diferentes sistemas. Al establecer una única versión autoritativa, MDM elimina una categoría completa de inconsistencia que de otro modo tendría que gestionarse registro por registro.

¿Quién es responsable?

La calidad de datos rara vez es propiedad de un solo equipo. Los ingenieros de datos construyen las verificaciones y canalizaciones que detectan problemas temprano. Los equipos de negocio a menudo están más cerca de los datos y están mejor posicionados para detectar cuándo algo no se ve correcto. En organizaciones que lo toman en serio, una función de gobernanza de datos establece los estándares y coordina entre ambos.