La calidad de los datos se refiere al estado de los datos cualitativos o cuantitativos . Existen muchas definiciones de calidad de los datos, pero generalmente se considera que los datos son de alta calidad si son "aptos para los usos previstos en operaciones , toma de decisiones y planificación ". [1] [2] [3] Además, se considera que los datos son de alta calidad si representan correctamente el constructo del mundo real al que se refieren. Además, aparte de estas definiciones, a medida que aumenta el número de fuentes de datos, la cuestión de la coherencia interna de los datos se vuelve importante, independientemente de su idoneidad para cualquier propósito externo particular. Las opiniones de las personas sobre la calidad de los datos a menudo pueden estar en desacuerdo, incluso cuando se habla del mismo conjunto de datos utilizados para el mismo propósito. Cuando este es el caso, se utiliza la gobernanza de datos para formar definiciones y estándares acordados para la calidad de los datos. En tales casos, puede ser necesaria la limpieza de datos , incluida la estandarización , para garantizar la calidad de los datos. [4]
Definir la calidad de los datos es difícil debido a los numerosos contextos en los que se utilizan, así como a las diferentes perspectivas entre los usuarios finales, los productores y los custodios de los datos. [5]
Desde la perspectiva del consumidor, la calidad de los datos es: [5]
Desde una perspectiva empresarial, la calidad de los datos es:
Desde una perspectiva basada en estándares, la calidad de los datos es:
Se podría decir que, en todos estos casos, la "calidad de los datos" es una comparación del estado real de un conjunto particular de datos con un estado deseado, y que el estado deseado suele definirse como "apto para el uso", "según las especificaciones", "que cumple con las expectativas del consumidor", "libre de defectos" o "que cumple con los requisitos". Estas expectativas, especificaciones y requisitos suelen estar definidos por una o más personas o grupos, organizaciones de normalización, leyes y reglamentos, políticas empresariales o políticas de desarrollo de software. [5]
Profundizando más, esas expectativas, especificaciones y requisitos se expresan en términos de características o dimensiones de los datos, como: [5] [6] [7] [8] [11]
Una revisión sistemática del alcance de la literatura sugiere que las dimensiones y los métodos de calidad de los datos con datos del mundo real no son consistentes en la literatura y, como resultado, las evaluaciones de calidad son un desafío debido a la naturaleza compleja y heterogénea de estos datos. [11]
Antes de la aparición de los sistemas de almacenamiento de datos informáticos de bajo costo , se utilizaban grandes computadoras centrales para mantener los datos de nombres y direcciones para los servicios de entrega. Esto era para que el correo pudiera ser enrutado correctamente a su destino. Las computadoras centrales utilizaban reglas comerciales para corregir errores ortográficos y tipográficos comunes en los datos de nombres y direcciones, así como para rastrear a los clientes que se habían mudado, fallecido, ido a prisión, se habían casado, se habían divorciado o habían experimentado otros eventos que cambiaron su vida. Las agencias gubernamentales comenzaron a poner los datos postales a disposición de algunas empresas de servicios para que cruzaran los datos de los clientes con el registro nacional de cambio de dirección (NCOA) . Esta tecnología les ahorró a las grandes empresas millones de dólares en comparación con la corrección manual de los datos de los clientes. Las grandes empresas ahorraron en franqueo, ya que las facturas y los materiales de marketing directo llegaban al cliente previsto con mayor precisión. Inicialmente vendidos como un servicio, la calidad de los datos se trasladó al interior de las paredes de las corporaciones, a medida que se disponía de tecnología de servidores potente y de bajo costo. [ cita requerida ]
Las empresas que se centran en el marketing suelen centrar sus esfuerzos de calidad en la información sobre nombres y direcciones, pero la calidad de los datos es reconocida [¿ por quién? ] como una propiedad importante de todos los tipos de datos. Los principios de la calidad de los datos se pueden aplicar a los datos de la cadena de suministro, los datos transaccionales y casi todas las demás categorías de datos que se encuentren. Por ejemplo, hacer que los datos de la cadena de suministro se ajusten a un determinado estándar tiene valor para una organización al: 1) evitar el exceso de existencias de existencias similares pero ligeramente diferentes; 2) evitar la falsa falta de existencias; 3) mejorar la comprensión de las compras de los proveedores para negociar descuentos por volumen; y 4) evitar los costos logísticos en el almacenamiento y envío de piezas en una organización grande. [ cita requerida ]
Para las empresas con importantes esfuerzos de investigación, la calidad de los datos puede incluir el desarrollo de protocolos para métodos de investigación, la reducción de errores de medición , la verificación de límites de datos, la tabulación cruzada , el modelado y la detección de valores atípicos , la verificación de la integridad de los datos , etc. [ cita requerida ]
Existen varios marcos teóricos para comprender la calidad de los datos. Un enfoque teórico de sistemas influenciado por el pragmatismo estadounidense amplía la definición de calidad de los datos para incluir la calidad de la información y enfatiza la inclusión de las dimensiones fundamentales de exactitud y precisión sobre la base de la teoría de la ciencia (Ivanov, 1972). Un marco, denominado "Datos sin defectos" (Hansen, 1991), adapta los principios del control estadístico de procesos a la calidad de los datos. Otro marco busca integrar la perspectiva del producto (conformidad con las especificaciones) y la perspectiva del servicio (satisfacción de las expectativas de los consumidores) (Kahn et al. 2002). Otro marco se basa en la semiótica para evaluar la calidad de la forma, el significado y el uso de los datos (Price y Shanks, 2004). Un enfoque altamente teórico analiza la naturaleza ontológica de los sistemas de información para definir la calidad de los datos de manera rigurosa (Wand y Wang, 1996).
Una cantidad considerable de investigación sobre la calidad de los datos implica la investigación y descripción de varias categorías de atributos deseables (o dimensiones) de los datos. Se han identificado casi 200 términos de este tipo y hay poco acuerdo sobre su naturaleza (¿son conceptos, objetivos o criterios?), sus definiciones o medidas (Wang et al., 1993). Los ingenieros de software pueden reconocer esto como un problema similar a las " capacidades ".
El MIT cuenta con un Programa de Calidad de la Información (MITIQ), dirigido por el profesor Richard Wang, que produce un gran número de publicaciones y organiza una importante conferencia internacional en este campo (Conferencia Internacional sobre Calidad de la Información, ICIQ). Este programa surgió del trabajo realizado por Hansen sobre el marco de trabajo "Datos sin defectos" (Hansen, 1991).
En la práctica, la calidad de los datos es una preocupación para los profesionales que trabajan con una amplia gama de sistemas de información, desde el almacenamiento de datos y la inteligencia empresarial hasta la gestión de las relaciones con los clientes y la gestión de la cadena de suministro . Un estudio del sector estimó que el coste total para la economía estadounidense de los problemas de calidad de los datos supera los 600.000 millones de dólares al año (Eckerson, 2002). Los datos incorrectos (que incluyen información no válida y obsoleta) pueden tener su origen en distintas fuentes de datos (por ejemplo, en la introducción de datos o en proyectos de migración y conversión de datos ) . [12]
En 2002, el USPS y PricewaterhouseCoopers publicaron un informe que afirmaba que el 23,6 por ciento de todo el correo enviado desde EE. UU. tenía una dirección incorrecta. [13]
Una de las razones por las que los datos de contacto se vuelven obsoletos muy rápidamente en la base de datos promedio es que más de 45 millones de estadounidenses cambian su dirección cada año. [14]
De hecho, el problema es tan preocupante que las empresas están empezando a crear un equipo de gobernanza de datos cuyo único papel en la corporación es ser responsable de la calidad de los datos. En algunas organizaciones [¿ quiénes? ] , esta función de gobernanza de datos se ha establecido como parte de una función más amplia de cumplimiento normativo, lo que supone un reconocimiento de la importancia de la calidad de los datos y la información para las organizaciones.
Los problemas con la calidad de los datos no solo surgen de datos incorrectos ; los datos inconsistentes también son un problema. Eliminar los sistemas de almacenamiento oculto de datos y centralizar los datos en un almacén es una de las iniciativas que una empresa puede tomar para garantizar la coherencia de los datos.
Las empresas, los científicos y los investigadores están empezando a participar en comunidades de curación de datos para mejorar la calidad de sus datos comunes. [15]
El mercado está avanzando en la provisión de garantía de calidad de los datos. Varios proveedores crean herramientas para analizar y reparar datos de mala calidad in situ , los proveedores de servicios pueden limpiar los datos mediante un contrato y los consultores pueden brindar asesoramiento sobre cómo reparar procesos o sistemas para evitar problemas de calidad de los datos desde el principio. La mayoría de las herramientas de calidad de datos ofrecen una serie de herramientas para mejorar los datos, que pueden incluir algunas o todas las siguientes:
ISO 8000 es un estándar internacional para la calidad de datos. [16]
La garantía de calidad de los datos es el proceso de elaboración de perfiles de datos para descubrir inconsistencias y otras anomalías en los datos, así como la realización de actividades de limpieza de datos [17] [18] (por ejemplo, eliminación de valores atípicos , interpolación de datos faltantes ) para mejorar la calidad de los datos.
Estas actividades pueden llevarse a cabo como parte del almacenamiento de datos o como parte de la administración de la base de datos de un software de aplicación existente . [19]
El control de calidad de los datos es el proceso de controlar el uso de los datos para una aplicación o un proceso. Este proceso se lleva a cabo antes y después de un proceso de garantía de calidad de los datos (QA), que consiste en detectar inconsistencias en los datos y corregirlas.
Antes:
Después del proceso de control de calidad, se recopilan las siguientes estadísticas para guiar el proceso de control de calidad (QC):
El proceso de control de calidad de datos utiliza la información del proceso de control de calidad para decidir si se utilizan los datos para el análisis o en una aplicación o proceso empresarial. Ejemplo general: si un proceso de control de calidad de datos descubre que los datos contienen demasiados errores o inconsistencias, evita que se utilicen para el proceso previsto, lo que podría causar interrupciones. Ejemplo específico: proporcionar mediciones no válidas de varios sensores a la función de piloto automático de una aeronave podría provocar que se estrelle. Por lo tanto, establecer un proceso de control de calidad proporciona protección para el uso de los datos. [ cita requerida ]
La calidad de datos (DQ) es un área específica necesaria para la integridad de la gestión de datos, ya que cubre las lagunas que puedan surgir en relación con los problemas relacionados con los datos. Esta es una de las funciones clave que ayudan a la gobernanza de datos, ya que permite supervisar los datos para encontrar excepciones que no hayan sido descubiertas por las operaciones de gestión de datos actuales. Las comprobaciones de calidad de datos se pueden definir a nivel de atributo para tener un control total sobre los pasos de solución. [ cita requerida ]
Las comprobaciones de calidad de datos y las reglas de negocio pueden superponerse fácilmente si una organización no presta atención al alcance de su DQ. Los equipos de negocios deben comprender el alcance de DQ a fondo para evitar superposiciones. Las comprobaciones de calidad de datos son redundantes si la lógica empresarial cubre la misma funcionalidad y cumple el mismo propósito que DQ. El alcance de DQ de una organización debe definirse en la estrategia de DQ e implementarse correctamente. Algunas comprobaciones de calidad de datos pueden traducirse en reglas de negocio después de repetidas instancias de excepciones en el pasado. [ cita requerida ]
A continuación se presentan algunas áreas de flujos de datos que pueden necesitar verificaciones DQ periódicas:
Las comprobaciones de integridad y precisión de todos los datos se pueden realizar en el punto de entrada para cada atributo obligatorio de cada sistema de origen. Algunos valores de atributo se crean mucho después de la creación inicial de la transacción; en tales casos, la administración de estas comprobaciones se vuelve complicada y debe realizarse inmediatamente después de que se cumplan el evento definido de la fuente de ese atributo y las demás condiciones de atributo básicas de la transacción.
Todos los datos que tengan atributos que hagan referencia a los datos de referencia de la organización pueden validarse con el conjunto de valores válidos bien definidos de los datos de referencia para descubrir valores nuevos o discrepantes mediante la verificación de validez DQ. Los resultados pueden utilizarse para actualizar los datos de referencia administrados en el marco de la gestión de datos maestros (MDM) .
Todos los datos que provienen de un tercero y que se envían a los equipos internos de la organización pueden someterse a una verificación de precisión (DQ) en comparación con los datos de terceros. Estos resultados de la verificación DQ son valiosos cuando se administran en datos que han realizado múltiples saltos después del punto de entrada de esos datos, pero antes de que esos datos se autoricen o almacenen para la inteligencia empresarial.
Todas las columnas de datos que hacen referencia a los datos maestros pueden validarse para comprobar su coherencia . Una comprobación de calidad de datos realizada en los datos en el punto de entrada descubre nuevos datos para el proceso de MDM, pero una comprobación de calidad de datos realizada después del punto de entrada descubre la falla (no las excepciones) de coherencia.
A medida que los datos se transforman, se capturan múltiples marcas de tiempo y las posiciones de esas marcas de tiempo y se pueden comparar entre sí y con su margen de maniobra para validar su valor, deterioro y significancia operativa en relación con un SLA (acuerdo de nivel de servicio) definido. Esta verificación de calidad de datos de puntualidad se puede utilizar para reducir la tasa de deterioro del valor de los datos y optimizar las políticas de cronograma de movimiento de datos.
En una organización, la lógica compleja suele segregarse en una lógica más simple a lo largo de múltiples procesos. Las comprobaciones de calidad de datos de razonabilidad sobre una lógica tan compleja que produce un resultado lógico dentro de un rango específico de valores o interrelaciones estáticas (reglas de negocio agregadas) pueden validarse para descubrir procesos de negocio complicados pero cruciales y valores atípicos de los datos, su desviación de las expectativas habituales (BAU) y pueden proporcionar posibles excepciones que eventualmente resulten en problemas de datos. Esta comprobación puede ser una simple regla de agregación genérica envuelta en una gran cantidad de datos o puede ser una lógica complicada sobre un grupo de atributos de una transacción perteneciente al negocio principal de la organización. Esta comprobación de calidad de datos requiere un alto grado de conocimiento y perspicacia empresarial. El descubrimiento de problemas de razonabilidad puede ayudar a los cambios de política y estrategia ya sea por parte de la empresa o de la gobernanza de datos o de ambos.
Las comprobaciones de conformidad y de integridad no necesitan estar cubiertas por todas las necesidades del negocio, queda estrictamente a criterio de la arquitectura de la base de datos.
Existen muchos lugares en el movimiento de datos donde las verificaciones DQ pueden no ser necesarias. Por ejemplo, la verificación DQ de integridad y precisión en columnas no nulas es redundante para los datos provenientes de una base de datos. De manera similar, los datos deben ser validados para su precisión con respecto al tiempo cuando se combinan en distintas fuentes. Sin embargo, esa es una regla comercial y no debería estar dentro del alcance de DQ. [ cita requerida ]
Lamentablemente, desde una perspectiva de desarrollo de software, la calidad de datos suele considerarse un requisito no funcional y, como tal, los controles y procesos clave de calidad de datos no se tienen en cuenta en la solución de software final. En el ámbito de la atención sanitaria, las tecnologías portátiles o las redes de área corporal generan grandes volúmenes de datos. [20] El nivel de detalle necesario para garantizar la calidad de los datos es extremadamente alto y, a menudo, se subestima. Esto también es cierto para la gran mayoría de aplicaciones de mHealth , EHR y otras soluciones de software relacionadas con la salud. Sin embargo, existen algunas herramientas de código abierto que examinan la calidad de los datos. [21] La razón principal de esto se debe al coste adicional que implica y al mayor grado de rigor dentro de la arquitectura del software.
El uso de dispositivos móviles en el ámbito de la salud, o mHealth, plantea nuevos desafíos a la seguridad y privacidad de los datos sanitarios , de maneras que afectan directamente a la calidad de los mismos. [2] La mHealth es una estrategia cada vez más importante para la prestación de servicios sanitarios en países de ingresos bajos y medios. [22] Los teléfonos móviles y las tabletas se utilizan para la recopilación, la presentación de informes y el análisis de datos casi en tiempo real. Sin embargo, estos dispositivos móviles también se utilizan habitualmente para actividades personales, lo que los deja más vulnerables a los riesgos de seguridad que podrían dar lugar a violaciones de datos. Sin las salvaguardas de seguridad adecuadas, este uso personal podría poner en peligro la calidad, la seguridad y la confidencialidad de los datos sanitarios . [23]
En los últimos años, la calidad de los datos se ha convertido en un tema central de los programas de salud pública, especialmente a medida que aumenta la demanda de rendición de cuentas. [24] El trabajo hacia objetivos ambiciosos relacionados con la lucha contra enfermedades como el SIDA, la tuberculosis y la malaria debe basarse en sistemas sólidos de seguimiento y evaluación que produzcan datos de calidad relacionados con la implementación del programa. [25] Estos programas, y sus auditores, buscan cada vez más herramientas para estandarizar y agilizar el proceso de determinación de la calidad de los datos, [26] verificar la calidad de los datos notificados y evaluar los sistemas subyacentes de gestión de datos y presentación de informes para los indicadores. [27] Un ejemplo es la herramienta de revisión de la calidad de los datos de la OMS y MEASURE Evaluation . [28] La OMS, el Fondo Mundial, GAVI y MEASURE Evaluation han colaborado para producir un enfoque armonizado para el aseguramiento de la calidad de los datos en diferentes enfermedades y programas. [29]
Existen numerosos trabajos científicos dedicados al análisis de la calidad de los datos en fuentes de datos abiertas , como Wikipedia , Wikidata , DBpedia y otras. En el caso de Wikipedia, el análisis de calidad puede relacionarse con todo el artículo [30] . El modelado de la calidad se lleva a cabo mediante varios métodos. Algunos de ellos utilizan algoritmos de aprendizaje automático , incluidos Random Forest , [31] Support Vector Machine , [32] y otros. Los métodos para evaluar la calidad de los datos en Wikidata, DBpedia y otras fuentes LOD difieren. [33]
La Asociación de Gestión de Códigos de Comercio Electrónico (ECCMA, por sus siglas en inglés) es una asociación internacional sin fines de lucro, formada por miembros, cuyo compromiso es mejorar la calidad de los datos mediante la implementación de estándares internacionales. La ECCMA es actualmente la líder del proyecto para el desarrollo de las normas ISO 8000 e ISO 22745, que son los estándares internacionales para la calidad de los datos y el intercambio de datos maestros de materiales y servicios, respectivamente. La ECCMA proporciona una plataforma para la colaboración entre expertos en la materia sobre calidad y gobernanza de datos de todo el mundo para crear y mantener diccionarios globales y de estándares abiertos que se utilizan para etiquetar la información de forma inequívoca. La existencia de estos diccionarios de etiquetas permite que la información pase de un sistema informático a otro sin perder su significado. [35]
con un programa de gobernanza de datos estandarizado implica limpiar los datos corruptos o duplicados y proporcionar a los usuarios datos limpios y precisos como base para las aplicaciones de software de línea de negocios y para el análisis de apoyo a la toma de decisiones en aplicaciones de inteligencia empresarial (BI).
{{cite book}}
: CS1 maint: varios nombres: lista de autores ( enlace ){{cite book}}
: CS1 maint: varios nombres: lista de autores ( enlace )La validez se refiere a la utilidad, precisión y corrección de los datos para su aplicación. Tradicionalmente, esto se ha denominado calidad de los datos.