Datos ruidosos

Los datos ruidosos son datos corruptos, distorsionados o con una baja relación señal-ruido . Los procedimientos inadecuados (o mal documentados) para eliminar el ruido de los datos pueden generar una falsa sensación de precisión o conclusiones falsas.

Los datos ruidosos son aquellos que contienen una gran cantidad de información adicional sin sentido llamada ruido. ^[1] Esto incluye la corrupción de datos y el término se utiliza a menudo como sinónimo de datos corruptos. ^[1] También incluye cualquier dato que un sistema de usuario no pueda comprender e interpretar correctamente. Muchos sistemas, por ejemplo, no pueden utilizar texto no estructurado . Los datos ruidosos pueden afectar negativamente a los resultados de cualquier análisis de datos y distorsionar las conclusiones si no se manejan correctamente. A veces se utiliza el análisis estadístico para eliminar el ruido de los datos ruidosos. ^[1]

Fuentes de ruido

Las diferencias entre los datos medidos en el mundo real y los valores verdaderos se deben a múltiples factores que afectan la medición. ^[2]

El ruido aleatorio es a menudo un componente importante del ruido en los datos. ^[3] El ruido aleatorio en una señal se mide como la relación señal-ruido . El ruido aleatorio contiene cantidades casi iguales de una amplia gama de frecuencias, y también se denomina ruido blanco (ya que los colores de la luz se combinan para formar el blanco ). El ruido aleatorio es un problema inevitable. Afecta los procesos de recopilación y preparación de datos, donde suelen producirse errores. El ruido tiene dos fuentes principales: errores introducidos por herramientas de medición y errores aleatorios introducidos por el procesamiento o por expertos cuando se recopilan los datos. ^[4]

Un filtrado inadecuado puede añadir ruido si la señal filtrada se trata como si fuera una señal medida directamente. Por ejemplo, los filtros digitales de tipo convolucional, como el promedio móvil, pueden tener efectos secundarios como retrasos o truncamiento de picos. La diferenciación de los filtros digitales amplifica el ruido aleatorio en los datos originales.

Los datos atípicos son datos que parecen no pertenecer al conjunto de datos. Esto puede deberse a un error humano, como la transposición de números, el etiquetado incorrecto, errores de programación , etc. Si los valores atípicos reales no se eliminan del conjunto de datos, corrompen los resultados en un grado pequeño o grande según las circunstancias. Si se identifican datos válidos como atípicos y se eliminan por error, eso también corrompe los resultados.

Fraude: Las personas pueden distorsionar deliberadamente los datos para influir en los resultados y lograr una conclusión deseada. Los datos que parecen buenos y tienen pocos valores atípicos reflejan una buena imagen de la persona que los recopila, por lo que puede haber incentivos para eliminar más datos por ser valores atípicos o hacer que los datos parezcan más uniformes de lo que son.

Referencias

^ abc "¿Qué son datos ruidosos? - Definición de WhatIs.com".
^ "Datos ruidosos en minería de datos - Soft Computing y sistemas de información inteligentes". sci2s.ugr.es .
^ RY Wang, VC Storey, CP Firth, Un marco para el análisis de la investigación sobre calidad de datos, IEEE Transactions on Knowledge and Data Engineering 7 (1995) 623-640 doi: 10.1109/69.404034)
^ X. Zhu, X. Wu, Ruido de clase frente a ruido de atributo: un estudio cuantitativo, Artificial Intelligence Review 22 (2004) 177-210 doi: 10.1007/s10462-004-0751-8