stringtranslate.com

Datos ruidosos

Los datos ruidosos son datos corruptos, distorsionados o que tienen una relación señal-ruido baja . Los procedimientos inadecuados (o procedimientos mal documentados) para restar el ruido de los datos pueden generar una falsa sensación de precisión o conclusiones falsas.

Los datos ruidosos son datos que contienen una gran cantidad de información adicional sin sentido llamada ruido. [1] Esto incluye la corrupción de datos y el término se utiliza a menudo como sinónimo de datos corruptos. [1] También incluye cualquier dato que un sistema de usuario no pueda entender e interpretar correctamente. Muchos sistemas, por ejemplo, no pueden utilizar texto no estructurado . Los datos ruidosos pueden afectar negativamente los resultados de cualquier análisis de datos y sesgar las conclusiones si no se manejan adecuadamente. A veces se utiliza el análisis estadístico para eliminar el ruido de los datos ruidosos. [1]

Fuentes de ruido

En este ejemplo de valor atípico y filtrado, el punto t2 es un valor atípico. La transición suave hacia y desde el valor atípico se debe al filtrado y tampoco son datos válidos, sino más ruido. Presentar resultados filtrados (las transiciones suavizadas) como mediciones reales puede llevar a conclusiones falsas.
Este tipo de filtro (una media móvil ) desplaza los datos hacia la derecha. El precio medio móvil en un momento dado suele ser muy diferente del precio real en ese momento.

Las diferencias entre los datos medidos en el mundo real y los valores reales se deben a múltiples factores que afectan la medición. [2]

El ruido aleatorio suele ser un componente importante del ruido de los datos. [3] El ruido aleatorio en una señal se mide como la relación señal-ruido . El ruido aleatorio contiene cantidades casi iguales de una amplia gama de frecuencias y también se denomina ruido blanco (ya que los colores de la luz se combinan para formar el blanco ). El ruido aleatorio es un problema inevitable. Afecta los procesos de recopilación y preparación de datos, donde comúnmente ocurren errores. El ruido tiene dos fuentes principales: errores introducidos por las herramientas de medición y errores aleatorios introducidos por el procesamiento o por expertos cuando se recopilan los datos. [4]

Un filtrado inadecuado puede añadir ruido si la señal filtrada se trata como si fuera una señal medida directamente. Por ejemplo, los filtros digitales de tipo convolucional , como la media móvil, pueden tener efectos secundarios como retrasos o truncamiento de picos. Los filtros digitales diferenciadores amplifican el ruido aleatorio en los datos originales.

Los datos atípicos son datos que parecen no pertenecer al conjunto de datos. Puede ser causado por un error humano como la transposición de números, etiquetado incorrecto, errores de programación , etc. Si los valores atípicos reales no se eliminan del conjunto de datos, corrompen los resultados en un grado pequeño o grande dependiendo de las circunstancias. Si los datos válidos se identifican como valores atípicos y se eliminan por error, eso también corrompe los resultados.

Fraude: los individuos pueden distorsionar deliberadamente los datos para influir en los resultados hacia una conclusión deseada. Los datos que se ven bien con pocos valores atípicos reflejan bien a la persona que los recopila, por lo que puede haber un incentivo para eliminar más datos como valores atípicos o hacer que los datos parezcan más fluidos de lo que son.

Referencias

  1. ^ abc "¿Qué son los datos ruidosos? - Definición de WhatIs.com".
  2. ^ "Datos ruidosos en la minería de datos: informática suave y sistemas de información inteligentes". sci2s.ugr.es .
  3. ^ RY Wang, VC Storey, CP Firth, Un marco para el análisis de la investigación de la calidad de los datos, IEEE Transactions on Knowledge and Data Engineering 7 (1995) 623-640 doi: 10.1109/69.404034)
  4. ^ X. Zhu, X. Wu, Ruido de clase frente a ruido de atributo: un estudio cuantitativo, Revisión de inteligencia artificial 22 (2004) 177-210 doi: 10.1007/s10462-004-0751-8