Los datos ruidosos son datos corruptos, distorsionados o que tienen una relación señal-ruido baja . Los procedimientos inadecuados (o procedimientos mal documentados) para restar el ruido de los datos pueden generar una falsa sensación de precisión o conclusiones falsas.
Los datos ruidosos son datos que contienen una gran cantidad de información adicional sin sentido llamada ruido. [1] Esto incluye la corrupción de datos y el término se utiliza a menudo como sinónimo de datos corruptos. [1] También incluye cualquier dato que un sistema de usuario no pueda entender e interpretar correctamente. Muchos sistemas, por ejemplo, no pueden utilizar texto no estructurado . Los datos ruidosos pueden afectar negativamente los resultados de cualquier análisis de datos y sesgar las conclusiones si no se manejan adecuadamente. A veces se utiliza el análisis estadístico para eliminar el ruido de los datos ruidosos. [1]
Las diferencias entre los datos medidos en el mundo real y los valores reales se deben a múltiples factores que afectan la medición. [2]
El ruido aleatorio suele ser un componente importante del ruido de los datos. [3] El ruido aleatorio en una señal se mide como la relación señal-ruido . El ruido aleatorio contiene cantidades casi iguales de una amplia gama de frecuencias y también se denomina ruido blanco (ya que los colores de la luz se combinan para formar el blanco ). El ruido aleatorio es un problema inevitable. Afecta los procesos de recopilación y preparación de datos, donde comúnmente ocurren errores. El ruido tiene dos fuentes principales: errores introducidos por las herramientas de medición y errores aleatorios introducidos por el procesamiento o por expertos cuando se recopilan los datos. [4]
Un filtrado inadecuado puede añadir ruido si la señal filtrada se trata como si fuera una señal medida directamente. Por ejemplo, los filtros digitales de tipo convolucional , como la media móvil, pueden tener efectos secundarios como retrasos o truncamiento de picos. Los filtros digitales diferenciadores amplifican el ruido aleatorio en los datos originales.
Los datos atípicos son datos que parecen no pertenecer al conjunto de datos. Puede ser causado por un error humano como la transposición de números, etiquetado incorrecto, errores de programación , etc. Si los valores atípicos reales no se eliminan del conjunto de datos, corrompen los resultados en un grado pequeño o grande dependiendo de las circunstancias. Si los datos válidos se identifican como valores atípicos y se eliminan por error, eso también corrompe los resultados.
Fraude: los individuos pueden distorsionar deliberadamente los datos para influir en los resultados hacia una conclusión deseada. Los datos que se ven bien con pocos valores atípicos reflejan bien a la persona que los recopila, por lo que puede haber un incentivo para eliminar más datos como valores atípicos o hacer que los datos parezcan más fluidos de lo que son.