En el aprendizaje automático (supervisado) , específicamente cuando se aprende a partir de datos, hay situaciones en las que los valores de los datos no se pueden modelar. Esto puede surgir si hay fluctuaciones aleatorias o errores de medición en los datos que no están modelados, y se puede llamar apropiadamente ruido estocástico ; o, cuando el fenómeno que se está modelando (o aprendiendo) es demasiado complejo, y por lo tanto los datos contienen esta complejidad agregada que no está modelada. Esta complejidad agregada en los datos se ha llamado ruido determinista . [1] Aunque estos dos tipos de ruido surgen de diferentes causas, su efecto adverso en el aprendizaje es similar. El sobreajuste ocurre porque el modelo intenta ajustar el ruido (estocástico o determinista) (esa parte de los datos que no puede modelar) a expensas de ajustar esa parte de los datos que puede modelar. Cuando cualquiera de los dos tipos de ruido está presente, generalmente es recomendable regularizar el algoritmo de aprendizaje para evitar sobreajustar el modelo a los datos y obtener un rendimiento inferior. La regularización generalmente da como resultado un modelo de varianza menor a expensas del sesgo .
También se puede intentar aliviar los efectos del ruido detectando y eliminando los ejemplos de entrenamiento ruidosos antes de entrenar el algoritmo de aprendizaje supervisado. Existen varios algoritmos que identifican los ejemplos de entrenamiento ruidosos y, por lo general, la eliminación de los ejemplos de entrenamiento que se sospecha que son ruidosos antes del entrenamiento mejorará el rendimiento. [2] [3]