Ruido determinista

En el aprendizaje automático (supervisado) , específicamente cuando se aprende a partir de datos, hay situaciones en las que los valores de los datos no se pueden modelar. Esto puede surgir si hay fluctuaciones aleatorias o errores de medición en los datos que no están modelados, y se puede llamar apropiadamente ruido estocástico ; o, cuando el fenómeno que se está modelando (o aprendiendo) es demasiado complejo, y por lo tanto los datos contienen esta complejidad agregada que no está modelada. Esta complejidad agregada en los datos se ha llamado ruido determinista . ^[1] Aunque estos dos tipos de ruido surgen de diferentes causas, su efecto adverso en el aprendizaje es similar. El sobreajuste ocurre porque el modelo intenta ajustar el ruido (estocástico o determinista) (esa parte de los datos que no puede modelar) a expensas de ajustar esa parte de los datos que puede modelar. Cuando cualquiera de los dos tipos de ruido está presente, generalmente es recomendable regularizar el algoritmo de aprendizaje para evitar sobreajustar el modelo a los datos y obtener un rendimiento inferior. La regularización generalmente da como resultado un modelo de varianza menor a expensas del sesgo .

También se puede intentar aliviar los efectos del ruido detectando y eliminando los ejemplos de entrenamiento ruidosos antes de entrenar el algoritmo de aprendizaje supervisado. Existen varios algoritmos que identifican los ejemplos de entrenamiento ruidosos y, por lo general, la eliminación de los ejemplos de entrenamiento que se sospecha que son ruidosos antes del entrenamiento mejorará el rendimiento. ^[2]^[3]

Referencias

^ Yaser S. Abu-Mostafa; Malik Magdon-Ismail; Hsuan-Tien Lin (marzo de 2012). Aprendiendo de los datos. amlbook.
^ CE Brodely y MA Friedl (1999). Identificación y eliminación de instancias de entrenamiento mal etiquetadas, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf Archivado el 12 de mayo de 2016 en Wayback Machine )
^ MR Smith; T. Martinez (2011). "Mejora de la precisión de la clasificación mediante la identificación y eliminación de instancias que deberían clasificarse incorrectamente". Actas de la Conferencia conjunta internacional sobre redes neuronales (IJCNN 2011) . págs. 2690–2697. CiteSeerX 10.1.1.221.1371 . doi :10.1109/IJCNN.2011.6033571.