Error de generalización

Para aplicaciones de aprendizaje supervisado en aprendizaje automático y teoría de aprendizaje estadístico , el error de generalización ^[1] (también conocido como error fuera de muestra ^[2] o riesgo ) es una medida de la precisión con la que un algoritmo es capaz de predecir valores de resultados para datos no vistos previamente. Debido a que los algoritmos de aprendizaje se evalúan en muestras finitas, la evaluación de un algoritmo de aprendizaje puede ser sensible al error de muestreo . Como resultado, las mediciones del error de predicción en los datos actuales pueden no proporcionar mucha información sobre la capacidad predictiva en nuevos datos. El error de generalización se puede minimizar evitando el sobreajuste en el algoritmo de aprendizaje. El rendimiento de un algoritmo de aprendizaje automático se visualiza mediante gráficos que muestran valores de estimaciones del error de generalización a través del proceso de aprendizaje, que se denominan curvas de aprendizaje .

Definición

En un problema de aprendizaje, el objetivo es desarrollar una función que prediga valores de salida para cada dato de entrada . El subíndice indica que la función se desarrolla en función de un conjunto de puntos de datos. El error de generalización o la pérdida esperada o el riesgo de una función particular sobre todos los valores posibles de y es el valor esperado de la función de pérdida : ^[1] $f_{n}({\vec {x}})$ ${\estilo de visualización y}$ ${\vec {x}}$ ${\estilo de visualización n}$ $Estilo de visualización f_{n}$ ${\estilo de visualización n}$ $I[f]$ ${\estilo de visualización f}$ ${\vec {x}}$ ${\estilo de visualización y}$ $V(f)$

I[f]=\int _{X\times Y}V(f({\vec {x}}),y)\rho ({\vec {x}},y)d{\vec { x}}dy,

¿Dónde está la distribución de probabilidad conjunta desconocida para y ? $\rho({\vec {x}},y)$ ${\vec {x}}$ ${\estilo de visualización y}$

Sin conocer la distribución de probabilidad conjunta , es imposible calcular . En cambio, podemos calcular el error en los datos de muestra, que se denomina error empírico (o riesgo empírico ). Dados los puntos de datos, el error empírico de una función candidata es: ${\estilo de visualización \rho}$ $I[f]$ ${\estilo de visualización n}$ ${\estilo de visualización f}$

I_{n}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

Se dice que un algoritmo se generaliza si:

\lim_{n\rightarrow \infty}I[f]-I_{n}[f]=0

De particular importancia es el error de generalización de la función dependiente de los datos que se encuentra mediante un algoritmo de aprendizaje basado en la muestra. Nuevamente, para una distribución de probabilidad desconocida, no se puede calcular. En cambio, el objetivo de muchos problemas en la teoría del aprendizaje estadístico es limitar o caracterizar la diferencia entre el error de generalización y el error empírico en la probabilidad: $I[f_{n}]$ $Estilo de visualización f_{n}$ $I[f_{n}]$

P_{G}=P(I[f_{n}]-I_{n}[f_{n}]\leq \epsilon )\geq 1-\delta _{n}

Es decir, el objetivo es caracterizar la probabilidad de que el error de generalización sea menor que el error empírico más algún límite de error (generalmente dependiente de y ). Para muchos tipos de algoritmos, se ha demostrado que un algoritmo tiene límites de generalización si cumple ciertos criterios de estabilidad . Específicamente, si un algoritmo es simétrico (el orden de las entradas no afecta el resultado), tiene pérdida limitada y cumple dos condiciones de estabilidad, se generalizará. La primera condición de estabilidad, estabilidad de validación cruzada de dejar uno fuera , dice que para ser estable, el error de predicción para cada punto de datos cuando se utiliza la validación cruzada de dejar uno fuera debe converger a cero como . La segunda condición, estabilidad del error esperado para dejar uno fuera (también conocida como estabilidad de hipótesis si opera en la norma ) se cumple si la predicción en un punto de datos excluido no cambia cuando se elimina un solo punto de datos del conjunto de datos de entrenamiento. ^[3] $1-\delta _{n}$ $\epsilon$ $\delta$ $n$ $n\rightarrow \infty$ $L_{1}$

Estas condiciones pueden formalizarse como:

Validación cruzada con exclusión de uno Estabilidad

Un algoritmo tiene estabilidad si para cada , existe un y tal que: $L$ $CVloo$ $n$ $\beta _{CV}^{(n)}$ $\delta _{CV}^{(n)}$

\forall i\in \{1,...,n\},\mathbb {P} _{S}\{|V(f_{S^{i}},z_{i})-V(f_{S},z_{i})|\leq \beta _{CV}^{(n)}\}\geq 1-\delta _{CV}^{(n)}

y va a cero como tiende al infinito. ^[3] $\beta _{CV}^{(n)}$ $\delta _{CV}^{(n)}$ $n$

Error esperado de dejar uno fuera Estabilidad

Un algoritmo tiene estabilidad si para cada uno existe un y un tales que: $L$ $Eloo_{err}$ $n$ $\beta _{EL}^{m}$ $\delta _{EL}^{m}$

\forall i\in \{1,...,n\},\mathbb {P} _{S}\left\{\left|I[f_{S}]-{\frac {1}{n}}\sum _{i=1}^{N}V\left(f_{S^{i}},z_{i}\right)\right|\leq \beta _{EL}^{(n)}\right\}\geq 1-\delta _{EL}^{(n)}

con y yendo a cero para . $\beta _{EL}^{(n)}$ $\delta _{EL}^{(n)}$ $n\rightarrow \infty$

Para la estabilidad de dejar uno fuera en la norma, esto es lo mismo que la estabilidad de la hipótesis: $L_{1}$

\mathbb {E} _{S,z}[|V(f_{S},z)-V(f_{S^{i}},z)|]\leq \beta _{H}^{(n)}

con tendencia a cero como tendencia al infinito. ^[3] $\beta _{H}^{(n)}$ $n$

Algoritmos con estabilidad demostrada

Se ha demostrado que varios algoritmos son estables y, como resultado, tienen límites en su error de generalización. Una lista de estos algoritmos y los artículos que demostraron su estabilidad está disponible aquí .

Relación con el sobreajuste

Esta figura ilustra la relación entre el sobreajuste y el error de generalización I [ *f _n* ] - *I _S* [ *f _n* ]. Los puntos de datos se generaron a partir de la relación y = x con ruido blanco agregado a los valores y . En la columna de la izquierda, se muestra un conjunto de puntos de entrenamiento en azul. Se ajustó una función polinómica de séptimo orden a los datos de entrenamiento. En la columna de la derecha, la función se prueba en datos muestreados de la distribución de probabilidad conjunta subyacente de x e y . En la fila superior, la función se ajusta a un conjunto de datos de muestra de 10 puntos de datos. En la fila inferior, la función se ajusta a un conjunto de datos de muestra de 100 puntos de datos. Como podemos ver, para tamaños de muestra pequeños y funciones complejas, el error en el conjunto de entrenamiento es pequeño, pero el error en la distribución subyacente de datos es grande y hemos sobreajustado los datos. Como resultado, el error de generalización es grande. A medida que aumenta la cantidad de puntos de muestra, el error de predicción en los datos de entrenamiento y prueba converge y el error de generalización llega a 0.

Los conceptos de error de generalización y sobreajuste están estrechamente relacionados. El sobreajuste ocurre cuando la función aprendida se vuelve sensible al ruido en la muestra. Como resultado, la función tendrá un buen desempeño en el conjunto de entrenamiento, pero no en otros datos de la distribución de probabilidad conjunta de y . Por lo tanto, cuanto mayor sea el sobreajuste, mayor será el error de generalización. $f_{S}$ $x$ $y$

La cantidad de sobreajuste se puede probar utilizando métodos de validación cruzada , que dividen la muestra en muestras de entrenamiento simuladas y muestras de prueba. Luego, el modelo se entrena en una muestra de entrenamiento y se evalúa en la muestra de prueba. La muestra de prueba no ha sido vista previamente por el algoritmo y, por lo tanto, representa una muestra aleatoria de la distribución de probabilidad conjunta de y . Esta muestra de prueba nos permite aproximar el error esperado y, como resultado, aproximarnos a una forma particular del error de generalización. $x$ $y$

Existen muchos algoritmos para evitar el sobreajuste. El algoritmo de minimización puede penalizar funciones más complejas (conocido como regularización de Tikhonov ) o se puede restringir el espacio de hipótesis, ya sea explícitamente en la forma de las funciones o agregando restricciones a la función de minimización (regularización de Ivanov).

El enfoque para encontrar una función que no se sobreajuste es incompatible con el objetivo de encontrar una función que sea lo suficientemente compleja para capturar las características particulares de los datos. Esto se conoce como el equilibrio entre sesgo y varianza . Mantener una función simple para evitar el sobreajuste puede introducir un sesgo en las predicciones resultantes, mientras que permitir que sea más compleja conduce al sobreajuste y a una mayor varianza en las predicciones. Es imposible minimizar ambos simultáneamente.

Referencias

^ ab Mohri, M., Rostamizadeh A., Talwakar A., (2018) Fundamentos del aprendizaje automático , 2.ª ed., Boston: MIT Press
^ Y S. Abu-Mostafa, M. Magdon-Ismail y H.-T. Lin (2012) Aprendiendo de los datos, AMLBook Press. ISBN 978-1600490064
^ abc Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., RM (2006). "Teoría del aprendizaje: la estabilidad es suficiente para la generalización y necesaria y suficiente para la consistencia de la minimización empírica del riesgo" (PDF) . Adv. Comput. Math . 25 (1–3): 161–193. doi :10.1007/s10444-004-7634-z. S2CID 2240256.

Lectura adicional

Olivier, Bousquet; Luxburg, Ulrike; Rätsch, Gunnar, eds. (2004). Advanced Lectures on Machine Learning. Apuntes de clase en informática. Vol. 3176. págs. 169–207. doi :10.1007/b100712. ISBN. 978-3-540-23122-6. S2CID 431437 . Consultado el 10 de diciembre de 2022 .
Bousquet, Olivier; Elisseeff, Andr´e (1 de marzo de 2002). "Estabilidad y generalización". The Journal of Machine Learning Research . 2 : 499–526. doi :10.1162/153244302760200704. S2CID 1157797 . Consultado el 10 de diciembre de 2022 .
Mohri, M., Rostamizadeh A., Talwakar A., (2018) Fundamentos del aprendizaje automático , 2.ª ed., Boston: MIT Press.
Moody, JE (1992), "El número efectivo de parámetros: un análisis de generalización y regularización en sistemas de aprendizaje no lineal Archivado el 10 de septiembre de 2016 en Wayback Machine ", en Moody, JE, Hanson, SJ y Lippmann, RP, Advances in Neural Information Processing Systems 4, 847–854.
White, H. (1992b), Redes neuronales artificiales: aproximación y teoría del aprendizaje , Blackwell.