Teoría del aprendizaje estadístico

La teoría del aprendizaje estadístico es un marco para el aprendizaje automático basado en los campos de la estadística y el análisis funcional.

[1]​[2]​[3]​ La teoría del aprendizaje estadístico aborda el problema de la inferencia estadística para encontrar una función predictiva basada en datos.

La teoría del aprendizaje estadístico ha dado lugar a aplicaciones de éxito en campos como la visión por computadora, el reconocimiento del habla y la bioinformática.

Los objetivos del aprendizaje son la comprensión y la predicción.

[4]​ Cada punto del entrenamiento es un par de entrada-salida, en el que la entrada se asigna a una salida.

El problema de aprendizaje consiste en inferir la función que relaciona la entrada y la salida, de forma que la función aprendida pueda utilizarse para predecir la salida a partir de entradas futuras.

Utilizando la ley de Ohm[5]​ como ejemplo, se podría realizar una regresión con el voltaje como entrada y la corriente como salida.

La regresión encontraría que la relación funcional entre el voltaje y la corriente es

La clasificación es muy común en las aplicaciones de aprendizaje automático.

como el espacio vectorial de todas las entradas posibles, e

el espacio vectorial de todos los resultados posibles.

La teoría del aprendizaje estadístico adopta la perspectiva de que existe una distribución de probabilidad desconocida sobre el espacio producto

En este formalismo, el problema de inferencia consiste en encontrar una función

que se puede elegir, viene dada por

es desconocida, debe utilizarse una medida aproximada del riesgo esperado.

Riesgo empírico se denomina de la siguiente forma:

Un algoritmo de aprendizaje que elige la función

Es importante que la función de pérdida sea convexa.

Esta conocida función de pérdida se utiliza en la regresión por mínimos cuadrados ordinarios.

A veces también se utiliza la pérdida de valor absoluto (también conocida como norma L1):

Dado que el aprendizaje es un problema de predicción, el objetivo no es encontrar una función que se ajuste lo más posible a los datos (previamente observados), sino encontrar una que prediga con la mayor exactitud la salida a partir de la entrada futura.

La minimización empírica del riesgo corre este riesgo de sobreajuste: encontrar una función que se ajuste exactamente a los datos pero que no prediga bien el resultado futuro.

El sobreajuste es síntoma de soluciones inestables; una pequeña perturbación en los datos del conjunto de entrenamiento provocaría una gran variación en la función aprendida.

La regularización puede lograrse restringiendo el espacio de hipótesis

también podría restringirse a polinomios de grado

La restricción del espacio de hipótesis evita el sobreajuste porque la forma de las funciones potenciales es limitada y, por tanto, no permite elegir una función que dé un riesgo empírico arbitrariamente cercano a cero.

, podemos aplicar la desigualdad de Hoeffding para limitar la probabilidad de que el riesgo empírico se desvíe del riesgo real a una distribución subgaussiana.

Pero, por lo general, cuando hacemos minimización empírica del riesgo, no se nos da un clasificador; debemos elegirlo.

Por lo tanto, un resultado más útil es acotar la probabilidad del sumo de la diferencia sobre toda la clase.

El término exponencial procede de Hoeffding, pero hay un coste adicional por tomar el supremo sobre toda la clase, que es el número de fragmentación.

Esta imagen representa un ejemplo de sobreajuste en el aprendizaje automático. Los puntos rojos representan los datos del conjunto de entrenamiento. La línea verde representa la verdadera relación funcional, mientras que la línea azul muestra la función aprendida, que se ha sobreajustado a los datos del conjunto de entrenamiento.