En el modelado matemático, el sobreajuste es "la producción de un análisis que se corresponde demasiado de cerca o exactamente con un conjunto particular de datos y, por lo tanto, puede no ajustarse a datos adicionales o predecir observaciones futuras de manera confiable". [1] Un modelo sobreajustado es un modelo matemático que contiene más parámetros de los que pueden justificarse con los datos. [2] En un sentido matemático, estos parámetros representan el grado de un polinomio . La esencia del sobreajuste es haber extraído sin saberlo parte de la variación residual (es decir, el ruido ) como si esa variación representara la estructura subyacente del modelo. [3] : 45
El subajuste se produce cuando un modelo matemático no puede capturar adecuadamente la estructura subyacente de los datos. Un modelo subajustado es un modelo en el que faltan algunos parámetros o términos que aparecerían en un modelo correctamente especificado. [2] El subajuste se produciría, por ejemplo, al ajustar un modelo lineal a datos no lineales. Un modelo de este tipo tenderá a tener un rendimiento predictivo deficiente.
Existe la posibilidad de sobreajuste porque el criterio utilizado para seleccionar el modelo no es el mismo que el utilizado para juzgar su idoneidad. Por ejemplo, un modelo podría seleccionarse maximizando su rendimiento en un conjunto de datos de entrenamiento , y sin embargo su idoneidad podría estar determinada por su capacidad para funcionar bien en datos no vistos; el sobreajuste ocurre cuando un modelo comienza a "memorizar" datos de entrenamiento en lugar de "aprender" a generalizar a partir de una tendencia.
Como ejemplo extremo, si la cantidad de parámetros es igual o mayor que la cantidad de observaciones, entonces un modelo puede predecir perfectamente los datos de entrenamiento simplemente memorizando los datos en su totalidad. (Para una ilustración, consulte la Figura 2). Un modelo de este tipo, sin embargo, normalmente fallará severamente al hacer predicciones.
El sobreajuste está directamente relacionado con el error de aproximación de la clase de función seleccionada y el error de optimización del procedimiento de optimización. Es probable que una clase de función que sea demasiado grande, en un sentido adecuado, en relación con el tamaño del conjunto de datos se sobreajuste. [4] Incluso cuando el modelo ajustado no tiene una cantidad excesiva de parámetros, es de esperar que la relación ajustada parezca funcionar peor en un nuevo conjunto de datos que en el conjunto de datos utilizado para el ajuste (un fenómeno a veces conocido como contracción ). [2] En particular, el valor del coeficiente de determinación se reducirá en relación con los datos originales.
Para reducir la posibilidad o la cantidad de sobreajuste, existen varias técnicas disponibles (por ejemplo, comparación de modelos , validación cruzada , regularización , detención temprana , poda , priores bayesianos o abandono ). La base de algunas técnicas es (1) penalizar explícitamente los modelos demasiado complejos o (2) probar la capacidad del modelo para generalizar evaluando su desempeño en un conjunto de datos no utilizados para el entrenamiento, que se supone que se aproxima a los datos no vistos típicos que encontrará un modelo.
En estadística, se extrae una inferencia a partir de un modelo estadístico , que se ha seleccionado mediante algún procedimiento. Burnham y Anderson, en su texto muy citado sobre la selección de modelos, sostienen que para evitar el sobreajuste, debemos adherirnos al " Principio de parsimonia ". [3] Los autores también afirman lo siguiente. [3] : 32–33
Los modelos sobreajustados... a menudo no tienen sesgos en los estimadores de parámetros, pero tienen varianzas de muestreo estimadas (y reales) que son innecesariamente grandes (la precisión de los estimadores es deficiente, en relación con lo que se podría haber logrado con un modelo más parsimonioso). Los modelos sobreajustados tienden a identificar efectos de tratamiento falsos y se incluyen variables falsas. ... Un modelo de mejor aproximación se logra al equilibrar adecuadamente los errores de subajuste y sobreajuste.
Es más probable que el sobreajuste sea un problema grave cuando hay poca teoría disponible para guiar el análisis, en parte porque entonces suele haber una gran cantidad de modelos para seleccionar. El libro Model Selection and Model Averaging (2008) lo expresa de esta manera. [5]
Dado un conjunto de datos, se pueden ajustar miles de modelos con solo pulsar un botón, pero ¿cómo se elige el mejor? Con tantos modelos candidatos, el sobreajuste es un verdadero peligro. ¿Es el mono que escribió Hamlet un buen escritor?
En el análisis de regresión , el sobreajuste ocurre con frecuencia. [6] Como ejemplo extremo, si hay p variables en una regresión lineal con p puntos de datos, la línea ajustada puede pasar exactamente por cada punto. [7] Para la regresión logística o los modelos de riesgos proporcionales de Cox , hay una variedad de reglas generales (por ejemplo, 5-9, [8] 10 [9] y 10-15 [10] ; la directriz de 10 observaciones por variable independiente se conoce como la " regla de uno en diez "). En el proceso de selección del modelo de regresión, el error cuadrático medio de la función de regresión aleatoria se puede dividir en ruido aleatorio, sesgo de aproximación y varianza en la estimación de la función de regresión. El equilibrio sesgo-varianza se utiliza a menudo para superar los modelos de sobreajuste.
Si se cuenta con un conjunto grande de variables explicativas que en realidad no tienen relación con la variable dependiente que se está prediciendo, algunas variables se considerarán estadísticamente significativas de manera errónea y el investigador puede, por lo tanto, retenerlas en el modelo, sobreajustándolo. Esto se conoce como la paradoja de Freedman .
Por lo general, un algoritmo de aprendizaje se entrena utilizando un conjunto de "datos de entrenamiento": situaciones ejemplares para las que se conoce el resultado deseado. El objetivo es que el algoritmo también tenga un buen rendimiento en la predicción del resultado cuando se le suministran "datos de validación" que no se encontraron durante su entrenamiento.
El sobreajuste es el uso de modelos o procedimientos que violan la navaja de Occam , por ejemplo, al incluir más parámetros ajustables de los que son en última instancia óptimos, o al utilizar un enfoque más complicado que el que es en última instancia óptimo. Para un ejemplo donde hay demasiados parámetros ajustables, considere un conjunto de datos donde los datos de entrenamiento para y pueden predecirse adecuadamente por una función lineal de dos variables independientes. Tal función requiere solo tres parámetros (la intersección y dos pendientes). Reemplazar esta función simple con una función cuadrática nueva y más compleja, o con una función lineal nueva y más compleja en más de dos variables independientes, conlleva un riesgo: la navaja de Occam implica que cualquier función compleja dada es a priori menos probable que cualquier función simple dada. Si se selecciona la función nueva, más complicada, en lugar de la función simple, y si no hubo una ganancia lo suficientemente grande en el ajuste de los datos de entrenamiento para compensar el aumento de la complejidad, entonces la nueva función compleja "sobreajusta" los datos y la función compleja sobreajustada probablemente tendrá un peor desempeño que la función más simple en datos de validación fuera del conjunto de datos de entrenamiento, aunque la función compleja tuvo un desempeño tan bueno, o quizás incluso mejor, en el conjunto de datos de entrenamiento. [11]
Al comparar distintos tipos de modelos, la complejidad no se puede medir únicamente contando cuántos parámetros existen en cada modelo; también se debe considerar la expresividad de cada parámetro. Por ejemplo, no es trivial comparar directamente la complejidad de una red neuronal (que puede rastrear relaciones curvilíneas) con m parámetros con un modelo de regresión con n parámetros. [11]
El sobreajuste es especialmente probable en casos en los que el aprendizaje se realizó durante demasiado tiempo o en los que los ejemplos de entrenamiento son escasos, lo que hace que el alumno se ajuste a características aleatorias muy específicas de los datos de entrenamiento que no tienen una relación causal con la función objetivo . En este proceso de sobreajuste, el rendimiento en los ejemplos de entrenamiento sigue aumentando, mientras que el rendimiento en los datos no vistos empeora.
Como ejemplo simple, considere una base de datos de compras minoristas que incluye el artículo comprado, el comprador y la fecha y hora de la compra. Es fácil construir un modelo que se ajuste perfectamente al conjunto de entrenamiento utilizando la fecha y hora de la compra para predecir los otros atributos, pero este modelo no se generalizará en absoluto a nuevos datos porque esos momentos pasados nunca volverán a ocurrir.
En general, se dice que un algoritmo de aprendizaje se ajusta en exceso en relación con uno más simple si es más preciso al ajustar los datos conocidos (visión retrospectiva) pero menos preciso al predecir nuevos datos (visión prospectiva). Se puede entender intuitivamente el sobreajuste a partir del hecho de que la información de toda la experiencia pasada se puede dividir en dos grupos: información que es relevante para el futuro e información irrelevante ("ruido"). En igualdad de condiciones, cuanto más difícil sea predecir un criterio (es decir, cuanto mayor sea su incertidumbre), más ruido existe en la información pasada que debe ignorarse. El problema es determinar qué parte ignorar. Un algoritmo de aprendizaje que puede reducir el riesgo de ruido de ajuste se llama " robusto ".
La consecuencia más obvia del sobreajuste es un rendimiento deficiente en el conjunto de datos de validación. Otras consecuencias negativas incluyen:
La función óptima suele requerir verificación en conjuntos de datos más grandes o completamente nuevos. Sin embargo, existen métodos como el árbol de expansión mínimo o el tiempo de vida de la correlación que aplican la dependencia entre los coeficientes de correlación y las series temporales (ancho de la ventana). Siempre que el ancho de la ventana sea lo suficientemente grande, los coeficientes de correlación serán estables y ya no dependerán del tamaño del ancho de la ventana. Por lo tanto, se puede crear una matriz de correlación calculando un coeficiente de correlación entre las variables investigadas. Esta matriz se puede representar topológicamente como una red compleja donde se visualizan las influencias directas e indirectas entre las variables.
La regularización por abandono (eliminación aleatoria de datos del conjunto de entrenamiento) también puede mejorar la robustez y, por lo tanto, reducir el sobreajuste al eliminar de manera probabilística las entradas de una capa.
El subajuste es lo inverso del sobreajuste, lo que significa que el modelo estadístico o el algoritmo de aprendizaje automático es demasiado simplista para capturar con precisión los patrones en los datos. Una señal de subajuste es que se detecta un sesgo alto y una varianza baja en el modelo o algoritmo actual utilizado (lo inverso del sobreajuste: sesgo bajo y varianza alta ). Esto se puede deducir del equilibrio entre sesgo y varianza , que es el método de análisis de un modelo o algoritmo para detectar errores de sesgo, errores de varianza y errores irreducibles. Con un sesgo alto y una varianza baja, el resultado del modelo es que representará de manera inexacta los puntos de datos y, por lo tanto, no podrá predecir los resultados de datos futuros de manera suficiente (consulte Error de generalización ). Como se muestra en la Figura 5, la línea lineal no pudo representar todos los puntos de datos dados debido a que la línea no se asemeja a la curvatura de los puntos. Esperaríamos ver una línea con forma de parábola como se muestra en la Figura 6 y la Figura 1. Si utilizáramos la Figura 5 para el análisis, obtendríamos resultados predictivos falsos contrarios a los resultados si analizáramos la Figura 6.
Burnham y Anderson afirman lo siguiente. [3] : 32
... un modelo insuficientemente ajustado ignoraría alguna estructura importante replicable (es decir, conceptualmente replicable en la mayoría de las demás muestras) en los datos y, por lo tanto, no lograría identificar efectos que en realidad estaban respaldados por los datos. En este caso, el sesgo en los estimadores de parámetros suele ser sustancial y la varianza de muestreo se subestima; ambos factores dan como resultado una cobertura deficiente del intervalo de confianza. Los modelos insuficientemente ajustados tienden a pasar por alto efectos importantes del tratamiento en entornos experimentales.
Existen múltiples formas de abordar el problema del desajuste:
El sobreajuste benigno describe el fenómeno de un modelo estadístico que parece generalizarse bien a datos no vistos, incluso cuando se ha ajustado perfectamente en datos de entrenamiento ruidosos (es decir, obtiene una precisión predictiva perfecta en el conjunto de entrenamiento). El fenómeno es de particular interés en redes neuronales profundas , pero se estudia desde una perspectiva teórica en el contexto de modelos mucho más simples, como la regresión lineal . En particular, se ha demostrado que la sobreparametrización es esencial para el sobreajuste benigno en este entorno. En otras palabras, la cantidad de direcciones en el espacio de parámetros que no son importantes para la predicción debe exceder significativamente el tamaño de la muestra. [16]