Sobreajuste

Figura 1. La línea verde representa un modelo sobreajustado y la línea negra representa un modelo regularizado. Si bien la línea verde sigue mejor los datos de entrenamiento, depende demasiado de ellos y es probable que tenga una tasa de error más alta en los datos nuevos no vistos, ilustrados por puntos delineados en negro, en comparación con la línea negra.

En el modelado matemático, el sobreajuste es "la producción de un análisis que se corresponde demasiado de cerca o exactamente con un conjunto particular de datos y, por lo tanto, puede no ajustarse a datos adicionales o predecir observaciones futuras de manera confiable". ^[1] Un modelo sobreajustado es un modelo matemático que contiene más parámetros de los que pueden justificarse con los datos. ^[2] En un sentido matemático, estos parámetros representan el grado de un polinomio . La esencia del sobreajuste es haber extraído sin saberlo parte de la variación residual (es decir, el ruido ) como si esa variación representara la estructura subyacente del modelo. ^[3]^{: 45}

El subajuste se produce cuando un modelo matemático no puede capturar adecuadamente la estructura subyacente de los datos. Un modelo subajustado es un modelo en el que faltan algunos parámetros o términos que aparecerían en un modelo correctamente especificado. ^[2] El subajuste se produciría, por ejemplo, al ajustar un modelo lineal a datos no lineales. Un modelo de este tipo tenderá a tener un rendimiento predictivo deficiente.

Existe la posibilidad de sobreajuste porque el criterio utilizado para seleccionar el modelo no es el mismo que el utilizado para juzgar su idoneidad. Por ejemplo, un modelo podría seleccionarse maximizando su rendimiento en un conjunto de datos de entrenamiento , y sin embargo su idoneidad podría estar determinada por su capacidad para funcionar bien en datos no vistos; el sobreajuste ocurre cuando un modelo comienza a "memorizar" datos de entrenamiento en lugar de "aprender" a generalizar a partir de una tendencia.

Como ejemplo extremo, si la cantidad de parámetros es igual o mayor que la cantidad de observaciones, entonces un modelo puede predecir perfectamente los datos de entrenamiento simplemente memorizando los datos en su totalidad. (Para una ilustración, consulte la Figura 2). Un modelo de este tipo, sin embargo, normalmente fallará severamente al hacer predicciones.

El sobreajuste está directamente relacionado con el error de aproximación de la clase de función seleccionada y el error de optimización del procedimiento de optimización. Es probable que una clase de función que sea demasiado grande, en un sentido adecuado, en relación con el tamaño del conjunto de datos se sobreajuste. ^[4] Incluso cuando el modelo ajustado no tiene una cantidad excesiva de parámetros, es de esperar que la relación ajustada parezca funcionar peor en un nuevo conjunto de datos que en el conjunto de datos utilizado para el ajuste (un fenómeno a veces conocido como contracción ). ^[2] En particular, el valor del coeficiente de determinación se reducirá en relación con los datos originales.

Para reducir la posibilidad o la cantidad de sobreajuste, existen varias técnicas disponibles (por ejemplo, comparación de modelos , validación cruzada , regularización , detención temprana , poda , priores bayesianos o abandono ). La base de algunas técnicas es (1) penalizar explícitamente los modelos demasiado complejos o (2) probar la capacidad del modelo para generalizar evaluando su desempeño en un conjunto de datos no utilizados para el entrenamiento, que se supone que se aproxima a los datos no vistos típicos que encontrará un modelo.

Inferencia estadística

En estadística, se extrae una inferencia a partir de un modelo estadístico , que se ha seleccionado mediante algún procedimiento. Burnham y Anderson, en su texto muy citado sobre la selección de modelos, sostienen que para evitar el sobreajuste, debemos adherirnos al " Principio de parsimonia ". ^[3] Los autores también afirman lo siguiente. ^[3]^{: 32–33}

Los modelos sobreajustados... a menudo no tienen sesgos en los estimadores de parámetros, pero tienen varianzas de muestreo estimadas (y reales) que son innecesariamente grandes (la precisión de los estimadores es deficiente, en relación con lo que se podría haber logrado con un modelo más parsimonioso). Los modelos sobreajustados tienden a identificar efectos de tratamiento falsos y se incluyen variables falsas. ... Un modelo de mejor aproximación se logra al equilibrar adecuadamente los errores de subajuste y sobreajuste.

Es más probable que el sobreajuste sea un problema grave cuando hay poca teoría disponible para guiar el análisis, en parte porque entonces suele haber una gran cantidad de modelos para seleccionar. El libro Model Selection and Model Averaging (2008) lo expresa de esta manera. ^[5]

Dado un conjunto de datos, se pueden ajustar miles de modelos con solo pulsar un botón, pero ¿cómo se elige el mejor? Con tantos modelos candidatos, el sobreajuste es un verdadero peligro. ¿Es el mono que escribió Hamlet un buen escritor?

Regresión

En el análisis de regresión , el sobreajuste ocurre con frecuencia. ^[6] Como ejemplo extremo, si hay p variables en una regresión lineal con p puntos de datos, la línea ajustada puede pasar exactamente por cada punto. ^[7] Para la regresión logística o los modelos de riesgos proporcionales de Cox , hay una variedad de reglas generales (por ejemplo, 5-9, ^[8] 10 ^[9] y 10-15 ^[10] ; la directriz de 10 observaciones por variable independiente se conoce como la " regla de uno en diez "). En el proceso de selección del modelo de regresión, el error cuadrático medio de la función de regresión aleatoria se puede dividir en ruido aleatorio, sesgo de aproximación y varianza en la estimación de la función de regresión. El equilibrio sesgo-varianza se utiliza a menudo para superar los modelos de sobreajuste.

Si se cuenta con un conjunto grande de variables explicativas que en realidad no tienen relación con la variable dependiente que se está prediciendo, algunas variables se considerarán estadísticamente significativas de manera errónea y el investigador puede, por lo tanto, retenerlas en el modelo, sobreajustándolo. Esto se conoce como la paradoja de Freedman .

Aprendizaje automático

Por lo general, un algoritmo de aprendizaje se entrena utilizando un conjunto de "datos de entrenamiento": situaciones ejemplares para las que se conoce el resultado deseado. El objetivo es que el algoritmo también tenga un buen rendimiento en la predicción del resultado cuando se le suministran "datos de validación" que no se encontraron durante su entrenamiento.

El sobreajuste es el uso de modelos o procedimientos que violan la navaja de Occam , por ejemplo, al incluir más parámetros ajustables de los que son en última instancia óptimos, o al utilizar un enfoque más complicado que el que es en última instancia óptimo. Para un ejemplo donde hay demasiados parámetros ajustables, considere un conjunto de datos donde los datos de entrenamiento para $y$ pueden predecirse adecuadamente por una función lineal de dos variables independientes. Tal función requiere solo tres parámetros (la intersección y dos pendientes). Reemplazar esta función simple con una función cuadrática nueva y más compleja, o con una función lineal nueva y más compleja en más de dos variables independientes, conlleva un riesgo: la navaja de Occam implica que cualquier función compleja dada es a priori menos probable que cualquier función simple dada. Si se selecciona la función nueva, más complicada, en lugar de la función simple, y si no hubo una ganancia lo suficientemente grande en el ajuste de los datos de entrenamiento para compensar el aumento de la complejidad, entonces la nueva función compleja "sobreajusta" los datos y la función compleja sobreajustada probablemente tendrá un peor desempeño que la función más simple en datos de validación fuera del conjunto de datos de entrenamiento, aunque la función compleja tuvo un desempeño tan bueno, o quizás incluso mejor, en el conjunto de datos de entrenamiento. ^[11]

Al comparar distintos tipos de modelos, la complejidad no se puede medir únicamente contando cuántos parámetros existen en cada modelo; también se debe considerar la expresividad de cada parámetro. Por ejemplo, no es trivial comparar directamente la complejidad de una red neuronal (que puede rastrear relaciones curvilíneas) con $m$ parámetros con un modelo de regresión con $n$ parámetros. ^[11]

El sobreajuste es especialmente probable en casos en los que el aprendizaje se realizó durante demasiado tiempo o en los que los ejemplos de entrenamiento son escasos, lo que hace que el alumno se ajuste a características aleatorias muy específicas de los datos de entrenamiento que no tienen una relación causal con la función objetivo . En este proceso de sobreajuste, el rendimiento en los ejemplos de entrenamiento sigue aumentando, mientras que el rendimiento en los datos no vistos empeora.

Como ejemplo simple, considere una base de datos de compras minoristas que incluye el artículo comprado, el comprador y la fecha y hora de la compra. Es fácil construir un modelo que se ajuste perfectamente al conjunto de entrenamiento utilizando la fecha y hora de la compra para predecir los otros atributos, pero este modelo no se generalizará en absoluto a nuevos datos porque esos momentos pasados nunca volverán a ocurrir.

En general, se dice que un algoritmo de aprendizaje se ajusta en exceso en relación con uno más simple si es más preciso al ajustar los datos conocidos (visión retrospectiva) pero menos preciso al predecir nuevos datos (visión prospectiva). Se puede entender intuitivamente el sobreajuste a partir del hecho de que la información de toda la experiencia pasada se puede dividir en dos grupos: información que es relevante para el futuro e información irrelevante ("ruido"). En igualdad de condiciones, cuanto más difícil sea predecir un criterio (es decir, cuanto mayor sea su incertidumbre), más ruido existe en la información pasada que debe ignorarse. El problema es determinar qué parte ignorar. Un algoritmo de aprendizaje que puede reducir el riesgo de ruido de ajuste se llama " robusto ".

Consecuencias

Los modelos generativos sobreajustados pueden producir resultados que sean virtualmente idénticos a las instancias de su conjunto de entrenamiento. ^[12]

La consecuencia más obvia del sobreajuste es un rendimiento deficiente en el conjunto de datos de validación. Otras consecuencias negativas incluyen:

Es probable que una función sobreajustada solicite más información sobre cada elemento del conjunto de datos de validación que la función óptima; recopilar estos datos adicionales innecesarios puede ser costoso o propenso a errores, especialmente si cada pieza individual de información debe recopilarse mediante observación humana e ingreso manual de datos. ^[11]
Es probable que una función más compleja y sobreajustada sea menos portátil que una simple. En un extremo, una regresión lineal de una variable es tan portátil que, si fuera necesario, podría incluso hacerse a mano. En el otro extremo están los modelos que solo pueden reproducirse duplicando exactamente toda la configuración del modelador original, lo que dificulta la reutilización o la reproducción científica. ^[11]
Es posible reconstruir detalles de instancias de entrenamiento individuales a partir del conjunto de entrenamiento de un modelo de aprendizaje automático sobreajustado. Esto puede ser indeseable si, por ejemplo, los datos de entrenamiento incluyen información personal identificable (PII) confidencial. Este fenómeno también presenta problemas en el área de inteligencia artificial y derechos de autor , ya que los desarrolladores de algunos modelos de aprendizaje profundo generativo, como Stable Diffusion y GitHub Copilot, han sido demandados por infracción de derechos de autor porque se ha descubierto que estos modelos son capaces de reproducir ciertos elementos protegidos por derechos de autor a partir de sus datos de entrenamiento. ^[12]^[13]

Recurso

La función óptima suele requerir verificación en conjuntos de datos más grandes o completamente nuevos. Sin embargo, existen métodos como el árbol de expansión mínimo o el tiempo de vida de la correlación que aplican la dependencia entre los coeficientes de correlación y las series temporales (ancho de la ventana). Siempre que el ancho de la ventana sea lo suficientemente grande, los coeficientes de correlación serán estables y ya no dependerán del tamaño del ancho de la ventana. Por lo tanto, se puede crear una matriz de correlación calculando un coeficiente de correlación entre las variables investigadas. Esta matriz se puede representar topológicamente como una red compleja donde se visualizan las influencias directas e indirectas entre las variables.

La regularización por abandono (eliminación aleatoria de datos del conjunto de entrenamiento) también puede mejorar la robustez y, por lo tanto, reducir el sobreajuste al eliminar de manera probabilística las entradas de una capa.

Falta de equipamiento

El subajuste es lo inverso del sobreajuste, lo que significa que el modelo estadístico o el algoritmo de aprendizaje automático es demasiado simplista para capturar con precisión los patrones en los datos. Una señal de subajuste es que se detecta un sesgo alto y una varianza baja en el modelo o algoritmo actual utilizado (lo inverso del sobreajuste: sesgo bajo y varianza alta ). Esto se puede deducir del equilibrio entre sesgo y varianza , que es el método de análisis de un modelo o algoritmo para detectar errores de sesgo, errores de varianza y errores irreducibles. Con un sesgo alto y una varianza baja, el resultado del modelo es que representará de manera inexacta los puntos de datos y, por lo tanto, no podrá predecir los resultados de datos futuros de manera suficiente (consulte Error de generalización ). Como se muestra en la Figura 5, la línea lineal no pudo representar todos los puntos de datos dados debido a que la línea no se asemeja a la curvatura de los puntos. Esperaríamos ver una línea con forma de parábola como se muestra en la Figura 6 y la Figura 1. Si utilizáramos la Figura 5 para el análisis, obtendríamos resultados predictivos falsos contrarios a los resultados si analizáramos la Figura 6.

Burnham y Anderson afirman lo siguiente. ^[3]^{: 32}

... un modelo insuficientemente ajustado ignoraría alguna estructura importante replicable (es decir, conceptualmente replicable en la mayoría de las demás muestras) en los datos y, por lo tanto, no lograría identificar efectos que en realidad estaban respaldados por los datos. En este caso, el sesgo en los estimadores de parámetros suele ser sustancial y la varianza de muestreo se subestima; ambos factores dan como resultado una cobertura deficiente del intervalo de confianza. Los modelos insuficientemente ajustados tienden a pasar por alto efectos importantes del tratamiento en entornos experimentales.

Solución del desajuste

Existen múltiples formas de abordar el problema del desajuste:

Aumentar la complejidad del modelo: si el modelo es demasiado simple, puede ser necesario aumentar su complejidad agregando más características, aumentando el número de parámetros o utilizando un modelo más flexible. Sin embargo, esto debe hacerse con cuidado para evitar un sobreajuste. ^[14]
Utilizar un algoritmo diferente: si el algoritmo actual no es capaz de capturar los patrones en los datos, puede ser necesario probar uno diferente. Por ejemplo, una red neuronal puede ser más eficaz que un modelo de regresión lineal para algunos tipos de datos. ^[14]
Aumentar la cantidad de datos de entrenamiento: si el modelo no se ajusta lo suficiente debido a la falta de datos, puede resultar útil aumentar la cantidad de datos de entrenamiento. Esto permitirá que el modelo capture mejor los patrones subyacentes en los datos. ^[14]
Regularización: La regularización es una técnica que se utiliza para evitar el sobreajuste añadiendo un término de penalización a la función de pérdida que desalienta el uso de valores de parámetros elevados. También se puede utilizar para evitar el subajuste controlando la complejidad del modelo. ^[15]
Métodos de conjunto : los métodos de conjunto combinan varios modelos para crear una predicción más precisa. Esto puede ayudar a reducir el desajuste al permitir que varios modelos trabajen juntos para capturar los patrones subyacentes en los datos.
Ingeniería de características : la ingeniería de características implica la creación de nuevas características del modelo a partir de las existentes que pueden ser más relevantes para el problema en cuestión. Esto puede ayudar a mejorar la precisión del modelo y evitar el desajuste. ^[14]

Sobreajuste benigno

El sobreajuste benigno describe el fenómeno de un modelo estadístico que parece generalizarse bien a datos no vistos, incluso cuando se ha ajustado perfectamente en datos de entrenamiento ruidosos (es decir, obtiene una precisión predictiva perfecta en el conjunto de entrenamiento). El fenómeno es de particular interés en redes neuronales profundas , pero se estudia desde una perspectiva teórica en el contexto de modelos mucho más simples, como la regresión lineal . En particular, se ha demostrado que la sobreparametrización es esencial para el sobreajuste benigno en este entorno. En otras palabras, la cantidad de direcciones en el espacio de parámetros que no son importantes para la predicción debe exceder significativamente el tamaño de la muestra. ^[16]

Véase también

Relación entre sesgo y varianza
Ajuste de curvas
Dragado de datos
Selección de funciones
Ingeniería de características
La paradoja de Freedman
Error de generalización
Bondad de ajuste
Duración de la correlación
Selección de modelo
Grados de libertad del investigador
La navaja de Occam
Modelo primario
Dimensión de Vapnik-Chervonenkis : una dimensión de VC más grande implica un mayor riesgo de sobreajuste

Notas

^ Definición de "sobreajuste" en OxfordDictionaries.com : esta definición es específicamente para estadísticas.
^ abc Everitt BS, Skrondal A. (2010), Diccionario de Estadística de Cambridge , Cambridge University Press .
^ abcd Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo (2.ª ed.), Springer-Verlag.
^ Bottou, Léon; Bousquet, Olivier (30 de septiembre de 2011), "Las ventajas y desventajas del aprendizaje a gran escala", Optimización para el aprendizaje automático , The MIT Press, págs. 351–368, doi :10.7551/mitpress/8996.003.0015, ISBN 978-0-262-29877-3, consultado el 8 de diciembre de 2023
^ Claeskens, G .; Hjort, NL (2008), Selección de modelos y promedio de modelos , Cambridge University Press.
^ Harrell, FE Jr. (2001), Estrategias de modelado de regresión , Springer.
^ Martha K. Smith (13 de junio de 2014). "Overfitting". Universidad de Texas en Austin . Consultado el 31 de julio de 2016 .
^ Vittinghoff, E.; McCulloch, CE (2007). "Relajación de la regla de diez eventos por variable en regresión logística y de Cox". American Journal of Epidemiology . 165 (6): 710–718. doi :10.1093/aje/kwk052. PMID 17182981.
^ Draper, Norman R.; Smith, Harry (1998). Análisis de regresión aplicada (3.ª ed.). Wiley . ISBN 978-0471170822.
^ Jim Frost (3 de septiembre de 2015). "El peligro de sobreajustar los modelos de regresión" . Consultado el 31 de julio de 2016 .
^ abcd Hawkins, Douglas M (2004). "El problema del sobreajuste". Revista de información y modelado químico . 44 (1): 1–12. doi :10.1021/ci0342472. PMID 14741005. S2CID 12440383.
^ ab Lee, Timothy B. (3 de abril de 2023). "Las demandas por derechos de autor de Stable Diffusion podrían ser un terremoto legal para la IA". Ars Technica .
^ Vincent, James (8 de noviembre de 2022). "La demanda que podría reescribir las reglas de los derechos de autor de la IA". The Verge . Consultado el 7 de diciembre de 2022 .
^ abcd "ML | Underfitting y Overfitting". GeeksforGeeks . 2017-11-23 . Consultado el 2023-02-27 .
^ Nusrat, Ismoilov; Jang, Sung-Bong (noviembre de 2018). "Una comparación de técnicas de regularización en redes neuronales profundas". Symmetry . 10 (11): 648. Bibcode :2018Symm...10..648N. doi : 10.3390/sym10110648 . ISSN 2073-8994.
^ Bartlett, PL, Long, PM, Lugosi, G. y Tsigler, A. (2019). Sobreajuste benigno en regresión lineal. Actas de la Academia Nacional de Ciencias, 117, 30063 - 30070.

Referencias

Leinweber, DJ (2007). "Trucos estúpidos de los mineros de datos". The Journal of Investing . 16 : 15–22. doi :10.3905/joi.2007.681820. S2CID 108627390.
Tetko, IV; Livingstone, DJ; Luik, AI (1995). "Estudios de redes neuronales. 1. Comparación de sobreajuste y sobreentrenamiento" (PDF) . Revista de información y modelado químico . 35 (5): 826–833. doi :10.1021/ci00027a006.
Consejo 7: Minimizar el sobreajuste . Chicco, D. (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional". BioData Mining . 10 (35): 35. doi : 10.1186/s13040-017-0155-3 . PMC 5721660. PMID 29234465 .

Lectura adicional

Christian, Brian ; Griffiths, Tom (abril de 2017), "Capítulo 7: Sobreajuste", Algorithms To Live By: The computer science of human decisions , William Collins , págs. 149-168, ISBN 978-0-00-754799-9

Enlaces externos

El problema del sobreajuste de los datos – Stony Brook University
¿Qué es exactamente el «sobreajuste»? – Blog de Andrew Gelman
CSE546: Compensación entre sesgo y varianza en la regresión lineal – Universidad de Washington
¿Qué es el subajuste? – IBM