Sobreajuste

Figura 1. La línea verde representa un modelo sobreajustado y la línea negra representa un modelo regularizado. Si bien la línea verde sigue mejor los datos de entrenamiento, depende demasiado de esos datos y es probable que tenga una tasa de error más alta en datos nuevos no vistos, ilustrados por puntos delineados en negro, en comparación con la línea negra.

En el modelado matemático, el sobreajuste es "la producción de un análisis que corresponde demasiado cercana o exactamente a un conjunto particular de datos y, por lo tanto, puede no ajustarse a datos adicionales ni predecir observaciones futuras de manera confiable". ^[1] Un modelo sobreajustado es un modelo matemático que contiene más parámetros de los que los datos pueden justificar. ^[2] En un sentido matemático, estos parámetros representan el grado de un polinomio . La esencia del sobreajuste es haber extraído, sin saberlo, parte de la variación residual (es decir, el ruido ) como si esa variación representara la estructura subyacente del modelo. ^[3]^{: 45}

El desajuste ocurre cuando un modelo matemático no puede capturar adecuadamente la estructura subyacente de los datos. Un modelo insuficientemente ajustado es un modelo en el que faltan algunos parámetros o términos que aparecerían en un modelo correctamente especificado. ^[2] Se produciría un desajuste, por ejemplo, al ajustar un modelo lineal a datos no lineales. Un modelo de este tipo tenderá a tener un rendimiento predictivo deficiente.

La posibilidad de sobreajuste existe porque el criterio utilizado para seleccionar el modelo no es el mismo que el criterio utilizado para juzgar la idoneidad de un modelo. Por ejemplo, un modelo podría seleccionarse maximizando su rendimiento en algún conjunto de datos de entrenamiento y, sin embargo, su idoneidad podría estar determinada por su capacidad para funcionar bien con datos invisibles; El sobreajuste ocurre cuando un modelo comienza a "memorizar" datos de entrenamiento en lugar de "aprender" a generalizar a partir de una tendencia.

Como ejemplo extremo, si el número de parámetros es igual o mayor que el número de observaciones, entonces un modelo puede predecir perfectamente los datos de entrenamiento simplemente memorizando los datos en su totalidad. (Para ver una ilustración, consulte la Figura 2.) Sin embargo, un modelo de este tipo normalmente fallará gravemente al hacer predicciones.

El sobreajuste está directamente relacionado con el error de aproximación de la clase de función seleccionada y el error de optimización del procedimiento de optimización. Es probable que una clase de función que sea demasiado grande, en un sentido adecuado, en relación con el tamaño del conjunto de datos, se sobreajuste. ^[4] Incluso cuando el modelo ajustado no tiene un número excesivo de parámetros, es de esperar que la relación ajustada parezca funcionar peor en un nuevo conjunto de datos que en el conjunto de datos utilizado para el ajuste (un fenómeno a veces conocido como contracción) . ). ^[2] En particular, el valor del coeficiente de determinación se reducirá en relación con los datos originales.

Para disminuir la posibilidad o la cantidad de sobreajuste, hay varias técnicas disponibles (p. ej., comparación de modelos , validación cruzada , regularización , detención temprana , poda , antecedentes bayesianos o abandono ). La base de algunas técnicas es (1) penalizar explícitamente los modelos demasiado complejos o (2) probar la capacidad del modelo para generalizar evaluando su desempeño en un conjunto de datos que no se utilizan para el entrenamiento, que se supone que se aproxima a los datos típicos no vistos que encontrará un modelo.

Inferencia estadística

En estadística, se extrae una inferencia a partir de un modelo estadístico , que ha sido seleccionado mediante algún procedimiento. Burnham y Anderson, en su muy citado texto sobre selección de modelos, sostienen que para evitar el sobreajuste, debemos adherirnos al " Principio de parsimonia ". ^[3] Los autores también afirman lo siguiente. ^[3]^{: 32–33}

Los modelos sobreajustados... a menudo están libres de sesgo en los estimadores de parámetros, pero tienen varianzas de muestreo estimadas (y reales) que son innecesariamente grandes (la precisión de los estimadores es pobre, en relación con lo que se podría haber logrado con un modelo más parsimonioso). . Se tienden a identificar efectos falsos del tratamiento y se incluyen variables falsas en modelos sobreajustados. ... Un modelo de mejor aproximación se logra equilibrando adecuadamente los errores de subajuste y sobreajuste.

Es más probable que el sobreajuste sea una preocupación seria cuando hay poca teoría disponible para guiar el análisis, en parte porque entonces tiende a haber una gran cantidad de modelos para seleccionar. El libro Model Selection and Model Averaging (2008) lo expresa de esta manera. ^[5]

Dado un conjunto de datos, puedes incluir miles de modelos con solo presionar un botón, pero ¿cómo eliges el mejor? Con tantos modelos candidatos, el sobreajuste es un peligro real. ¿El mono que escribió Hamlet es realmente un buen escritor?

Regresión

En el análisis de regresión , el sobreajuste ocurre con frecuencia. ^[6] Como ejemplo extremo, si hay p variables en una regresión lineal con p puntos de datos, la línea ajustada puede pasar exactamente por cada punto. ^[7] Para los modelos de regresión logística o de riesgos proporcionales de Cox , existe una variedad de reglas generales (por ejemplo, 5–9, ^[8] 10 ^[9] y 10–15 ^[10] ; la pauta de 10 observaciones por variable independiente es conocida como la " regla del uno entre diez "). En el proceso de selección del modelo de regresión, el error cuadrático medio de la función de regresión aleatoria se puede dividir en ruido aleatorio, sesgo de aproximación y varianza en la estimación de la función de regresión. El equilibrio entre sesgo y varianza se utiliza a menudo para superar los modelos de sobreajuste.

Con un gran conjunto de variables explicativas que en realidad no tienen relación con la variable dependiente que se predice, en general se considerará falsamente que algunas variables son estadísticamente significativas y, por lo tanto, el investigador puede retenerlas en el modelo, sobreajustando así el modelo. Esto se conoce como la paradoja de Freedman .

Aprendizaje automático

Por lo general, un algoritmo de aprendizaje se entrena utilizando algún conjunto de "datos de entrenamiento": situaciones ejemplares para las cuales se conoce el resultado deseado. El objetivo es que el algoritmo también funcione bien en la predicción de la salida cuando se le proporcionen "datos de validación" que no se encontraron durante su entrenamiento.

El sobreajuste es el uso de modelos o procedimientos que violan la navaja de Occam , por ejemplo al incluir más parámetros ajustables de los que en última instancia son óptimos, o al utilizar un enfoque más complicado de lo que en última instancia es óptimo. Como ejemplo en el que hay demasiados parámetros ajustables, considere un conjunto de datos donde los datos de entrenamiento para $y$ se pueden predecir adecuadamente mediante una función lineal de dos variables independientes. Una función de este tipo requiere sólo tres parámetros (la intersección y dos pendientes). Reemplazar esta función simple con una función cuadrática nueva y más compleja, o con una función lineal nueva y más compleja sobre más de dos variables independientes, conlleva un riesgo: la navaja de Occam implica que cualquier función compleja dada es a priori menos probable que cualquier función simple dada. función. Si se selecciona la función nueva y más complicada en lugar de la función simple, y si no hubo una ganancia lo suficientemente grande en el ajuste de los datos de entrenamiento para compensar el aumento de la complejidad, entonces la nueva función compleja "sobreajusta" los datos y la función compleja sobreajustada probablemente funcione peor que la función más simple en datos de validación fuera del conjunto de datos de entrenamiento, aunque la función compleja se desempeñó igual, o tal vez incluso mejor, en el conjunto de datos de entrenamiento. ^[11]

Al comparar diferentes tipos de modelos, la complejidad no se puede medir únicamente contando cuántos parámetros existen en cada modelo; También se debe considerar la expresividad de cada parámetro. Por ejemplo, no es trivial comparar directamente la complejidad de una red neuronal (que puede rastrear relaciones curvilíneas) con $m$ parámetros con un modelo de regresión con $n$ parámetros. ^[11]

El sobreajuste es especialmente probable en los casos en los que el aprendizaje se realizó durante demasiado tiempo o donde los ejemplos de entrenamiento son raros, lo que hace que el alumno se ajuste a características aleatorias muy específicas de los datos de entrenamiento que no tienen una relación causal con la función objetivo . En este proceso de sobreajuste, el rendimiento de los ejemplos de entrenamiento sigue aumentando, mientras que el rendimiento de los datos invisibles empeora.

Como ejemplo sencillo, consideremos una base de datos de compras minoristas que incluye el artículo comprado, el comprador y la fecha y hora de la compra. Es fácil construir un modelo que se ajuste perfectamente al conjunto de entrenamiento utilizando la fecha y hora de compra para predecir los otros atributos, pero este modelo no se generalizará en absoluto a nuevos datos porque esos tiempos pasados nunca volverán a ocurrir.

Generalmente, se dice que un algoritmo de aprendizaje se sobreajusta en relación con uno más simple si es más preciso al ajustar datos conocidos (retrospectiva) pero menos preciso al predecir datos nuevos (previsión). Se puede entender intuitivamente el sobreajuste por el hecho de que la información de toda experiencia pasada se puede dividir en dos grupos: información relevante para el futuro e información irrelevante ("ruido"). En igualdad de condiciones, cuanto más difícil es predecir un criterio (es decir, cuanto mayor es su incertidumbre), más ruido existe en la información pasada que debe ignorarse. El problema es determinar qué parte ignorar. Un algoritmo de aprendizaje que puede reducir el riesgo de ruido de ajuste se denomina " robusto ".

Consecuencias

Los modelos generativos sobreajustados pueden producir resultados que son prácticamente idénticos a las instancias de su conjunto de entrenamiento. ^[12]

La consecuencia más obvia del sobreajuste es un rendimiento deficiente en el conjunto de datos de validación. Otras consecuencias negativas incluyen:

Es probable que una función sobreajustada solicite más información sobre cada elemento del conjunto de datos de validación que la función óptima; La recopilación de estos datos adicionales innecesarios puede ser costosa o propensa a errores, especialmente si cada pieza individual de información debe recopilarse mediante observación humana e ingreso manual de datos. ^[11]
Es probable que una función más compleja y sobreadaptada sea menos portátil que una simple. En un extremo, una regresión lineal de una variable es tan portátil que, si fuera necesario, incluso podría realizarse a mano. En el otro extremo están los modelos que sólo pueden reproducirse duplicando exactamente toda la configuración del modelador original, lo que dificulta la reutilización o la reproducción científica. ^[11]
Es posible reconstruir detalles de instancias de capacitación individuales a partir del conjunto de capacitación de un modelo de aprendizaje automático sobreajustado. Esto puede no ser deseable si, por ejemplo, los datos de capacitación incluyen información confidencial de identificación personal (PII). Este fenómeno también presenta problemas en el área de la inteligencia artificial y los derechos de autor , donde los desarrolladores de algunos modelos generativos de aprendizaje profundo, como Stable Diffusion y GitHub Copilot, han sido demandados por infracción de derechos de autor porque se ha descubierto que estos modelos son capaces de reproducir ciertos elementos protegidos por derechos de autor de sus datos de entrenamiento. ^[12]^[13]

Recurso

La función óptima normalmente necesita verificación en conjuntos de datos más grandes o completamente nuevos. Sin embargo, existen métodos como el árbol de expansión mínimo o el tiempo de vida de la correlación que aplica la dependencia entre los coeficientes de correlación y las series de tiempo (ancho de ventana). Siempre que el ancho de la ventana es lo suficientemente grande, los coeficientes de correlación son estables y ya no dependen del tamaño del ancho de la ventana. Por lo tanto, se puede crear una matriz de correlación calculando un coeficiente de correlación entre las variables investigadas. Esta matriz se puede representar topológicamente como una red compleja donde se visualizan influencias directas e indirectas entre variables. La regularización de abandono también puede mejorar la solidez y, por lo tanto, reducir el sobreajuste al eliminar probabilísticamente las entradas a una capa.

Falta de adaptación

El subajuste es lo opuesto al sobreajuste, lo que significa que el modelo estadístico o el algoritmo de aprendizaje automático es demasiado simplista para capturar con precisión los patrones en los datos. Una señal de desajuste es que se detecta un alto sesgo y una baja varianza en el modelo o algoritmo actual utilizado (lo inverso del sobreajuste: bajo sesgo y alta varianza ). Esto se puede deducir del equilibrio entre sesgo y varianza , que es el método para analizar un modelo o algoritmo en busca de error de sesgo, error de varianza y error irreducible. Con un sesgo alto y una varianza baja, el resultado del modelo es que representará de manera inexacta los puntos de datos y, por lo tanto, no podrá predecir de manera suficiente los resultados de datos futuros (consulte Error de generalización ). Como se muestra en la Figura 5, la línea lineal no pudo representar todos los puntos de datos dados debido a que la línea no se parece a la curvatura de los puntos. Esperaríamos ver una línea en forma de parábola como se muestra en la Figura 6 y la Figura 1. Si usáramos la Figura 5 para el análisis, obtendríamos resultados predictivos falsos contrarios a los resultados si analizáramos la Figura 6.

Burnham y Anderson afirman lo siguiente. ^[3]^{: 32}

... un modelo insuficientemente ajustado ignoraría alguna estructura importante replicable (es decir, conceptualmente replicable en la mayoría de las otras muestras) en los datos y, por lo tanto, no identificaría efectos que realmente estuvieran respaldados por los datos. En este caso, el sesgo en los estimadores de parámetros suele ser sustancial y la varianza muestral se subestima; ambos factores dan como resultado una cobertura deficiente del intervalo de confianza. Los modelos insuficientemente ajustados tienden a pasar por alto efectos importantes del tratamiento en entornos experimentales.

Resolver el desajuste

Hay varias formas de abordar el desajuste:

Aumentar la complejidad del modelo: si el modelo es demasiado simple, puede ser necesario aumentar su complejidad agregando más funciones, aumentando la cantidad de parámetros o utilizando un modelo más flexible. Sin embargo, esto debe hacerse con cuidado para evitar un ajuste excesivo. ^[14]
Utilice un algoritmo diferente: si el algoritmo actual no puede capturar los patrones en los datos, puede que sea necesario probar con uno diferente. Por ejemplo, una red neuronal puede ser más eficaz que un modelo de regresión lineal para algunos tipos de datos. ^[14]
Aumente la cantidad de datos de entrenamiento: si el modelo no se ajusta adecuadamente debido a la falta de datos, puede ser útil aumentar la cantidad de datos de entrenamiento. Esto permitirá que el modelo capture mejor los patrones subyacentes en los datos. ^[14]
Regularización: la regularización es una técnica utilizada para evitar el sobreajuste agregando un término de penalización a la función de pérdida que desalienta los valores de parámetros grandes. También se puede utilizar para evitar un ajuste insuficiente controlando la complejidad del modelo. ^[15]
Métodos conjuntos : los métodos conjuntos combinan múltiples modelos para crear una predicción más precisa. Esto puede ayudar a reducir el desajuste al permitir que varios modelos trabajen juntos para capturar los patrones subyacentes en los datos.
Ingeniería de características : la ingeniería de características implica la creación de nuevas características del modelo a partir de las existentes que pueden ser más relevantes para el problema en cuestión. Esto puede ayudar a mejorar la precisión del modelo y evitar un ajuste insuficiente. ^[14]

sobreajuste benigno

El sobreajuste benigno describe el fenómeno de un modelo estadístico que parece generalizarse bien a datos no vistos, incluso cuando se ha ajustado perfectamente a datos de entrenamiento ruidosos (es decir, obtiene una precisión predictiva perfecta en el conjunto de entrenamiento). El fenómeno es de particular interés en las redes neuronales profundas , pero se estudia desde una perspectiva teórica en el contexto de modelos mucho más simples, como la regresión lineal . En particular, se ha demostrado que la sobreparametrización es esencial para un sobreajuste benigno en este entorno. En otras palabras, el número de direcciones en el espacio de parámetros que no son importantes para la predicción debe exceder significativamente el tamaño de la muestra. ^[dieciséis]

Ver también

Compensación sesgo-varianza
Ajuste de curvas
Dragado de datos
Selección de características
Ingeniería de características
La paradoja de Freedman
Error de generalización
Bondad de ajuste
Vida útil de la correlación
Selección de modelo
Grados de libertad del investigador.
La navaja de Occam
modelo primario
Dimensión de Vapnik-Chervonenkis : una dimensión de VC más grande implica un mayor riesgo de sobreajuste

Notas

^ Definición de "sobreajuste" en OxfordDictionaries.com : esta definición es específicamente para estadísticas.
^ abc Everitt BS, Skrondal A. (2010), Diccionario de estadística de Cambridge , Cambridge University Press .
^ abcd Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo (2ª ed.), Springer-Verlag.
^ Bottou, León; Bousquet, Olivier (30 de septiembre de 2011), "Las ventajas y desventajas del aprendizaje a gran escala", Optimización para el aprendizaje automático , The MIT Press, págs. 351–368, doi :10.7551/mitpress/8996.003.0015, ISBN 978-0-262-29877-3, recuperado el 8 de diciembre de 2023
^ Claeskens, G .; Hjort, NL (2008), Selección de modelos y promedio de modelos , Cambridge University Press.
^ Harrell, FE Jr. (2001), Estrategias de modelado de regresión , Springer.
^ Martha K. Smith (13 de junio de 2014). "Sobreajuste". Universidad de Texas en Austin . Consultado el 31 de julio de 2016 .
^ Vittinghoff, E.; McCulloch, CE (2007). "Relajación de la regla de los diez eventos por variable en regresión logística y de Cox". Revista Estadounidense de Epidemiología . 165 (6): 710–718. doi :10.1093/aje/kwk052. PMID 17182981.
^ Draper, Norman R.; Smith, Harry (1998). Análisis de regresión aplicada (3ª ed.). Wiley . ISBN 978-0471170822.
^ Jim Frost (3 de septiembre de 2015). "El peligro de sobreajustar los modelos de regresión" . Consultado el 31 de julio de 2016 .
^ abcd Hawkins, Douglas M (2004). "El problema del sobreajuste". Revista de información y modelado químico . 44 (1): 1–12. doi :10.1021/ci0342472. PMID 14741005. S2CID 12440383.
^ ab Lee, Timothy B. (3 de abril de 2023). "Las demandas por derechos de autor de difusión estable podrían ser un terremoto legal para la IA". Ars Técnica .
^ Vicente, James (8 de noviembre de 2022). "La demanda que podría reescribir las reglas de los derechos de autor de la IA". El borde . Consultado el 7 de diciembre de 2022 .
^ abcd "ML | Ajuste insuficiente y excesivo". Geeks para Geeks . 2017-11-23 . Consultado el 27 de febrero de 2023 .
^ Nusrat, Ismoilov; Jang, Sung-Bong (noviembre de 2018). "Una comparación de técnicas de regularización en redes neuronales profundas". Simetría . 10 (11): 648. Bibcode : 2018Symm...10..648N. doi : 10.3390/sym10110648 . ISSN 2073-8994.
^ Bartlett, PL, Long, PM, Lugosi, G. y Tsigler, A. (2019). Sobreajuste benigno en regresión lineal. Actas de la Academia Nacional de Ciencias, 117, 30063 - 30070.

Referencias

Leinweber, DJ (2007). "Trucos estúpidos del minero de datos". La revista de inversiones . 16 : 15-22. doi :10.3905/joi.2007.681820. S2CID 108627390.
Tetko, IV; Livingstone, DJ; Luik, AI (1995). "Estudios de redes neuronales. 1. Comparación de sobreajuste y sobreentrenamiento" (PDF) . Revista de información y modelado químico . 35 (5): 826–833. doi :10.1021/ci00027a006.
Consejo 7: minimice el sobreajuste . Chicco, D. (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional". Minería de biodatos . 10 (35): 35. doi : 10.1186/s13040-017-0155-3 . PMC 5721660 . PMID 29234465.

Otras lecturas

Cristiano, Brian ; Griffiths, Tom (abril de 2017), "Capítulo 7: Sobreajuste", Algoritmos para vivir: la informática de las decisiones humanas , William Collins , págs. 149-168, ISBN 978-0-00-754799-9

enlaces externos

El problema del sobreajuste de datos - Universidad Stony Brook
¿Qué es exactamente el "sobreajuste"? – Blog de Andrew Gelman
CSE546: Compensación entre sesgo y varianza de regresión lineal – Universidad de Washington
¿Qué es el desajuste? – IBM