En estadística y aprendizaje automático , el equilibrio entre sesgo y varianza describe la relación entre la complejidad de un modelo, la precisión de sus predicciones y lo bien que puede hacer predicciones sobre datos nunca vistos anteriormente que no se usaron para entrenar el modelo. En general, a medida que aumentamos la cantidad de parámetros ajustables en un modelo, este se vuelve más flexible y puede ajustarse mejor a un conjunto de datos de entrenamiento. Se dice que tiene un menor error o sesgo . Sin embargo, para los modelos más flexibles, tenderá a haber una mayor varianza en el ajuste del modelo cada vez que tomemos un conjunto de muestras para crear un nuevo conjunto de datos de entrenamiento. Se dice que hay una mayor varianza en los parámetros estimados del modelo .
El dilema sesgo-varianza o problema sesgo-varianza es el conflicto que surge al intentar minimizar simultáneamente estas dos fuentes de error que impiden que los algoritmos de aprendizaje supervisado se generalicen más allá de su conjunto de entrenamiento : [1] [2]
El error de sesgo es un error que surge de suposiciones erróneas en el algoritmo de aprendizaje . Un sesgo alto puede hacer que un algoritmo pase por alto las relaciones relevantes entre las características y los resultados objetivo (subajuste).
La varianza es un error de sensibilidad a pequeñas fluctuaciones en el conjunto de entrenamiento. Una varianza alta puede ser resultado de un algoritmo que modela el ruido aleatorio en los datos de entrenamiento ( sobreajuste ).
La descomposición sesgo-varianza es una forma de analizar el error de generalización esperado de un algoritmo de aprendizaje con respecto a un problema particular como una suma de tres términos, el sesgo, la varianza y una cantidad llamada error irreducible , que resulta del ruido en el problema mismo.
Una función (roja) se aproxima utilizando funciones de base radial (azul). Se muestran varios ensayos en cada gráfico. Para cada ensayo, se proporcionan algunos puntos de datos ruidosos como conjunto de entrenamiento (arriba). Para una dispersión amplia (imagen 2), el sesgo es alto: las RBF no pueden aproximarse completamente a la función (especialmente la caída central), pero la varianza entre los diferentes ensayos es baja. A medida que la dispersión disminuye (imágenes 3 y 4), el sesgo disminuye: las curvas azules se aproximan más a las rojas. Sin embargo, dependiendo del ruido en los diferentes ensayos, la varianza entre los ensayos aumenta. En la imagen inferior, los valores aproximados para x = 0 varían enormemente según dónde se ubicaron los puntos de datos.
Motivación
Alto sesgo, baja varianza
Alto sesgo, alta varianza
Bajo sesgo, baja varianza
Bajo sesgo, alta varianza
El equilibrio entre sesgo y varianza es un problema central en el aprendizaje supervisado. Lo ideal es elegir un modelo que capture con precisión las regularidades de sus datos de entrenamiento, pero que también se generalice bien a datos no vistos. Desafortunadamente, normalmente es imposible hacer ambas cosas simultáneamente. Los métodos de aprendizaje de alta varianza pueden representar bien su conjunto de entrenamiento, pero corren el riesgo de sobreajustarse a datos de entrenamiento ruidosos o no representativos. Por el contrario, los algoritmos con alto sesgo suelen producir modelos más simples que pueden no capturar regularidades importantes (es decir, no adaptarse) en los datos.
Es una falacia que se comete con frecuencia [3] [4] suponer que los modelos complejos deben tener una varianza alta. Los modelos de alta varianza son "complejos" en cierto sentido, pero lo inverso no tiene por qué ser cierto. [5] Además, hay que tener cuidado con la forma en que se define la complejidad. En particular, el número de parámetros utilizados para describir el modelo es una mala medida de la complejidad. Esto se ilustra con un ejemplo adaptado de: [6] El modelo tiene solo dos parámetros ( ) pero puede interpolar cualquier número de puntos oscilando con una frecuencia lo suficientemente alta, lo que da como resultado un sesgo alto y una varianza alta.
Se puede hacer una analogía con la relación entre exactitud y precisión . La exactitud es una descripción del sesgo y se puede mejorar intuitivamente seleccionando solo información local . En consecuencia, una muestra parecerá precisa (es decir, tendrá un sesgo bajo) bajo las condiciones de selección mencionadas anteriormente, pero puede resultar en un subajuste. En otras palabras, los datos de prueba pueden no coincidir tan estrechamente con los datos de entrenamiento, lo que indicaría imprecisión y, por lo tanto, una varianza inflada. Un ejemplo gráfico sería un ajuste de línea recta a datos que exhiben un comportamiento cuadrático en general. La precisión es una descripción de la varianza y, en general, solo se puede mejorar seleccionando información de un espacio comparativamente más grande. La opción de seleccionar muchos puntos de datos en un espacio muestral amplio es la condición ideal para cualquier análisis. Sin embargo, las restricciones intrínsecas (ya sean físicas, teóricas, computacionales, etc.) siempre desempeñarán un papel limitante. El caso límite donde solo se selecciona un número finito de puntos de datos en un espacio muestral amplio puede resultar en una precisión mejorada y una varianza menor en general, pero también puede resultar en una dependencia excesiva de los datos de entrenamiento (sobreajuste). Esto significa que los datos de prueba tampoco coincidirían tan estrechamente con los datos de entrenamiento, pero en este caso la razón es la inexactitud o un sesgo alto. Para tomar prestado del ejemplo anterior, la representación gráfica aparecería como un ajuste polinomial de orden alto a los mismos datos que exhiben un comportamiento cuadrático. Tenga en cuenta que el error en cada caso se mide de la misma manera, pero la razón atribuida al error es diferente según el equilibrio entre el sesgo y la varianza. Para mitigar la cantidad de información que se utiliza de las observaciones vecinas, un modelo se puede suavizar mediante una regularización explícita , como la contracción .
Descomposición sesgo-varianza del error cuadrático medio
Supongamos que tenemos un conjunto de entrenamiento que consta de un conjunto de puntos y valores reales asociados a cada punto . Suponemos que los datos son generados por una función como , donde el ruido, , tiene media cero y varianza .
Queremos encontrar una función que se aproxime lo mejor posible a la función verdadera , mediante algún algoritmo de aprendizaje basado en un conjunto de datos de entrenamiento (muestra) . Hacemos que "lo mejor posible" sea preciso midiendo el error cuadrático medio entre y : queremos que sea mínimo, tanto para como para puntos fuera de nuestra muestra . Por supuesto, no podemos esperar hacerlo a la perfección, ya que contienen ruido ; esto significa que debemos estar preparados para aceptar un error irreducible en cualquier función que se nos ocurra.
Encontrar una función que se generalice a puntos fuera del conjunto de entrenamiento se puede hacer con cualquiera de los innumerables algoritmos utilizados para el aprendizaje supervisado. Resulta que, cualquiera que sea la función que seleccionemos, podemos descomponer su error esperado en una muestra no observada ( es decir, condicional a x ) de la siguiente manera: [7] : 34 [8] : 223
dónde
y
y
La expectativa varía entre distintas opciones del conjunto de entrenamiento , todas muestreadas de la misma distribución conjunta , lo que puede hacerse, por ejemplo, mediante el método bootstrap . Los tres términos representan:
el cuadrado del sesgo del método de aprendizaje, que puede considerarse como el error causado por los supuestos simplificadores incorporados en el método. Por ejemplo, al aproximar una función no lineal utilizando un método de aprendizaje para modelos lineales , habrá un error en las estimaciones debido a este supuesto;
la varianza del método de aprendizaje o, intuitivamente, cuánto se moverá el método de aprendizaje alrededor de su media;
El error irreducible .
Dado que los tres términos no son negativos, el error irreducible forma un límite inferior para el error esperado en muestras no observadas. [7] : 34
Cuanto más complejo sea el modelo, más puntos de datos capturará y menor será el sesgo. Sin embargo, la complejidad hará que el modelo se "mueva" más para capturar los puntos de datos y, por lo tanto, su varianza será mayor.
Derivación
La derivación de la descomposición sesgo-varianza para el error al cuadrado se realiza de la siguiente manera. [9] [10] Para mayor comodidad, eliminamos el subíndice en las siguientes líneas, de modo que .
Escribamos el error cuadrático medio de nuestro modelo:
Podemos demostrar que el segundo término de esta ecuación es nulo:
Además, el tercer término de esta ecuación no es nada más que , la varianza de .
Ampliemos ahora el término restante:
Demostramos que:
Esta última serie de igualdades proviene del hecho de que no es una variable aleatoria, sino una función fija y determinista de . Por lo tanto, . De manera similar , y . Usando el mismo razonamiento, podemos desarrollar el segundo término y demostrar que es nulo:
Finalmente, volvemos a introducir nuestras derivaciones en la ecuación original e identificamos cada término:
Finalmente, la función de pérdida MSE (o log-verosimilitud negativa) se obtiene tomando el valor esperado sobre :
Aproches
La reducción de la dimensionalidad y la selección de características pueden reducir la varianza al simplificar los modelos. De manera similar, un conjunto de entrenamiento más grande tiende a reducir la varianza. Agregar características (predictores) tiende a reducir el sesgo, a expensas de introducir una varianza adicional. Los algoritmos de aprendizaje suelen tener algunos parámetros ajustables que controlan el sesgo y la varianza; por ejemplo,
En las redes neuronales artificiales , la varianza aumenta y el sesgo disminuye a medida que aumenta el número de unidades ocultas, [12] aunque este supuesto clásico ha sido objeto de debate reciente. [4] Al igual que en los GLM, normalmente se aplica la regularización.
En los modelos de k vecinos más cercanos , un valor alto de k genera un alto sesgo y una baja varianza (ver a continuación).
En los árboles de decisión , la profundidad del árbol determina la varianza. Los árboles de decisión suelen podarse para controlar la varianza. [7] : 307
Una forma de resolver el equilibrio es utilizar modelos de mezcla y aprendizaje en conjunto . [14] [15] Por ejemplo, el boosting combina muchos modelos "débiles" (alto sesgo) en un conjunto que tiene un sesgo menor que los modelos individuales, mientras que el bagging combina aprendices "fuertes" de una manera que reduce su varianza.
En el caso de la regresión de k vecinos más cercanos , cuando se asume la expectativa sobre el posible etiquetado de un conjunto de entrenamiento fijo, existe una expresión de forma cerrada que relaciona la descomposición de sesgo-varianza con el parámetro k : [8] : 37, 223
donde son los k vecinos más cercanos de x en el conjunto de entrenamiento. El sesgo (primer término) es una función monótona ascendente de k , mientras que la varianza (segundo término) disminuye a medida que k aumenta. De hecho, bajo "suposiciones razonables", el sesgo del estimador del primer vecino más cercano (1-NN) desaparece por completo a medida que el tamaño del conjunto de entrenamiento se acerca al infinito. [12]
Aplicaciones
En regresión
La descomposición de sesgo-varianza constituye la base conceptual de los métodos de regularización de regresión, como LASSO y la regresión de cresta . Los métodos de regularización introducen sesgo en la solución de regresión que puede reducir considerablemente la varianza en relación con la solución de mínimos cuadrados ordinarios (MCO) . Aunque la solución MCO proporciona estimaciones de regresión no sesgadas, las soluciones de varianza más bajas producidas por las técnicas de regularización proporcionan un rendimiento MSE superior.
En la clasificación
La descomposición de sesgo-varianza se formuló originalmente para la regresión de mínimos cuadrados. Para el caso de la clasificación bajo la pérdida 0-1 (tasa de clasificación errónea), es posible encontrar una descomposición similar, con la salvedad de que el término de varianza se vuelve dependiente de la etiqueta objetivo. [16] [17] Alternativamente, si el problema de clasificación puede formularse como clasificación probabilística , entonces la entropía cruzada esperada puede descomponerse para dar términos de sesgo y varianza con la misma semántica pero tomando una forma diferente.
Se ha argumentado que a medida que aumentan los datos de entrenamiento, la varianza de los modelos aprendidos tenderá a disminuir y, por lo tanto, a medida que aumenta la cantidad de datos de entrenamiento, el error se minimiza mediante métodos que aprenden modelos con menor sesgo y que, a la inversa, para cantidades de datos de entrenamiento más pequeñas es cada vez más importante minimizar la varianza. [18]
En el aprendizaje por refuerzo
Aunque la descomposición sesgo-varianza no se aplica directamente en el aprendizaje por refuerzo , una disyuntiva similar también puede caracterizar la generalización. Cuando un agente tiene información limitada sobre su entorno, la suboptimalidad de un algoritmo de RL se puede descomponer en la suma de dos términos: un término relacionado con un sesgo asintótico y un término debido al sobreajuste. El sesgo asintótico está directamente relacionado con el algoritmo de aprendizaje (independientemente de la cantidad de datos), mientras que el término de sobreajuste proviene del hecho de que la cantidad de datos es limitada. [19]
En el aprendizaje humano
Aunque se ha debatido ampliamente en el contexto del aprendizaje automático, el dilema sesgo-varianza se ha examinado en el contexto de la cognición humana , sobre todo por Gerd Gigerenzer y sus colaboradores en el contexto de las heurísticas aprendidas. Han argumentado (véanse las referencias a continuación) que el cerebro humano resuelve el dilema en el caso de los conjuntos de entrenamiento típicamente dispersos y mal caracterizados proporcionados por la experiencia adoptando heurísticas de alto sesgo/baja varianza. Esto refleja el hecho de que un enfoque de sesgo cero tiene poca generalización a nuevas situaciones y también presupone irrazonablemente un conocimiento preciso del verdadero estado del mundo. Las heurísticas resultantes son relativamente simples, pero producen mejores inferencias en una variedad más amplia de situaciones. [20]
Geman et al. [12] sostienen que el dilema sesgo-varianza implica que capacidades como el reconocimiento de objetos genéricos no pueden aprenderse desde cero, sino que requieren un cierto grado de "programación" que luego se ajusta con la experiencia. Esto se debe a que los enfoques de inferencia sin modelos requieren conjuntos de entrenamiento imprácticamente grandes si se pretende evitar una alta varianza.
^ Kohavi, Ron; Wolpert, David H. (1996). "Descomposición de sesgo más varianza para funciones de pérdida cero-uno". ICML . 96 .
^ Luxburg, Ulrike V.; Schölkopf, B. (2011). "Teoría del aprendizaje estadístico: modelos, conceptos y resultados". Manual de historia de la lógica . 10 : Sección 2.4.
^ Neal, Brady (2019). "Sobre el equilibrio entre sesgo y varianza: los libros de texto necesitan una actualización". arXiv : 1912.08286 [cs.LG].
^ ab Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2018). "Una interpretación moderna del equilibrio entre sesgo y varianza en redes neuronales". arXiv : 1810.08591 [cs.LG].
^ Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2019). Una perspectiva moderna sobre el equilibrio entre sesgo y varianza en redes neuronales. Conferencia internacional sobre representaciones de aprendizaje (ICLR) 2019.
^ Vapnik, Vladimir (2000). La naturaleza de la teoría del aprendizaje estadístico. Nueva York: Springer-Verlag. doi :10.1007/978-1-4757-3264-1. ISBN978-1-4757-3264-1. Número de identificación del sujeto 7138354.
^ ab Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico. Archivado desde el original el 26 de enero de 2015. Consultado el 20 de agosto de 2014 .
^ Shakhnarovich, Greg (2011). «Notas sobre la derivación de la descomposición de sesgo-varianza en regresión lineal» (PDF) . Archivado desde el original (PDF) el 21 de agosto de 2014. Consultado el 20 de agosto de 2014 .
^ Belsley, David (1991). Diagnóstico de condicionamiento: colinealidad y datos débiles en regresión . Nueva York (NY): Wiley. ISBN978-0471528890.
^ abc Geman, Stuart ; Bienenstock, Élie; Doursat, René (1992). "Redes neuronales y el dilema sesgo/varianza" (PDF) . Neural Computation . 4 : 1–58. doi :10.1162/neco.1992.4.1.1. S2CID 14215320.
^ Gagliardi, Francesco (mayo de 2011). "Clasificadores basados en instancias aplicados a bases de datos médicas: diagnóstico y extracción de conocimiento". Inteligencia artificial en medicina . 52 (3): 123–139. doi :10.1016/j.artmed.2011.04.002. PMID 21621400.
^ Ting, Jo-Anne; Vijaykumar, Sethu; Schaal, Stefan (2011). "Regresión ponderada localmente para el control". En Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático (PDF) . Springer. pág. 615. Código Bibliográfico :2010eoml.book.....S.
^ Fortmann-Roe, Scott (2012). "Entender el equilibrio entre sesgo y varianza".
^ Domingos, Pedro (2000). Una descomposición unificada de sesgo-varianza (PDF) . ICML.
^ Valentini, Giorgio; Dietterich, Thomas G. (2004). "Análisis de sesgo-varianza de máquinas de vectores de soporte para el desarrollo de métodos de conjunto basados en SVM" (PDF) . Journal of Machine Learning Research . 5 : 725–775.
^ Brain, Damian; Webb, Geoffrey (2002). La necesidad de algoritmos de bajo sesgo en el aprendizaje de clasificación a partir de grandes conjuntos de datos (PDF) . Actas de la Sexta Conferencia Europea sobre Principios de Minería de Datos y Descubrimiento de Conocimiento (PKDD 2002).
^ Francois-Lavet, Vincent; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damien; Fonteneau, Raphael (2019). "Sobre el sobreajuste y el sesgo asintótico en el aprendizaje por refuerzo por lotes con observabilidad parcial". Revista de investigación en inteligencia artificial . 65 : 1–30. arXiv : 1709.07796 . doi : 10.1613/jair.1.11478 .
^ Gigerenzer, Gerd ; Brighton, Henry (2009). "Homo heurístico: por qué las mentes sesgadas hacen mejores inferencias". Temas de ciencia cognitiva . 1 (1): 107–143. doi :10.1111/j.1756-8765.2008.01006.x. hdl : 11858/00-001M-0000-0024-F678-0 . PMID 25164802.
Enlaces externos
MLU-Explain: El equilibrio entre sesgo y varianza: una visualización interactiva del equilibrio entre sesgo y varianza en la regresión LOESS y K-vecinos más cercanos.