stringtranslate.com

Compensación sesgo-varianza

Una función (rojo) se aproxima utilizando funciones de base radial (azul). En cada gráfico se muestran varios ensayos. Para cada prueba, se proporcionan algunos puntos de datos ruidosos como conjunto de entrenamiento (arriba). Para una dispersión amplia (imagen 2), el sesgo es alto: los RBF no pueden aproximarse completamente a la función (especialmente la caída central), pero la varianza entre los diferentes ensayos es baja. A medida que la dispersión disminuye (imagen 3 y 4), el sesgo disminuye: las curvas azules se aproximan más a las rojas. Sin embargo, dependiendo del ruido en diferentes pruebas, la variación entre las pruebas aumenta. En la imagen más inferior, los valores aproximados de x=0 varían enormemente dependiendo de dónde se ubicaron los puntos de datos.
Sesgo y varianza en función de la complejidad del modelo.

En estadística y aprendizaje automático , la compensación sesgo-varianza describe la relación entre la complejidad de un modelo, la precisión de sus predicciones y qué tan bien puede hacer predicciones sobre datos nunca antes vistos que no se utilizaron para entrenar el modelo. En general, a medida que aumentamos la cantidad de parámetros ajustables en un modelo, este se vuelve más flexible y puede adaptarse mejor a un conjunto de datos de entrenamiento. Se dice que tiene menor error o sesgo . Sin embargo, para modelos más flexibles, tenderá a haber una mayor variación en el ajuste del modelo cada vez que tomamos un conjunto de muestras para crear un nuevo conjunto de datos de entrenamiento. Se dice que existe una mayor varianza en los parámetros estimados del modelo .

El dilema de sesgo-varianza o problema de sesgo-varianza es el conflicto al intentar minimizar simultáneamente estas dos fuentes de error que impiden que los algoritmos de aprendizaje supervisado se generalicen más allá de su conjunto de entrenamiento : [1] [2]

La descomposición sesgo-varianza es una forma de analizar el error de generalización esperado de un algoritmo de aprendizaje con respecto a un problema particular como una suma de tres términos, el sesgo, la varianza y una cantidad llamada error irreducible , resultante del ruido en el problema mismo.

Motivación

El equilibrio entre sesgo y varianza es un problema central en el aprendizaje supervisado. Idealmente, uno quiere elegir un modelo que capture con precisión las regularidades en sus datos de entrenamiento, pero que también generalice bien a datos invisibles. Desafortunadamente, normalmente es imposible hacer ambas cosas simultáneamente. Los métodos de aprendizaje de alta varianza pueden representar bien su conjunto de entrenamiento, pero corren el riesgo de sobreajustarse a datos de entrenamiento ruidosos o no representativos. Por el contrario, los algoritmos con un alto sesgo suelen producir modelos más simples que pueden no capturar regularidades importantes (es decir, subadaptación) en los datos.

Es una falacia frecuente [3] [4] suponer que los modelos complejos deben tener una alta varianza. Los modelos de alta varianza son "complejos" en cierto sentido, pero no tiene por qué ser cierto lo contrario. [5] Además, hay que tener cuidado al definir la complejidad. En particular, la cantidad de parámetros utilizados para describir el modelo es una mala medida de la complejidad. Esto se ilustra con un ejemplo adaptado de: [6] El modelo tiene solo dos parámetros ( ), pero puede interpolar cualquier número de puntos oscilando con una frecuencia suficientemente alta, lo que resulta tanto en un alto sesgo como en una alta varianza.

Se puede hacer una analogía con la relación entre exactitud y precisión . La precisión es una descripción del sesgo y puede mejorarse intuitivamente seleccionando únicamente información local . En consecuencia, una muestra parecerá precisa (es decir, tendrá un sesgo bajo) bajo las condiciones de selección antes mencionadas, pero puede resultar en un ajuste insuficiente. En otras palabras, los datos de las pruebas pueden no concordar tan estrechamente con los datos de entrenamiento, lo que indicaría imprecisión y, por lo tanto, una varianza inflada. Un ejemplo gráfico sería un ajuste en línea recta a datos que exhiben un comportamiento cuadrático en general. La precisión es una descripción de la varianza y generalmente sólo puede mejorarse seleccionando información de un espacio comparativamente más grande. La opción de seleccionar muchos puntos de datos en un amplio espacio muestral es la condición ideal para cualquier análisis. Sin embargo, las limitaciones intrínsecas (ya sean físicas, teóricas, computacionales, etc.) siempre jugarán un papel limitante. El caso límite en el que solo se selecciona un número finito de puntos de datos en un espacio muestral amplio puede dar lugar a una precisión mejorada y una varianza más baja en general, pero también puede dar lugar a una dependencia excesiva de los datos de entrenamiento (sobreajuste). Esto significa que los datos de prueba tampoco coincidirían tan estrechamente con los datos de entrenamiento, pero en este caso el motivo es la inexactitud o el alto sesgo. Tomando prestado del ejemplo anterior, la representación gráfica aparecería como un ajuste polinómico de alto orden a los mismos datos que exhiben un comportamiento cuadrático. Tenga en cuenta que el error en cada caso se mide de la misma manera, pero la razón atribuida al error es diferente según el equilibrio entre sesgo y varianza. Para mitigar la cantidad de información que se utiliza de las observaciones vecinas, un modelo se puede suavizar mediante una regularización explícita , como la contracción .

Descomposición sesgo-varianza del error cuadrático medio

Supongamos que tenemos un conjunto de entrenamiento que consta de un conjunto de puntos y valores reales asociados a cada punto . Suponemos que los datos son generados por una función como , donde el ruido, tiene media cero y varianza .

Queremos encontrar una función que se aproxime a la función real lo mejor posible, mediante algún algoritmo de aprendizaje basado en un conjunto de datos de entrenamiento (muestra) . Hacemos que "lo mejor posible" sea preciso midiendo el error cuadrático medio entre y : queremos que sea mínimo, tanto para como para puntos fuera de nuestra muestra . Por supuesto, no podemos esperar hacerlo perfectamente, ya que contienen ruido ; esto significa que debemos estar preparados para aceptar un error irreducible en cualquier función que se nos ocurra.

Se puede encontrar un que se generalice a puntos fuera del conjunto de entrenamiento con cualquiera de los innumerables algoritmos utilizados para el aprendizaje supervisado. Resulta que cualquiera que sea la función que seleccionemos, podemos descomponer su error esperado en una muestra no vista ( es decir, condicional a x ) de la siguiente manera: [7] : 34  [8] : 223 

dónde

y

La expectativa varía entre diferentes opciones del conjunto de entrenamiento , todas ellas tomadas de la misma distribución conjunta que se puede realizar, por ejemplo, mediante bootstrapping . Los tres términos representan:

Dado que los tres términos no son negativos, el error irreducible forma un límite inferior del error esperado en muestras no vistas. [7] : 34 

Cuanto más complejo sea el modelo , más puntos de datos capturará y menor será el sesgo. Sin embargo, la complejidad hará que el modelo se "mueva" más para capturar los puntos de datos y, por tanto, su variación será mayor.

Derivación

La derivación de la descomposición sesgo-varianza para el error al cuadrado se realiza de la siguiente manera. [9] [10] Por conveniencia de notación, abreviamos y eliminamos el subíndice en nuestros operadores de expectativa.

Escribamos el error cuadrático medio de nuestro modelo:

En primer lugar, dado que modelamos , demostramos que

En segundo lugar,

Por último,

Finalmente, reemplazamos estas 3 fórmulas en nuestra derivación anterior y así mostramos que:

Finalmente, la función de pérdida MSE (o log-verosimilitud negativa) se obtiene tomando el valor esperado sobre :

Enfoques

La reducción de dimensionalidad y la selección de características pueden disminuir la variación al simplificar los modelos. De manera similar, un conjunto de entrenamiento más grande tiende a disminuir la varianza. Agregar características (predictores) tiende a disminuir el sesgo, a expensas de introducir varianza adicional. Los algoritmos de aprendizaje suelen tener algunos parámetros ajustables que controlan el sesgo y la variación; Por ejemplo,

Una forma de resolver el equilibrio es utilizar modelos mixtos y aprendizaje en conjunto . [14] [15] Por ejemplo, el impulso combina muchos modelos "débiles" (alto sesgo) en un conjunto que tiene un sesgo menor que los modelos individuales, mientras que el embolsado combina alumnos "fuertes" de una manera que reduce su varianza.

Se pueden utilizar métodos de validación de modelos , como la validación cruzada (estadísticas), para ajustar los modelos y optimizar la compensación.

k -vecinos más cercanos

En el caso de la regresión de k vecinos más cercanos , cuando la expectativa se toma sobre el posible etiquetado de un conjunto de entrenamiento fijo, existe una expresión de forma cerrada que relaciona la descomposición sesgo-varianza con el parámetro k : [8] : 37, 223 

¿Dónde están los k vecinos más cercanos de x en el conjunto de entrenamiento? El sesgo (primer término) es una función monótona creciente de k , mientras que la varianza (segundo término) disminuye a medida que k aumenta. De hecho, bajo "supuestos razonables", el sesgo del estimador del primer vecino más cercano (1-NN) desaparece por completo a medida que el tamaño del conjunto de entrenamiento se acerca al infinito. [12]

Aplicaciones

En regresión

La descomposición sesgo-varianza forma la base conceptual de los métodos de regularización de regresión como Lasso y la regresión de cresta . Los métodos de regularización introducen un sesgo en la solución de regresión que puede reducir considerablemente la varianza en relación con la solución de mínimos cuadrados ordinarios (MCO) . Aunque la solución OLS proporciona estimaciones de regresión no sesgadas, las soluciones de varianza más baja producidas por técnicas de regularización proporcionan un rendimiento MSE superior.

en clasificación

La descomposición sesgo-varianza se formuló originalmente para la regresión de mínimos cuadrados. Para el caso de clasificación bajo derrota 0-1 (tasa de clasificación errónea), es posible encontrar una descomposición similar. [16] [17] Alternativamente, si el problema de clasificación se puede expresar como clasificación probabilística , entonces el error cuadrático esperado de las probabilidades predichas con respecto a las probabilidades verdaderas se puede descomponer como antes. [18]

Se ha argumentado que a medida que aumentan los datos de entrenamiento, la varianza de los modelos aprendidos tenderá a disminuir y, por lo tanto, a medida que aumenta la cantidad de datos de entrenamiento, el error se minimiza mediante métodos que aprenden modelos con menor sesgo y, a la inversa, para cantidades de datos de entrenamiento más pequeñas. Cada vez es más importante minimizar la variación. [19]

En el aprendizaje por refuerzo

Aunque la descomposición sesgo-varianza no se aplica directamente en el aprendizaje por refuerzo , una compensación similar también puede caracterizar la generalización. Cuando un agente tiene información limitada sobre su entorno, la suboptimidad de un algoritmo RL se puede descomponer en la suma de dos términos: un término relacionado con un sesgo asintótico y un término debido al sobreajuste. El sesgo asintótico está directamente relacionado con el algoritmo de aprendizaje (independientemente de la cantidad de datos) mientras que el término de sobreajuste proviene del hecho de que la cantidad de datos es limitada. [20]

En el aprendizaje humano

Si bien se discute ampliamente en el contexto del aprendizaje automático, el dilema sesgo-varianza ha sido examinado en el contexto de la cognición humana , más notablemente por Gerd Gigerenzer y sus colaboradores en el contexto de la heurística aprendida. Han argumentado (ver referencias a continuación) que el cerebro humano resuelve el dilema en el caso de conjuntos de entrenamiento típicamente escasos y mal caracterizados proporcionados por la experiencia mediante la adopción de heurísticas de alto sesgo y baja varianza. Esto refleja el hecho de que un enfoque sin sesgo tiene poca capacidad de generalización a situaciones nuevas y también supone de manera irrazonable un conocimiento preciso del verdadero estado del mundo. Las heurísticas resultantes son relativamente simples, pero producen mejores inferencias en una variedad más amplia de situaciones. [21]

Geman et al. [12] sostienen que el dilema sesgo-varianza implica que habilidades como el reconocimiento genérico de objetos no se pueden aprender desde cero, sino que requieren un cierto grado de "cableado" que luego se ajusta mediante la experiencia. Esto se debe a que los enfoques de inferencia sin modelos requieren conjuntos de entrenamiento imprácticamente grandes si se quiere evitar una alta variación.

Ver también

Referencias

  1. ^ Kohavi, Ron; Wolpert, David H. (1996). "Descomposición de sesgo más varianza para funciones de pérdida cero uno". ICML . 96 .
  2. ^ Luxemburgo, Ulrike V.; Schölkopf, B. (2011). "Teoría del aprendizaje estadístico: modelos, conceptos y resultados". Manual de Historia de la Lógica . 10 : Sección 2.4.
  3. ^ Neil, Brady (2019). "Sobre la compensación entre sesgo y varianza: los libros de texto necesitan una actualización". arXiv : 1912.08286 [cs.LG].
  4. ^ ab Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Mateo; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2018). "Una visión moderna de la compensación entre sesgo y varianza en las redes neuronales". arXiv : 1810.08591 [cs.LG].
  5. ^ Neil, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Mateo; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2019). Una visión moderna del equilibrio entre sesgo y varianza en las redes neuronales. Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) 2019.
  6. ^ Vápnik, Vladimir (2000). La naturaleza de la teoría del aprendizaje estadístico. Nueva York: Springer-Verlag. doi :10.1007/978-1-4757-3264-1. ISBN 978-1-4757-3264-1. S2CID  7138354.
  7. ^ abc James, Gareth; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert (2013). Una introducción al aprendizaje estadístico. Saltador.
  8. ^ ab Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico. Archivado desde el original el 26 de enero de 2015 . Consultado el 20 de agosto de 2014 .
  9. ^ Vijayakumar, Sethu (2007). "La compensación entre sesgo y varianza" (PDF) . Universidad de Edimburgo . Consultado el 19 de agosto de 2014 .
  10. ^ Shakhnarovich, Greg (2011). "Notas sobre la derivación de la descomposición sesgo-varianza en regresión lineal" (PDF) . Archivado desde el original (PDF) el 21 de agosto de 2014 . Consultado el 20 de agosto de 2014 .
  11. ^ Belsley, David (1991). Diagnóstico de condicionamiento: colinealidad y datos débiles en regresión . Nueva York (NY): Wiley. ISBN 978-0471528890.
  12. ^ abc alemán, Stuart ; Bienenstock, Élie; Doursat, René (1992). "Las redes neuronales y el dilema del sesgo/varianza" (PDF) . Computación neuronal . 4 : 1–58. doi :10.1162/neco.1992.4.1.1. S2CID  14215320.
  13. ^ Gagliardi, Francesco (mayo de 2011). "Clasificadores basados ​​en instancias aplicados a bases de datos médicas: diagnóstico y extracción de conocimiento". Inteligencia artificial en medicina . 52 (3): 123-139. doi :10.1016/j.artmed.2011.04.002. PMID  21621400.
  14. ^ Ting, Jo-Anne; Vijaykumar, Sethu; Schaal, Stefan (2011). "Regresión ponderada localmente para el control". En Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático (PDF) . Saltador. pag. 615. Bibcode : 2010eoml.book.....S.
  15. ^ Fortmann-Roe, Scott (2012). "Comprensión de la compensación entre sesgo y varianza".
  16. ^ Domingos, Pedro (2000). Una descomposición unificada de sesgo-varianza (PDF) . ICML.
  17. ^ Valentini, Giorgio; Dietterich, Thomas G. (2004). "Análisis de sesgo-varianza de máquinas de vectores de soporte para el desarrollo de métodos de conjunto basados ​​en SVM" (PDF) . Revista de investigación sobre aprendizaje automático . 5 : 725–775.
  18. ^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). "Clasificación del espacio vectorial" (PDF) . Introducción a la recuperación de información. Prensa de la Universidad de Cambridge. págs. 308–314.
  19. ^ Cerebro, Damián; Webb, Geoffrey (2002). La necesidad de algoritmos de bajo sesgo en el aprendizaje de clasificación a partir de grandes conjuntos de datos (PDF) . Actas de la Sexta Conferencia Europea sobre Principios de Minería de Datos y Descubrimiento de Conocimiento (PKDD 2002).
  20. ^ Francois-Lavet, Vicente; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damián; Fonteneau, Rafael (2019). "Sobre el sobreajuste y el sesgo asintótico en el aprendizaje por refuerzo por lotes con observabilidad parcial". Revista de investigación en inteligencia artificial . 65 : 1–30. arXiv : 1709.07796 . doi : 10.1613/jair.1.11478 .
  21. ^ Gigerenzer, Gerd ; Brighton, Henry (2009). "Homo Heuristicus: por qué las mentes sesgadas hacen mejores inferencias". Temas de ciencia cognitiva . 1 (1): 107–143. doi :10.1111/j.1756-8765.2008.01006.x. hdl : 11858/00-001M-0000-0024-F678-0 . PMID  25164802.

enlaces externos

Literatura