Se dice que hay una mayor varianza en los parámetros estimados del modelo.El dilema sesgo y varianza es un problema central en el aprendizaje supervisado.Por desgracia, suele ser imposible hacer ambas cosas a la vez.Es una falacia frecuente[3][4] suponer que los modelos complejos deben tener una varianza elevada.Los modelos de alta varianza son "complejos" en cierto sentido, pero lo contrario no tiene por qué ser cierto.[5] Además, hay que tener cuidado con la forma de definir la complejidad.) pero puede interpolar cualquier número de puntos oscilando con una frecuencia suficientemente alta, lo que da como resultado un sesgo y una varianza elevados.[7] La exactitud es una descripción del sesgo y puede mejorarse intuitivamente seleccionando sólo a partir de información local.Por consiguiente, una muestra parecerá precisa (es decir, tendrá un sesgo bajo) en las condiciones de selección mencionadas, pero puede dar lugar a un ajuste insuficiente.Un ejemplo gráfico sería un ajuste de línea recta a datos que muestran un comportamiento cuadrático en general.Sin embargo, las restricciones intrínsecas (ya sean físicas, teóricas, computacionales, etc.) siempre desempeñarán un papel limitador.Esto significa que los datos de prueba tampoco coincidirían tanto con los datos de entrenamiento, pero en este caso la razón es la inexactitud o el alto sesgo.Tomando prestado del ejemplo anterior, la representación gráfica aparecería como un ajuste polinómico de alto orden a los mismos datos que muestran un comportamiento cuadrático.Obsérvese que el error en cada caso se mide de la misma manera, pero la razón atribuida al error es diferente dependiendo del equilibrio entre sesgo y varianza.Por supuesto, no podemos esperar hacerlo a la perfección, ya queque seleccionemos, podemos descomponer su error esperado en una muestra no vista, todos muestreados a partir de la misma distribución conjuntaLos tres términos representan: Como los tres términos son no negativos, el error irreducible constituye un límite inferior del error esperado en muestras no vistas.es más puntos de datos captará y menor será el sesgo.Sin embargo, la complejidad hará que el modelo se "mueva" más para captar los puntos de datos y, por tanto, su varianza será mayor.La derivación de la descomposición sesgo-varianza para el error cuadrático procede como sigue.Procedamos a escribir el error cuadrático medio de nuestro modelo:Finalmente, insertamos estas 3 fórmulas en nuestra derivación anterior deDel mismo modo, un conjunto de entrenamiento mayor tiende a reducir la varianza.Los algoritmos de aprendizaje suelen tener algunos parámetros ajustables que controlan el sesgo y la varianza; por ejemplo: Una forma de resolver esta disyuntiva es utilizar modelos mixtos y el aprendizaje por conjuntos.El sesgo (primer término) es una función monótona creciente de k, mientras que la varianza (segundo término) disminuye a medida que aumenta k. De hecho, en "supuestos razonables", el sesgo del estimador del primer vecino más próximo (1-NN) desaparece por completo a medida que el tamaño del conjunto de entrenamiento se aproxima a infinito.La descomposición sesgo-varianza se formuló originalmente para la regresión por mínimos cuadrados.[19][20] Alternativamente, si el problema de clasificación se puede formular como clasificación probabilística, entonces el error cuadrático esperado de las probabilidades predichas con respecto a las probabilidades verdaderas se puede descomponer como antes.[22] Aunque la descomposición sesgo-varianza no se aplica directamente al aprendizaje por refuerzo, un equilibrio similar puede caracterizar también la generalización.La heurística resultante es relativamente sencilla, pero produce mejores inferencias en una mayor variedad de situaciones.
Alto sesgo, alta varianza
Bajo sesgo, baja varianza
Bajo sesgo, alta varianza
Función y datos ruidosos
Dispersión=0,1
Sesgo y varianza en función de la complejidad del modelo