Error cuadrático medio

En estadística , el error cuadrático medio ( MSE ) ^[1] o desviación cuadrática media ( MSD ) de un estimador (de un procedimiento para estimar una cantidad no observada) mide el promedio de los cuadrados de los errores , es decir, la diferencia cuadrática media entre los valores estimados y el valor real. MSE es una función de riesgo , que corresponde al valor esperado de la pérdida de error al cuadrado . ^[2] El hecho de que MSE sea casi siempre estrictamente positivo (y no cero) se debe a la aleatoriedad o porque el estimador no tiene en cuenta información que podría producir una estimación más precisa. ^[3] En aprendizaje automático , específicamente en minimización de riesgo empírico , MSE puede referirse al riesgo empírico (la pérdida promedio en un conjunto de datos observados), como una estimación del MSE verdadero (el riesgo verdadero: la pérdida promedio en la distribución de población real).

El MSE es una medida de la calidad de un estimador. Como se deriva del cuadrado de la distancia euclidiana , siempre es un valor positivo que disminuye a medida que el error se acerca a cero.

El MSE es el segundo momento (sobre el origen) del error, y por lo tanto incorpora tanto la varianza del estimador (qué tan ampliamente dispersas están las estimaciones de una muestra de datos a otra) como su sesgo (qué tan lejos está el valor estimado promedio del valor verdadero). ^{[ cita requerida ]} Para un estimador insesgado , el MSE es la varianza del estimador. Al igual que la varianza, el MSE tiene las mismas unidades de medida que el cuadrado de la cantidad que se está estimando. En una analogía con la desviación estándar , al tomar la raíz cuadrada del MSE se obtiene el error cuadrático medio o la desviación cuadrática media (RMSE o RMSD), que tiene las mismas unidades que la cantidad que se está estimando; para un estimador insesgado, el RMSE es la raíz cuadrada de la varianza , conocida como el error estándar .

Definición y propiedades básicas

El MSE evalúa la calidad de un predictor (es decir, una función que asigna entradas arbitrarias a una muestra de valores de alguna variable aleatoria ) o de un estimador (es decir, una función matemática que asigna una muestra de datos a una estimación de un parámetro de la población de la que se toman los datos). En el contexto de la predicción, comprender el intervalo de predicción también puede ser útil, ya que proporciona un rango dentro del cual caerá una observación futura, con una cierta probabilidad. La definición de un MSE difiere según se describa un predictor o un estimador.

Vaticinador

Si se genera un vector de predicciones a partir de una muestra de puntos de datos de todas las variables, y es el vector de valores observados de la variable que se está prediciendo, siendo los valores predichos (por ejemplo, como a partir de un ajuste de mínimos cuadrados ), entonces el MSE dentro de la muestra del predictor se calcula como ${\estilo de visualización n}$ ${\estilo de visualización n}$ ${\estilo de visualización Y}$ ${\hat {Y}}$

\operatorname {MSE} ={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\hat {Y_{i}}}\right)^{2}

En otras palabras, el MSE es la media de los cuadrados de los errores . Se trata de una cantidad que se puede calcular fácilmente para una muestra en particular (y, por lo tanto, depende de la muestra). ${\textstyle \left({\frac {1}{n}}\sum _{i=1}^{n}\right)}$ ${\textstyle \left(Y_{i}-{\hat {Y_{i}}}\right)^{2}}$

En notación matricial ,

\operatorname {MSE} ={\frac {1}{n}}\sum _{i=1}^{n}(e_{i})^{2}={\frac {1}{n }}\mathbf {e} ^{\mathsf {T}}\mathbf {e}

donde es y es un vector columna. $Estilo de visualización e_i$ $(Y_{i}-{\hat {Y_{i}}})$ $\mathbf {e}$ $n\times 1$

El MSE también se puede calcular en puntos de datos q que no se utilizaron para estimar el modelo, ya sea porque se conservaron para este propósito o porque estos datos se obtuvieron recientemente. Dentro de este proceso, conocido como validación cruzada , el MSE a menudo se denomina MSE de prueba ^[4] y se calcula como

\operatorname {MSE} ={\frac {1}{q}}\sum _{i=n+1}^{n+q}\left(Y_{i}-{\hat {Y_{i}}}\right)^{2}

Estimador

El MSE de un estimador con respecto a un parámetro desconocido se define como ^[1] ${\hat {\theta}}$ ${\estilo de visualización \theta}$

\operatorname {MSE} ({\hat {\theta }})=\operatorname {E} _{\theta }\left[({\hat {\theta }}-\theta )^{2}\right].

Esta definición depende del parámetro desconocido, pero el MSE es a priori una propiedad de un estimador. El MSE podría ser una función de parámetros desconocidos, en cuyo caso cualquier estimador del MSE basado en estimaciones de estos parámetros sería una función de los datos (y, por lo tanto, una variable aleatoria). Si el estimador se deriva como una estadística muestral y se utiliza para estimar algún parámetro de la población, entonces la expectativa es con respecto a la distribución de muestreo de la estadística muestral. ${\hat {\theta}}$

El MSE se puede escribir como la suma de la varianza del estimador y el sesgo al cuadrado del estimador, lo que proporciona una forma útil de calcular el MSE e implica que en el caso de estimadores insesgados, el MSE y la varianza son equivalentes. ^[5]

\operatorname {MSE} ({\hat {\theta }})=\operatorname {Var} _{\theta }({\hat {\theta }})+\operatorname {Sesgo} ({\hat {\theta }},\theta )^{2}.

Prueba de la relación entre varianza y sesgo

${\begin{aligned}\operatorname {MSE} ({\hat {\theta }})&=\operatorname {E} _{\theta }\left[({\hat {\theta }}-\theta )^{2}\right]\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]+\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}\right]\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}+2\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)+\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}\right]\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}\right]+\operatorname {E} _{\theta }\left[2\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)\right]+\operatorname {E} _{\theta }\left[\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}\right]\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}\right]+2\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)\operatorname {E} _{\theta }\left[{\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right]+\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}&&\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta ={\text{const.}}\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}\right]+2\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)+\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}&&\operatorname {E} _{\theta }[{\hat {\theta }}]={\text{const.}}\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}\right]+\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}\\&=\operatorname {Var} _{\theta }({\hat {\theta }})+\operatorname {Bias} _{\theta }({\hat {\theta }},\theta )^{2}\end{aligned}}$

Se puede lograr una prueba aún más corta utilizando la fórmula bien conocida de que para una variable aleatoria , . Al sustituir con, , tenemos Pero en el caso de modelado real, MSE podría describirse como la suma de la varianza del modelo, el sesgo del modelo y la incertidumbre irreducible (ver Compensación sesgo-varianza ). De acuerdo con la relación, el MSE de los estimadores podría usarse simplemente para la comparación de eficiencia , que incluye la información de la varianza y el sesgo del estimador. Esto se llama criterio MSE. ${\textstyle X}$ ${\textstyle \mathbb {E} (X^{2})=\operatorname {Var} (X)+(\mathbb {E} (X))^{2}}$ ${\textstyle X}$ ${\textstyle {\hat {\theta }}-\theta }$ ${\begin{aligned}\operatorname {MSE} ({\hat {\theta }})&=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]\\&=\operatorname {Var} ({\hat {\theta }}-\theta )+(\mathbb {E} [{\hat {\theta }}-\theta ])^{2}\\&=\operatorname {Var} ({\hat {\theta }})+\operatorname {Bias} ^{2}({\hat {\theta }},\theta )\end{aligned}}$

En regresión

En el análisis de regresión , la representación gráfica es una forma más natural de ver la tendencia general de todos los datos. Se puede calcular la media de la distancia desde cada punto hasta el modelo de regresión previsto y mostrarla como el error cuadrático medio. La elevación al cuadrado es fundamental para reducir la complejidad con signos negativos. Para minimizar el error cuadrático medio, el modelo podría ser más preciso, lo que significaría que el modelo está más cerca de los datos reales. Un ejemplo de una regresión lineal que utiliza este método es el método de mínimos cuadrados , que evalúa la idoneidad del modelo de regresión lineal para modelar un conjunto de datos bivariados , ^[6] pero cuya limitación está relacionada con la distribución conocida de los datos.

El término error cuadrático medio se utiliza a veces para referirse a la estimación no sesgada de la varianza del error: la suma residual de los cuadrados dividida por el número de grados de libertad . Esta definición para una cantidad conocida y calculada difiere de la definición anterior para el error cuadrático medio calculado de un predictor, en que se utiliza un denominador diferente. El denominador es el tamaño de la muestra reducido por el número de parámetros del modelo estimados a partir de los mismos datos, ( n − p ) para los regresores p o ( n − p −1) si se utiliza una intersección (consulte errores y residuos en estadística para más detalles). ^[7] Aunque el error cuadrático medio (como se define en este artículo) no es un estimador no sesgado de la varianza del error, es consistente , dada la consistencia del predictor.

En el análisis de regresión, el "error cuadrático medio", a menudo denominado error cuadrático medio de predicción o "error cuadrático medio fuera de la muestra", también puede referirse al valor medio de las desviaciones al cuadrado de las predicciones respecto de los valores verdaderos, en un espacio de prueba fuera de la muestra , generado por un modelo estimado en un espacio de muestra particular . Esta también es una cantidad conocida y calculada, y varía según la muestra y el espacio de prueba fuera de la muestra.

En el contexto de los algoritmos de descenso de gradiente, es común introducir un factor en el error máximo exponencial para facilitar el cálculo después de tomar la derivada. Por lo tanto, un valor que técnicamente es la mitad de la media de los errores cuadráticos puede llamarse error máximo exponencial. $1/2$

Ejemplos

Significar

Supongamos que tenemos una muestra aleatoria de tamaño de una población, . Supongamos que las unidades de muestra se eligieron con reemplazo . Es decir, las unidades se seleccionan una a la vez, y las unidades seleccionadas previamente siguen siendo elegibles para la selección para todos los sorteos. El estimador habitual para es el promedio de la muestra $n$ $X_{1},\dots ,X_{n}$ $n$ $n$ $\mu$

{\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

que tiene un valor esperado igual a la media verdadera (por lo que no está sesgado) y un error cuadrático medio de $\mu$

\operatorname {MSE} \left({\overline {X}}\right)=\operatorname {E} \left[\left({\overline {X}}-\mu \right)^{2}\right]=\left({\frac {\sigma }{\sqrt {n}}}\right)^{2}={\frac {\sigma ^{2}}{n}}

¿Dónde está la varianza de la población ? $\sigma ^{2}$

Para una distribución gaussiana , este es el mejor estimador imparcial (es decir, uno con el MSE más bajo entre todos los estimadores imparciales), pero no, por ejemplo, para una distribución uniforme .

Diferencia

El estimador habitual de la varianza es la varianza muestral corregida :

S_{n-1}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}={\frac {1}{n-1}}\left(\sum _{i=1}^{n}X_{i}^{2}-n{\overline {X}}^{2}\right).

Esta es imparcial (su valor esperado es ), por lo que también se denomina varianza de muestra imparcial, y su MSE es ^[8] $\sigma ^{2}$

\operatorname {MSE} (S_{n-1}^{2})={\frac {1}{n}}\left(\mu _{4}-{\frac {n-3}{n-1}}\sigma ^{4}\right)={\frac {1}{n}}\left(\gamma _{2}+{\frac {2n}{n-1}}\right)\sigma ^{4},

donde es el cuarto momento central de la distribución o población, y es el exceso de curtosis . $\mu _{4}$ $\gamma _{2}=\mu _{4}/\sigma ^{4}-3$

Sin embargo, se pueden utilizar otros estimadores para los cuales son proporcionales a , y una elección adecuada siempre puede dar un error cuadrático medio menor. Si definimos $\sigma ^{2}$ $S_{n-1}^{2}$

S_{a}^{2}={\frac {n-1}{a}}S_{n-1}^{2}={\frac {1}{a}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}

Luego calculamos:

{\begin{aligned}\operatorname {MSE} (S_{a}^{2})&=\operatorname {E} \left[\left({\frac {n-1}{a}}S_{n-1}^{2}-\sigma ^{2}\right)^{2}\right]\\&=\operatorname {E} \left[{\frac {(n-1)^{2}}{a^{2}}}S_{n-1}^{4}-2\left({\frac {n-1}{a}}S_{n-1}^{2}\right)\sigma ^{2}+\sigma ^{4}\right]\\&={\frac {(n-1)^{2}}{a^{2}}}\operatorname {E} \left[S_{n-1}^{4}\right]-2\left({\frac {n-1}{a}}\right)\operatorname {E} \left[S_{n-1}^{2}\right]\sigma ^{2}+\sigma ^{4}\\&={\frac {(n-1)^{2}}{a^{2}}}\operatorname {E} \left[S_{n-1}^{4}\right]-2\left({\frac {n-1}{a}}\right)\sigma ^{4}+\sigma ^{4}&&\operatorname {E} \left[S_{n-1}^{2}\right]=\sigma ^{2}\\&={\frac {(n-1)^{2}}{a^{2}}}\left({\frac {\gamma _{2}}{n}}+{\frac {n+1}{n-1}}\right)\sigma ^{4}-2\left({\frac {n-1}{a}}\right)\sigma ^{4}+\sigma ^{4}&&\operatorname {E} \left[S_{n-1}^{4}\right]=\operatorname {MSE} (S_{n-1}^{2})+\sigma ^{4}\\&={\frac {n-1}{na^{2}}}\left((n-1)\gamma _{2}+n^{2}+n\right)\sigma ^{4}-2\left({\frac {n-1}{a}}\right)\sigma ^{4}+\sigma ^{4}\end{aligned}}

Esto se minimiza cuando

a={\frac {(n-1)\gamma _{2}+n^{2}+n}{n}}=n+1+{\frac {n-1}{n}}\gamma _{2}.

Para una distribución gaussiana , donde , esto significa que el MSE se minimiza al dividir la suma por . El exceso de curtosis mínimo es , ^[a] que se logra mediante una distribución de Bernoulli con p = 1/2 (un lanzamiento de moneda), y el MSE se minimiza para Por lo tanto, independientemente de la curtosis, obtenemos una estimación "mejor" (en el sentido de tener un MSE más bajo) al reducir un poco el estimador insesgado; este es un ejemplo simple de un estimador de contracción : uno "encoge" el estimador hacia cero (reduce la escala del estimador insesgado). $\gamma _{2}=0$ $a=n+1$ $\gamma _{2}=-2$ $a=n-1+{\tfrac {2}{n}}.$

Además, si bien la varianza de la muestra corregida es el mejor estimador imparcial (error cuadrático medio mínimo entre estimadores imparciales) de la varianza para distribuciones gaussianas, si la distribución no es gaussiana, entonces incluso entre estimadores imparciales, el mejor estimador imparcial de la varianza puede no ser $S_{n-1}^{2}.$

Distribución gaussiana

La siguiente tabla proporciona varios estimadores de los parámetros reales de la población, μ y σ ² , para el caso gaussiano. ^[9]

Interpretación

Un MSE de cero, lo que significa que el estimador predice observaciones del parámetro con perfecta precisión, es ideal (pero normalmente no es posible). ${\hat {\theta }}$ $\theta$

Los valores de MSE se pueden utilizar con fines comparativos. Se pueden comparar dos o más modelos estadísticos utilizando sus MSE, como medida de qué tan bien explican un conjunto dado de observaciones: Un estimador insesgado (estimado a partir de un modelo estadístico) con la menor varianza entre todos los estimadores insesgados es el mejor estimador insesgado o MVUE ( estimador insesgado de mínima varianza ).

Tanto las técnicas de análisis de varianza como las de regresión lineal estiman el MSE como parte del análisis y utilizan el MSE estimado para determinar la significancia estadística de los factores o predictores en estudio. El objetivo del diseño experimental es construir experimentos de tal manera que cuando se analicen las observaciones, el MSE sea cercano a cero en relación con la magnitud de al menos uno de los efectos estimados del tratamiento.

En el análisis de varianza unidireccional , el error medio ponderado (MSE) se puede calcular dividiendo la suma de los errores al cuadrado por el grado de libertad. Además, el valor f es la relación entre el cuadrado medio del tratamiento y el MSE.

MSE también se utiliza en varias técnicas de regresión por pasos como parte de la determinación de cuántos predictores de un conjunto de candidatos incluir en un modelo para un conjunto dado de observaciones.

Aplicaciones

Minimizar el error cuadrático medio mínimo es un criterio clave para seleccionar estimadores: véase error cuadrático medio mínimo . Entre los estimadores insesgados, minimizar el error cuadrático medio equivale a minimizar la varianza, y el estimador que hace esto es el estimador insesgado de varianza mínima . Sin embargo, un estimador sesgado puede tener un error cuadrático medio menor; véase sesgo del estimador .
En el modelado estadístico, el MSE puede representar la diferencia entre las observaciones reales y los valores de observación previstos por el modelo. En este contexto, se utiliza para determinar en qué medida el modelo se ajusta a los datos, así como para determinar si es posible eliminar algunas variables explicativas sin perjudicar significativamente la capacidad predictiva del modelo.
En previsión y predicción , la puntuación Brier es una medida de la capacidad de previsión basada en MSE.

Función de pérdida

La pérdida de error cuadrático es una de las funciones de pérdida más utilizadas en estadística, aunque su uso generalizado se debe más a la conveniencia matemática que a consideraciones de pérdida real en las aplicaciones. Carl Friedrich Gauss , quien introdujo el uso del error cuadrático medio, era consciente de su arbitrariedad y estaba de acuerdo con las objeciones al mismo por estos motivos. ^[3] Los beneficios matemáticos del error cuadrático medio son particularmente evidentes en su uso para analizar el rendimiento de la regresión lineal , ya que permite dividir la variación en un conjunto de datos en variación explicada por el modelo y variación explicada por la aleatoriedad.

Crítica

El uso del error cuadrático medio sin cuestionamientos ha sido criticado por el teórico de la decisión James Berger . El error cuadrático medio es el negativo del valor esperado de una función de utilidad específica , la función de utilidad cuadrática, que puede no ser la función de utilidad apropiada para usar en un conjunto dado de circunstancias. Sin embargo, existen algunos escenarios en los que el error cuadrático medio puede servir como una buena aproximación a una función de pérdida que ocurre naturalmente en una aplicación. ^[10]

Al igual que la varianza , el error cuadrático medio tiene la desventaja de ponderar fuertemente los valores atípicos . ^[11] Esto es resultado de elevar al cuadrado cada término, lo que efectivamente pondera los errores grandes más fuertemente que los pequeños. Esta propiedad, indeseable en muchas aplicaciones, ha llevado a los investigadores a utilizar alternativas como el error absoluto medio o aquellos basados en la mediana .

Véase también

Notas

^ Esto se puede demostrar mediante la desigualdad de Jensen de la siguiente manera: el cuarto momento central es un límite superior para el cuadrado de la varianza, de modo que el valor mínimo para su relación es uno, por lo tanto, el valor mínimo para el exceso de curtosis es −2, logrado, por ejemplo, mediante un Bernoulli con p = 1/2.

Referencias

^ ab "Error cuadrático medio (MSE)". www.probabilitycourse.com . Consultado el 12 de septiembre de 2020 .
^ Bickel, Peter J. ; Doksum, Kjell A. (2015). Estadística matemática: ideas básicas y temas seleccionados . Vol. I (Segunda ed.). pág. 20. Si utilizamos la pérdida cuadrática, nuestra función de riesgo se denomina error cuadrático medio (MSE) ...
^ ab Lehmann, EL; Casella, George (1998). Teoría de la estimación puntual (2.ª ed.). Nueva York: Springer. ISBN 978-0-387-98502-2.Señor 1639875 .
^ Gareth, James; Witten, Daniela; Hastie, Trevor; Tibshirani, Rob (2021). Introducción al aprendizaje estadístico: con aplicaciones en R. Springer. ISBN 978-1071614174.
^ Wackerly, Dennis; Mendenhall, William; Scheaffer, Richard L. (2008). Estadística matemática con aplicaciones (7.ª ed.). Belmont, CA, EE. UU.: Thomson Higher Education. ISBN 978-0-495-38508-0.
^ Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005. ISBN 978-1-85233-896-1.OCLC 262680588 .{{cite book}}: CS1 maint: others (link)
^ Steel, RGD, y Torrie, JH, Principios y procedimientos de estadística con especial referencia a las ciencias biológicas. , McGraw Hill , 1960, página 288.
^ Mood, A.; Graybill, F.; Boes, D. (1974). Introducción a la teoría de la estadística (3.ª ed.). McGraw-Hill. pág. 229.
^ DeGroot, Morris H. (1980). Probabilidad y estadística (2.ª ed.). Addison-Wesley.
^ Berger, James O. (1985). "2.4.2 Ciertas funciones de pérdida estándar". Teoría de la decisión estadística y análisis bayesiano (2.ª ed.). Nueva York: Springer-Verlag. pág. 60. ISBN 978-0-387-96098-2.Sr. 0804611 .
^ Bermejo, Sergio; Cabestany, Joan (2001). "Análisis de componentes principales orientado para clasificadores de amplio margen". Redes neuronales . 14 (10): 1447–1461. doi :10.1016/S0893-6080(01)00106-X. PMID 11771723.