Error medio cuadrado

En estadística , el error cuadrático medio ( MSE ) ^[1] o desviación cuadrática media ( MSD ) de un estimador (de un procedimiento para estimar una cantidad no observada) mide el promedio de los cuadrados de los errores —es decir, la diferencia cuadrática promedio entre los valores estimados y el valor real. MSE es una función de riesgo , correspondiente al valor esperado de la pérdida por error al cuadrado . ^[2] El hecho de que el MSE sea casi siempre estrictamente positivo (y no cero) se debe a la aleatoriedad o a que el estimador no tiene en cuenta información que podría producir una estimación más precisa. ^[3] En el aprendizaje automático , específicamente en la minimización de riesgos empíricos , el MSE puede referirse al riesgo empírico (la pérdida promedio en un conjunto de datos observado), como una estimación del verdadero MSE (el riesgo verdadero: la pérdida promedio en la distribución de la población real). ).

El MSE es una medida de la calidad de un estimador. Como se deriva del cuadrado de la distancia euclidiana , siempre es un valor positivo que disminuye a medida que el error se acerca a cero.

El MSE es el segundo momento (sobre el origen) del error y, por lo tanto, incorpora tanto la varianza del estimador (qué tan extendidas están las estimaciones de una muestra de datos a otra) como su sesgo (qué tan lejos está el valor estimado promedio). del valor real). ^{[ cita necesaria ]} Para un estimador insesgado , el MSE es la varianza del estimador. Al igual que la varianza, MSE tiene las mismas unidades de medida que el cuadrado de la cantidad que se estima. En una analogía con la desviación estándar , tomar la raíz cuadrada de MSE produce el error cuadrático medio o la desviación cuadrática media (RMSE o RMSD), que tiene las mismas unidades que la cantidad que se estima; para un estimador insesgado, el RMSE es la raíz cuadrada de la varianza , conocida como error estándar .

Definición y propiedades básicas.

El MSE evalúa la calidad de un predictor (es decir, una función que asigna entradas arbitrarias a una muestra de valores de alguna variable aleatoria ), o de un estimador (es decir, una función matemática que asigna una muestra de datos a una estimación de un parámetro de la población de la cual se muestrean los datos). En el contexto de la predicción, comprender el intervalo de predicción también puede resultar útil, ya que proporciona un rango dentro del cual caerá una observación futura, con una cierta probabilidad. La definición de MSE difiere según se describa un predictor o un estimador.

Vaticinador

Si se genera un vector de predicciones a partir de una muestra de puntos de datos sobre todas las variables, y es el vector de valores observados de la variable que se predice, siendo los valores predichos (por ejemplo, a partir de un ajuste de mínimos cuadrados ), entonces el vector de predicciones El MSE de muestra del predictor se calcula como $n$ $n$ $Y$ ${\sombrero {Y}}$

\operatorname {MSE} ={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\hat {Y_{i}}}\ derecha)^{2}.

En otras palabras, el MSE es la media de los cuadrados de los errores . Esta es una cantidad fácilmente computable para una muestra particular (y por lo tanto depende de la muestra). ${\textstyle \left({\frac {1}{n}}\sum _{i=1}^{n}\right)}$ ${\textstyle \left(Y_{i}-{\hat {Y_{i}}}\right)^{2}}$

En notación matricial ,

\operatorname {MSE} ={\frac {1}{n}}\sum _{i=1}^{n}(e_{i})^{2}={\frac {1}{n }}\mathbf {e} ^{\mathsf {T}}\mathbf {e}

donde es y es un vector columna. ${\ Displaystyle e_ {i}}$ $(Y_{i}-{\hat {Y_{i}}})$ $\mathbf {e}$ $n\veces 1$

El MSE también se puede calcular sobre q puntos de datos que no se utilizaron en la estimación del modelo, ya sea porque se retuvieron para este propósito o porque estos datos se obtuvieron recientemente. Dentro de este proceso, conocido como validación cruzada , el MSE a menudo se denomina MSE de prueba ^[4] y se calcula como

\operatorname {MSE} ={\frac {1}{q}}\sum _{i=n+1}^{n+q}\left(Y_{i}-{\hat {Y_{i) }}}\derecha)^{2}.

Estimador

El MSE de un estimador con respecto a un parámetro desconocido se define como ^[1] ${\sombrero {\theta }}$ $\theta$

\operatorname {MSE} ({\hat {\theta }})=\operatorname {E} _{\theta }\left[({\hat {\theta }}-\theta )^{2}\ bien].

Esta definición depende del parámetro desconocido, pero el MSE es a priori una propiedad de un estimador. El MSE podría ser una función de parámetros desconocidos, en cuyo caso cualquier estimador del MSE basado en estimaciones de estos parámetros sería una función de los datos (y por lo tanto una variable aleatoria). Si el estimador se deriva como una estadística muestral y se utiliza para estimar algún parámetro poblacional, entonces la expectativa es con respecto a la distribución muestral de la estadística muestral. ${\sombrero {\theta }}$

El MSE se puede escribir como la suma de la varianza del estimador y el sesgo al cuadrado del estimador, lo que proporciona una forma útil de calcular el MSE e implica que, en el caso de estimadores insesgados, el MSE y la varianza son equivalentes. ^[5]

\operatorname {MSE} ({\hat {\theta }})=\operatorname {Var} _{\theta }({\hat {\theta }})+\operatorname {Bias} ({\hat { \theta }},\theta )^{2}.

Prueba de varianza y relación de sesgo

{\begin{aligned}\operatorname {MSE} ({\hat {\theta }})&=\operatorname {E} _{\theta }\left[({\hat {\theta }}-\theta )^{2}\right]\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]+\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}\right]\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}+2\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)+\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}\right]\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}\right]+\operatorname {E} _{\theta }\left[2\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)\right]+\operatorname {E} _{\theta }\left[\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}\right]\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}\right]+2\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)\operatorname {E} _{\theta }\left[{\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right]+\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}&&\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta ={\text{const.}}\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}\right]+2\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)+\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}&&\operatorname {E} _{\theta }[{\hat {\theta }}]={\text{const.}}\\&=\operatorname {E} _{\theta }\left[\left({\hat {\theta }}-\operatorname {E} _{\theta }[{\hat {\theta }}]\right)^{2}\right]+\left(\operatorname {E} _{\theta }[{\hat {\theta }}]-\theta \right)^{2}\\&=\operatorname {Var} _{\theta }({\hat {\theta }})+\operatorname {Bias} _{\theta }({\hat {\theta }},\theta )^{2}\end{aligned}}

Se puede lograr una prueba aún más breve utilizando la conocida fórmula de que, para una variable aleatoria , . Sustituyendo por, tenemos ${\textstyle X}$ ${\textstyle \mathbb {E} (X^{2})=\operatorname {Var} (X)+(\mathbb {E} (X))^{2}}$ ${\textstyle X}$ ${\textstyle {\hat {\theta }}-\theta }$

{\begin{aligned}\operatorname {MSE} ({\hat {\theta }})&=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]\\&=\operatorname {Var} ({\hat {\theta }}-\theta )+(\mathbb {E} [{\hat {\theta }}-\theta ])^{2}\\&=\operatorname {Var} ({\hat {\theta }})+\operatorname {Bias} ^{2}({\hat {\theta }},\theta )\end{aligned}}

Compensación sesgo-varianza de eficiencia

En regresión

En el análisis de regresión , trazar un gráfico es una forma más natural de ver la tendencia general de todos los datos. La media de la distancia desde cada punto hasta el modelo de regresión previsto se puede calcular y mostrar como error cuadrático medio. La elevación al cuadrado es fundamental para reducir la complejidad con signos negativos. Para minimizar el MSE, el modelo podría ser más preciso, lo que significaría que estaría más cerca de los datos reales. Un ejemplo de regresión lineal que utiliza este método es el método de mínimos cuadrados , que evalúa la idoneidad del modelo de regresión lineal para modelar un conjunto de datos bivariados , ^[6] pero cuya limitación está relacionada con la distribución conocida de los datos.

El término error cuadrático medio se utiliza a veces para referirse a la estimación insesgada de la varianza del error: la suma residual de cuadrados dividida por el número de grados de libertad . Esta definición de una cantidad calculada conocida difiere de la definición anterior para el MSE calculado de un predictor, en que se utiliza un denominador diferente. El denominador es el tamaño de la muestra reducido por el número de parámetros del modelo estimados a partir de los mismos datos, ( n − p ) para p regresores o ( n − p −1 ) si se utiliza una intersección (consulte errores y residuos en estadística para obtener más detalles). ). ^[7] Aunque el MSE (como se define en este artículo) no es un estimador insesgado de la varianza del error, es consistente , dada la consistencia del predictor.

En el análisis de regresión, el "error cuadrático medio", a menudo denominado error cuadrático medio de predicción o "error cuadrático medio fuera de la muestra", también puede referirse al valor medio de las desviaciones cuadráticas de las predicciones de los valores verdaderos, sobre un espacio de prueba fuera de muestra , generado por un modelo estimado sobre un espacio muestral particular . Esta también es una cantidad conocida y calculada, y varía según la muestra y el espacio de prueba fuera de la muestra.

En el contexto de los algoritmos de descenso de gradiente, es común introducir un factor de en el MSE para facilitar el cálculo después de tomar la derivada. Por lo tanto, un valor que técnicamente es la mitad de la media de los errores al cuadrado puede denominarse MSE. $1/2$

Ejemplos

Significar

Supongamos que tenemos una muestra aleatoria de tamaño de una población, . Supongamos que las unidades de muestra se eligieron con reemplazo . Es decir, las unidades se seleccionan una a la vez y las unidades previamente seleccionadas siguen siendo elegibles para su selección en todos los sorteos. El estimador habitual para es el promedio muestral. $n$ $X_{1},\dots ,X_{n}$ $n$ $n$ $\mu$

{\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

que tiene un valor esperado igual a la media verdadera (por lo que es insesgado) y un error cuadrático medio de $\mu$

\operatorname {MSE} \left({\overline {X}}\right)=\operatorname {E} \left[\left({\overline {X}}-\mu \right)^{2}\right]=\left({\frac {\sigma }{\sqrt {n}}}\right)^{2}={\frac {\sigma ^{2}}{n}}

¿ Dónde está la varianza poblacional ? $\sigma ^{2}$

Para una distribución gaussiana , este es el mejor estimador insesgado (es decir, uno con el MSE más bajo entre todos los estimadores insesgados), pero no, por ejemplo, para una distribución uniforme .

Diferencia

El estimador habitual de la varianza es la varianza muestral corregida :

S_{n-1}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}={\frac {1}{n-1}}\left(\sum _{i=1}^{n}X_{i}^{2}-n{\overline {X}}^{2}\right).

Esto es insesgado (su valor esperado es ), por lo que también se llama varianza muestral insesgada, y su MSE es ^[8] $\sigma ^{2}$

\operatorname {MSE} (S_{n-1}^{2})={\frac {1}{n}}\left(\mu _{4}-{\frac {n-3}{n-1}}\sigma ^{4}\right)={\frac {1}{n}}\left(\gamma _{2}+{\frac {2n}{n-1}}\right)\sigma ^{4},

donde es el cuarto momento central de la distribución o población, y es el exceso de curtosis . $\mu _{4}$ $\gamma _{2}=\mu _{4}/\sigma ^{4}-3$

Sin embargo, se pueden utilizar otros estimadores que sean proporcionales a , y una elección adecuada siempre puede dar un error cuadrático medio más bajo. si definimos $\sigma ^{2}$ $S_{n-1}^{2}$

S_{a}^{2}={\frac {n-1}{a}}S_{n-1}^{2}={\frac {1}{a}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}

luego calculamos:

{\begin{aligned}\operatorname {MSE} (S_{a}^{2})&=\operatorname {E} \left[\left({\frac {n-1}{a}}S_{n-1}^{2}-\sigma ^{2}\right)^{2}\right]\\&=\operatorname {E} \left[{\frac {(n-1)^{2}}{a^{2}}}S_{n-1}^{4}-2\left({\frac {n-1}{a}}S_{n-1}^{2}\right)\sigma ^{2}+\sigma ^{4}\right]\\&={\frac {(n-1)^{2}}{a^{2}}}\operatorname {E} \left[S_{n-1}^{4}\right]-2\left({\frac {n-1}{a}}\right)\operatorname {E} \left[S_{n-1}^{2}\right]\sigma ^{2}+\sigma ^{4}\\&={\frac {(n-1)^{2}}{a^{2}}}\operatorname {E} \left[S_{n-1}^{4}\right]-2\left({\frac {n-1}{a}}\right)\sigma ^{4}+\sigma ^{4}&&\operatorname {E} \left[S_{n-1}^{2}\right]=\sigma ^{2}\\&={\frac {(n-1)^{2}}{a^{2}}}\left({\frac {\gamma _{2}}{n}}+{\frac {n+1}{n-1}}\right)\sigma ^{4}-2\left({\frac {n-1}{a}}\right)\sigma ^{4}+\sigma ^{4}&&\operatorname {E} \left[S_{n-1}^{4}\right]=\operatorname {MSE} (S_{n-1}^{2})+\sigma ^{4}\\&={\frac {n-1}{na^{2}}}\left((n-1)\gamma _{2}+n^{2}+n\right)\sigma ^{4}-2\left({\frac {n-1}{a}}\right)\sigma ^{4}+\sigma ^{4}\end{aligned}}

Esto se minimiza cuando

a={\frac {(n-1)\gamma _{2}+n^{2}+n}{n}}=n+1+{\frac {n-1}{n}}\gamma _{2}.

Para una distribución gaussiana , donde , esto significa que el MSE se minimiza al dividir la suma por . El exceso de curtosis mínimo es , ^[a] que se logra mediante una distribución de Bernoulli con p = 1/2 (al lanzar una moneda), y el MSE se minimiza para Por lo tanto, independientemente de la curtosis, obtenemos una estimación "mejor" (en el sensación de tener un MSE más bajo) reduciendo un poco el estimador insesgado; Este es un ejemplo simple de un estimador de contracción : uno "reduce" el estimador hacia cero (reduce el estimador insesgado). $\gamma _{2}=0$ $a=n+1$ $\gamma _{2}=-2$ $a=n-1+{\tfrac {2}{n}}.$

Además, si bien la varianza muestral corregida es el mejor estimador insesgado (error cuadrático medio mínimo entre estimadores insesgados) de la varianza para distribuciones gaussianas, si la distribución no es gaussiana, incluso entre estimadores insesgados, el mejor estimador insesgado de la varianza puede no serlo. $S_{n-1}^{2}.$

distribución gaussiana

La siguiente tabla proporciona varios estimadores de los verdaderos parámetros de la población, μ y σ ² , para el caso gaussiano. ^[9]

Interpretación

Un MSE de cero, lo que significa que el estimador predice las observaciones del parámetro con perfecta precisión, es ideal (pero normalmente no es posible). ${\hat {\theta }}$ $\theta$

Los valores de MSE se pueden utilizar con fines comparativos. Se pueden comparar dos o más modelos estadísticos utilizando sus MSE, como medida de qué tan bien explican un conjunto dado de observaciones: un estimador insesgado (estimado a partir de un modelo estadístico) con la varianza más pequeña entre todos los estimadores insesgados es el mejor estimador insesgado o MVUE ( estimador insesgado de varianza mínima ).

Tanto el análisis de varianza como las técnicas de regresión lineal estiman el MSE como parte del análisis y utilizan el MSE estimado para determinar la significancia estadística de los factores o predictores bajo estudio. El objetivo del diseño experimental es construir experimentos de tal manera que cuando se analicen las observaciones, el MSE sea cercano a cero en relación con la magnitud de al menos uno de los efectos del tratamiento estimados.

En el análisis de varianza unidireccional , el MSE se puede calcular dividiendo la suma de los errores al cuadrado y el grado de libertad. Además, el valor f es la relación entre el tratamiento medio cuadrático y el MSE.

MSE también se utiliza en varias técnicas de regresión por pasos como parte de la determinación de cuántos predictores de un conjunto candidato se incluirán en un modelo para un conjunto determinado de observaciones.

Aplicaciones

Minimizar el MSE es un criterio clave en la selección de estimadores: ver error cuadrático medio mínimo . Entre los estimadores insesgados, minimizar el MSE equivale a minimizar la varianza, y el estimador que hace esto es el estimador insesgado de varianza mínima . Sin embargo, un estimador sesgado puede tener un MSE más bajo; ver sesgo del estimador .
En el modelado estadístico, el MSE puede representar la diferencia entre las observaciones reales y los valores de observación predichos por el modelo. En este contexto, se utiliza para determinar hasta qué punto el modelo se ajusta a los datos, así como si es posible eliminar algunas variables explicativas sin dañar significativamente la capacidad predictiva del modelo.
En pronóstico y predicción , la puntuación de Brier es una medida de la habilidad de pronóstico basada en MSE.

Función de pérdida

La pérdida por error al cuadrado es una de las funciones de pérdida más utilizadas en estadística, aunque su uso generalizado se debe más a la conveniencia matemática que a consideraciones de pérdida real en las aplicaciones. Carl Friedrich Gauss , quien introdujo el uso del error cuadrático medio, era consciente de su arbitrariedad y estaba de acuerdo con las objeciones al mismo por estos motivos. ^[3] Los beneficios matemáticos del error cuadrático medio son particularmente evidentes en su uso para analizar el desempeño de la regresión lineal , ya que permite dividir la variación en un conjunto de datos en variación explicada por el modelo y variación explicada por la aleatoriedad.

Crítica

El uso del error cuadrático medio ha sido criticado sin lugar a dudas por el teórico de la decisión James Berger . El error cuadrático medio es el negativo del valor esperado de una función de utilidad específica , la función de utilidad cuadrática, que puede no ser la función de utilidad apropiada para usar en un conjunto determinado de circunstancias. Sin embargo, existen algunos escenarios en los que el error cuadrático medio puede servir como una buena aproximación a una función de pérdida que ocurre naturalmente en una aplicación. ^[10]

Al igual que la varianza , el error cuadrático medio tiene la desventaja de ponderar mucho los valores atípicos . ^[11] Esto es el resultado de elevar al cuadrado cada término, lo que efectivamente pondera más los errores grandes que los pequeños. Esta propiedad, indeseable en muchas aplicaciones, ha llevado a los investigadores a utilizar alternativas como el error absoluto medio , o las basadas en la mediana .

Ver también

Notas

^ Esto puede demostrarse mediante la desigualdad de Jensen de la siguiente manera. El cuarto momento central es un límite superior para el cuadrado de la varianza, de modo que el valor mínimo para su relación es uno, por lo tanto, el valor mínimo para el exceso de curtosis es −2, logrado, por ejemplo, por un Bernoulli con p =1 /2.

Referencias

^ ab "Error cuadrático medio (MSE)". www.probabilitycourse.com . Consultado el 12 de septiembre de 2020 .
^ Bickel, Peter J .; Doksum, Kjell A. (2015). Estadística Matemática: Ideas Básicas y Temas Seleccionados . vol. Yo (Segunda ed.). pag. 20. Si utilizamos pérdida cuadrática, nuestra función de riesgo se llama error cuadrático medio (MSE)...
^ ab Lehmann, EL; Casella, George (1998). Teoría de la estimación puntual (2ª ed.). Nueva York: Springer. ISBN 978-0-387-98502-2. SEÑOR 1639875.
^ Gareth, James; Witten, Daniela; Hastie, Trevor; Tibshirani, Rob (2021). Una introducción al aprendizaje estadístico: con aplicaciones en R. Springer. ISBN 978-1071614174.
^ Loco, Dennis; Mendenhall, William; Scheaffer, Richard L. (2008). Estadística Matemática con Aplicaciones (7 ed.). Belmont, CA, EE.UU.: Thomson Higher Education. ISBN 978-0-495-38508-0.
^ Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005.ISBN _ 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
^ Steel, RGD y Torrie, JH, Principios y procedimientos de la estadística con especial referencia a las ciencias biológicas. , McGraw Hill , 1960, página 288.
^ Estado de ánimo, A.; Graybill, F.; Boes, D. (1974). Introducción a la Teoría de la Estadística (3ª ed.). McGraw-Hill. pag. 229.
^ DeGroot, Morris H. (1980). Probabilidad y Estadística (2ª ed.). Addison-Wesley.
^ Berger, James O. (1985). "2.4.2 Ciertas funciones de pérdida estándar". Teoría de la decisión estadística y análisis bayesiano (2ª ed.). Nueva York: Springer-Verlag. pag. 60.ISBN _ 978-0-387-96098-2. SEÑOR 0804611.
^ Bermejo, Sergio; Cabestany, Joan (2001). "Análisis de componentes principales orientado a clasificadores de gran margen". Redes neuronales . 14 (10): 1447-1461. doi :10.1016/S0893-6080(01)00106-X. PMID 11771723.