Errores y residuos

En estadística y optimización , los errores y los residuos son dos medidas estrechamente relacionadas y fácilmente confusas de la desviación de un valor observado de un elemento de una muestra estadística de su " valor verdadero " (no necesariamente observable). El error de una observación es la desviación del valor observado del valor verdadero de una cantidad de interés (por ejemplo, una media poblacional ). El residual es la diferencia entre el valor observado y el valor estimado de la cantidad de interés (por ejemplo, una media muestral ). La distinción es más importante en el análisis de regresión , donde los conceptos a veces se denominan errores de regresión y residuos de regresión y donde conducen al concepto de residuos estudentizados . En econometría , los "errores" también se denominan perturbaciones . ^[1]^[2]^[3]

Introducción

Supongamos que hay una serie de observaciones de una distribución univariada y queremos estimar la media de esa distribución (el llamado modelo de ubicación ). En este caso, los errores son las desviaciones de las observaciones de la media poblacional, mientras que los residuos son las desviaciones de las observaciones de la media muestral.

Un error (o perturbación ) estadístico es la cantidad en la que una observación difiere de su valor esperado , basándose este último en toda la población de la que se eligió aleatoriamente la unidad estadística. Por ejemplo, si la altura media en una población de hombres de 21 años es de 1,75 metros y un hombre elegido al azar mide 1,80 metros, entonces el "error" es de 0,05 metros; Si el hombre elegido al azar mide 1,70 metros de altura, entonces el "error" es −0,05 metros. El valor esperado, al ser la media de toda la población, normalmente no es observable y, por tanto, el error estadístico tampoco puede observarse.

Un residual (o desviación de ajuste), por otro lado, es una estimación observable del error estadístico no observable. Considere el ejemplo anterior con la altura de los hombres y supongamos que tenemos una muestra aleatoria de n personas. La media muestral podría servir como un buen estimador de la media poblacional . Entonces nosotros tenemos:

La diferencia entre la altura de cada hombre de la muestra y la media poblacional no observable es un error estadístico , mientras que
La diferencia entre la altura de cada hombre en la muestra y la media muestral observable es un residual .

Tenga en cuenta que, debido a la definición de media muestral, la suma de los residuos dentro de una muestra aleatoria es necesariamente cero y, por tanto, los residuos no son necesariamente independientes . Los errores estadísticos, por otra parte, son independientes y es casi seguro que su suma dentro de la muestra aleatoria no sea cero.

Se pueden estandarizar errores estadísticos (especialmente de una distribución normal ) en una puntuación z (o "puntuación estándar") y estandarizar los residuos en una estadística t , o más generalmente residuos estudentizados .

En distribuciones univariadas

Si asumimos una población distribuida normalmente con media μ y desviación estándar σ, y elegimos individuos de forma independiente, entonces tenemos

X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)\,

y la media muestral

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

es una variable aleatoria distribuida tal que:

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

Los errores estadísticos son entonces

e_{i}=X_{i}-\mu ,\,

con valores esperados de cero, ^[4] mientras que los residuos son

r_{i}=X_{i}-{\overline {X}}.

La suma de los cuadrados de los errores estadísticos , dividida por σ ² , tiene una distribución chi-cuadrado con n grados de libertad :

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

Sin embargo, esta cantidad no es observable ya que se desconoce la media poblacional. La suma de los cuadrados de los residuos , por otra parte, es observable. El cociente de esa suma por σ ² tiene una distribución chi-cuadrado con sólo n − 1 grados de libertad:

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

Esta diferencia entre n y n − 1 grados de libertad da como resultado la corrección de Bessel para la estimación de la varianza muestral de una población con media y varianza desconocidas. No es necesaria ninguna corrección si se conoce la media poblacional.

Observación

Es notable que se pueda demostrar que la suma de los cuadrados de los residuos y la media muestral son independientes entre sí, utilizando, por ejemplo, el teorema de Basu . Ese hecho, y las distribuciones normal y chi-cuadrado dadas anteriormente forman la base de los cálculos que involucran el estadístico t:

T={\frac {{\overline {X}}_{n}-\mu _{0}}{S_{n}/{\sqrt {n}}}},

donde representa los errores, representa la desviación estándar muestral para una muestra de tamaño n y desconocida σ , y el término denominador representa la desviación estándar de los errores según: ^[5] ${\overline {X}}_{n}-\mu _{0}$ $S_{n}$ $S_{n}/{\sqrt {n}}$

\operatorname {Var} \left({\overline {X}}_{n}\right)={\frac {\sigma ^{2}}{n}}

Las distribuciones de probabilidad del numerador y el denominador dependen por separado del valor de la desviación estándar de la población no observable σ , pero σ aparece tanto en el numerador como en el denominador y se cancela. Esto es una suerte porque significa que aunque no conocemos σ , conocemos la distribución de probabilidad de este cociente: tiene una distribución t de Student con n − 1 grados de libertad. Por lo tanto, podemos usar este cociente para encontrar un intervalo de confianza para μ . Este estadístico t puede interpretarse como "el número de errores estándar alejados de la línea de regresión". ^[6]

Regresiones

En el análisis de regresión , la distinción entre errores y residuos es sutil e importante, y conduce al concepto de residuos estudentizados . Dada una función no observable que relaciona la variable independiente con la variable dependiente (digamos, una línea), las desviaciones de las observaciones de la variable dependiente de esta función son los errores no observables. Si se ejecuta una regresión sobre algunos datos, entonces las desviaciones de las observaciones de la variable dependiente de la función ajustada son los residuos. Si el modelo lineal es aplicable, un diagrama de dispersión de residuos trazados contra la variable independiente debe ser aleatorio alrededor de cero sin tendencia hacia los residuos. ^[5] Si los datos muestran una tendencia, es probable que el modelo de regresión sea incorrecto; por ejemplo, la función verdadera puede ser un polinomio cuadrático o de orden superior. Si son aleatorios o no tienen tendencia, sino que se "despliegan en abanico", exhiben un fenómeno llamado heterocedasticidad . Si todos los residuos son iguales o no se abren en abanico, exhiben homocedasticidad .

Sin embargo, surge una diferencia terminológica en la expresión error cuadrático medio (MSE). El error cuadrático medio de una regresión es un número calculado a partir de la suma de los cuadrados de los residuos calculados , y no de los errores no observables . Si esa suma de cuadrados se divide por n , el número de observaciones, el resultado es la media de los residuos al cuadrado. Dado que se trata de una estimación sesgada de la varianza de los errores no observados, el sesgo se elimina dividiendo la suma de los residuos al cuadrado por df = n − p − 1, en lugar de n , donde df es el número de grados de libertad ( n menos el número de parámetros (excluyendo la intersección) p que se estima - 1). Esto forma una estimación insesgada de la varianza de los errores no observados y se denomina error cuadrático medio. ^[7]

Otro método para calcular el cuadrado medio del error al analizar la varianza de la regresión lineal usando una técnica como la que se usa en ANOVA (son iguales porque ANOVA es un tipo de regresión), la suma de cuadrados de los residuos (también conocida como suma de cuadrados del error) se divide por los grados de libertad (donde los grados de libertad son iguales a n − p − 1, donde p es el número de parámetros estimados en el modelo (uno para cada variable en la ecuación de regresión, sin incluir el intercepto) ). Luego también se puede calcular el cuadrado medio del modelo dividiendo la suma de los cuadrados del modelo menos los grados de libertad, que es solo el número de parámetros. Luego, el valor F se puede calcular dividiendo el cuadrado medio del modelo por el cuadrado medio del error, y luego podemos determinar la significancia (razón por la cual desea comenzar con los cuadrados medios). ^[8]

Sin embargo, debido al comportamiento del proceso de regresión, las distribuciones de los residuos en diferentes puntos de datos (de la variable de entrada) pueden variar incluso si los errores mismos están distribuidos de manera idéntica. Concretamente, en una regresión lineal donde los errores se distribuyen de manera idéntica, la variabilidad de los residuos de las entradas en el medio del dominio será mayor que la variabilidad de los residuos en los extremos del dominio: ^[9] las regresiones lineales se ajustan mejor a los puntos finales que las medio. Esto también se refleja en las funciones de influencia de varios puntos de datos sobre los coeficientes de regresión : los puntos finales tienen más influencia.

Por lo tanto, para comparar residuos en diferentes entradas, es necesario ajustar los residuos según la variabilidad esperada de los residuos, lo que se denomina estudentización . Esto es particularmente importante en el caso de detectar valores atípicos , donde el caso en cuestión es de alguna manera diferente de los demás en un conjunto de datos. Por ejemplo, se puede esperar un residuo grande en el medio del dominio, pero considerarse un valor atípico al final del dominio.

Otros usos de la palabra "error" en estadística

El uso del término "error", como se analiza en las secciones anteriores, tiene el sentido de una desviación de un valor de un valor hipotético no observado. Al menos otros dos usos también ocurren en estadística, ambos referidos a errores de predicción observables :

El error cuadrático medio (MSE) se refiere a la cantidad en la que los valores predichos por un estimador difieren de las cantidades estimadas (generalmente fuera de la muestra a partir de la cual se estimó el modelo). La raíz del error cuadrático medio (RMSE) es la raíz cuadrada de MSE. La suma de cuadrados de errores (SSE) es el MSE multiplicado por el tamaño de la muestra.

La suma de cuadrados de residuos (SSR) es la suma de los cuadrados de las desviaciones de los valores reales de los valores predichos, dentro de la muestra utilizada para la estimación. Esta es la base para la estimación de mínimos cuadrados , donde los coeficientes de regresión se eligen de manera que la SSR sea mínima (es decir, su derivada sea cero).

Asimismo, la suma de errores absolutos (SAE) es la suma de los valores absolutos de los residuos, que se minimiza en el enfoque de regresión de mínimas desviaciones absolutas .

El error medio (ME) es el sesgo. El residuo medio (MR) es siempre cero para los estimadores de mínimos cuadrados.

Ver también

Referencias

^ Kennedy, P. (2008). Una guía de econometría. Wiley. pag. 576.ISBN 978-1-4051-8257-7. Consultado el 13 de mayo de 2022 .
^ Wooldridge, JM (2019). Introducción a la econometría: un enfoque moderno. Aprendizaje Cengage. pag. 57.ISBN 978-1-337-67133-0. Consultado el 13 de mayo de 2022 .
^ Das, P. (2019). Econometría en Teoría y Práctica: Análisis de Cortes Transversales, Series Temporales y Datos de Panel con Stata 15.1. Springer Singapur. pag. 7.ISBN 978-981-329-019-8. Consultado el 13 de mayo de 2022 .
^ Wetherill, G. Barrie. (1981). Métodos estadísticos intermedios . Londres: Chapman y Hall. ISBN 0-412-16440-X. OCLC 7779780.
^ ab Frederik Michel Dekking; Cornelis Kraaikamp; Hendrik Paul Lopuhaä; Ludolf Erwin Meester (15 de junio de 2005). Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Londres: Springer Londres. ISBN 978-1-85233-896-1. OCLC 262680588.
^ Peter Bruce; Andrew Bruce (10 de mayo de 2017). Estadística práctica para científicos de datos: 50 conceptos esenciales (Primera ed.). Sebastopol, CA: O'Reilly Media Inc. ISBN 978-1-4919-5296-2. OCLC 987251007.
^ Acero, Robert GD; Torrie, James H. (1960). Principios y Procedimientos de la Estadística, con Especial Referencia a las Ciencias Biológicas . McGraw-Hill. pag. 288.
^ Zelterman, Daniel (2010). Modelos lineales aplicados con SAS (Online-Ausg. ed.). Cambridge: Prensa de la Universidad de Cambridge. ISBN 9780521761598.
^ "7.3: Tipos de valores atípicos en regresión lineal". Estadísticas LibreTexts . 2013-11-21 . Consultado el 22 de noviembre de 2019 .

Otras lecturas

Cocinero, R. Dennis; Weisberg, Sanford (1982). Residuos e influencia en la regresión (Repr. ed.). Nueva York: Chapman y Hall . ISBN 041224280X. Consultado el 23 de febrero de 2013 .
Cox, David R .; Snell, E. Joyce (1968). "Una definición general de residuos". Revista de la Royal Statistical Society, Serie B. 30 (2): 248–275. JSTOR 2984505.
Weisberg, Sanford (1985). Regresión lineal aplicada (2ª ed.). Nueva York: Wiley. ISBN 9780471879572. Consultado el 23 de febrero de 2013 .
"Errores, teoría de", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]

enlaces externos

Medios relacionados con errores y residuos en Wikimedia Commons