En estadística y optimización , los errores y los residuos son dos medidas estrechamente relacionadas y que se confunden fácilmente de la desviación de un valor observado de un elemento de una muestra estadística de su " valor verdadero " (no necesariamente observable). El error de una observación es la desviación del valor observado del valor verdadero de una cantidad de interés (por ejemplo, una media poblacional ). El residuo es la diferencia entre el valor observado y el valor estimado de la cantidad de interés (por ejemplo, una media muestral ). La distinción es más importante en el análisis de regresión , donde los conceptos a veces se denominan errores de regresión y residuos de regresión y donde conducen al concepto de residuos estudentizados . En econometría , los "errores" también se denominan perturbaciones . [1] [2] [3]
Supongamos que hay una serie de observaciones de una distribución univariante y queremos estimar la media de esa distribución (el llamado modelo de localización ). En este caso, los errores son las desviaciones de las observaciones respecto de la media de la población, mientras que los residuos son las desviaciones de las observaciones respecto de la media de la muestra.
Un error estadístico (o perturbación ) es la cantidad en la que una observación difiere de su valor esperado , que se basa en toda la población de la que se eligió aleatoriamente la unidad estadística. Por ejemplo, si la altura media de una población de hombres de 21 años es de 1,75 metros y un hombre elegido aleatoriamente mide 1,80 metros, entonces el "error" es de 0,05 metros; si el hombre elegido aleatoriamente mide 1,70 metros, entonces el "error" es de -0,05 metros. El valor esperado, al ser la media de toda la población, normalmente no es observable y, por lo tanto, tampoco se puede observar el error estadístico.
Por otra parte, un residuo (o desviación de ajuste) es una estimación observable del error estadístico no observable. Consideremos el ejemplo anterior con las alturas de los hombres y supongamos que tenemos una muestra aleatoria de n personas. La media de la muestra podría servir como un buen estimador de la media de la población . Entonces tenemos:
Obsérvese que, debido a la definición de la media muestral, la suma de los residuos dentro de una muestra aleatoria es necesariamente cero y, por lo tanto, los residuos no son necesariamente independientes . Los errores estadísticos, por otra parte, son independientes y su suma dentro de la muestra aleatoria es casi con toda seguridad distinta de cero.
Se pueden estandarizar errores estadísticos (especialmente de una distribución normal ) en una puntuación z (o "puntuación estándar"), y estandarizar residuos en una estadística t , o más generalmente residuos estudentizados .
Si asumimos una población distribuida normalmente con media μ y desviación estándar σ, y elegimos individuos independientemente, entonces tenemos
y la media de la muestra
es una variable aleatoria distribuida de tal manera que:
Los errores estadísticos son entonces
con valores esperados de cero, [4] mientras que los residuos son
La suma de los cuadrados de los errores estadísticos , dividida por σ 2 , tiene una distribución chi-cuadrado con n grados de libertad :
Sin embargo, esta cantidad no es observable ya que se desconoce la media poblacional. La suma de los cuadrados de los residuos , por otro lado, sí es observable. El cociente de esa suma por σ 2 tiene una distribución chi-cuadrado con solo n − 1 grados de libertad:
Esta diferencia entre n y n − 1 grados de libertad da como resultado la corrección de Bessel para la estimación de la varianza de la muestra de una población con media y varianza desconocidas. No es necesaria ninguna corrección si se conoce la media de la población.
Es notable que se pueda demostrar que la suma de los cuadrados de los residuos y la media de la muestra son independientes entre sí, utilizando, por ejemplo, el teorema de Basu . Ese hecho, y las distribuciones normal y de chi-cuadrado dadas anteriormente forman la base de los cálculos que involucran la estadística t:
donde representa los errores, representa la desviación estándar de la muestra para una muestra de tamaño n y σ desconocida , y el término denominador representa la desviación estándar de los errores según: [5]
Las distribuciones de probabilidad del numerador y del denominador dependen por separado del valor de la desviación estándar de la población no observable σ , pero σ aparece tanto en el numerador como en el denominador y se cancela. Esto es una suerte porque significa que, aunque no conocemos σ , conocemos la distribución de probabilidad de este cociente: tiene una distribución t de Student con n − 1 grados de libertad. Por lo tanto, podemos usar este cociente para encontrar un intervalo de confianza para μ . Este estadístico t se puede interpretar como "el número de errores estándar que se alejan de la línea de regresión". [6]
En el análisis de regresión , la distinción entre errores y residuos es sutil e importante, y conduce al concepto de residuos estudentizados . Dada una función no observable que relaciona la variable independiente con la variable dependiente (por ejemplo, una línea), las desviaciones de las observaciones de la variable dependiente con respecto a esta función son los errores no observables. Si se ejecuta una regresión con algunos datos, las desviaciones de las observaciones de la variable dependiente con respecto a la función ajustada son los residuos. Si se aplica el modelo lineal, un diagrama de dispersión de residuos graficado contra la variable independiente debe ser aleatorio alrededor de cero sin tendencia hacia los residuos. [5] Si los datos muestran una tendencia, es probable que el modelo de regresión sea incorrecto; por ejemplo, la función verdadera puede ser un polinomio cuadrático o de orden superior. Si son aleatorios, o no tienen tendencia, pero se "despliegan", exhiben un fenómeno llamado heterocedasticidad . Si todos los residuos son iguales, o no se despliegan, exhiben homocedasticidad .
Sin embargo, surge una diferencia terminológica en la expresión error cuadrático medio (MSE). El error cuadrático medio de una regresión es un número calculado a partir de la suma de los cuadrados de los residuos calculados , y no de los errores no observables . Si esa suma de cuadrados se divide por n , el número de observaciones, el resultado es la media de los residuos al cuadrado. Dado que se trata de una estimación sesgada de la varianza de los errores no observados, el sesgo se elimina dividiendo la suma de los residuos al cuadrado por df = n − p − 1, en lugar de n , donde df es el número de grados de libertad ( n menos el número de parámetros (excluyendo la intersección) p que se estima - 1). Esto forma una estimación no sesgada de la varianza de los errores no observados, y se denomina error cuadrático medio. [7]
Otro método para calcular el cuadrado medio del error al analizar la varianza de la regresión lineal utilizando una técnica como la que se utiliza en ANOVA (son lo mismo porque ANOVA es un tipo de regresión), la suma de los cuadrados de los residuos (también conocida como suma de los cuadrados del error) se divide por los grados de libertad (donde los grados de libertad son iguales a n − p − 1, donde p es el número de parámetros estimados en el modelo (uno para cada variable en la ecuación de regresión, sin incluir la intersección)). Luego, también se puede calcular el cuadrado medio del modelo dividiendo la suma de los cuadrados del modelo menos los grados de libertad, que es simplemente el número de parámetros. Luego, el valor F se puede calcular dividiendo el cuadrado medio del modelo por el cuadrado medio del error, y luego podemos determinar la significancia (que es por lo que desea los cuadrados medios para comenzar). [8]
Sin embargo, debido al comportamiento del proceso de regresión, las distribuciones de los residuos en diferentes puntos de datos (de la variable de entrada) pueden variar incluso si los errores mismos están distribuidos de manera idéntica. Concretamente, en una regresión lineal donde los errores están distribuidos de manera idéntica, la variabilidad de los residuos de las entradas en el medio del dominio será mayor que la variabilidad de los residuos en los extremos del dominio: [9] las regresiones lineales se ajustan mejor a los puntos finales que a los medios. Esto también se refleja en las funciones de influencia de varios puntos de datos sobre los coeficientes de regresión : los puntos finales tienen más influencia.
Por lo tanto, para comparar los residuos en diferentes entradas, es necesario ajustar los residuos según la variabilidad esperada de los residuos, lo que se denomina "estudiantización" . Esto es particularmente importante en el caso de detectar valores atípicos , donde el caso en cuestión es de alguna manera diferente de los demás en un conjunto de datos. Por ejemplo, se puede esperar un residuo grande en el medio del dominio, pero se lo puede considerar un valor atípico al final del dominio.
El uso del término "error", como se ha comentado en las secciones anteriores, se refiere a una desviación de un valor con respecto a un valor hipotético no observado. En estadística también se dan al menos otros dos usos, ambos referidos a errores de predicción observables :
El error cuadrático medio (EMM) se refiere a la cantidad en que los valores predichos por un estimador difieren de las cantidades que se están estimando (normalmente fuera de la muestra a partir de la cual se estimó el modelo). El error cuadrático medio (EMR) es la raíz cuadrada del EEM. La suma de los cuadrados de los errores (ECM) es el EEM multiplicado por el tamaño de la muestra.
La suma de los cuadrados de los residuos (SSR) es la suma de los cuadrados de las desviaciones de los valores reales respecto de los valores previstos, dentro de la muestra utilizada para la estimación. Esta es la base para la estimación de mínimos cuadrados , donde los coeficientes de regresión se eligen de manera que la SSR sea mínima (es decir, su derivada sea cero).
De igual modo, la suma de errores absolutos (SAE) es la suma de los valores absolutos de los residuos, que se minimiza en el enfoque de regresión de desviaciones absolutas mínimas .
El error medio (ME) es el sesgo. El residuo medio (MR) siempre es cero para los estimadores de mínimos cuadrados.