En estadística , un residuo estudentizado es la razón adimensional resultante de la división de un residuo por una estimación de su desviación estándar , ambas expresadas en las mismas unidades . Es una forma de estadística t de Student , en la que la estimación del error varía entre puntos.
Esta es una técnica importante en la detección de valores atípicos . Se encuentra entre varias técnicas que llevan el nombre de William Sealey Gosset , quien escribió bajo el seudónimo de "Student" (por ejemplo, distribución de Student ). Dividir una estadística por una desviación estándar de la muestra se denomina "estudiantear ", en analogía con la estandarización y la normalización .
La razón principal para la studentización es que, en el análisis de regresión de una distribución multivariante , las varianzas de los residuos en diferentes valores de la variable de entrada pueden diferir, incluso si las varianzas de los errores en estos diferentes valores de la variable de entrada son iguales. La cuestión es la diferencia entre errores y residuos en estadística , en particular el comportamiento de los residuos en regresiones.
Consideremos el modelo de regresión lineal simple
Dada una muestra aleatoria ( X i , Y i ), i = 1, ..., n , cada par ( X i , Y i ) satisface
donde los errores , son independientes y todos tienen la misma varianza . Los residuos no son los errores verdaderos, sino estimaciones , basadas en los datos observables. Cuando se utiliza el método de mínimos cuadrados para estimar y , entonces los residuos , a diferencia de los errores , no pueden ser independientes ya que satisfacen las dos restricciones
y
(Aquí ε i es el i -ésimo error, y es el i- ésimo residuo).
Los residuos, a diferencia de los errores, no tienen todos la misma varianza: la varianza disminuye a medida que el valor x correspondiente se aleja del valor x promedio . Esto no es una característica de los datos en sí, sino de los valores de mejor ajuste de la regresión en los extremos del dominio. También se refleja en las funciones de influencia de varios puntos de datos sobre los coeficientes de regresión : los puntos finales tienen más influencia. Esto también se puede ver porque los residuos en los puntos finales dependen en gran medida de la pendiente de una línea ajustada, mientras que los residuos en el medio son relativamente insensibles a la pendiente. El hecho de que las varianzas de los residuos difieran, aunque las varianzas de los errores verdaderos sean todas iguales entre sí, es la razón principal de la necesidad de la studentización.
No se trata simplemente de que se desconozcan los parámetros de la población (media y desviación estándar), sino de que las regresiones producen distribuciones residuales diferentes en diferentes puntos de datos, a diferencia de los estimadores puntuales de distribuciones univariadas , que comparten una distribución común para los residuales.
Para este modelo simple, la matriz de diseño es
y la matriz de sombrero H es la matriz de la proyección ortogonal sobre el espacio de columnas de la matriz de diseño:
El apalancamiento h ii es la i- ésima entrada diagonal en la matriz hat. La varianza del i- ésimo residuo es
En caso de que la matriz de diseño X tenga solo dos columnas (como en el ejemplo anterior), esto es igual a
En el caso de una media aritmética , la matriz de diseño X tiene solo una columna (un vector de unos ), y esto es simplemente:
Dadas las definiciones anteriores, el residuo estudentizado es entonces
donde h ii es el apalancamiento , y es una estimación apropiada de σ (ver más abajo).
En el caso de una media, esto es igual a:
La estimación habitual de σ 2 es el residuo estudentizado internamente
donde m es el número de parámetros en el modelo (2 en nuestro ejemplo).
Pero si se sospecha que el i -ésimo caso es improbablemente grande, entonces tampoco estaría distribuido normalmente. Por lo tanto, es prudente excluir la i -ésima observación del proceso de estimación de la varianza cuando se está considerando si el i- ésimo caso puede ser un valor atípico, y en su lugar utilizar el residuo estudentizado externo , que es
Basado en todos los residuos excepto el i- ésimo residuo sospechoso . Aquí se debe enfatizar que para el i-ésimo caso sospechoso se calculan excluyendo el i- ésimo caso.
Si la estimación σ 2 incluye el i -ésimo caso, entonces se denomina residuo interno estudentizado (también conocido como residuo estandarizado [1] ) . Si en cambio se utiliza la estimación excluyendo el i -ésimo caso, entonces se denomina residuo externo estudentizado .
Si los errores son independientes y se distribuyen normalmente con valor esperado 0 y varianza σ 2 , entonces la distribución de probabilidad del i ésimo residuo estudentizado externamente es una distribución t de Student con n − m − 1 grados de libertad , y puede variar de a .
Por otra parte, los residuos estudentizados internamente están en el rango , donde ν = n − m es el número de grados de libertad de los residuos. Si t i representa el residuo estudentizado internamente, y nuevamente asumiendo que los errores son variables gaussianas independientes idénticamente distribuidas, entonces: [2]
donde t es una variable aleatoria distribuida como distribución t de Student con ν − 1 grados de libertad. De hecho, esto implica que t i 2 / ν sigue la distribución beta B (1/2,( ν − 1)/2). La distribución anterior a veces se denomina distribución tau ; [2] fue derivada por primera vez por Thompson en 1935. [3]
Cuando ν = 3, los residuos internos estudentizados se distribuyen uniformemente entre y . Si solo hay un grado de libertad residual, la fórmula anterior para la distribución de residuos internos estudentizados no se aplica. En este caso, los t i son todos +1 o −1, con un 50 % de probabilidad para cada uno.
La desviación estándar de la distribución de residuos internos estudentizados es siempre 1, pero esto no implica que la desviación estándar de todos los t i de un experimento particular sea 1. Por ejemplo, los residuos internos estudentizados al ajustar una línea recta que pasa por (0, 0) hasta los puntos (1, 4), (2, −1), (2, −1) son , y la desviación estándar de estos no es 1.
Tenga en cuenta que cualquier par de residuos estudentizados t i y t j (donde ), NO son iid. Tienen la misma distribución, pero no son independientes debido a las restricciones sobre los residuos que deben sumar 0 y ser ortogonales a la matriz de diseño.
Muchos programas y paquetes de estadísticas, como R , Python , etc., incluyen implementaciones de residuos estudentizados.