stringtranslate.com

Residual estudentizado

En estadística , un residual estudentizado es la relación adimensional resultante de la división de un residual por una estimación de su desviación estándar , ambas expresadas en las mismas unidades . Es una forma del estadístico t de Student , en el que la estimación del error varía entre puntos.

Esta es una técnica importante en la detección de valores atípicos . Es uno de varios nombrados en honor a William Sealey Gosset , quien escribió bajo el seudónimo de "Student" (p. ej., Student's Distribution ). Dividir una estadística por una desviación estándar muestral se denomina estudentización , en analogía con la estandarización y la normalización .

Motivación

La razón clave para estudiar es que, en el análisis de regresión de una distribución multivariada , las varianzas de los residuos en diferentes valores de las variables de entrada pueden diferir, incluso si las varianzas de los errores en estos diferentes valores de las variables de entrada son iguales. La cuestión es la diferencia entre errores y residuos en estadística , particularmente el comportamiento de los residuos en las regresiones.

Considere el modelo de regresión lineal simple.

Dada una muestra aleatoria ( X iY i ), i  = 1, ...,  n , cada par ( X iY i ) satisface

donde los errores son independientes y todos tienen la misma varianza . Los residuales no son los errores verdaderos, sino estimaciones , basadas en los datos observables. Cuando se utiliza el método de mínimos cuadrados para estimar y , entonces los residuos , a diferencia de los errores , no pueden ser independientes ya que satisfacen las dos restricciones

y

(Aquí ε i es el i- ésimo error y es el i- ésimo residual).

Los residuos, a diferencia de los errores, no tienen todos la misma varianza: la varianza disminuye a medida que el valor de x correspondiente se aleja del valor de x promedio . Esta no es una característica de los datos en sí, sino de los valores de regresión que se ajustan mejor en los extremos del dominio. También se refleja en las funciones de influencia de varios puntos de datos sobre los coeficientes de regresión : los puntos finales tienen más influencia. Esto también se puede ver porque los residuos en los extremos dependen en gran medida de la pendiente de una línea ajustada, mientras que los residuos en el medio son relativamente insensibles a la pendiente. El hecho de que las varianzas de los residuos difieran, aunque las varianzas de los errores verdaderos sean todas iguales entre sí, es la razón principal de la necesidad de la estudentización.

No se trata simplemente de que se desconozcan los parámetros poblacionales (media y desviación estándar), sino que las regresiones producen diferentes distribuciones residuales en diferentes puntos de datos, a diferencia de los estimadores puntuales de distribuciones univariadas , que comparten una distribución común para los residuos.

Fondo

Para este modelo simple, la matriz de diseño es

y la matriz sombrero H es la matriz de la proyección ortogonal sobre el espacio columna de la matriz de diseño:

El apalancamiento h ii es la i -ésima entrada diagonal en la matriz hat. La varianza del i ésimo residuo es

En caso de que la matriz de diseño X tenga solo dos columnas (como en el ejemplo anterior), esto es igual a

En el caso de una media aritmética , la matriz de diseño X tiene solo una columna (un vector de unos ), y esto es simplemente:

Cálculo

Dadas las definiciones anteriores, el residuo Studentizado es entonces

donde h ii es el apalancamiento , donde es una estimación adecuada de σ (ver más abajo).

En el caso de una media, esto es igual a:

Estudianización interna y externa

La estimación habitual de σ 2 es el residuo estudentizado internamente

donde m es el número de parámetros en el modelo (2 en nuestro ejemplo).

Pero si se sospecha que el caso i  es improbablemente grande, entonces tampoco estaría distribuido normalmente. Por lo tanto, es prudente excluir la i-  ésima observación del proceso de estimación de la varianza cuando se considera si el i-  ésimo caso puede ser un valor atípico, y en su lugar utilizar el residuo estudentizado externamente , que es

basado en todos los residuales excepto el sospechoso i  ésimo residual. Aquí debemos enfatizar que para el sospechoso i se calcula excluyendo el i  -ésimo caso.

Si la estimación σ 2 incluye el caso i  , entonces se denomina residual estudentizado internamente (también conocido como residual estandarizado [1] ). Si en su lugar se utiliza la estimación , excluyendo el caso i  , entonces se denomina estudentizado externamente .

Distribución

Si los errores son independientes y están distribuidos normalmente con valor esperado 0 y varianza σ 2 , entonces la distribución de probabilidad del i -ésimo residual estudentizado externamente es una distribución t de Student con n  −  m  − 1 grados de libertad , y puede variar de a .

Por otro lado, los residuos estudentizados internamente están en el rango , donde ν = n  −  m es el número de grados de libertad residuales. Si t i representa el residual estudentizado internamente, y suponiendo nuevamente que los errores son variables gaussianas independientes distribuidas idénticamente, entonces: [2]

donde t es una variable aleatoria distribuida según la distribución t de Student con ν  − 1 grados de libertad. De hecho, esto implica que t i 2 / ν sigue la distribución beta B (1/2,( ν  − 1)/2). La distribución anterior a veces se denomina distribución tau ; [2] fue derivado por primera vez por Thompson en 1935. [3]

Cuando ν = 3, los residuos estudentizados internamente se distribuyen uniformemente entre y . Si sólo hay un grado de libertad residual, la fórmula anterior para la distribución de residuos estudentizados internamente no se aplica. En este caso, los ti son todos +1 o −1, con un 50% de probabilidad para cada uno.

La desviación estándar de la distribución de los residuos estudentizados internamente es siempre 1, pero esto no implica que la desviación estándar de todos los ti de un experimento en particular sea 1. Por ejemplo, los residuos estudentizados internamente al ajustar una línea recta que pasa por ( 0, 0) a los puntos (1, 4), (2, −1), (2, −1) son , y la desviación estándar de estos no es 1.

Tenga en cuenta que cualquier par de residuos estudentizados ti y t j (donde ), NO son iid. Tienen la misma distribución, pero no son independientes debido a las restricciones de que los residuos deben sumar 0 y ser ortogonales a la matriz de diseño . .

Implementaciones de software

Muchos programas y paquetes estadísticos, como R , Python , etc., incluyen implementaciones de residual Studentizado.


Ver también

Referencias

  1. ^ Documentos R de diagnóstico de eliminación de regresión
  2. ^ ab Allen J. Pope (1976), "Las estadísticas de residuos y la detección de valores atípicos", Departamento de Comercio de EE. UU., Administración Nacional Oceánica y Atmosférica, Estudio Nacional de los Océanos, Laboratorio de Investigación y Desarrollo Geodésico, 136 páginas, [1] , ecuación (6)
  3. ^ Thompson, William R. (1935). "Sobre un criterio para el rechazo de observaciones y la distribución de la relación entre la desviación y la desviación estándar muestral". Los anales de la estadística matemática . 6 (4): 214–219. doi : 10.1214/aoms/1177732567 .

Otras lecturas