stringtranslate.com

Homocedasticidad y heterocedasticidad.

Gráfico con datos aleatorios que muestran homocedasticidad: en cada valor de x , el valor y de los puntos tiene aproximadamente la misma varianza .
Gráfico con datos aleatorios que muestran heterocedasticidad: la varianza de los valores de y de los puntos aumenta al aumentar los valores de x .

En estadística , una secuencia de variables aleatorias es homocedástica ( / ˌ h m s k ə ˈ d æ s t ɪ k / ) si todas sus variables aleatorias tienen la misma varianza finita ; esto también se conoce como homogeneidad de la varianza . La noción complementaria se llama heterocedasticidad , también conocida como heterogeneidad de la varianza . Las grafías homos k edasticity y heteros k edasticity también se utilizan con frecuencia. [1] [2] [3] Suponer que una variable es homocedástica cuando en realidad es heterocedástica ( / ˌ h ɛ t ər s k ə ˈ d æ s t ɪ k / ) da como resultado estimaciones puntuales insesgadas pero ineficientes y sesgadas. estimaciones de errores estándar , y puede resultar en una sobreestimación de la bondad de ajuste medida por el coeficiente de Pearson .

La existencia de heterocedasticidad es una preocupación importante en el análisis de regresión y el análisis de varianza , ya que invalida las pruebas estadísticas de significancia que suponen que todos los errores de modelado tienen la misma varianza. Si bien el estimador de mínimos cuadrados ordinarios sigue siendo insesgado en presencia de heterocedasticidad, es ineficiente y la inferencia basada en el supuesto de homocedasticidad es engañosa. En ese caso, en el pasado se utilizaban con frecuencia mínimos cuadrados generalizados (GLS). [4] [5] Hoy en día, la práctica estándar en econometría es incluir errores estándar consistentes con la heterocedasticidad en lugar de usar GLS, ya que GLS puede exhibir un fuerte sesgo en muestras pequeñas si se desconoce la función Skedástica real. [6]

Debido a que la heteroscedasticidad se refiere a expectativas del segundo momento de los errores, su presencia se denomina especificación errónea de segundo orden. [7]

El econometrista Robert Engle recibió el Premio Nobel de Economía en 2003 por sus estudios sobre el análisis de regresión en presencia de heterocedasticidad, que le llevaron a formular la técnica de modelado de heterocedasticidad condicional autorregresiva (ARCH). [8]

Definición

Considere la ecuación de regresión lineal donde la variable aleatoria dependiente es igual a la variable determinista multiplicada por el coeficiente más un término de perturbación aleatoria que tiene media cero. Las perturbaciones son homocedásticas si la varianza de es constante ; de lo contrario, son heteroscedásticos. En particular, las perturbaciones son heteroscedásticas si la varianza de depende de o del valor de . Una forma en que podrían ser heteroscedásticas es si (un ejemplo de función escedástica ), por lo que la varianza es proporcional al valor de .

De manera más general, si la matriz de varianza-covarianza de perturbación tiene una diagonal no constante, la perturbación es heterocedástica. [9] Las siguientes matrices son covarianzas cuando hay solo tres observaciones a lo largo del tiempo. La perturbación en la matriz A es homocedástica; Este es el caso simple en el que MCO es el mejor estimador lineal insesgado. Las perturbaciones en las matrices B y C son heterocedásticas. En la matriz B, la varianza varía con el tiempo y aumenta de manera constante a lo largo del tiempo; en la matriz C, la varianza depende del valor de . La perturbación en la matriz D es homocedástica porque las varianzas diagonales son constantes, aunque las covarianzas fuera de la diagonal son distintas de cero y los mínimos cuadrados ordinarios son ineficientes por una razón diferente: la correlación serial.

Ejemplos

La heteroscedasticidad ocurre a menudo cuando hay una gran diferencia entre los tamaños de las observaciones.

Un ejemplo clásico de heteroscedasticidad es el de ingresos versus gastos en comidas. Una persona rica puede comer alimentos baratos a veces y alimentos caros en otras ocasiones. Una persona pobre casi siempre comerá alimentos baratos. Por lo tanto, las personas con ingresos más altos exhiben una mayor variabilidad en el gasto en alimentos.

Durante el lanzamiento de un cohete, un observador mide la distancia recorrida por el cohete una vez por segundo. En los primeros segundos, las mediciones pueden tener una precisión del centímetro más cercano. Después de cinco minutos, la precisión de las mediciones puede ser buena sólo hasta 100 m, debido al aumento de la distancia, la distorsión atmosférica y una variedad de otros factores. Por tanto, las mediciones de distancia pueden presentar heterocedasticidad.

Consecuencias

Uno de los supuestos del modelo de regresión lineal clásico es que no existe heterocedasticidad. Romper este supuesto significa que el teorema de Gauss-Markov no se aplica, lo que significa que los estimadores MCO no son los mejores estimadores lineales insesgados (BLUE) y su varianza no es la más baja de todos los demás estimadores insesgados. La heteroscedasticidad no hace que las estimaciones de los coeficientes de mínimos cuadrados ordinarios estén sesgadas, aunque puede provocar que las estimaciones de mínimos cuadrados ordinarios de la varianza (y, por tanto, los errores estándar) de los coeficientes estén sesgadas, posiblemente por encima o por debajo de la varianza real de la población. Por lo tanto, el análisis de regresión que utiliza datos heterocedásticos seguirá proporcionando una estimación insesgada de la relación entre la variable predictiva y el resultado, pero los errores estándar y, por tanto, las inferencias obtenidas del análisis de datos son sospechosos. Los errores estándar sesgados conducen a inferencias sesgadas, por lo que es posible que los resultados de las pruebas de hipótesis sean incorrectos. Por ejemplo, si se realiza MCO en un conjunto de datos heterocedásticos, lo que produce una estimación del error estándar sesgada, un investigador podría no rechazar una hipótesis nula en un nivel de significancia dado , cuando esa hipótesis nula en realidad no era característica de la población real (haciendo una hipótesis de tipo II). error ).

Bajo ciertos supuestos, el estimador MCO tiene una distribución asintótica normal cuando está correctamente normalizado y centrado (incluso cuando los datos no provienen de una distribución normal ). Este resultado se utiliza para justificar el uso de una distribución normal o una distribución de chi cuadrado (dependiendo de cómo se calcule la estadística de prueba ) al realizar una prueba de hipótesis . Esto es válido incluso en condiciones de heterocedasticidad. Más precisamente, el estimador MCO en presencia de heteroscedasticidad es asintóticamente normal, cuando está adecuadamente normalizado y centrado, con una matriz de varianza-covarianza que difiere del caso de homocedasticidad. En 1980, White propuso un estimador consistente para la matriz de varianza-covarianza de la distribución asintótica del estimador MCO. [2] Esto valida el uso de pruebas de hipótesis utilizando estimadores MCO y el estimador de varianza-covarianza de White bajo heterocedasticidad.

La heteroscedasticidad también es un problema práctico importante que se encuentra en los problemas ANOVA . [10] La prueba F todavía se puede utilizar en algunas circunstancias. [11]

Sin embargo, se ha dicho que los estudiantes de econometría no deberían reaccionar exageradamente ante la heteroscedasticidad. [3] Un autor escribió: "Vale la pena corregir la variación desigual del error sólo cuando el problema es grave". [12] Además, otra palabra de precaución estaba en la forma: "la heteroscedasticidad nunca ha sido una razón para descartar un modelo que por lo demás es bueno". [3] [13] Con la llegada de los errores estándar consistentes con la heteroscedasticidad que permiten la inferencia sin especificar el término del segundo momento de error condicional, probar la homocedasticidad condicional no es tan importante como en el pasado. [6]

Sin embargo, para cualquier modelo no lineal (por ejemplo, los modelos Logit y Probit ), la heterocedasticidad tiene consecuencias más graves: las estimaciones de máxima verosimilitud (MLE) de los parámetros normalmente estarán sesgadas y serán inconsistentes (a menos que la función de verosimilitud se modifique para tener en cuenta correctamente la forma precisa de heterocedasticidad o la distribución es miembro de la familia exponencial lineal y la función de expectativa condicional está correctamente especificada). [14] [15] Sin embargo, en el contexto de los modelos de elección binaria ( Logit o Probit ), la heteroscedasticidad sólo dará como resultado un efecto de escala positivo en la media asintótica del MLE mal especificado (es decir, el modelo que ignora la heteroscedasticidad). [16] Como resultado, las predicciones que se basan en el MLE mal especificado seguirán siendo correctas. Además, los MLE Probit y Logit mal especificados tendrán una distribución normal asintótica, lo que permite realizar las pruebas de significación habituales (con la matriz de varianza-covarianza adecuada). Sin embargo, con respecto a la prueba de hipótesis general, como lo señaló Greene , "simplemente calcular una matriz de covarianza robusta para un estimador que de otro modo sería inconsistente no le da redención. En consecuencia, la virtud de una matriz de covarianza robusta en este contexto no está clara". [17]

Corrección

Existen varias correcciones comunes para la heteroscedasticidad. Ellos son:

Pruebas

Valor absoluto de residuos para datos heteroscedásticos simulados de primer orden

Se puede probar la homocedasticidad de los residuos utilizando la prueba de Breusch-Pagan , [20] que realiza una regresión auxiliar de los residuos al cuadrado de las variables independientes. De esta regresión auxiliar, se retiene la suma de cuadrados explicada, se divide por dos y luego se convierte en el estadístico de prueba para una distribución chi-cuadrado con grados de libertad iguales al número de variables independientes. [21] La hipótesis nula de esta prueba de chi-cuadrado es la homocedasticidad, y la hipótesis alternativa indicaría heterocedasticidad. Dado que la prueba de Breusch-Pagan es sensible a las desviaciones de la normalidad o a tamaños de muestra pequeños, en su lugar se utiliza comúnmente la prueba de Koenker-Bassett o "Breusch-Pagan generalizada". [22] [ se necesitan citas adicionales ] De la regresión auxiliar, se conserva el valor de R cuadrado que luego se multiplica por el tamaño de la muestra y luego se convierte en el estadístico de prueba para una distribución de chi-cuadrado (y utiliza los mismos grados de libertad). Aunque no es necesaria para la prueba de Koenker-Bassett, la prueba de Breusch-Pagan requiere que los residuos al cuadrado también se dividan por la suma residual de los cuadrados dividida por el tamaño de la muestra. [22] La prueba de heterocedasticidad grupal se puede realizar con la prueba de Goldfeld-Quandt . [23]

Debido al uso estándar de errores estándar consistentes con la heterocedasticidad y al problema de la prueba previa , hoy en día los econometristas rara vez utilizan pruebas de heterocedasticidad condicional. [6]

Lista de pruebas

Aunque las pruebas de heterocedasticidad entre grupos pueden considerarse formalmente como un caso especial de pruebas dentro de modelos de regresión, algunas pruebas tienen estructuras específicas para este caso.

Generalizaciones

Distribuciones homocedásticas

Dos o más distribuciones normales son homocedásticas y carecen de correlación serial si comparten las mismas diagonales en su matriz de covarianza y sus entradas no diagonales son cero. Las distribuciones homocedásticas son especialmente útiles para derivar algoritmos de reconocimiento de patrones estadísticos y aprendizaje automático . Un ejemplo popular de un algoritmo que asume homocedasticidad es el análisis discriminante lineal de Fisher . El concepto de homocedasticidad se puede aplicar a distribuciones en esferas. [27]

Datos multivariados

El estudio de la homecedasticidad y la heterocedasticidad se ha generalizado al caso multivariado, que trata de las covarianzas de observaciones vectoriales en lugar de la varianza de observaciones escalares. Una versión de esto es utilizar matrices de covarianza como medida multivariada de dispersión. Varios autores han considerado pruebas en este contexto, tanto para situaciones de regresión como de datos agrupados. [28] [29] La prueba de Bartlett para heterocedasticidad entre datos agrupados, utilizada más comúnmente en el caso univariado, también se ha extendido al caso multivariado, pero solo existe una solución manejable para 2 grupos. [30] Existen aproximaciones para más de dos grupos, y ambos se denominan prueba M de Box .

Ver también

Referencias

  1. ^ Para conocer la etimología griega del término, consulte McCulloch, J. Huston (1985). "Sobre la edasticidad de los heteros *". Econométrica . 53 (2): 483. JSTOR  1911250.
  2. ^ abcd Blanco, Halbert (1980). "Un estimador de matriz de covarianza consistente con heterocedasticidad y una prueba directa de heterocedasticidad". Econométrica . 48 (4): 817–838. CiteSeerX 10.1.1.11.7646 . doi :10.2307/1912934. JSTOR  1912934.  
  3. ^ abc Gujarati, DN; Porter, DC (2009). Econometría básica (Quinta ed.). Boston: McGraw-Hill Irwin. pag. 400.ISBN  9780073375779.
  4. ^ Goldberger, Arthur S. (1964). Teoría econométrica . Nueva York: John Wiley & Sons. págs. 238-243. ISBN 9780471311010.
  5. ^ Johnston, J. (1972). Métodos econométricos . Nueva York: McGraw-Hill. págs. 214-221.
  6. ^ abc Angrist, Joshua D.; Pischke, Jörn-Steffen (31 de diciembre de 2009). Econometría mayoritariamente inofensiva: la compañera de un empirista. Prensa de la Universidad de Princeton. doi :10.1515/9781400829828. ISBN 978-1-4008-2982-8.
  7. ^ Largo, J. Scott ; Trivedi, Pravin K. (1993). "Algunas pruebas de especificación para el modelo de regresión lineal". En Bollen, Kenneth A.; Largo, J. Scott (eds.). Prueba de modelos de ecuaciones estructurales . Londres: sabio. págs. 66-110. ISBN 978-0-8039-4506-7.
  8. ^ Engle, Robert F. (julio de 1982). "Heteroscedasticidad condicional autorregresiva con estimaciones de la varianza de la inflación del Reino Unido". Econométrica . 50 (4): 987–1007. doi :10.2307/1912773. ISSN  0012-9682. JSTOR  1912773.
  9. ^ Peter Kennedy, Guía de econometría , quinta edición, p. 137.
  10. ^ Jinadasa, juego; Weerahandi, Sam (1998). "Rendimiento de tamaño de algunas pruebas en anova unidireccional". Comunicaciones en Estadística - Simulación y Computación . 27 (3): 625. doi : 10.1080/03610919808813500.
  11. ^ Bathke, A (2004). "La prueba ANOVA F todavía se puede utilizar en algunos diseños equilibrados con varianzas desiguales y datos anormales". Revista de planificación e inferencia estadística . 126 (2): 413–422. doi :10.1016/j.jspi.2003.09.010.
  12. ^ Zorro, J. (1997). Análisis de regresión aplicada, modelos lineales y métodos relacionados . California: Publicaciones Sage. pag. 306.(Citado en Gujarati et al. 2009, p. 400)
  13. ^ Mankiw, NG (1990). "Un curso rápido de actualización en macroeconomía". Revista de Literatura Económica . 28 (4): 1645-1660 [p. 1648]. doi : 10.3386/w3256 . JSTOR  2727441.
  14. ^ Giles, Dave (8 de mayo de 2013). "Errores estándar robustos para modelos no lineales". Beat de econometría .
  15. ^ Gourieroux, C.; Monfort, A.; Trognon, A. (1984). "Métodos de pseudomáxima verosimilitud: teoría". Econométrica . 52 (3): 681–700. doi :10.2307/1913471. ISSN  0012-9682.
  16. ^ Ginker, T.; Liberman, O. (2017). "Robustez de los modelos de elección binaria ante heterocedasticidad condicional". Cartas de Economía . 150 : 130–134. doi :10.1016/j.econlet.2016.11.024.
  17. ^ Greene, William H. (2012). "Estimación e inferencia en modelos de elección binaria". Análisis econométrico (Séptima ed.). Boston: Educación Pearson. págs. 730–755 [pág. 733]. ISBN 978-0-273-75356-8.
  18. ^ Tofallis, C (2008). "Regresión porcentual de mínimos cuadrados". Revista de métodos estadísticos aplicados modernos . 7 : 526–534. doi :10.2139/ssrn.1406472. SSRN  1406472.
  19. ^ JNK Rao (marzo de 1973). "Sobre la estimación de varianzas heterocedásticas". Biometría . 29 (1): 11–24. doi :10.2307/2529672. JSTOR  2529672.
  20. ^ Breusch, TS; Pagano, AR (1979). "Una prueba simple de heterocedasticidad y variación aleatoria del coeficiente". Econométrica . 47 (5): 1287-1294. doi :10.2307/1911963. ISSN  0012-9682. JSTOR  1911963.
  21. ^ Ullah, Muhammad Imdad (26 de julio de 2012). "Prueba pagana de Breusch de heterocedasticidad". Estadística Básica y Análisis de Datos . Consultado el 28 de noviembre de 2020 .
  22. ^ ab Pryce, Gwilym. "Heteroscedasticidad: prueba y corrección en SPSS" (PDF) . págs. 12-18. Archivado (PDF) desde el original el 27 de marzo de 2017 . Consultado el 26 de marzo de 2017 .
  23. ^ Baum, Christopher F. (2006). "Consejo de Stata 38: Pruebas de heterocedasticidad grupal". The Stata Journal: Promoción de la comunicación sobre estadística y Stata . 6 (4): 590–592. doi : 10.1177/1536867X0600600412 . ISSN  1536-867X. S2CID  117349246.
  24. ^ Parque RE (1966). "Estimación con términos de error heterocedásticos". Econométrica . 34 (4): 888. doi : 10.2307/1910108. JSTOR  1910108.
  25. ^ Glejser, H. (1969). "Una nueva prueba de heterocedasticidad". Revista de la Asociación Estadounidense de Estadística . 64 (325): 316–323. doi :10.1080/01621459.1969.10500976.
  26. ^ Machado, José AF; Silva, JMC Santos (2000). "Revisión de la prueba de Glejser". Revista de Econometría . 97 (1): 189–202. doi :10.1016/S0304-4076(00)00016-6.
  27. ^ Hamsici, Onur C.; Martinez, Aleix M. (2007) "Distribuciones esféricas-homoscedásticas: la equivalencia de distribuciones esféricas y normales en la clasificación", Journal of Machine Learning Research , 8, 1583-1623
  28. ^ Holgersson, HET; Shukur, G. (2004). "Prueba de heterocedasticidad multivariada". Revista de simulación y computación estadística . 74 (12): 879. doi : 10.1080/00949650410001646979. hdl : 2077/24416 . S2CID  121576769.
  29. ^ Gupta, Alaska; Tang, J. (1984). "Estadística de distribución de la razón de verosimilitud para probar la igualdad de matrices de covarianza de modelos gaussianos multivariados". Biometrika . 71 (3): 555–559. doi :10.1093/biomet/71.3.555. JSTOR  2336564.
  30. ^ d'Agostino, RB; Russell, Hong Kong (2005). "Prueba de Bartlett multivariada". Enciclopedia de Bioestadística . doi :10.1002/0470011815.b2a13048. ISBN 978-0470849071.

Otras lecturas

La mayoría de los libros de texto de estadística incluirán al menos algo de material sobre homocedasticidad y heterocedasticidad. Algunos ejemplos son:

enlaces externos