Ecuación de estimación generalizada

En estadística , se utiliza una ecuación de estimación generalizada (GEE) para estimar los parámetros de un modelo lineal generalizado con una posible correlación no medida entre observaciones de diferentes puntos temporales. ^[1]^[2] Aunque algunos creen que las GEE son robustas en todo ^{[ ¿quién? ]} , incluso con la elección incorrecta de la matriz de correlación de trabajo, las ecuaciones de estimación generalizadas son robustas solo ante la pérdida de consistencia con la elección incorrecta ^{[ cita requerida ]} .

Las estimaciones del coeficiente beta de regresión del GEE de Liang-Zeger son consistentes , imparciales y asintóticamente normales incluso cuando la correlación de trabajo está mal especificada, en condiciones de regularidad leve. El GEE es más eficiente que el modelo iterativo lineal generalizado (GLIM) en presencia de una alta autocorrelación. ^[1] Cuando se conoce la verdadera correlación de trabajo, la consistencia no requiere la suposición de que los datos faltantes faltan completamente al azar . ^[1] Los errores estándar de Huber-White mejoran la eficiencia del GEE de Liang-Zeger en ausencia de autocorrelación serial , pero pueden eliminar la interpretación marginal. El GEE estima la respuesta promedio sobre la población (efectos "promediados de la población") con errores estándar de Liang-Zeger y en individuos utilizando errores estándar de Huber-White , también conocidos como estimaciones de "error estándar robusto" o "varianza sándwich". ^[3] La GEE de Huber-White se utiliza desde 1997 y la GEE de Liang-Zeger data de la década de 1980 según una revisión limitada de la literatura. ^[4] Varias formulaciones independientes de estos estimadores de error estándar contribuyen a la teoría de la GEE. Colocar los estimadores de error estándar independientes bajo el término general "GEE" puede ejemplificar el abuso de la terminología .

Los GEE pertenecen a una clase de técnicas de regresión que se denominan semiparamétricas porque se basan en la especificación de solo los dos primeros momentos . Son una alternativa popular al modelo lineal mixto generalizado basado en verosimilitud que tiene un mayor riesgo de pérdida de consistencia en la especificación de la estructura de varianza. ^[5] La compensación de la especificación incorrecta de la estructura de varianza y las estimaciones consistentes del coeficiente de regresión es la pérdida de eficiencia, lo que produce valores p de prueba de Wald inflados como resultado de una varianza más alta de los errores estándar que la del más óptimo. ^[6] Se utilizan comúnmente en estudios epidemiológicos grandes, especialmente estudios de cohorte de múltiples sitios , porque pueden manejar muchos tipos de dependencia no medida entre resultados.

Formulación

Dado un modelo medio para el sujeto y el tiempo que depende de los parámetros de regresión y la estructura de varianza, la ecuación de estimación se forma mediante: ^[7] $\mu_{ij}$ ${\estilo de visualización i}$ ${\estilo de visualización j}$ $\beta _{k}$ $Estilo de visualización V_{i}}$

U(\beta )=\sum _{i=1}^{N}{\frac {\partial \mu _{i}}{\partial \beta }}V_{i}^{-1}\{Y_{i}-\mu _{i}(\beta )\}\,\!

Los parámetros se estiman mediante la resolución y se obtienen típicamente a través del algoritmo de Newton-Raphson . La estructura de varianza se elige para mejorar la eficiencia de las estimaciones de los parámetros. El hessiano de la solución de los GEE en el espacio de parámetros se puede utilizar para calcular estimaciones robustas de error estándar. El término "estructura de varianza" se refiere a la forma algebraica de la matriz de covarianza entre los resultados, Y, en la muestra. Los ejemplos de especificaciones de estructura de varianza incluyen independencia, intercambiable, autorregresiva, estacionaria m-dependiente y no estructurada. La forma más popular de inferencia sobre los parámetros de regresión GEE es la prueba de Wald utilizando errores estándar ingenuos o robustos, aunque la prueba de puntuación también es válida y preferible cuando es difícil obtener estimaciones de información bajo la hipótesis alternativa. La prueba de razón de verosimilitud no es válida en este contexto porque las ecuaciones de estimación no son necesariamente ecuaciones de verosimilitud. La selección del modelo se puede realizar con el equivalente GEE del Criterio de Información de Akaike (AIC), la cuasi-verosimilitud bajo el criterio del modelo de independencia (QIC). ^[8] $\beta _{k}$ $U(\beta )=0$

Relación con el método generalizado de momentos

La ecuación de estimación generalizada es un caso especial del método generalizado de momentos (GMM). ^[9] Esta relación es inmediatamente obvia a partir del requisito de que la función de puntuación satisfaga la ecuación: $\mathbb {E} [U(\beta )]={1 \sobre {N}}\suma _{i=1}^{N}{\frac {\partial \mu _{i}}{\partial \beta }}V_{i}^{-1}\{Y_{i}-\mu _{i}(\beta )\}\,\!=0$

Cálculo

El software para resolver ecuaciones de estimación generalizadas está disponible en MATLAB , ^[10] SAS (proc genmod ^[11] ), SPSS (el procedimiento gee ^[12] ), Stata (el comando xtgee ^[13] ), R (paquetes glmtoolbox , ^[14] gee , ^[15] geepack ^[16] y multgee ^[17] ), Julia (paquete GEE.jl ^[18] ) y Python (paquete statsmodels ^[19] ).

Se encuentran disponibles comparaciones entre paquetes de software para el análisis de datos binarios correlacionados ^[20]^[21] y datos ordinales correlacionados ^{[22] a través de GEE.}

Véase también

Referencias

^ abc Kung-Yee Liang; Scott Zeger (1986). "Análisis de datos longitudinales utilizando modelos lineales generalizados". Biometrika . 73 (1): 13–22. doi : 10.1093/biomet/73.1.13 .
^ Hardin, James; Hilbe, Joseph (2003). Ecuaciones de estimación generalizadas . Londres: Chapman and Hall/CRC. ISBN 978-1-58488-307-4.
^ Abadie, Alberto; Athey, Susan; Imbens, Guido W; Wooldridge, Jeffrey M (octubre de 2022). "¿Cuándo se deben ajustar los errores estándar para la agrupación?". The Quarterly Journal of Economics . 138 (1): 1–35. arXiv : 1710.02926 . doi :10.1093/qje/qjac038.
^ Wolfe, Frederick; Anderson, Janice; Harkness, Deborah; Bennett, Robert M.; Caro, Xavier J.; Goldenberg, Don L.; Russell, I. Jon; Yunus, Muhammad B. (1997). "Un estudio prospectivo, longitudinal y multicéntrico de la utilización de servicios y los costos en la fibromialgia". Arthritis & Rheumatism . 40 (9): 1560–1570. doi :10.1002/art.1780400904. PMID 9324009.
^ Fong, Y; Rue, H; Wakefield, J (2010). "Inferencia bayesiana para modelos lineales mixtos generalizados". Bioestadística . 11 (3): 397–412. doi :10.1093/biostatistics/kxp053. PMC 2883299 . PMID 19966070.
^ O'Brien, Liam M.; Fitzmaurice, Garrett M.; Horton, Nicholas J. (octubre de 2006). "Estimación de máxima verosimilitud de asociaciones marginales por pares con predictores de múltiples fuentes". Revista biométrica . 48 (5): 860–875. doi :10.1002/bimj.200510227. ISSN 0323-3847. PMC 1764610 . PMID 17094349.
^ Diggle, Peter J.; Patrick Heagerty; Kung-Yee Liang; Scott L. Zeger (2002). Análisis de datos longitudinales . Oxford Statistical Science Series. ISBN 978-0-19-852484-7.
^ Pan, W. (2001), "El criterio de información de Akaike en ecuaciones de estimación generalizadas", Biometrics , 57 (1): 120–125, doi :10.1111/j.0006-341X.2001.00120.x, PMID 11252586, S2CID 7862441.
^ Breitung, Jörg; Chaganty, N. Rao; Daniel, Rhian M.; Kenward, Michael G.; Lechner, Michael; Martus, Peter; Sabo, Roy T.; Wang, You-Gan; Zorn, Christopher (2010). "Discusión de 'Ecuaciones de estimación generalizadas: notas sobre la elección de la matriz de correlación de trabajo'". Métodos de información en medicina . 49 (5): 426–432. doi :10.1055/s-0038-1625133. S2CID 3213776.
^ Sarah J. Ratcliffe; Justine Shults (2008). "GEEQBOX: una caja de herramientas de MATLAB para ecuaciones de estimación generalizadas y mínimos cuadrados cuasi". Revista de software estadístico . 25 (14): 1–14.
^ "El procedimiento GENMOD". El Instituto SAS.
^ "IBM SPSS Advanced Statistics". Sitio web de IBM SPSS.
^ "Implementación de GEE por parte de Stata" (PDF) . Sitio web de Stata.
^ "glmtoolbox: Conjunto de herramientas para el análisis de datos mediante modelos lineales generalizados". CRAN. 10 de octubre de 2023.
^ "gee: Solucionador de ecuaciones de estimación generalizada". CRAN. 7 de noviembre de 2019.
^ geepack: Paquete de ecuaciones de estimación generalizadas, CRAN, 18 de diciembre de 2020{{citation}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
^ multgee: solucionador GEE para respuestas multinomiales nominales u ordinales correlacionadas utilizando una parametrización de razones de probabilidades locales, CRAN, 13 de mayo de 2021{{citation}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
^ Shedden, Kerby (23 de junio de 2022). "Ecuaciones de estimación generalizadas en Julia". GitHub . Consultado el 24 de junio de 2022 .
^ "Ecuaciones de estimación generalizadas — statsmodels".
^ Andreas Ziegler; Ulrike Grömping (1998). "Las ecuaciones de estimación generalizadas: una comparación de los procedimientos disponibles en los paquetes de software estadístico comerciales". Biometrical Journal . 40 (3): 245–260. doi :10.1002/(sici)1521-4036(199807)40:3<245::aid-bimj245>3.0.co;2-n.
^ Nicholas J. HORTON; Stuart R. LIPSITZ (1999). "Revisión de software para ajustar modelos de regresión de ecuaciones de estimación generalizadas". The American Statistician . 53 (2): 160–169. CiteSeerX 10.1.1.22.9325 . doi :10.1080/00031305.1999.10474451.
^ Nazanin Nooraee; Geert Molenberghs; Edwin R. van den Heuvel (2014). "GEE para datos ordinales longitudinales: Comparación de R-geepack, R-multgee, R-repolr, SAS-GENMOD, SPSS-GENLIN" (PDF) . Estadística computacional y análisis de datos . 77 : 70–83. doi :10.1016/j.csda.2014.03.009. S2CID 15063953.

Lectura adicional

Hardin, James; Hilbe, Joseph (2003). Ecuaciones de estimación generalizadas . Londres: Chapman and Hall/CRC. ISBN 978-1-58488-307-4.
Ziegler, A. (2011). Ecuaciones de estimación generalizadas . Springer. ISBN 978-1-4614-0498-9.

Enlaces externos

Temas avanzados I - Ecuaciones de estimación generalizadas (EEG)