En estadística , se utiliza una ecuación de estimación generalizada (GEE) para estimar los parámetros de un modelo lineal generalizado con una posible correlación no medida entre observaciones de diferentes puntos temporales. [1] [2] Aunque algunos creen que las GEE son robustas en todo [ ¿quién? ] , incluso con la elección incorrecta de la matriz de correlación de trabajo, las ecuaciones de estimación generalizadas son robustas solo ante la pérdida de consistencia con la elección incorrecta [ cita requerida ] .
Las estimaciones del coeficiente beta de regresión del GEE de Liang-Zeger son consistentes , imparciales y asintóticamente normales incluso cuando la correlación de trabajo está mal especificada, en condiciones de regularidad leve. El GEE es más eficiente que el modelo iterativo lineal generalizado (GLIM) en presencia de una alta autocorrelación. [1] Cuando se conoce la verdadera correlación de trabajo, la consistencia no requiere la suposición de que los datos faltantes faltan completamente al azar . [1] Los errores estándar de Huber-White mejoran la eficiencia del GEE de Liang-Zeger en ausencia de autocorrelación serial , pero pueden eliminar la interpretación marginal. El GEE estima la respuesta promedio sobre la población (efectos "promediados de la población") con errores estándar de Liang-Zeger y en individuos utilizando errores estándar de Huber-White , también conocidos como estimaciones de "error estándar robusto" o "varianza sándwich". [3] La GEE de Huber-White se utiliza desde 1997 y la GEE de Liang-Zeger data de la década de 1980 según una revisión limitada de la literatura. [4] Varias formulaciones independientes de estos estimadores de error estándar contribuyen a la teoría de la GEE. Colocar los estimadores de error estándar independientes bajo el término general "GEE" puede ejemplificar el abuso de la terminología .
Los GEE pertenecen a una clase de técnicas de regresión que se denominan semiparamétricas porque se basan en la especificación de solo los dos primeros momentos . Son una alternativa popular al modelo lineal mixto generalizado basado en verosimilitud que tiene un mayor riesgo de pérdida de consistencia en la especificación de la estructura de varianza. [5] La compensación de la especificación incorrecta de la estructura de varianza y las estimaciones consistentes del coeficiente de regresión es la pérdida de eficiencia, lo que produce valores p de prueba de Wald inflados como resultado de una varianza más alta de los errores estándar que la del más óptimo. [6] Se utilizan comúnmente en estudios epidemiológicos grandes, especialmente estudios de cohorte de múltiples sitios , porque pueden manejar muchos tipos de dependencia no medida entre resultados.
Dado un modelo medio para el sujeto y el tiempo que depende de los parámetros de regresión y la estructura de varianza, la ecuación de estimación se forma mediante: [7]
Los parámetros se estiman mediante la resolución y se obtienen típicamente a través del algoritmo de Newton-Raphson . La estructura de varianza se elige para mejorar la eficiencia de las estimaciones de los parámetros. El hessiano de la solución de los GEE en el espacio de parámetros se puede utilizar para calcular estimaciones robustas de error estándar. El término "estructura de varianza" se refiere a la forma algebraica de la matriz de covarianza entre los resultados, Y, en la muestra. Los ejemplos de especificaciones de estructura de varianza incluyen independencia, intercambiable, autorregresiva, estacionaria m-dependiente y no estructurada. La forma más popular de inferencia sobre los parámetros de regresión GEE es la prueba de Wald utilizando errores estándar ingenuos o robustos, aunque la prueba de puntuación también es válida y preferible cuando es difícil obtener estimaciones de información bajo la hipótesis alternativa. La prueba de razón de verosimilitud no es válida en este contexto porque las ecuaciones de estimación no son necesariamente ecuaciones de verosimilitud. La selección del modelo se puede realizar con el equivalente GEE del Criterio de Información de Akaike (AIC), la cuasi-verosimilitud bajo el criterio del modelo de independencia (QIC). [8]
La ecuación de estimación generalizada es un caso especial del método generalizado de momentos (GMM). [9] Esta relación es inmediatamente obvia a partir del requisito de que la función de puntuación satisfaga la ecuación:
El software para resolver ecuaciones de estimación generalizadas está disponible en MATLAB , [10] SAS (proc genmod [11] ), SPSS (el procedimiento gee [12] ), Stata (el comando xtgee [13] ), R (paquetes glmtoolbox , [14] gee , [15] geepack [16] y multgee [17] ), Julia (paquete GEE.jl [18] ) y Python (paquete statsmodels [19] ).
Se encuentran disponibles comparaciones entre paquetes de software para el análisis de datos binarios correlacionados [20] [21] y datos ordinales correlacionados [22] a través de GEE.
{{citation}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace ){{citation}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace )