Regresión multinivel con postestratificación

La regresión multinivel con posestratificación ( MRP ) es una técnica estadística utilizada para corregir las estimaciones del modelo en función de las diferencias conocidas entre una población de muestra (la población de los datos que uno tiene) y una población objetivo (una población para la que se desea realizar una estimación).

La postestratificación se refiere al proceso de ajuste de las estimaciones, que es básicamente un promedio ponderado de las estimaciones de todas las combinaciones posibles de atributos (por ejemplo, edad y sexo). Cada combinación se denomina a veces "celda". La regresión multinivel es el uso de un modelo multinivel para suavizar las estimaciones ruidosas en las celdas con muy pocos datos mediante el uso de promedios generales o cercanos.

Una aplicación es la estimación de preferencias en subregiones (por ejemplo, estados, distritos electorales individuales) basándose en datos de encuestas a nivel individual recopilados en otros niveles de agregación (por ejemplo, encuestas nacionales). ^[1]

Formulación matemática

Siguiendo la descripción del modelo MRP ^[2] , supongamos que representa una medición de resultado única y que el valor medio de la población de , , es el parámetro objetivo de interés. En la población subyacente, cada individuo, , pertenece a una de las celdas de post-estratificación caracterizadas por un conjunto único de covariables. La regresión multinivel con modelo de post-estratificación implica el siguiente par de pasos: ${\estilo de visualización Y}$ ${\estilo de visualización Y}$ $\mu_{Y}$ ${\estilo de visualización i}$ $j=1,2,\cdots ,J$

Paso 1 de MRP (regresión multinivel) : el modelo de regresión multinivel especifica un predictor lineal para la media , o la transformación logit de la media en el caso de un resultado binario, en la celda de postestratificación . $\mu _{Y}$ $j$

$g{\left({\mathrm {\mu } }_{j}\right)}=g{\left(E{\left[Y_{j{\lbrack i\rbrack }}\right]}\right)}={\mathrm {\beta } }_{0}+{\boldsymbol {X}}_{j}^{T}\mathbf {\beta } +\sum _{k=1}^{K}a_{l{\lbrack j\rbrack }}^{k},$

donde es la medida del resultado para el encuestado en la celda , es la intersección fija , es el vector de covariable único para la celda , es un vector de coeficientes de regresión ( efectos fijos ), es el coeficiente variable ( efecto aleatorio ), asigna el índice de la celda al índice de categoría correspondiente de la variable . Todos los coeficientes variables son lotes intercambiables con distribuciones previas normales independientes . $Y_{j\lbrack i\rbrack }$ $i$ $j$ $\beta _{0}$ ${\boldsymbol {X}}_{j}$ $j$ ${\mathrm {\beta } }$ $a_{l{\lbrack j\rbrack }}^{k}$ $l{\lbrack j\rbrack }$ $j$ $l$ $k\in \{1,2,\cdots ,K\}$ $a_{l}^{k}\sim \mathrm {N} \left(0,\mathrm {\sigma } _{k}^{2}\right),\ l\in \{1,\dots ,L_{k}\}$

Paso 2 del MRP: post-estratificación : La estimación de post-estratificación (PS) para el parámetro de población de interés es donde es el resultado estimado de interés para la celda de post-estratificación y es el tamaño de la -ésima celda de post-estratificación en la población. Las estimaciones en cualquier nivel de subpoblación se derivan de manera similar donde es el subconjunto de todas las celdas de post-estratificación que comprenden . ${\hat {\mu }}^{PS}={\frac {\sum _{j=1}^{J}N_{j}{\hat {\mu }}_{j}}{\sum _{i=1}^{J}N_{j}}}$ ${\hat {\mu }}_{j}$ $j$ $j$ $s$ ${\hat {\mu }}_{s}^{PS}={\frac {\sum _{j=1}^{J_{s}}N_{j}{\hat {\mu }}_{j}}{\sum _{i=1}^{J_{s}}N_{j}}}$ $J_{s}$ $s$

La técnica y sus ventajas

La técnica implica esencialmente el uso de datos de, por ejemplo, censos relacionados con varios tipos de personas correspondientes a diferentes características (por ejemplo, edad, raza), en un primer paso para estimar la relación entre esos tipos y las preferencias individuales (es decir, regresión multinivel del conjunto de datos). Esta relación se utiliza luego en un segundo paso para estimar la preferencia subregional en función del número de personas que tienen cada tipo/característica en esa subregión (un proceso conocido como "postestratificación"). ^[3] De esta manera, se evita la necesidad de realizar encuestas a nivel subregional, lo que puede ser costoso y poco práctico en un área (por ejemplo, un país) con muchas subregiones (por ejemplo, condados, distritos electorales o estados). También evita problemas con la coherencia de la encuesta al comparar diferentes encuestas realizadas en diferentes áreas. ^[4]^[1] Además, permite la estimación de la preferencia dentro de una localidad específica en función de una encuesta realizada en un área más amplia que incluye relativamente pocas personas de la localidad en cuestión, o donde la muestra puede ser altamente no representativa. ^[5]

Historia

La técnica fue desarrollada originalmente por Gelman y T. Little en 1997, ^[6] basándose en las ideas de Fay y Herriot ^[7] y R. Little. ^[8] Posteriormente fue ampliada por Park, Gelman y Bafumi en 2004 y 2006. Lax y Philips propusieron su uso para estimar la preferencia de los votantes a nivel estatal de EE. UU. en 2009. Warshaw y Rodden posteriormente la propusieron para su uso en la estimación de la opinión pública a nivel de distrito en 2012. ^[1] Más tarde, Wang et al. ^[9] utilizaron datos de encuestas de usuarios de Xbox para predecir el resultado de las elecciones presidenciales estadounidenses de 2012. Los jugadores de Xbox eran 65% de 18 a 29 años y 93% hombres, mientras que el electorado en su conjunto era 19% de 18 a 29 años y 47% hombres. Aunque los datos originales estaban muy sesgados, después de una regresión multinivel con postestratificación los autores pudieron obtener estimaciones que coincidían con las obtenidas a partir de encuestas que utilizaban grandes cantidades de datos aleatorios y representativos. Desde entonces también se ha propuesto su uso en el campo de la epidemiología . ^[5]

YouGov utilizó la técnica para predecir con éxito el resultado general de las elecciones generales del Reino Unido de 2017 , ^[10] prediciendo correctamente el resultado en el 93% de los distritos electorales. ^[11] En las elecciones de 2019 y 2024, otras encuestadoras utilizaron MRP, incluidas Survation ^[12] e Ipsos. ^[13]

Limitaciones y ampliaciones

El MRP se puede extender para estimar el cambio de opinión a lo largo del tiempo ^[4] y, cuando se utiliza para predecir elecciones, funciona mejor cuando se utiliza relativamente cerca de la fecha de la votación, después de que se hayan cerrado las nominaciones. ^[14]

Tanto la idea de "regresión multinivel" como la de "postestratificación" del MRP pueden generalizarse. La regresión multinivel puede reemplazarse por una regresión no paramétrica ^[15] o una predicción regularizada, y la postestratificación puede generalizarse para permitir variables no censales, es decir, totales de postestratificación que se estiman en lugar de conocerse. ^[16]

Referencias

^ abc Buttice, Matthew K.; Highton, Benjamin (otoño de 2013). "¿Cómo se comportan la regresión multinivel y la postestratificación con las encuestas nacionales convencionales?" (PDF) . Political Analysis . 21 (4): 449–451. doi :10.1093/pan/mpt017. JSTOR 24572674.
^ Downes, Marnie Downes; et al. (agosto de 2018). "Regresión multinivel y posestratificación: un enfoque de modelado para estimar cantidades de población a partir de muestras de encuestas altamente seleccionadas". American Journal of Epidemiology . 187 (8): 1780–1790. doi :10.1093/aje/kwy070.
^ "¿Qué es MRP?". Survation.com . Survation. 5 de noviembre de 2018 . Consultado el 31 de octubre de 2019 .
^ ab Gelman, Andrew; Lax, Jeffrey; Phillips, Justin; Gabry, Jonah; Trangucci, Robert (28 de agosto de 2018). "Uso de regresión multinivel y postestratificación para estimar la opinión pública dinámica" (PDF) : 1–3 . Consultado el 31 de octubre de 2019 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab Downes, Marnie; Gurrin, Lyle C.; English, Dallas R.; Pirkis, Jane; Currier, Diane; Spital, Matthew J.; Carlin, John B. (9 de abril de 2018). "Regresión multinivel y posestratificación: un enfoque de modelado para estimar cantidades de población a partir de muestras de encuestas altamente seleccionadas". American Journal of Epidemiology . 179 (8): 187 . Consultado el 31 de octubre de 2019 .
^ Gelman, Andrew; Little, Thomas (1997). "Postestratificación en muchas categorías mediante regresión logística jerárquica". Metodología de encuestas . 23 : 127–135.
^ Fay, Robert; Herriot, Roger (1979). "Estimaciones de ingresos para localidades pequeñas: una aplicación de los procedimientos de James-Stein a los datos del censo". Revista de la Asociación Estadounidense de Estadística . 74 (423): 1001–1012. doi :10.1080/01621459.1979.10482505. JSTOR 2286322.
^ Little, Roderick (1993). "Postestratificación: la perspectiva de un modelador". Revista de la Asociación Estadounidense de Estadística . 88 (423): 1001–1012. doi :10.1080/01621459.1993.10476368. JSTOR 2290792.
^ Wang, Wei; Rothschild, David; Goel, Sharad; Gelman, Andrew (2015). "Pronóstico de elecciones con encuestas no representativas" (PDF) . Revista Internacional de Pronóstico . 31 (3): 980–991. doi : 10.1016/j.ijforecast.2014.06.001 .
^ Revell, Timothy (9 de junio de 2017). «Cómo la encuesta experimental de YouGov acertó en las elecciones del Reino Unido». New Scientist . Consultado el 31 de octubre de 2019 .
^ Cohen, Daniel (27 de septiembre de 2019). «'Nunca había visto a los votantes tan promiscuos': los encuestadores que trabajan para predecir las próximas elecciones del Reino Unido». The Guardian . Consultado el 31 de octubre de 2019 .
^ Survation 2019 https://www.survation.com/2019-general-election-mrp-predictions-survation-and-dr-chris-hanretty/
^ Ipsos 2024 https://www.ipsos.com/en-uk/uk-opinion-polls/ipsos-election-mrp
^ James, William; MacLellan, Kylie (15 de octubre de 2019). "Una cuestión de confianza: los encuestadores británicos luchan por predecir las elecciones que se avecinan". Reuters . Consultado el 31 de octubre de 2019 .
^ Bisbee, James (2019). "BARP: Mejorando Mister P usando árboles de regresión aditiva bayesiana". American Political Science Review . 113 (4): 1060–1065. doi :10.1017/S0003055419000480. S2CID 201385400.
^ Gelman, Andrew (28 de octubre de 2018). "MRP (o RPP) con variables no censales". Modelado estadístico, inferencia causal y ciencias sociales .