Muestreo por conglomerados

Muestreo por conglomerados. Un grupo de doce personas se divide en parejas y luego se seleccionan dos parejas al azar.

En estadística , el muestreo por conglomerados es un plan de muestreo que se utiliza cuando en una población estadística son evidentes agrupaciones mutuamente homogéneas pero internamente heterogéneas . Se utiliza a menudo en la investigación de mercados .

En este plan de muestreo, la población total se divide en estos grupos (conocidos como conglomerados) y se selecciona una muestra aleatoria simple de los grupos. Luego se muestrean los elementos de cada grupo. Si se muestrean todos los elementos de cada conglomerado muestreado, esto se denomina plan de muestreo por conglomerados de "una etapa". Si se selecciona una submuestra aleatoria simple de elementos dentro de cada uno de estos grupos, esto se denomina plan de muestreo por conglomerados de "dos etapas". Una motivación común para el muestreo por conglomerados es reducir el número total de entrevistas y los costos, dada la precisión deseada. Para un tamaño de muestra fijo, el error aleatorio esperado es menor cuando la mayor parte de la variación en la población está presente internamente dentro de los grupos y no entre los grupos.

Elemental de racimo

Idealmente, la población dentro de un grupo debería ser lo más heterogénea posible, pero debería haber homogeneidad entre los grupos. Cada grupo debe ser una representación a pequeña escala de la población total. Los grupos deben ser mutuamente excluyentes y colectivamente exhaustivos. Luego se utiliza una técnica de muestreo aleatorio en cualquier conglomerado relevante para elegir qué conglomerados incluir en el estudio. En el muestreo de conglomerados de una sola etapa, se muestrean todos los elementos de cada uno de los conglomerados seleccionados. En el muestreo de conglomerados de dos etapas, se aplica una técnica de muestreo aleatorio a los elementos de cada uno de los conglomerados seleccionados.

La principal diferencia entre el muestreo por conglomerados y el muestreo estratificado es que en el muestreo por conglomerados, el conglomerado se trata como la unidad de muestreo, por lo que el muestreo se realiza en una población de conglomerados (al menos en la primera etapa). En el muestreo estratificado, el muestreo se realiza sobre elementos dentro de cada estrato. En el muestreo estratificado, se extrae una muestra aleatoria de cada uno de los estratos, mientras que en el muestreo por conglomerados solo se muestrean los conglomerados seleccionados. Una motivación común para el muestreo por conglomerados es reducir los costos aumentando la eficiencia del muestreo. Esto contrasta con el muestreo estratificado donde la motivación es aumentar la precisión.

También existe el muestreo de conglomerados de múltiples etapas , en el que se toman al menos dos etapas para seleccionar elementos de los conglomerados.

Cuando los grupos son de diferentes tamaños

Sin modificar el parámetro estimado, el muestreo por conglomerados es insesgado cuando los conglomerados son aproximadamente del mismo tamaño. En este caso, el parámetro se calcula combinando todos los grupos seleccionados. Cuando los clusters son de distintos tamaños existen varias opciones:

Un método consiste en muestrear conglomerados y luego encuestar todos los elementos de ese conglomerado. Otro método es un método de dos etapas para muestrear una proporción fija de unidades (ya sea 5% o 50%, u otro número, dependiendo de consideraciones de costos) dentro de cada uno de los grupos seleccionados. Confiar en la muestra extraída de estas opciones producirá un estimador insesgado. Sin embargo, el tamaño de la muestra ya no se fija por adelantado. Esto conduce a una fórmula más complicada para el error estándar del estimador, así como a problemas con la óptica del plan de estudio (ya que el análisis de potencia y las estimaciones de costos a menudo se relacionan con un tamaño de muestra específico).

Una tercera solución posible es utilizar una probabilidad proporcional al tamaño del muestreo . En este plan de muestreo, la probabilidad de seleccionar un conglomerado es proporcional a su tamaño, por lo que un conglomerado grande tiene una mayor probabilidad de selección que uno pequeño. La ventaja aquí es que cuando los conglomerados se seleccionan con una probabilidad proporcional al tamaño, se debe realizar el mismo número de entrevistas en cada conglomerado muestreado para que cada unidad muestreada tenga la misma probabilidad de selección.

Aplicaciones del muestreo por conglomerados

Un ejemplo de muestreo por conglomerados es el muestreo por áreas o el muestreo por conglomerados geográficos. Cada conglomerado es un área geográfica en un marco de muestreo de áreas . Debido a que encuestar a una población geográficamente dispersa puede ser costoso, se puede lograr una mayor economía que el simple muestreo aleatorio agrupando a varios encuestados dentro de un área local en un conglomerado. Generalmente es necesario aumentar el tamaño total de la muestra para lograr una precisión equivalente en los estimadores , pero los ahorros de costos pueden hacer factible ese aumento en el tamaño de la muestra.

Para la organización de un censo de población , el primer paso suele ser dividir el área geográfica general en áreas de enumeración o sectores censales para la organización del trabajo de campo. Las áreas de enumeración también pueden ser útiles como unidades de primera etapa para el muestreo por conglomerados en muchos tipos de encuestas. Cuando un censo de población está desactualizado, la lista de individuos no debe usarse directamente como marco de muestreo para una encuesta socioeconómica. Actualizar todo el censo es económicamente inviable. Una buena alternativa puede ser mantener las antiguas áreas de empadronamiento, con alguna actualización en áreas altamente dinámicas, como los suburbios urbanos, seleccionar una muestra de áreas de empadronamiento y actualizar la lista de individuos u hogares solo en las áreas de empadronamiento seleccionadas. ^[1]

El muestreo por conglomerados se utiliza para estimar bajas mortalidades en casos como guerras , hambrunas y desastres naturales . ^[2]

ciencia pesquera

Es casi imposible tomar una muestra aleatoria simple de peces de una población, lo que requeriría capturar individuos individualmente y al azar. ^[3] Esto se debe a que los artes de pesca capturan peces en grupos (o racimos).

En el muestreo de pesquerías comerciales, los costos de operar en el mar son a menudo demasiado altos para seleccionar los lances individualmente y al azar. Por lo tanto, las observaciones se agrupan por barco o viaje de pesca.

Ventajas

Puede ser más económico que otros planes de muestreo (por ejemplo, menos gastos de viaje y costos administrativos).
Viabilidad: Este plan de muestreo tiene en cuenta poblaciones grandes. Dado que estos grupos son tan pequeños, implementar cualquier otro plan de muestreo sería muy costoso.
Economía: Las dos principales preocupaciones habituales del gasto, es decir, viajar y cotizar, se reducen considerablemente con este método. Por ejemplo: recopilar información de investigación sobre cada hogar de una ciudad sería muy costoso, mientras que recopilar información sobre varias manzanas de la ciudad será más económico. Aquí, los esfuerzos por viajar y cotizar en bolsa se reducirán considerablemente.
Variabilidad reducida: en el raro caso de una correlación intraclase negativa entre sujetos dentro de un conglomerado, los estimadores producidos por el muestreo por conglomerados producirán estimaciones más precisas que los datos obtenidos de una muestra aleatoria simple (es decir, el efecto del diseño será mayor que 1). Este no es un escenario común.

Uso principal: cuando el marco muestral de todos los elementos no está disponible podemos recurrir únicamente al muestreo por conglomerados.

Desventajas

Mayor error de muestreo , que puede expresarse mediante el efecto del diseño : la relación entre la varianza de un estimador elaborado a partir de las muestras del estudio por conglomerados y la varianza de un estimador obtenido de una muestra de sujetos en un estudio no agrupado , con muestreo aleatorio y igualmente confiable. . ^[4] Cuanto mayor sea la correlación intraclase entre sujetos dentro de un grupo, peor será el efecto del diseño (es decir, cuanto mayor sea desde 1, lo que indica un mayor aumento esperado en la varianza del estimador). En otras palabras, cuanto más heterogeneidad hay entre los conglomerados y más homogeneidad entre los sujetos dentro de un conglomerado, menos precisos se vuelven nuestros estimadores. Esto se debe a que en tales casos es mejor muestrear tantos conglomerados como podamos y conformarnos con una pequeña muestra de sujetos dentro de cada conglomerado (es decir, muestreo por conglomerados en dos etapas).
Complejidad. El muestreo por conglomerados es más sofisticado y requiere más atención sobre cómo planificar y cómo analizar (es decir, tener en cuenta los pesos de los sujetos durante la estimación de parámetros, intervalos de confianza, etc.)

Más sobre el muestreo por conglomerados

Muestreo por conglomerados en dos etapas

El muestreo de conglomerados en dos etapas, un caso simple de muestreo multietápico , se obtiene seleccionando muestras de conglomerados en la primera etapa y luego seleccionando una muestra de elementos de cada conglomerado muestreado. Considere una población de N grupos en total. En la primera etapa, se seleccionan n conglomerados utilizando el método de muestreo por conglomerados ordinario. En la segunda etapa se suele utilizar el muestreo aleatorio simple . ^[5] Se utiliza por separado en cada grupo y el número de elementos seleccionados de diferentes grupos no es necesariamente igual. El diseñador de la encuesta debe predeterminar el número total de conglomerados N , el número de conglomerados seleccionados n y el número de elementos de los conglomerados seleccionados. El muestreo por conglomerados en dos etapas tiene como objetivo minimizar los costos de la encuesta y al mismo tiempo controlar la incertidumbre relacionada con las estimaciones de interés. ^[6] Este método se puede utilizar en ciencias sociales y de la salud. Por ejemplo, los investigadores utilizaron un muestreo por conglomerados en dos etapas para generar una muestra representativa de la población iraquí para realizar encuestas de mortalidad. ^[7] El muestreo con este método puede ser más rápido y confiable que otros métodos, razón por la cual este método ahora se usa con frecuencia.

Inferencia cuando el número de conglomerados es pequeño.

Los métodos de muestreo por conglomerados pueden generar sesgos importantes cuando se trabaja con un número pequeño de conglomerados. Por ejemplo, puede ser necesario agrupar a nivel estatal o urbano unidades que pueden ser pequeñas y de número fijo. Los métodos microeconométricos para datos de panel suelen utilizar paneles cortos, lo que equivale a tener pocas observaciones por conglomerado y muchos conglomerados. El problema del grupo pequeño puede verse como un problema de parámetro incidental. ^[8] Si bien las estimaciones puntuales pueden estimarse con razonable precisión, si el número de observaciones por grupo es suficientemente alto, necesitamos el número de grupos para que las asintóticas entren en acción. Si el número de grupos es bajo, la matriz de covarianza estimada puede ser sesgado hacia abajo. ^[9] $G\rightarrow \infty$

Un número pequeño de conglomerados es un riesgo cuando hay correlación serial o cuando hay correlación intraclase como en el contexto de Moulton. Cuando tenemos pocos grupos, tendemos a subestimar la correlación serial entre observaciones cuando ocurre un shock aleatorio, o la correlación intraclase en un entorno de Moulton. ^[10] Varios estudios han destacado las consecuencias de la correlación serial y han destacado el problema de los grupos pequeños. ^[11]^[12]

En el marco del factor de Moulton, se puede derivar una explicación intuitiva del problema de los pequeños conglomerados a partir de la fórmula del factor de Moulton. Supongamos por simplicidad que el número de observaciones por grupo se fija en n . A continuación, representa la matriz de covarianza ajustada por agrupamiento, representa la matriz de covarianza no ajustada por agrupamiento y ρ representa la correlación intraclase: $V_{c}(\beta)$ $V(\beta)$

{\frac {V_{c}({\hat {\beta }})}{V({\hat {\beta }})}}=1+(n-1)\rho

El ratio del lado izquierdo indica hasta qué punto el escenario no ajustado sobreestima la precisión. Por lo tanto, un número elevado significa un fuerte sesgo a la baja de la matriz de covarianza estimada. Un problema de conglomerado pequeño se puede interpretar como un n grande: cuando los datos son fijos y el número de conglomerados es bajo, el número de datos dentro de un conglomerado puede ser alto. De ello se deduce que la inferencia, cuando el número de conglomerados es pequeño, no tendrá la cobertura correcta. ^[10]

Se han propuesto varias soluciones para el problema de los pequeños clusters. Se puede utilizar una matriz de varianza robusta de conglomerados con corrección de sesgo, hacer ajustes de distribución T o utilizar métodos de arranque con refinamientos asintóticos, como el percentil-t o el arranque salvaje, que pueden conducir a una mejor inferencia de muestras finitas. ^[9] Cameron, Gelbach y Miller (2008) proporcionan microsimulaciones para diferentes métodos y encuentran que el bootstrap salvaje funciona bien frente a un pequeño número de clusters. ^[13]

Ver también

Referencias

^ "MANUAL SOBRE Marcos Maestros de Muestreo para Estadísticas Agrícolas - Descarga gratuita en PDF". docplayer.net . Consultado el 10 de enero de 2024 .
^ David Brown, Un estudio afirma que el número de muertos 'excesivo' en Irak ha alcanzado los 655.000, Washington Post , miércoles 11 de octubre de 2006. Consultado el 14 de septiembre de 2010.
^ Nelson, Gary A. (julio de 2014). "Muestreo por conglomerados: un diseño de encuesta generalizado, aunque poco reconocido, en la investigación pesquera". Transacciones de la Sociedad Estadounidense de Pesca . 143 (4): 926–938. Código Bib : 2014TraFS.143..926N. doi :10.1080/00028487.2014.901252.
^ Kerry y Bland (1998). Notas estadísticas: el coeficiente de correlación intragrupo en la aleatorización por grupos. Revista médica británica , 316, 1455-1460.
^ Ahmed, Saifuddin (2009). Métodos en encuestas por muestreo (PDF) . La Universidad Johns Hopkins y Saifuddin Ahmed. Archivado (PDF) desde el original el 28 de septiembre de 2013.
^ Daniel Pfeffermann; C. Radhakrishna Rao (2009). Manual de estadística Vol.29A Encuestas por muestreo: teoría, métodos e inferencia. Elsevier BV ISBN 978-0-444-53124-7.
^ LP Galway; Nathaniel Bell; AlS SAE; Amy Hagopian; Gilbert Burnham; Abraham Flaxman; Wiliam M. Weiss; Julie Rajaratnam; Tim K Takaro (27 de abril de 2012). "Un método de muestreo por conglomerados de dos etapas que utiliza datos de población cuadriculados, un SIG e imágenes de Google EarthTM en una encuesta de mortalidad poblacional en Irak". Revista Internacional de Geografía de la Salud . 11 : 12. doi : 10.1186/1476-072X-11-12 . PMC 3490933 . PMID 22540266.
^ Cameron AC y PK Trivedi (2005): Microeconometría: métodos y aplicaciones. Cambridge University Press, Nueva York.
^ ab Cameron, C. y DL Miller (2015): Guía para profesionales sobre inferencias sólidas en conglomerados. Revista de Recursos Humanos 50 (2), págs. 317–372.
^ ab Angrist, JD y J.-S. Pischke (2009): Econometría mayoritariamente inofensiva. El compañero de un empirista. Prensa de la Universidad de Princeton, Nueva Jersey.
^ Bertrand, M., E. Duflo y S. Mullainathan (2004): ¿Cuánto deberíamos confiar en las estimaciones de diferencias en diferencias? Revista trimestral de economía 119 (1), págs. 249-275.
^ Kezdi, G. (2004): Estimación robusta del error estándar en modelos de paneles de efectos fijos. Revista estadística húngara 9, págs. 95-116.
^ Cameron, C., J. Gelbach y DL Miller (2008): Mejoras basadas en Bootstrap para la inferencia con errores agrupados. The Review of Economics and Statistics 90, págs. 414–427.