Muestreo por conglomerados

Muestreo por conglomerados. Se divide un grupo de doce personas en parejas y se seleccionan dos parejas al azar.

En estadística , el muestreo por conglomerados es un plan de muestreo que se utiliza cuando se evidencian agrupaciones homogéneas entre sí pero heterogéneas internamente en una población estadística . Se utiliza a menudo en la investigación de mercados .

En este plan de muestreo, la población total se divide en estos grupos (conocidos como conglomerados) y se selecciona una muestra aleatoria simple de los grupos. Luego se toman muestras de los elementos de cada conglomerado. Si se toman muestras de todos los elementos de cada conglomerado muestreado, se habla de un plan de muestreo por conglomerados de "una etapa". Si se selecciona una submuestra aleatoria simple de elementos dentro de cada uno de estos grupos, se habla de un plan de muestreo por conglomerados de "dos etapas". Una motivación común para el muestreo por conglomerados es reducir el número total de entrevistas y los costos dada la precisión deseada. Para un tamaño de muestra fijo, el error aleatorio esperado es menor cuando la mayor parte de la variación en la población está presente internamente en los grupos, y no entre los grupos.

Elemento de racimo

Lo ideal es que la población dentro de un conglomerado sea lo más heterogénea posible, pero debe haber homogeneidad entre los conglomerados. Cada conglomerado debe ser una representación a pequeña escala de la población total. Los conglomerados deben ser mutuamente excluyentes y colectivamente exhaustivos. Luego se utiliza una técnica de muestreo aleatorio en todos los conglomerados relevantes para elegir qué conglomerados incluir en el estudio. En el muestreo por conglomerados de una sola etapa, se muestrean todos los elementos de cada uno de los conglomerados seleccionados. En el muestreo por conglomerados de dos etapas, se aplica una técnica de muestreo aleatorio a los elementos de cada uno de los conglomerados seleccionados.

La principal diferencia entre el muestreo por conglomerados y el muestreo estratificado es que en el muestreo por conglomerados el conglomerado se considera la unidad de muestreo, por lo que el muestreo se realiza sobre una población de conglomerados (al menos en la primera etapa). En el muestreo estratificado, el muestreo se realiza sobre elementos dentro de cada estrato. En el muestreo estratificado, se extrae una muestra aleatoria de cada uno de los estratos, mientras que en el muestreo por conglomerados solo se muestrean los conglomerados seleccionados. Una motivación común para el muestreo por conglomerados es reducir los costos mediante el aumento de la eficiencia del muestreo. Esto contrasta con el muestreo estratificado, donde la motivación es aumentar la precisión.

También existe el muestreo por conglomerados en múltiples etapas , en el que se toman al menos dos etapas para seleccionar elementos de los conglomerados.

Cuando los clusters son de diferentes tamaños

Sin modificar el parámetro estimado, el muestreo por conglomerados es insesgado cuando los conglomerados tienen aproximadamente el mismo tamaño. En este caso, el parámetro se calcula combinando todos los conglomerados seleccionados. Cuando los conglomerados son de diferentes tamaños, existen varias opciones:

Un método consiste en tomar muestras de los conglomerados y luego estudiar todos los elementos de ese conglomerado. Otro método es un método de dos etapas en el que se toma una muestra de una proporción fija de unidades (ya sea el 5% o el 50%, u otra cantidad, según las consideraciones de costo) de cada uno de los conglomerados seleccionados. Si se confía en la muestra extraída de estas opciones, se obtendrá un estimador imparcial. Sin embargo, el tamaño de la muestra ya no es fijo de antemano. Esto conduce a una fórmula más complicada para el error estándar del estimador, así como a problemas con la óptica del plan de estudio (ya que el análisis de potencia y las estimaciones de costos a menudo se relacionan con un tamaño de muestra específico).

Una tercera solución posible es utilizar un muestreo con probabilidad proporcional al tamaño . En este plan de muestreo, la probabilidad de seleccionar un conglomerado es proporcional a su tamaño, por lo que un conglomerado grande tiene una mayor probabilidad de selección que un conglomerado pequeño. La ventaja aquí es que cuando los conglomerados se seleccionan con probabilidad proporcional al tamaño, se debe realizar el mismo número de entrevistas en cada conglomerado muestreado para que cada unidad muestreada tenga la misma probabilidad de selección.

Aplicaciones del muestreo por conglomerados

Un ejemplo de muestreo por conglomerados es el muestreo por áreas o muestreo por conglomerados geográficos. Cada conglomerado es un área geográfica en un marco de muestreo por áreas . Debido a que una población geográficamente dispersa puede ser costosa de encuestar, se puede lograr una mayor economía que el muestreo aleatorio simple agrupando a varios encuestados dentro de un área local en un conglomerado. Por lo general, es necesario aumentar el tamaño total de la muestra para lograr una precisión equivalente en los estimadores , pero el ahorro de costos puede hacer que dicho aumento en el tamaño de la muestra sea factible.

Para la organización de un censo de población , el primer paso suele ser dividir el área geográfica general en áreas de enumeración o secciones censales para la organización del trabajo de campo. Las áreas de enumeración también pueden ser útiles como unidades de primera etapa para el muestreo por conglomerados en muchos tipos de encuestas. Cuando un censo de población está desactualizado, la lista de individuos no debe utilizarse directamente como marco de muestreo para una encuesta socioeconómica. Actualizar todo el censo es económicamente inviable. Una buena alternativa puede ser mantener las antiguas áreas de enumeración, con alguna actualización en áreas altamente dinámicas, como los suburbios urbanos, seleccionando una muestra de áreas de enumeración y actualizando la lista de individuos u hogares solo en las áreas de enumeración seleccionadas. ^[1]

El muestreo por conglomerados se utiliza para estimar tasas de mortalidad bajas en casos como guerras , hambrunas y desastres naturales . ^[2]

Ciencia pesquera

Es casi imposible tomar una muestra aleatoria simple de peces de una población, lo que requeriría capturar individuos individualmente y al azar. ^[3] Esto se debe a que los artes de pesca capturan peces en grupos (o conglomerados).

En el muestreo de la pesca comercial, los costos de operar en el mar suelen ser demasiado elevados para seleccionar las capturas de forma individual y aleatoria. Por lo tanto, las observaciones se agrupan además por embarcación o por salida de pesca.

Ciencias económicas

El Banco Mundial ha aplicado un muestreo por conglomerados adaptativo para estudiar las empresas informales en los países en desarrollo de una manera rentable, ya que el sector informal no está reflejado en los registros oficiales y es demasiado costoso estudiarlo mediante un muestreo aleatorio simple. ^[4] El enfoque sigue un muestreo en dos etapas mediante el cual se utiliza un muestreo por conglomerados adaptativo para generar una estimación del universo de empresas informales en operaciones, mientras que la segunda etapa para obtener una muestra aleatoria sobre las características de esas empresas.

Ventajas

Puede ser más económico que otros planes de muestreo (por ejemplo, menos gastos de viaje y costos administrativos).
Viabilidad: Este plan de muestreo tiene en cuenta poblaciones grandes. Como estos grupos son tan pequeños, implementar cualquier otro plan de muestreo sería muy costoso.
Economía: Con este método se reducen considerablemente las dos principales preocupaciones habituales en materia de gastos, es decir, los viajes y la elaboración de listas. Por ejemplo, recopilar información de investigación sobre cada hogar de una ciudad sería muy costoso, mientras que recopilar información sobre varios bloques de la ciudad resultaría más económico. En este caso, tanto los viajes como los esfuerzos de elaboración de listas se reducirán considerablemente.
Variabilidad reducida: en el caso poco frecuente de una correlación intraclase negativa entre sujetos dentro de un conglomerado, los estimadores producidos mediante el muestreo por conglomerados arrojarán estimaciones más precisas que los datos obtenidos a partir de una muestra aleatoria simple (es decir, el efecto de diseño será mayor que 1). Este no es un escenario común.

Uso principal: cuando el marco de muestreo de todos los elementos no está disponible, podemos recurrir únicamente al muestreo por conglomerados.

Desventajas

Error de muestreo más alto , que puede expresarse por el efecto de diseño : la relación entre la varianza de un estimador hecho a partir de las muestras del estudio de conglomerados y la varianza de un estimador obtenido a partir de una muestra de sujetos en un estudio no conglomerado muestreado aleatoriamente y igualmente confiable . ^[5] Cuanto mayor sea la correlación intraclase entre sujetos dentro de un conglomerado, peor será el efecto de diseño (es decir, cuanto mayor sea de 1, lo que indica un mayor aumento esperado en la varianza del estimador). En otras palabras, cuanto mayor sea la heterogeneidad entre conglomerados y mayor la homogeneidad entre sujetos dentro de un conglomerado, menos precisos serán nuestros estimadores. Esto se debe a que en tales casos es mejor muestrear tantos conglomerados como sea posible y conformarnos con una muestra pequeña de sujetos dentro de cada conglomerado (es decir, muestreo por conglomerados en dos etapas).
Complejidad. El muestreo por conglomerados es más sofisticado y requiere más atención en la forma de planificar y analizar (es decir, tener en cuenta los pesos de los sujetos durante la estimación de parámetros, intervalos de confianza, etc.).

Más información sobre el muestreo por conglomerados

Muestreo por conglomerados en dos etapas

El muestreo por conglomerados en dos etapas, un caso simple de muestreo multietapa , se obtiene seleccionando muestras de conglomerados en la primera etapa y luego seleccionando una muestra de elementos de cada conglomerado muestreado. Considere una población de N conglomerados en total. En la primera etapa, se seleccionan n conglomerados utilizando el método de muestreo por conglomerados ordinario. En la segunda etapa, se utiliza habitualmente un muestreo aleatorio simple . ^[6] Se utiliza por separado en cada conglomerado y el número de elementos seleccionados de diferentes conglomerados no es necesariamente igual. El diseñador de la encuesta debe predeterminar el número total de conglomerados N , el número de conglomerados seleccionados n y el número de elementos de los conglomerados seleccionados. El muestreo por conglomerados en dos etapas tiene como objetivo minimizar los costos de la encuesta y, al mismo tiempo, controlar la incertidumbre relacionada con las estimaciones de interés. ^[7] Este método se puede utilizar en las ciencias sociales y de la salud. Por ejemplo, los investigadores utilizaron el muestreo por conglomerados en dos etapas para generar una muestra representativa de la población iraquí para realizar encuestas de mortalidad. ^[8] El muestreo en este método puede ser más rápido y más fiable que otros métodos, por lo que este método se utiliza ahora con frecuencia.

Inferencia cuando el número de clústeres es pequeño

Los métodos de muestreo por conglomerados pueden generar sesgos significativos cuando se trabaja con un número pequeño de conglomerados. Por ejemplo, puede ser necesario agrupar a nivel de estado o ciudad, unidades que pueden ser pequeñas y fijas en número. Los métodos de microeconometría para datos de panel suelen utilizar paneles cortos, lo que es análogo a tener pocas observaciones por conglomerado y muchos conglomerados. El problema de los conglomerados pequeños puede considerarse un problema de parámetros incidentales. ^[9] Si bien las estimaciones puntuales pueden estimarse con una precisión razonable, si el número de observaciones por conglomerado es suficientemente alto, necesitamos el número de conglomerados para que se activen los asintóticos. Si el número de conglomerados es bajo, la matriz de covarianza estimada puede estar sesgada hacia abajo. ^[10] $G\rightarrow \infty$

La existencia de un número reducido de conglomerados supone un riesgo cuando existe correlación serial o cuando existe correlación intraclase, como en el contexto de Moulton. Cuando se tienen pocos conglomerados, se tiende a subestimar la correlación serial entre las observaciones cuando se produce un shock aleatorio, o la correlación intraclase en un contexto de Moulton. ^[11] Varios estudios han destacado las consecuencias de la correlación serial y han resaltado el problema de los conglomerados pequeños. ^[12]^[13]

En el marco del factor de Moulton, se puede derivar una explicación intuitiva del problema de los clústeres pequeños a partir de la fórmula del factor de Moulton. Supongamos, para simplificar, que el número de observaciones por clúster está fijado en n . A continuación, representa la matriz de covarianza ajustada por agrupamiento, representa la matriz de covarianza no ajustada por agrupamiento y ρ representa la correlación intraclase: $V_{c}(\beta )$ $V(\beta )$

{\frac {V_{c}({\hat {\beta }})}{V({\hat {\beta }})}}=1+(n-1)\rho

La razón del lado izquierdo indica cuánto sobreestima la precisión el escenario no ajustado. Por lo tanto, un número alto significa un fuerte sesgo a la baja de la matriz de covarianza estimada. Un problema de clúster pequeño se puede interpretar como un n grande: cuando los datos son fijos y el número de clústeres es bajo, el número de datos dentro de un clúster puede ser alto. De ello se deduce que la inferencia, cuando el número de clústeres es pequeño, no tendrá la cobertura correcta. ^[11]

Se han propuesto varias soluciones para el problema de los clústeres pequeños. Se puede utilizar una matriz de varianza robusta a los clústeres con corrección de sesgo, realizar ajustes de distribución T o utilizar métodos bootstrap con refinamientos asintóticos, como el percentil t o el bootstrap salvaje, que pueden conducir a una mejor inferencia de muestras finitas. ^[10] Cameron, Gelbach y Miller (2008) proporcionan microsimulaciones para diferentes métodos y descubren que el bootstrap salvaje funciona bien ante un pequeño número de clústeres. ^[14]

Véase también

Referencias

^ "MANUAL SOBRE Marcos Maestros de Muestreo para Estadísticas Agrícolas - PDF Descarga gratuita". docplayer.net . Consultado el 10 de enero de 2024 .
^ David Brown, Estudio afirma que el número de muertos "excesivo" en Irak ha llegado a 655.000, Washington Post , miércoles 11 de octubre de 2006. Consultado el 14 de septiembre de 2010.
^ Nelson, Gary A. (julio de 2014). "Muestreo por conglomerados: un diseño de encuesta generalizado, pero poco reconocido, en la investigación pesquera". Transactions of the American Fisheries Society . 143 (4): 926–938. Bibcode :2014TrAFS.143..926N. doi :10.1080/00028487.2014.901252.
^ Aga, Gemechu A.; Francis, David C.; Jolevski, Filip; Rodriguez Meza, Jorge L.; Wimpey, Joshua S. (enero de 2023). "Una aplicación del muestreo por conglomerados adaptativo para encuestar empresas informales". Revista de estadística y metodología de encuestas . 11 (5): 1246–1266. doi :10.1093/jssam/smac037.
^ Kerry y Bland (1998). Notas estadísticas: El coeficiente de correlación intragrupo en la aleatorización por grupos. British Medical Journal , 316, 1455–1460.
^ Ahmed, Saifuddin (2009). Métodos en encuestas por muestreo (PDF) . Universidad Johns Hopkins y Saifuddin Ahmed. Archivado (PDF) desde el original el 28 de septiembre de 2013.
^ Daniel Pfeffermann; C. Radhakrishna Rao (2009). Manual de estadística, vol. 29A Encuestas por muestreo: teoría, métodos e inferencias. Elsevier BV ISBN 978-0-444-53124-7.
^ LP Galway; Nathaniel Bell; Al S SAE; Amy Hagopian; Gilbert Burnham; Abraham Flaxman; Wiliam M Weiss; Julie Rajaratnam; Tim K Takaro (27 de abril de 2012). "Un método de muestreo por conglomerados en dos etapas que utiliza datos de población en cuadrícula, un SIG e imágenes de Google EarthTM en una encuesta de mortalidad basada en la población en Irak". Revista internacional de geografía de la salud . 11 : 12. doi : 10.1186/1476-072X-11-12 . PMC 3490933 . PMID 22540266.
^ Cameron AC y PK Trivedi (2005): Microeconometría: métodos y aplicaciones. Cambridge University Press, Nueva York.
^ ab Cameron, C. y DL Miller (2015): Una guía para profesionales sobre inferencia robusta frente a clústeres. Journal of Human Resources 50(2), págs. 317–372.
^ ab Angrist, JD y J.-S. Pischke (2009): Una econometría casi inofensiva. Un compañero empirista. Princeton University Press, Nueva Jersey.
^ Bertrand, M., E. Duflo y S. Mullainathan (2004): ¿Hasta qué punto debemos confiar en las estimaciones de diferencias en diferencias? Quarterly Journal of Economics 119(1), pp. 249–275.
^ Kezdi, G. (2004): Estimación robusta del error estándar en modelos de panel de efectos fijos. Revista estadística húngara 9, págs. 95-116.
^ Cameron, C., J. Gelbach y DL Miller (2008): Mejoras basadas en bootstrap para la inferencia con errores agrupados. The Review of Economics and Statistics 90, págs. 414–427.