En estadística , el muestreo por conglomerados es un plan de muestreo que se utiliza cuando se evidencian agrupaciones homogéneas entre sí pero heterogéneas internamente en una población estadística . Se utiliza a menudo en la investigación de mercados .
En este plan de muestreo, la población total se divide en estos grupos (conocidos como conglomerados) y se selecciona una muestra aleatoria simple de los grupos. Luego se toman muestras de los elementos de cada conglomerado. Si se toman muestras de todos los elementos de cada conglomerado muestreado, se habla de un plan de muestreo por conglomerados de "una etapa". Si se selecciona una submuestra aleatoria simple de elementos dentro de cada uno de estos grupos, se habla de un plan de muestreo por conglomerados de "dos etapas". Una motivación común para el muestreo por conglomerados es reducir el número total de entrevistas y los costos dada la precisión deseada. Para un tamaño de muestra fijo, el error aleatorio esperado es menor cuando la mayor parte de la variación en la población está presente internamente en los grupos, y no entre los grupos.
Lo ideal es que la población dentro de un conglomerado sea lo más heterogénea posible, pero debe haber homogeneidad entre los conglomerados. Cada conglomerado debe ser una representación a pequeña escala de la población total. Los conglomerados deben ser mutuamente excluyentes y colectivamente exhaustivos. Luego se utiliza una técnica de muestreo aleatorio en todos los conglomerados relevantes para elegir qué conglomerados incluir en el estudio. En el muestreo por conglomerados de una sola etapa, se muestrean todos los elementos de cada uno de los conglomerados seleccionados. En el muestreo por conglomerados de dos etapas, se aplica una técnica de muestreo aleatorio a los elementos de cada uno de los conglomerados seleccionados.
La principal diferencia entre el muestreo por conglomerados y el muestreo estratificado es que en el muestreo por conglomerados el conglomerado se considera la unidad de muestreo, por lo que el muestreo se realiza sobre una población de conglomerados (al menos en la primera etapa). En el muestreo estratificado, el muestreo se realiza sobre elementos dentro de cada estrato. En el muestreo estratificado, se extrae una muestra aleatoria de cada uno de los estratos, mientras que en el muestreo por conglomerados solo se muestrean los conglomerados seleccionados. Una motivación común para el muestreo por conglomerados es reducir los costos mediante el aumento de la eficiencia del muestreo. Esto contrasta con el muestreo estratificado, donde la motivación es aumentar la precisión.
También existe el muestreo por conglomerados en múltiples etapas , en el que se toman al menos dos etapas para seleccionar elementos de los conglomerados.
Sin modificar el parámetro estimado, el muestreo por conglomerados es insesgado cuando los conglomerados tienen aproximadamente el mismo tamaño. En este caso, el parámetro se calcula combinando todos los conglomerados seleccionados. Cuando los conglomerados son de diferentes tamaños, existen varias opciones:
Un método consiste en tomar muestras de los conglomerados y luego estudiar todos los elementos de ese conglomerado. Otro método es un método de dos etapas en el que se toma una muestra de una proporción fija de unidades (ya sea el 5% o el 50%, u otra cantidad, según las consideraciones de costo) de cada uno de los conglomerados seleccionados. Si se confía en la muestra extraída de estas opciones, se obtendrá un estimador imparcial. Sin embargo, el tamaño de la muestra ya no es fijo de antemano. Esto conduce a una fórmula más complicada para el error estándar del estimador, así como a problemas con la óptica del plan de estudio (ya que el análisis de potencia y las estimaciones de costos a menudo se relacionan con un tamaño de muestra específico).
Una tercera solución posible es utilizar un muestreo con probabilidad proporcional al tamaño . En este plan de muestreo, la probabilidad de seleccionar un conglomerado es proporcional a su tamaño, por lo que un conglomerado grande tiene una mayor probabilidad de selección que un conglomerado pequeño. La ventaja aquí es que cuando los conglomerados se seleccionan con probabilidad proporcional al tamaño, se debe realizar el mismo número de entrevistas en cada conglomerado muestreado para que cada unidad muestreada tenga la misma probabilidad de selección.
Un ejemplo de muestreo por conglomerados es el muestreo por áreas o muestreo por conglomerados geográficos. Cada conglomerado es un área geográfica en un marco de muestreo por áreas . Debido a que una población geográficamente dispersa puede ser costosa de encuestar, se puede lograr una mayor economía que el muestreo aleatorio simple agrupando a varios encuestados dentro de un área local en un conglomerado. Por lo general, es necesario aumentar el tamaño total de la muestra para lograr una precisión equivalente en los estimadores , pero el ahorro de costos puede hacer que dicho aumento en el tamaño de la muestra sea factible.
Para la organización de un censo de población , el primer paso suele ser dividir el área geográfica general en áreas de enumeración o secciones censales para la organización del trabajo de campo. Las áreas de enumeración también pueden ser útiles como unidades de primera etapa para el muestreo por conglomerados en muchos tipos de encuestas. Cuando un censo de población está desactualizado, la lista de individuos no debe utilizarse directamente como marco de muestreo para una encuesta socioeconómica. Actualizar todo el censo es económicamente inviable. Una buena alternativa puede ser mantener las antiguas áreas de enumeración, con alguna actualización en áreas altamente dinámicas, como los suburbios urbanos, seleccionando una muestra de áreas de enumeración y actualizando la lista de individuos u hogares solo en las áreas de enumeración seleccionadas. [1]
El muestreo por conglomerados se utiliza para estimar tasas de mortalidad bajas en casos como guerras , hambrunas y desastres naturales . [2]
Es casi imposible tomar una muestra aleatoria simple de peces de una población, lo que requeriría capturar individuos individualmente y al azar. [3] Esto se debe a que los artes de pesca capturan peces en grupos (o conglomerados).
En el muestreo de la pesca comercial, los costos de operar en el mar suelen ser demasiado elevados para seleccionar las capturas de forma individual y aleatoria. Por lo tanto, las observaciones se agrupan además por embarcación o por salida de pesca.
El Banco Mundial ha aplicado un muestreo por conglomerados adaptativo para estudiar las empresas informales en los países en desarrollo de una manera rentable, ya que el sector informal no está reflejado en los registros oficiales y es demasiado costoso estudiarlo mediante un muestreo aleatorio simple. [4] El enfoque sigue un muestreo en dos etapas mediante el cual se utiliza un muestreo por conglomerados adaptativo para generar una estimación del universo de empresas informales en operaciones, mientras que la segunda etapa para obtener una muestra aleatoria sobre las características de esas empresas.
Uso principal: cuando el marco de muestreo de todos los elementos no está disponible, podemos recurrir únicamente al muestreo por conglomerados.
El muestreo por conglomerados en dos etapas, un caso simple de muestreo multietapa , se obtiene seleccionando muestras de conglomerados en la primera etapa y luego seleccionando una muestra de elementos de cada conglomerado muestreado. Considere una población de N conglomerados en total. En la primera etapa, se seleccionan n conglomerados utilizando el método de muestreo por conglomerados ordinario. En la segunda etapa, se utiliza habitualmente un muestreo aleatorio simple . [6] Se utiliza por separado en cada conglomerado y el número de elementos seleccionados de diferentes conglomerados no es necesariamente igual. El diseñador de la encuesta debe predeterminar el número total de conglomerados N , el número de conglomerados seleccionados n y el número de elementos de los conglomerados seleccionados. El muestreo por conglomerados en dos etapas tiene como objetivo minimizar los costos de la encuesta y, al mismo tiempo, controlar la incertidumbre relacionada con las estimaciones de interés. [7] Este método se puede utilizar en las ciencias sociales y de la salud. Por ejemplo, los investigadores utilizaron el muestreo por conglomerados en dos etapas para generar una muestra representativa de la población iraquí para realizar encuestas de mortalidad. [8] El muestreo en este método puede ser más rápido y más fiable que otros métodos, por lo que este método se utiliza ahora con frecuencia.
Los métodos de muestreo por conglomerados pueden generar sesgos significativos cuando se trabaja con un número pequeño de conglomerados. Por ejemplo, puede ser necesario agrupar a nivel de estado o ciudad, unidades que pueden ser pequeñas y fijas en número. Los métodos de microeconometría para datos de panel suelen utilizar paneles cortos, lo que es análogo a tener pocas observaciones por conglomerado y muchos conglomerados. El problema de los conglomerados pequeños puede considerarse un problema de parámetros incidentales. [9] Si bien las estimaciones puntuales pueden estimarse con una precisión razonable, si el número de observaciones por conglomerado es suficientemente alto, necesitamos el número de conglomerados para que se activen los asintóticos. Si el número de conglomerados es bajo, la matriz de covarianza estimada puede estar sesgada hacia abajo. [10]
La existencia de un número reducido de conglomerados supone un riesgo cuando existe correlación serial o cuando existe correlación intraclase, como en el contexto de Moulton. Cuando se tienen pocos conglomerados, se tiende a subestimar la correlación serial entre las observaciones cuando se produce un shock aleatorio, o la correlación intraclase en un contexto de Moulton. [11] Varios estudios han destacado las consecuencias de la correlación serial y han resaltado el problema de los conglomerados pequeños. [12] [13]
En el marco del factor de Moulton, se puede derivar una explicación intuitiva del problema de los clústeres pequeños a partir de la fórmula del factor de Moulton. Supongamos, para simplificar, que el número de observaciones por clúster está fijado en n . A continuación, representa la matriz de covarianza ajustada por agrupamiento, representa la matriz de covarianza no ajustada por agrupamiento y ρ representa la correlación intraclase:
La razón del lado izquierdo indica cuánto sobreestima la precisión el escenario no ajustado. Por lo tanto, un número alto significa un fuerte sesgo a la baja de la matriz de covarianza estimada. Un problema de clúster pequeño se puede interpretar como un n grande: cuando los datos son fijos y el número de clústeres es bajo, el número de datos dentro de un clúster puede ser alto. De ello se deduce que la inferencia, cuando el número de clústeres es pequeño, no tendrá la cobertura correcta. [11]
Se han propuesto varias soluciones para el problema de los clústeres pequeños. Se puede utilizar una matriz de varianza robusta a los clústeres con corrección de sesgo, realizar ajustes de distribución T o utilizar métodos bootstrap con refinamientos asintóticos, como el percentil t o el bootstrap salvaje, que pueden conducir a una mejor inferencia de muestras finitas. [10] Cameron, Gelbach y Miller (2008) proporcionan microsimulaciones para diferentes métodos y descubren que el bootstrap salvaje funciona bien ante un pequeño número de clústeres. [14]