Muestreo estratificado

En estadística , el muestreo estratificado es un método de muestreo de una población que puede dividirse en subpoblaciones .

Ejemplo de muestreo estratificado

En las encuestas estadísticas , cuando las subpoblaciones dentro de una población general varían, podría ser ventajoso tomar muestras de cada subpoblación ( estrato ) independientemente.

La estratificación es el proceso de dividir a los miembros de la población en subgrupos homogéneos antes del muestreo. Los estratos deben definir una partición de la población. Es decir, deben ser colectivamente exhaustivos y mutuamente excluyentes : cada elemento de la población debe asignarse a un solo estrato. Luego, el muestreo se realiza en cada estrato, por ejemplo: mediante muestreo aleatorio simple . El objetivo es mejorar la precisión de la muestra reduciendo el error de muestreo . Puede producir una media ponderada que tenga menos variabilidad que la media aritmética de una muestra aleatoria simple de la población.

En estadística computacional , el muestreo estratificado es un método de reducción de varianza cuando se utilizan métodos de Monte Carlo para estimar estadísticas de población a partir de una población conocida. ^[1]

Ejemplo

Supongamos que necesitamos estimar el número promedio de votos para cada candidato en una elección. Supongamos que un país tiene 3 ciudades: la ciudad A tiene 1 millón de trabajadores de fábrica, la ciudad B tiene 2 millones de empleados de oficina y la ciudad C tiene 3 millones de jubilados. Podemos optar por obtener una muestra aleatoria de tamaño 60 de toda la población, pero existe cierta posibilidad de que la muestra aleatoria resultante esté mal equilibrada entre estas ciudades y, por lo tanto, esté sesgada, lo que causa un error significativo en la estimación (cuando el resultado de interés tiene una distribución diferente, en términos del parámetro de interés, entre las ciudades). En cambio, si optamos por tomar una muestra aleatoria de 10, 20 y 30 de las ciudades A, B y C respectivamente, entonces podemos producir un error menor en la estimación para el mismo tamaño total de muestra. Este método se utiliza generalmente cuando una población no es un grupo homogéneo.

Estrategias de muestreo estratificado

La asignación proporcional utiliza una fracción de muestreo en cada uno de los estratos que es proporcional a la de la población total. Por ejemplo, si la población consta de n individuos en total, m de los cuales son hombres y f mujeres (y donde m + f = n ), entonces el tamaño relativo de las dos muestras ( x ₁ = m / n hombres, x ₂ = f / n mujeres) debería reflejar esta proporción.
Asignación óptima (o asignación desproporcionada ): la fracción de muestreo de cada estrato es proporcional tanto a la proporción (como se indicó anteriormente) como a la desviación estándar de la distribución de la variable. Se toman muestras más grandes en los estratos con la mayor variabilidad para generar la menor varianza de muestreo general posible.

Un ejemplo real de uso del muestreo estratificado sería una encuesta política . Si los encuestados debían reflejar la diversidad de la población, el investigador buscaría específicamente incluir participantes de varios grupos minoritarios, como raza o religión, en función de su proporcionalidad con respecto a la población total, como se mencionó anteriormente. Por lo tanto, una encuesta estratificada podría afirmar que es más representativa de la población que una encuesta de muestreo aleatorio simple o muestreo sistemático . Tanto la media como la varianza se pueden corregir para los costos de muestreo desproporcionados utilizando tamaños de muestra estratificados .

Ventajas

Las razones para utilizar un muestreo estratificado en lugar de un muestreo aleatorio simple incluyen ^[2]

Si las mediciones dentro de los estratos tienen una desviación estándar menor (en comparación con la desviación estándar general de la población), la estratificación produce un error menor en la estimación.
Para muchas aplicaciones, las mediciones se vuelven más manejables y/o más económicas cuando la población se agrupa en estratos.
Cuando es deseable tener estimaciones de los parámetros poblacionales para grupos dentro de la población, el muestreo estratificado verifica que tengamos suficientes muestras de los estratos de interés.

Si la densidad de población varía considerablemente dentro de una región, el muestreo estratificado garantizará que se puedan realizar estimaciones con la misma precisión en diferentes partes de la región y que se puedan hacer comparaciones entre subregiones con igual poder estadístico . Por ejemplo, en Ontario, una encuesta realizada en toda la provincia podría utilizar una fracción de muestreo más grande en el norte menos poblado, ya que la disparidad de población entre el norte y el sur es tan grande que una fracción de muestreo basada en la muestra provincial en su conjunto podría dar como resultado la recopilación de solo un puñado de datos del norte.

Desventajas

Sería una aplicación incorrecta de la técnica hacer que los tamaños de muestra de los subgrupos sean proporcionales a la cantidad de datos disponibles de los subgrupos, en lugar de escalar los tamaños de muestra a los tamaños de los subgrupos (o a sus varianzas, si se sabe que varían significativamente, por ejemplo, utilizando una prueba F ). Los datos que representan a cada subgrupo se consideran de igual importancia si la variación sospechada entre ellos justifica un muestreo estratificado. Si las varianzas de los subgrupos difieren significativamente y los datos deben estratificarse por varianza, no es posible hacer simultáneamente que el tamaño de muestra de cada subgrupo sea proporcional al tamaño del subgrupo dentro de la población total. Para una forma eficiente de dividir los recursos de muestreo entre grupos que varían en sus medias, varianzas y costos, consulte "asignación óptima" . El problema del muestreo estratificado en el caso de valores previos de clase desconocidos (ratio de subpoblaciones en toda la población) puede tener un efecto perjudicial en el rendimiento de cualquier análisis sobre el conjunto de datos, por ejemplo, la clasificación. ^[3] En ese sentido, se puede utilizar el ratio de muestreo minimax para hacer que el conjunto de datos sea robusto con respecto a la incertidumbre en el proceso de generación de datos subyacente. ^[3]

La combinación de subestratos para garantizar números adecuados puede llevar a la paradoja de Simpson , donde las tendencias que existen en diferentes grupos de datos desaparecen o incluso se revierten cuando los grupos se combinan.

Media y error estándar

La media y la varianza del muestreo aleatorio estratificado se dan por: ^[2]

{\bar {x}}={\frac {1}{N}}\sum _{h=1}^{L}N_{h}{\bar {x}}_{h}

s_{\bar {x}}^{2}=\sum _{h=1}^{L}\left({\frac {N_{h}}{N}}\right)^{2}\left({\frac {N_{h}-n_{h}}{N_{h}-1}}\right){\frac {s_{h}^{2}}{n_{h}}}

dónde

L={}

número de estratos

N={}

la suma de todos los tamaños de estratos

N_{h}={}

tamaño del estrato

{\estilo de visualización h}

{\bar {x}}_{h}={}

media muestral del estrato

{\estilo de visualización h}

n_{h}={}

Número de observaciones en el estrato

{\estilo de visualización h}

s_{h}={}

desviación estándar de la muestra del estrato

{\estilo de visualización h}

Obsérvese que el término , que es igual a , es una corrección de población finita y debe expresarse en "unidades de muestra". Si se prescinde de la corrección de población finita, se obtiene: $(N_{h}-n_{h})/(N_{h}-1)$ $1-{\frac {n_{h}-1}{N_{h}-1}}$ $Estilo de visualización Nh$

s_{\bar {x}}^{2}=\sum _{h=1}^{L}\left({\frac {N_{h}}{N}}\right)^{2}{\frac {s_{h}^{2}}{n_{h}}}

donde es el peso poblacional del estrato . $w_{h}=N_{h}/N$ ${\estilo de visualización h}$

Asignación del tamaño de la muestra

Para la estrategia de asignación proporcional, el tamaño de la muestra en cada estrato se toma en proporción al tamaño del estrato. Supongamos que en una empresa existe el siguiente personal: ^[4]

Hombre, tiempo completo: 90
Hombre, tiempo parcial: 18
Mujeres, tiempo completo: 9
Mujer, tiempo parcial: 63
total: 180

y se nos pide tomar una muestra de 40 funcionarios, estratificados según las categorías anteriores.

El primer paso es calcular el porcentaje de cada grupo del total.

% hombres, tiempo completo = 90 ÷ 180 = 50%
% hombres, tiempo parcial = 18 ÷ 180 = 10%
% mujeres, tiempo completo = 9 ÷ 180 = 5%
% mujeres, tiempo parcial = 63 ÷ 180 = 35%

Esto nos dice que de nuestra muestra de 40,

El 50% (20 personas) deben ser hombres, a tiempo completo.
El 10% (4 personas) deben ser hombres y trabajar a tiempo parcial.
El 5% (2 personas) deben ser mujeres, a tiempo completo.
El 35% (14 personas) deben ser mujeres y trabajar a tiempo parcial.

Otra forma fácil sin tener que calcular el porcentaje es multiplicar el tamaño de cada grupo por el tamaño de la muestra y dividirlo por el tamaño total de la población (tamaño de todo el personal):

Hombre, tiempo completo = 90 × (40 ÷ 180) = 20
Hombre, tiempo parcial = 18 × (40 ÷ 180) = 4
Mujer, tiempo completo = 9 × (40 ÷ 180) = 2
Mujer, tiempo parcial = 63 × (40 ÷ 180) = 14

Véase también

Referencias

^ Botev, Z.; Ridder, A. (2017). "Reducción de la varianza". Wiley StatsRef: Statistics Reference Online : 1–6. doi :10.1002/9781118445112.stat07975. ISBN 9781118445112.
^ ab "6.1 Cómo utilizar el muestreo estratificado | STAT 506". onlinecourses.science.psu.edu . Consultado el 23 de julio de 2015 .
^ ab Shahrokh Esfahani, Mohammad; Dougherty, Edward R. (2014). "Efecto del muestreo separado en la precisión de la clasificación". Bioinformática . 30 (2): 242–250. doi : 10.1093/bioinformatics/btt662 . PMID 24257187.
^ Hunt, Neville; Tyrrell, Sidney (2001). "Stratified Sampling". Página web de la Universidad de Coventry . Archivado desde el original el 13 de octubre de 2013. Consultado el 12 de julio de 2012 .

Lectura adicional

Särndal, Carl-Erik; et al. (2003). "Muestreo estratificado". Muestreo de encuestas asistido por modelos . Nueva York: Springer. págs. 100–109. ISBN 0-387-40620-4.