Muestreo estratificado

En estadística , el muestreo estratificado es un método de muestreo de una población que puede dividirse en subpoblaciones .

Ejemplo de muestreo estratificado

En las encuestas estadísticas , cuando las subpoblaciones dentro de una población general varían, podría resultar ventajoso muestrear cada subpoblación ( estrato ) de forma independiente.

La estratificación es el proceso de dividir a los miembros de la población en subgrupos homogéneos antes del muestreo. Los estratos deberían definir una partición de la población. Es decir, debería ser colectivamente exhaustivo y mutuamente excluyente : cada elemento de la población debe asignarse a un solo estrato. Luego se aplica un muestreo aleatorio simple dentro de cada estrato. El objetivo es mejorar la precisión de la muestra reduciendo el error de muestreo . Puede producir una media ponderada que tiene menos variabilidad que la media aritmética de una muestra aleatoria simple de la población.

En estadística computacional , el muestreo estratificado es un método de reducción de la varianza cuando se utilizan métodos de Monte Carlo para estimar estadísticas de población a partir de una población conocida. ^[1]

Ejemplo

Supongamos que necesitamos estimar el número promedio de votos de cada candidato en una elección. Supongamos que un país tiene 3 ciudades: la ciudad A tiene 1 millón de trabajadores fabriles, la ciudad B tiene 2 millones de trabajadores de oficina y la ciudad C tiene 3 millones de jubilados. Podemos optar por obtener una muestra aleatoria de tamaño 60 sobre toda la población, pero existe cierta posibilidad de que la muestra aleatoria resultante esté mal equilibrada entre estas ciudades y, por lo tanto, esté sesgada, lo que causa un error significativo en la estimación (cuando el resultado de interés tiene un diferente distribución, en cuanto al parámetro de interés, entre las localidades). En cambio, si elegimos tomar una muestra aleatoria de 10, 20 y 30 de las ciudades A, B y C respectivamente, entonces podemos producir un error de estimación menor para el mismo tamaño de muestra total. Este método se utiliza generalmente cuando una población no es un grupo homogéneo.

Estrategias de muestreo estratificado

La asignación proporcional utiliza una fracción de muestreo en cada uno de los estratos que es proporcional a la de la población total. Por ejemplo, si la población consta de n individuos en total, de los cuales m son hombres y f mujeres (y donde m + f = n ), entonces el tamaño relativo de las dos muestras ( x ₁ = m / n hombres, x ₂ = f / n mujeres) debería reflejar esta proporción.
Asignación óptima (o asignación desproporcionada ): la fracción de muestreo de cada estrato es proporcional tanto a la proporción (como se indicó anteriormente) como a la desviación estándar de la distribución de la variable. Se toman muestras más grandes en los estratos con mayor variabilidad para generar la menor varianza muestral general posible.

Un ejemplo del mundo real del uso de muestreo estratificado sería el de una encuesta política . Si los encuestados necesitaran reflejar la diversidad de la población, el investigador buscaría específicamente incluir participantes de varios grupos minoritarios, como raza o religión, en función de su proporcionalidad con la población total, como se mencionó anteriormente. Por lo tanto, una encuesta estratificada podría pretender ser más representativa de la población que una encuesta de muestreo aleatorio simple o un muestreo sistemático . Tanto la media como la varianza pueden corregirse por costos de muestreo desproporcionados utilizando tamaños de muestra estratificados .

Ventajas

Las razones para utilizar el muestreo estratificado en lugar del muestreo aleatorio simple incluyen ^[2]

Si las mediciones dentro de los estratos tienen una desviación estándar más baja (en comparación con la desviación estándar general de la población), la estratificación produce un error de estimación menor.
Para muchas aplicaciones, las mediciones se vuelven más manejables y/o más baratas cuando la población se agrupa en estratos.
Cuando es deseable tener estimaciones de los parámetros poblacionales para grupos dentro de la población, el muestreo estratificado verifica que tenemos suficientes muestras de los estratos de interés.

Si la densidad de población varía mucho dentro de una región, el muestreo estratificado garantizará que se puedan hacer estimaciones con igual precisión en diferentes partes de la región y que se puedan hacer comparaciones de subregiones con igual poder estadístico . Por ejemplo, en Ontario , una encuesta realizada en toda la provincia podría utilizar una fracción de muestreo mayor en el norte menos poblado, ya que la disparidad de población entre el norte y el sur es tan grande que una fracción de muestreo basada en la muestra provincial en su conjunto podría dar como resultado la recopilación de sólo un puñado de datos del norte.

Desventajas

El muestreo estratificado no es útil cuando la población no puede dividirse exhaustivamente en subgrupos disjuntos. Sería una aplicación incorrecta de la técnica hacer que los tamaños de muestra de los subgrupos sean proporcionales a la cantidad de datos disponibles de los subgrupos, en lugar de escalar los tamaños de muestra a los tamaños de los subgrupos (o a sus varianzas, si se sabe que varían significativamente; por ejemplo, usando una prueba F). ). Los datos que representan a cada subgrupo se consideran de igual importancia si la variación sospechada entre ellos justifica un muestreo estratificado. Si las varianzas de los subgrupos difieren significativamente y los datos deben estratificarse por varianza, no es posible hacer que el tamaño de la muestra de cada subgrupo sea simultáneamente proporcional al tamaño del subgrupo dentro de la población total. Para conocer una forma eficiente de dividir los recursos de muestreo entre grupos que varían en sus medios, varianza y costos, consulte "asignación óptima" . El problema del muestreo estratificado en el caso de clases previas desconocidas (proporción de subpoblaciones en toda la población) puede tener un efecto perjudicial en el desempeño de cualquier análisis del conjunto de datos, por ejemplo, la clasificación. ^[3] En ese sentido, la relación de muestreo minimax se puede utilizar para hacer que el conjunto de datos sea robusto con respecto a la incertidumbre en el proceso de generación de datos subyacente. ^[3]

La combinación de subestratos para garantizar cifras adecuadas puede conducir a la paradoja de Simpson , donde las tendencias que existen en diferentes grupos de datos desaparecen o incluso se revierten cuando se combinan los grupos.

Error medio y estándar

La media y la varianza del muestreo aleatorio estratificado vienen dadas por: ^[2]

{\bar {x}}={\frac {1}{N}}\sum _{h=1}^{L}N_{h}{\bar {x}}_{h}

s_{\bar {x}}^{2}=\sum _{h=1}^{L}\left({\frac {N_{h}}{N}}\right)^{2 }\left({\frac {N_{h}-n_{h}}{N_{h}-1}}\right){\frac {s_{h}^{2}}{n_{h}}}

dónde

L={}

numero de estratos

N={}

la suma de todos los tamaños de estratos

N_{h}={}

tamaño del estrato

h

{\bar {x}}_{h}={}

media muestral del estrato

h

n_{h}={}

número de observaciones en el estrato

h

s_{h}={}

desviación estándar muestral del estrato

h

Tenga en cuenta que el término , que es igual a , es una corrección de población finita y debe expresarse en "unidades de muestra". Renunciar a la corrección de población finita da: $(N_{h}-n_{h})/(N_{h}-1)$ $1-{\frac {n_{h}-1}{N_{h}-1}}$ ${\ Displaystyle N_ {h}}$

s_{\bar {x}}^{2}=\sum _{h=1}^{L}\left({\frac {N_{h}}{N}}\right)^{2 }{\frac {s_{h}^{2}}{n_{h}}}

donde es el peso poblacional del estrato . $w_{h}=N_{h}/N$ $h$

Asignación del tamaño de la muestra

Para la estrategia de asignación proporcional, el tamaño de la muestra en cada estrato se toma en proporción al tamaño del estrato. Supongamos que en una empresa existe el siguiente personal: ^[4]

hombre, tiempo completo: 90
hombre, a tiempo parcial: 18
mujer, tiempo completo: 9
mujer, a tiempo parcial: 63
totales: 180

y se nos pide que tomemos una muestra de 40 funcionarios, estratificados según las categorías anteriores.

El primer paso es calcular el porcentaje de cada grupo sobre el total.

% hombres, tiempo completo = 90 ÷ 180 = 50%
% hombres, a tiempo parcial = 18 ÷ 180 = 10%
% mujeres, tiempo completo = 9 ÷ 180 = 5%
% mujeres, a tiempo parcial = 63 ÷ 180 = 35%

Esto nos dice que de nuestra muestra de 40,

El 50% (20 personas) deben ser hombres, a tiempo completo.
El 10% (4 personas) deben ser hombres, a tiempo parcial.
El 5% (2 personas) deben ser mujeres, a tiempo completo.
El 35% (14 personas) deben ser mujeres, a tiempo parcial.

Otra forma sencilla sin tener que calcular el porcentaje es multiplicar el tamaño de cada grupo por el tamaño de la muestra y dividir por el tamaño total de la población (tamaño de todo el personal):

hombre, tiempo completo = 90 × (40 ÷ 180) = 20
hombre, a tiempo parcial = 18 × (40 ÷ 180) = 4
mujer, tiempo completo = 9 × (40 ÷ 180) = 2
mujer, a tiempo parcial = 63 × (40 ÷ 180) = 14

Ver también

Referencias

^ Botev, Z.; Ridder, A. (2017). "Reducción de la varianza". Wiley StatsRef: Referencia de estadísticas en línea : 1–6. doi : 10.1002/9781118445112.stat07975. ISBN 9781118445112.
^ ab "6.1 Cómo utilizar el muestreo estratificado | STAT 506". cursos en línea.science.psu.edu . Consultado el 23 de julio de 2015 .
^ ab Shahrokh Esfahani, Mohammad; Dougherty, Edward R. (2014). "Efecto del muestreo por separado sobre la precisión de la clasificación". Bioinformática . 30 (2): 242–250. doi : 10.1093/bioinformática/btt662 . PMID 24257187.
^ Caza, Neville; Tyrrell, Sidney (2001). "Muestreo estratificado". Página web de la Universidad de Coventry . Archivado desde el original el 13 de octubre de 2013 . Consultado el 12 de julio de 2012 .

Otras lecturas

Särndal, Carl-Erik; et al. (2003). "Muestreo estratificado". Muestreo de encuestas asistido por modelos . Nueva York: Springer. págs. 100-109. ISBN 0-387-40620-4.