En estadística , el muestreo estratificado es un método de muestreo de una población que puede dividirse en subpoblaciones .
En las encuestas estadísticas , cuando las subpoblaciones dentro de una población general varían, podría ser ventajoso tomar muestras de cada subpoblación ( estrato ) independientemente.
La estratificación es el proceso de dividir a los miembros de la población en subgrupos homogéneos antes del muestreo. Los estratos deben definir una partición de la población. Es decir, deben ser colectivamente exhaustivos y mutuamente excluyentes : cada elemento de la población debe asignarse a un solo estrato. Luego, el muestreo se realiza en cada estrato, por ejemplo: mediante muestreo aleatorio simple . El objetivo es mejorar la precisión de la muestra reduciendo el error de muestreo . Puede producir una media ponderada que tenga menos variabilidad que la media aritmética de una muestra aleatoria simple de la población.
En estadística computacional , el muestreo estratificado es un método de reducción de varianza cuando se utilizan métodos de Monte Carlo para estimar estadísticas de población a partir de una población conocida. [1]
Supongamos que necesitamos estimar el número promedio de votos para cada candidato en una elección. Supongamos que un país tiene 3 ciudades: la ciudad A tiene 1 millón de trabajadores de fábrica, la ciudad B tiene 2 millones de empleados de oficina y la ciudad C tiene 3 millones de jubilados. Podemos optar por obtener una muestra aleatoria de tamaño 60 de toda la población, pero existe cierta posibilidad de que la muestra aleatoria resultante esté mal equilibrada entre estas ciudades y, por lo tanto, esté sesgada, lo que causa un error significativo en la estimación (cuando el resultado de interés tiene una distribución diferente, en términos del parámetro de interés, entre las ciudades). En cambio, si optamos por tomar una muestra aleatoria de 10, 20 y 30 de las ciudades A, B y C respectivamente, entonces podemos producir un error menor en la estimación para el mismo tamaño total de muestra. Este método se utiliza generalmente cuando una población no es un grupo homogéneo.
Un ejemplo real de uso del muestreo estratificado sería una encuesta política . Si los encuestados debían reflejar la diversidad de la población, el investigador buscaría específicamente incluir participantes de varios grupos minoritarios, como raza o religión, en función de su proporcionalidad con respecto a la población total, como se mencionó anteriormente. Por lo tanto, una encuesta estratificada podría afirmar que es más representativa de la población que una encuesta de muestreo aleatorio simple o muestreo sistemático . Tanto la media como la varianza se pueden corregir para los costos de muestreo desproporcionados utilizando tamaños de muestra estratificados .
Las razones para utilizar un muestreo estratificado en lugar de un muestreo aleatorio simple incluyen [2]
Si la densidad de población varía considerablemente dentro de una región, el muestreo estratificado garantizará que se puedan realizar estimaciones con la misma precisión en diferentes partes de la región y que se puedan hacer comparaciones entre subregiones con igual poder estadístico . Por ejemplo, en Ontario, una encuesta realizada en toda la provincia podría utilizar una fracción de muestreo más grande en el norte menos poblado, ya que la disparidad de población entre el norte y el sur es tan grande que una fracción de muestreo basada en la muestra provincial en su conjunto podría dar como resultado la recopilación de solo un puñado de datos del norte.
Sería una aplicación incorrecta de la técnica hacer que los tamaños de muestra de los subgrupos sean proporcionales a la cantidad de datos disponibles de los subgrupos, en lugar de escalar los tamaños de muestra a los tamaños de los subgrupos (o a sus varianzas, si se sabe que varían significativamente, por ejemplo, utilizando una prueba F ). Los datos que representan a cada subgrupo se consideran de igual importancia si la variación sospechada entre ellos justifica un muestreo estratificado. Si las varianzas de los subgrupos difieren significativamente y los datos deben estratificarse por varianza, no es posible hacer simultáneamente que el tamaño de muestra de cada subgrupo sea proporcional al tamaño del subgrupo dentro de la población total. Para una forma eficiente de dividir los recursos de muestreo entre grupos que varían en sus medias, varianzas y costos, consulte "asignación óptima" . El problema del muestreo estratificado en el caso de valores previos de clase desconocidos (ratio de subpoblaciones en toda la población) puede tener un efecto perjudicial en el rendimiento de cualquier análisis sobre el conjunto de datos, por ejemplo, la clasificación. [3] En ese sentido, se puede utilizar el ratio de muestreo minimax para hacer que el conjunto de datos sea robusto con respecto a la incertidumbre en el proceso de generación de datos subyacente. [3]
La combinación de subestratos para garantizar números adecuados puede llevar a la paradoja de Simpson , donde las tendencias que existen en diferentes grupos de datos desaparecen o incluso se revierten cuando los grupos se combinan.
La media y la varianza del muestreo aleatorio estratificado se dan por: [2]
dónde
Obsérvese que el término , que es igual a , es una corrección de población finita y debe expresarse en "unidades de muestra". Si se prescinde de la corrección de población finita, se obtiene:
donde es el peso poblacional del estrato .
Para la estrategia de asignación proporcional, el tamaño de la muestra en cada estrato se toma en proporción al tamaño del estrato. Supongamos que en una empresa existe el siguiente personal: [4]
y se nos pide tomar una muestra de 40 funcionarios, estratificados según las categorías anteriores.
El primer paso es calcular el porcentaje de cada grupo del total.
Esto nos dice que de nuestra muestra de 40,
Otra forma fácil sin tener que calcular el porcentaje es multiplicar el tamaño de cada grupo por el tamaño de la muestra y dividirlo por el tamaño total de la población (tamaño de todo el personal):
no