En estadística , el muestreo estratificado es un método de muestreo de una población que puede dividirse en subpoblaciones .
En las encuestas estadísticas , cuando las subpoblaciones dentro de una población general varían, podría resultar ventajoso muestrear cada subpoblación ( estrato ) de forma independiente.
La estratificación es el proceso de dividir a los miembros de la población en subgrupos homogéneos antes del muestreo. Los estratos deberían definir una partición de la población. Es decir, debería ser colectivamente exhaustivo y mutuamente excluyente : cada elemento de la población debe asignarse a un único estrato. Luego se aplica un muestreo aleatorio simple dentro de cada estrato. El objetivo es mejorar la precisión de la muestra reduciendo el error de muestreo . Puede producir una media ponderada que tiene menos variabilidad que la media aritmética de una muestra aleatoria simple de la población.
En estadística computacional , el muestreo estratificado es un método de reducción de la varianza cuando se utilizan métodos de Monte Carlo para estimar estadísticas de población a partir de una población conocida. [1]
Supongamos que necesitamos estimar el número promedio de votos de cada candidato en una elección. Supongamos que un país tiene 3 ciudades: la ciudad A tiene 1 millón de trabajadores fabriles, la ciudad B tiene 2 millones de trabajadores de oficina y la ciudad C tiene 3 millones de jubilados. Podemos optar por obtener una muestra aleatoria de tamaño 60 sobre toda la población, pero existe cierta posibilidad de que la muestra aleatoria resultante esté mal equilibrada entre estas ciudades y, por lo tanto, esté sesgada, lo que causa un error significativo en la estimación (cuando el resultado de interés tiene un diferente distribución, en cuanto al parámetro de interés, entre las localidades). En cambio, si elegimos tomar una muestra aleatoria de 10, 20 y 30 de las ciudades A, B y C respectivamente, entonces podemos producir un error de estimación menor para el mismo tamaño de muestra total. Este método se utiliza generalmente cuando una población no es un grupo homogéneo.
Un ejemplo del mundo real del uso de muestreo estratificado sería el de una encuesta política . Si los encuestados necesitaran reflejar la diversidad de la población, el investigador buscaría específicamente incluir participantes de varios grupos minoritarios, como raza o religión, en función de su proporcionalidad con la población total, como se mencionó anteriormente. Por lo tanto, una encuesta estratificada podría pretender ser más representativa de la población que una encuesta de muestreo aleatorio simple o un muestreo sistemático . Tanto la media como la varianza pueden corregirse por costos de muestreo desproporcionados utilizando tamaños de muestra estratificados .
Las razones para utilizar el muestreo estratificado en lugar del muestreo aleatorio simple incluyen [2]
Si la densidad de población varía mucho dentro de una región, el muestreo estratificado garantizará que se puedan realizar estimaciones con igual precisión en diferentes partes de la región y que se puedan hacer comparaciones de subregiones con igual poder estadístico . Por ejemplo, en Ontario , una encuesta realizada en toda la provincia podría utilizar una fracción de muestreo mayor en el norte menos poblado, ya que la disparidad de población entre el norte y el sur es tan grande que una fracción de muestreo basada en la muestra provincial en su conjunto podría dar como resultado la recopilación de sólo un puñado de datos del norte.
El muestreo estratificado no es útil cuando la población no puede dividirse exhaustivamente en subgrupos disjuntos. Sería una aplicación incorrecta de la técnica hacer que los tamaños de muestra de los subgrupos sean proporcionales a la cantidad de datos disponibles de los subgrupos, en lugar de escalar los tamaños de muestra a los tamaños de los subgrupos (o a sus varianzas, si se sabe que varían significativamente; por ejemplo, usando una prueba F). ). Los datos que representan a cada subgrupo se consideran de igual importancia si la variación sospechada entre ellos justifica un muestreo estratificado. Si las varianzas de los subgrupos difieren significativamente y los datos deben estratificarse por varianza, no es posible hacer que el tamaño de la muestra de cada subgrupo sea simultáneamente proporcional al tamaño del subgrupo dentro de la población total. Para conocer una forma eficiente de dividir los recursos de muestreo entre grupos que varían en sus medios, varianza y costos, consulte "asignación óptima" . El problema del muestreo estratificado en el caso de clases previas desconocidas (proporción de subpoblaciones en toda la población) puede tener un efecto perjudicial en el desempeño de cualquier análisis del conjunto de datos, por ejemplo, la clasificación. [3] En ese sentido, la relación de muestreo minimax se puede utilizar para hacer que el conjunto de datos sea robusto con respecto a la incertidumbre en el proceso de generación de datos subyacente. [3]
Combinar substratos para asegurar números adecuados puede llevar a la paradoja de Simpson , donde las tendencias que existen en diferentes grupos de datos desaparecen o incluso se revierten cuando se combinan los grupos.
La media y la varianza del muestreo aleatorio estratificado vienen dadas por: [2]
dónde
Tenga en cuenta que el término , que es igual a , es una corrección de población finita y debe expresarse en "unidades de muestra". Renunciar a la corrección de población finita da:
donde es el peso poblacional del estrato .
Para la estrategia de asignación proporcional, el tamaño de la muestra en cada estrato se toma en proporción al tamaño del estrato. Supongamos que en una empresa existe el siguiente personal: [4]
y se nos pide que tomemos una muestra de 40 funcionarios, estratificados según las categorías anteriores.
El primer paso es calcular el porcentaje de cada grupo sobre el total.
Esto nos dice que de nuestra muestra de 40,
Otra forma sencilla sin tener que calcular el porcentaje es multiplicar el tamaño de cada grupo por el tamaño de la muestra y dividir por el tamaño total de la población (tamaño de todo el personal):