stringtranslate.com

Distribución de muestreo

En estadística , una distribución de muestreo o distribución de muestras finitas es la distribución de probabilidad de una estadística dada basada en muestras aleatorias . Si se utilizara por separado una cantidad arbitrariamente grande de muestras, cada una de las cuales incluyera múltiples observaciones (puntos de datos), para calcular un valor de una estadística (como, por ejemplo, la media de la muestra o la varianza de la muestra ) para cada muestra, entonces la distribución de muestreo es la distribución de probabilidad de los valores que toma la estadística. En muchos contextos, solo se observa una muestra, pero la distribución de muestreo se puede encontrar teóricamente.

Las distribuciones de muestreo son importantes en estadística porque brindan una simplificación importante en el camino hacia la inferencia estadística . Más específicamente, permiten que las consideraciones analíticas se basen en la distribución de probabilidad de una estadística, en lugar de en la distribución de probabilidad conjunta de todos los valores de muestra individuales.

Introducción

La distribución de muestreo de una estadística es la distribución de esa estadística, considerada como una variable aleatoria , cuando se deriva de una muestra aleatoria de tamaño . Puede considerarse como la distribución de la estadística para todas las muestras posibles de la misma población de un tamaño de muestra dado. La distribución de muestreo depende de la distribución subyacente de la población, la estadística que se esté considerando, el procedimiento de muestreo empleado y el tamaño de muestra utilizado. A menudo existe un interés considerable en si la distribución de muestreo puede aproximarse mediante una distribución asintótica , que corresponde al caso límite ya sea cuando el número de muestras aleatorias de tamaño finito, tomadas de una población infinita y utilizadas para producir la distribución, tiende al infinito, o cuando solo se toma una "muestra" de tamaño igualmente infinito de esa misma población.

Por ejemplo, considere una población normal con media y varianza . Supongamos que tomamos repetidamente muestras de un tamaño dado de esta población y calculamos la media aritmética para cada muestra; esta estadística se llama media muestral . La distribución de estas medias, o promedios, se llama "distribución muestral de la media muestral". Esta distribución es normal ( n es el tamaño de la muestra) ya que la población subyacente es normal, aunque las distribuciones muestrales también pueden ser a menudo cercanas a la normal incluso cuando la distribución de la población no lo es (véase el teorema del límite central ). Una alternativa a la media muestral es la mediana muestral . Cuando se calcula a partir de la misma población, tiene una distribución muestral diferente a la de la media y generalmente no es normal (pero puede ser cercana para tamaños de muestra grandes).

La media de una muestra de una población que tiene una distribución normal es un ejemplo de una estadística simple tomada de una de las poblaciones estadísticas más simples . Para otras estadísticas y otras poblaciones, las fórmulas son más complicadas y, a menudo, no existen en forma cerrada . En tales casos, las distribuciones de muestreo se pueden aproximar mediante simulaciones de Montecarlo , [1] métodos bootstrap o teoría de distribución asintótica .

Error estándar

La desviación estándar de la distribución de muestreo de una estadística se denomina error estándar de esa cantidad. En el caso en que la estadística sea la media de la muestra y las muestras no estén correlacionadas, el error estándar es: donde es la desviación estándar de la distribución de la población de esa cantidad y es el tamaño de la muestra (número de elementos en la muestra).

Una implicación importante de esta fórmula es que el tamaño de la muestra debe cuadruplicarse (multiplicarse por 4) para lograr la mitad (1/2) del error de medición. Al diseñar estudios estadísticos donde el costo es un factor, esto puede tener un papel en la comprensión de las compensaciones costo-beneficio.

Para el caso donde la estadística es el total de la muestra y las muestras no están correlacionadas, el error estándar es: donde, nuevamente, es la desviación estándar de la distribución de la población de esa cantidad y es el tamaño de la muestra (número de elementos en la muestra).

Ejemplos

Distribución de muestreo de la media de la muestra de números aleatorios distribuidos normalmente. A medida que aumenta el tamaño de la muestra, la distribución de muestreo se vuelve cada vez más centralizada.

Referencias

  1. ^ Mooney, Christopher Z. (1999). Simulación de Monte Carlo. Thousand Oaks, California: Sage. p. 2. ISBN 9780803959439.

Enlaces externos