En la teoría del muestreo de poblaciones finitas, el muestreo de Bernoulli es un proceso de muestreo en el que cada elemento de la población se somete a un ensayo de Bernoulli independiente que determina si el elemento pasa a formar parte de la muestra. Una propiedad esencial del muestreo de Bernoulli es que todos los elementos de la población tienen la misma probabilidad de ser incluidos en la muestra. [1]
Por lo tanto, el muestreo de Bernoulli es un caso especial del muestreo de Poisson . En el muestreo de Poisson, cada elemento de la población puede tener una probabilidad diferente de ser incluido en la muestra. En el muestreo de Bernoulli, la probabilidad es igual para todos los elementos.
Debido a que cada elemento de la población se considera por separado para la muestra, el tamaño de la muestra no es fijo sino que sigue una distribución binomial .
El método Bernoulli más básico genera n variables aleatorias para extraer una muestra de una población de n elementos. Supongamos que desea extraer un porcentaje determinado de la población. El algoritmo se puede describir de la siguiente manera: [2]
para cada elemento del conjunto generar un entero aleatorio no negativo R si (R mod 100) < pct entonces Seleccionar artículo
Un porcentaje del 20%, por ejemplo, se expresa normalmente como una probabilidad p = 0,2. En ese caso, se generan variables aleatorias en el intervalo unitario. Después de ejecutar el algoritmo, se habrá seleccionado una muestra de tamaño k . Se esperaría tener , lo que es cada vez más probable a medida que n crece. De hecho, es posible calcular la probabilidad de obtener un tamaño de muestra de k mediante la distribución binomial :
A la izquierda se muestra esta función para cuatro valores de y . Para comparar los valores de diferentes valores de , las en abscisas se escalan de hasta el intervalo unitario, mientras que el valor de la función, en ordenadas, se multiplica por la inversa, de modo que el área bajo el gráfico mantiene el mismo valor —esa área está relacionada con la función de distribución acumulativa correspondiente—. Los valores se muestran en escala logarítmica.
A la derecha, los valores mínimos de que satisfacen los límites de error dados con una probabilidad del 95 %. Dado un error, el conjunto de dentro de los límites se puede describir de la siguiente manera:
La probabilidad de terminar dentro viene dada nuevamente por la distribución binomial como:
La imagen muestra los valores más bajos de tal manera que la suma sea al menos 0,95. Para y el algoritmo ofrece resultados exactos para todos los . Los . intermedios se obtienen por bisección . Tenga en cuenta que, si es un porcentaje entero, , garantiza que . Se pueden requerir valores tan altos como sea posible para una coincidencia tan exacta.