En estadística , una muestra aleatoria simple (o MAS ) es un subconjunto de individuos (una muestra ) elegidos de un conjunto más grande (una población ) en el que un subconjunto de individuos se eligen aleatoriamente , todos con la misma probabilidad. Es un proceso de selección de una muestra de forma aleatoria. En la MAS, cada subconjunto de k individuos tiene la misma probabilidad de ser elegido para la muestra que cualquier otro subconjunto de k individuos. [1] El muestreo aleatorio simple es un tipo básico de muestreo y puede ser un componente de otros métodos de muestreo más complejos. [2]
El principio del muestreo aleatorio simple es que cada conjunto con el mismo número de elementos tiene la misma probabilidad de ser elegido. Por ejemplo, supongamos que N estudiantes universitarios quieren conseguir una entrada para un partido de baloncesto, pero sólo hay X < N entradas para ellos, por lo que deciden jugar de forma justa para ver quién consigue entrar. Entonces, a cada uno se le da un número en el rango de 0 a N -1, y se generan números aleatorios, ya sea electrónicamente o a partir de una tabla de números aleatorios. Los números fuera del rango de 0 a N -1 se ignoran, al igual que cualquier número seleccionado previamente. Los primeros X números identificarían a los afortunados ganadores de las entradas.
En poblaciones pequeñas y a menudo en poblaciones grandes, este tipo de muestreo se realiza típicamente " sin reemplazo ", es decir, se evita deliberadamente elegir a cualquier miembro de la población más de una vez. Aunque el muestreo aleatorio simple se puede realizar con reemplazo en su lugar, esto es menos común y normalmente se describiría de manera más completa como muestreo aleatorio simple con reemplazo . El muestreo realizado sin reemplazo ya no es independiente, pero aún satisface la intercambiabilidad , por lo tanto, la mayoría de los resultados de las estadísticas matemáticas aún se mantienen. Además, para una muestra pequeña de una población grande, el muestreo sin reemplazo es aproximadamente lo mismo que el muestreo con reemplazo, ya que la probabilidad de elegir al mismo individuo dos veces es baja. Los libros de texto de metodología de encuestas generalmente consideran el muestreo aleatorio simple sin reemplazo como el punto de referencia para calcular la eficiencia relativa de otros enfoques de muestreo. [3]
Una selección aleatoria imparcial de individuos es importante para que, si se extrajeran muchas muestras, la muestra promedio represente con precisión a la población. Sin embargo, esto no garantiza que una muestra en particular sea una representación perfecta de la población. El muestreo aleatorio simple simplemente permite extraer conclusiones válidas externamente sobre toda la población basándose en la muestra. El concepto se puede ampliar cuando la población es un área geográfica. [4] En este caso, los marcos de muestreo de área son relevantes.
En términos conceptuales, el muestreo aleatorio simple es la técnica de muestreo probabilístico más sencilla. Requiere un marco de muestreo completo , que puede no estar disponible o no ser factible de construir para poblaciones grandes. Incluso si se dispone de un marco completo, es posible que se puedan utilizar métodos más eficientes si se dispone de otra información útil sobre las unidades de la población.
Las ventajas son que no presenta errores de clasificación y requiere un conocimiento previo mínimo de la población, aparte del marco. Su simplicidad también hace que sea relativamente fácil interpretar los datos recopilados de esta manera. Por estas razones, el muestreo aleatorio simple es más adecuado para situaciones en las que no se dispone de mucha información sobre la población y la recopilación de datos se puede realizar de manera eficiente sobre elementos distribuidos aleatoriamente, o cuando el costo del muestreo es lo suficientemente pequeño como para que la eficiencia sea menos importante que la simplicidad. Si estas condiciones no se cumplen, el muestreo estratificado o el muestreo por conglomerados pueden ser una mejor opción.
Un método de muestreo en el que cada unidad individual tiene la misma probabilidad de ser seleccionada se denomina muestreo de probabilidad igual (epsem, por sus siglas en inglés).
El uso de una muestra aleatoria simple siempre conducirá a un epsem, pero no todas las muestras epsem son SRS. Por ejemplo, si un profesor tiene una clase organizada en 5 filas de 6 columnas y quiere tomar una muestra aleatoria de 5 estudiantes, podría elegir una de las 6 columnas al azar. Esta sería una muestra epsem, pero no todos los subconjuntos de 5 alumnos tienen la misma probabilidad aquí, ya que solo los subconjuntos que están organizados como una sola columna son elegibles para la selección. También hay formas de construir un muestreo multietápico , que no son srs, mientras que la muestra final será epsem. [5] Por ejemplo, el muestreo aleatorio sistemático produce una muestra para la cual cada unidad individual tiene la misma probabilidad de inclusión, pero diferentes conjuntos de unidades tienen diferentes probabilidades de ser seleccionados.
Las muestras que son epsem son autoponderadas , lo que significa que la inversa de la probabilidad de selección para cada muestra es igual.
Consideremos una escuela con 1000 estudiantes y supongamos que un investigador quiere seleccionar 100 de ellos para realizar estudios posteriores. Todos sus nombres podrían colocarse en un recipiente y luego podrían extraerse 100 nombres. No solo cada persona tiene la misma probabilidad de ser seleccionada, sino que también podemos calcular fácilmente la probabilidad ( P ) de que una persona determinada sea elegida, ya que conocemos el tamaño de la muestra ( n ) y la población ( N ):
1. En el caso de que una persona determinada sólo pueda ser seleccionada una vez (es decir, después de la selección, la persona es eliminada del grupo de selección):
2. En el caso de que alguna persona seleccionada sea devuelta al grupo de selección (es decir, pueda ser elegida más de una vez):
Esto significa que cada estudiante de la escuela tiene en cualquier caso una probabilidad de aproximadamente 1 entre 10 de ser seleccionado utilizando este método. Además, cualquier combinación de 100 estudiantes tiene la misma probabilidad de ser seleccionado.
Si se introduce un patrón sistemático en el muestreo aleatorio, se denomina "muestreo sistemático (aleatorio)". Un ejemplo sería si los estudiantes de la escuela tuvieran números asociados a sus nombres que oscilaran entre 0001 y 1000, y eligiéramos un punto de inicio aleatorio, por ejemplo 0533, y luego eligiéramos cada décimo nombre a partir de entonces para darnos nuestra muestra de 100 (empezando de nuevo con 0003 después de llegar a 0993). En este sentido, esta técnica es similar al muestreo por conglomerados, ya que la elección de la primera unidad determinará el resto. Esto ya no es un muestreo aleatorio simple, porque algunas combinaciones de 100 estudiantes tienen una probabilidad de selección mayor que otras; por ejemplo, {3, 13, 23, ..., 993} tiene una probabilidad de selección de 1/10, mientras que {1, 2, 3, ..., 100} no se puede seleccionar con este método.
Si los miembros de la población son de tres tipos, por ejemplo, "azul", "rojo" y "negro", la cantidad de elementos rojos en una muestra de un tamaño determinado variará según la muestra y, por lo tanto, es una variable aleatoria cuya distribución se puede estudiar. Esa distribución depende de la cantidad de elementos rojos y negros en la población completa. Para una muestra aleatoria simple con reemplazo, la distribución es una distribución binomial . Para una muestra aleatoria simple sin reemplazo, se obtiene una distribución hipergeométrica . [6]
Se han desarrollado varios algoritmos eficientes para el muestreo aleatorio simple. [7] [8] Un algoritmo ingenuo es el algoritmo de extracción por extracción, en el que en cada paso eliminamos el elemento en ese paso del conjunto con la misma probabilidad y lo colocamos en la muestra. Continuamos hasta que tengamos una muestra del tamaño deseado . La desventaja de este método es que requiere acceso aleatorio en el conjunto.
El algoritmo de selección-rechazo desarrollado por Fan et al. en 1962 [9] requiere una sola pasada sobre los datos; sin embargo, es un algoritmo secuencial y requiere conocimiento del recuento total de elementos , que no está disponible en escenarios de transmisión.
Sunter demostró en 1977 un algoritmo de ordenamiento aleatorio muy simple. [10] El algoritmo simplemente asigna un número aleatorio extraído de una distribución uniforme como clave para cada elemento, luego ordena todos los elementos utilizando la clave y selecciona los elementos más pequeños.
En 1985, J. Vitter [11] propuso algoritmos de muestreo de yacimientos que se utilizan ampliamente. Este algoritmo no requiere conocer de antemano el tamaño de la población y utiliza un espacio constante.
El muestreo aleatorio también se puede acelerar tomando muestras de la distribución de espacios entre muestras [12] y omitiendo los espacios.