muestra aleatoria simple

En estadística , una muestra aleatoria simple (o SRS ) es un subconjunto de individuos (una muestra ) elegidos de un conjunto más grande (una población ) en el que se elige aleatoriamente un subconjunto de individuos , todos con la misma probabilidad. Es un proceso de selección de una muestra de forma aleatoria. En SRS, cada subconjunto de k individuos tiene la misma probabilidad de ser elegido para la muestra que cualquier otro subconjunto de k individuos. ^[1] El muestreo aleatorio simple es un tipo básico de muestreo y puede ser un componente de otros métodos de muestreo más complejos.

Introducción

El principio del muestreo aleatorio simple es que cada conjunto de elementos tiene la misma probabilidad de ser elegido. Por ejemplo, supongamos que N estudiantes universitarios quieren conseguir una entrada para un partido de baloncesto, pero solo hay X < N entradas para ellos, por lo que deciden tener una manera justa de ver quién puede ir. Luego, a todos se les asigna un número en el rango de 0 a N -1 y se generan números aleatorios, ya sea electrónicamente o a partir de una tabla de números aleatorios. Los números fuera del rango de 0 a N -1 se ignoran, al igual que cualquier número seleccionado previamente. Los primeros X números identificarían a los afortunados ganadores del boleto.

En poblaciones pequeñas y, a menudo, en poblaciones grandes, este tipo de muestreo se realiza normalmente " sin reemplazo ", es decir, se evita deliberadamente elegir a cualquier miembro de la población más de una vez. Aunque en su lugar se puede realizar un muestreo aleatorio simple con reemplazo, esto es menos común y normalmente se describiría más completamente como muestreo aleatorio simple con reemplazo . El muestreo realizado sin reemplazo ya no es independiente, pero aún satisface la intercambiabilidad , por lo que muchos resultados aún se mantienen. Además, para una muestra pequeña de una población grande, el muestreo sin reemplazo es aproximadamente lo mismo que el muestreo con reemplazo, ya que la probabilidad de elegir al mismo individuo dos veces es baja.

Es importante realizar una selección aleatoria imparcial de individuos para que, si se extrajeran muchas muestras, la muestra promedio representara con precisión a la población. Sin embargo, esto no garantiza que una muestra particular sea una representación perfecta de la población. El muestreo aleatorio simple simplemente permite sacar conclusiones externamente válidas sobre toda la población basándose en la muestra.

Conceptualmente, el muestreo aleatorio simple es la más simple de las técnicas de muestreo probabilístico. Requiere un marco muestral completo , que puede no estar disponible o no ser factible de construir para poblaciones grandes. Incluso si se dispone de un marco completo, pueden ser posibles enfoques más eficientes si se dispone de otra información útil sobre las unidades de la población.

Las ventajas son que está libre de errores de clasificación y requiere un conocimiento mínimo previo de la población además del marco. Su simplicidad también hace que sea relativamente fácil interpretar los datos recopilados de esta manera. Por estas razones, el muestreo aleatorio simple se adapta mejor a situaciones en las que no hay mucha información disponible sobre la población y la recopilación de datos se puede realizar de manera eficiente sobre elementos distribuidos aleatoriamente, o donde el costo del muestreo es lo suficientemente pequeño como para que la eficiencia sea menos importante que la simplicidad. Si estas condiciones no se cumplen, el muestreo estratificado o el muestreo por conglomerados pueden ser una mejor opción.

Relación entre muestra aleatoria simple y otros métodos

Muestreo de igual probabilidad (epsem)

Un método de muestreo en el que cada unidad individual tiene la misma probabilidad de ser seleccionada se denomina muestreo de igual probabilidad (epsem para abreviar).

El uso de una muestra aleatoria simple siempre conducirá a un epsem, pero no todas las muestras de epsem son SRS. Por ejemplo, si un profesor tiene una clase organizada en 5 filas de 6 columnas y quiere tomar una muestra aleatoria de 5 estudiantes, podría elegir una de las 6 columnas al azar. Esta sería una muestra epsem, pero no todos los subconjuntos de 5 alumnos son igualmente probables aquí, ya que solo los subconjuntos que están organizados como una sola columna son elegibles para la selección. También existen formas de construir muestreo multietápico , que no son srs, mientras que la muestra final será epsem. ^[2] Por ejemplo, el muestreo aleatorio sistemático produce una muestra para la cual cada unidad individual tiene la misma probabilidad de inclusión, pero diferentes conjuntos de unidades tienen diferentes probabilidades de ser seleccionadas.

Las muestras que son epsem son autoponderadas , lo que significa que la inversa de la probabilidad de selección para cada muestra es igual.

Distinción entre una muestra aleatoria sistemática y una muestra aleatoria simple

Considere una escuela con 1000 estudiantes y suponga que un investigador quiere seleccionar 100 de ellos para seguir estudiando. Se podrían poner todos sus nombres en un cubo y luego se podrían sacar 100 nombres. No solo cada persona tiene las mismas posibilidades de ser seleccionada, sino que también podemos calcular fácilmente la probabilidad ( P ) de que una persona determinada sea elegida, ya que conocemos el tamaño de la muestra ( n ) y la población ( N ):

1. En el caso de que una persona determinada sólo pueda ser seleccionada una vez (es decir, después de la selección, una persona es eliminada del grupo de selección):

{\begin{aligned}P&=1-{\frac {N-1}{N}}\cdot {\frac {N-2}{N-1}}\cdot \cdots \cdot {\frac {N-n}{N-(n-1)}}\\[8pt]&{\stackrel {\text{Canceling:}}{=}}1-{\frac {N-n}{N}}\\[8pt]&={\frac {n}{N}}\\[8pt]&={\frac {100}{1000}}\\[8pt]&=10\%\end{aligned}}

2. En el caso de que cualquier persona seleccionada regrese al grupo de selección (es decir, puede ser elegida más de una vez):

P=1-\left(1-{\frac {1}{N}}\right)^{n}=1-\left({\frac {999}{1000}}\right)^{100}=0.0952\dots \approx 9.5\%

Esto significa que, en cualquier caso, cada estudiante de la escuela tiene aproximadamente una probabilidad de 1 entre 10 de ser seleccionado utilizando este método. Además, cualquier combinación de 100 estudiantes tiene la misma probabilidad de selección.

Si se introduce un patrón sistemático en el muestreo aleatorio, se lo denomina "muestreo (aleatorio) sistemático". Un ejemplo sería si los estudiantes de la escuela tuvieran números adjuntos a sus nombres que van del 0001 al 1000, y elegimos un punto de partida aleatorio, por ejemplo, 0533, y luego elegimos cada 10 nombres a partir de entonces para darnos nuestra muestra de 100 (empezando de nuevo). con 0003 después de llegar a 0993). En este sentido, esta técnica es similar al muestreo por conglomerados, ya que la elección de la primera unidad determinará las restantes. Esto ya no es un muestreo aleatorio simple, porque algunas combinaciones de 100 estudiantes tienen una probabilidad de selección mayor que otras; por ejemplo, {3, 13, 23, ..., 993} tiene una probabilidad de selección de 1/10, mientras que {1 , 2, 3, ..., 100} no se pueden seleccionar con este método.

Muestreo de una población dicotómica

Si los miembros de la población son de tres tipos, digamos "azul", "rojo" y "negro", el número de elementos rojos en una muestra de un tamaño determinado variará según la muestra y, por lo tanto, es una variable aleatoria cuya distribución se puede estudiar. Esa distribución depende de la cantidad de elementos rojos y negros en la población total. Para una muestra aleatoria simple con reemplazo, la distribución es una distribución binomial . Para una muestra aleatoria simple sin reemplazo, se obtiene una distribución hipergeométrica .

Algoritmos

Se han desarrollado varios algoritmos eficientes para el muestreo aleatorio simple. ^[3]^[4] Un algoritmo ingenuo es el algoritmo sorteo por sorteo donde en cada paso eliminamos el elemento en ese paso del conjunto con igual probabilidad y colocamos el elemento en la muestra. Continuamos hasta tener muestra del tamaño deseado . El inconveniente de este método es que requiere acceso aleatorio al conjunto. $k$

El algoritmo de selección-rechazo desarrollado por Fan et al. en 1962 ^[5] requiere un solo paso de datos; sin embargo, es un algoritmo secuencial y requiere conocimiento del recuento total de elementos , lo cual no está disponible en escenarios de transmisión por secuencias. $n$

Sunter demostró un algoritmo de clasificación aleatoria muy simple en 1977. ^[6] El algoritmo simplemente asigna un número aleatorio extraído de una distribución uniforme como clave para cada elemento, luego ordena todos los elementos usando la clave y selecciona los elementos más pequeños. $(0,1)$ $k$

J. Vitter en 1985 ^[7] propuso algoritmos de muestreo de yacimientos , que son ampliamente utilizados. Este algoritmo no requiere conocimiento previo del tamaño de la población y utiliza un espacio constante. $n$

El muestreo aleatorio también se puede acelerar tomando muestras de la distribución de espacios entre muestras ^[8] y omitiendo los espacios.

Ver también

Referencias

^ Yates, Daniel S.; David S. Moore; Daren S. Starnes (2008). La práctica de la estadística, 3.ª ed . Hombre libre . ISBN 978-0-7167-7309-2.
^ Peters, Tim J. y Jenny I. Eachus. "Lograr la misma probabilidad de selección bajo varias estrategias de muestreo aleatorio". Epidemiología pediátrica y perinatal 9.2 (1995): 219-224.
^ Tilla, Yves; Tillé, Yves (1 de enero de 2006). Algoritmos de muestreo - Springer . Serie Springer en Estadística. doi :10.1007/0-387-34240-0. ISBN 978-0-387-30814-2.
^ Meng, Xiangrui (2013). "Muestreo aleatorio simple escalable y muestreo estratificado" (PDF) . Actas de la 30ª Conferencia Internacional sobre Aprendizaje Automático (ICML-13) : 531–539.
^ Ventilador, CT; Müller, Mervin E.; Rezucha, Iván (1 de junio de 1962). "Desarrollo de planes de muestreo mediante el uso de técnicas de selección secuencial (artículo por artículo) y computadoras digitales". Revista de la Asociación Estadounidense de Estadística . 57 (298): 387–402. doi :10.1080/01621459.1962.10480667. ISSN 0162-1459.
^ Sunter, AB (1 de enero de 1977). "Lista de muestreo secuencial con probabilidades iguales o desiguales sin reemplazo". Estadísticas aplicadas . 26 (3): 261–268. doi :10.2307/2346966. JSTOR 2346966.
^ Vitter, Jeffrey S. (1 de marzo de 1985). "Muestreo aleatorio con depósito". Transmisión ACM. Matemáticas. Software . 11 (1): 37–57. CiteSeerX 10.1.1.138.784 . doi :10.1145/3147.3165. ISSN 0098-3500.
^ Vitter, Jeffrey S. (1 de julio de 1984). "Métodos más rápidos para el muestreo aleatorio". Comunicaciones de la ACM . 27 (7): 703–718. CiteSeerX 10.1.1.329.6400 . doi :10.1145/358105.893. ISSN 0001-0782.

enlaces externos

Medios relacionados con el muestreo aleatorio en Wikimedia Commons