En estadística , control de calidad y metodología de encuestas , el muestreo es la selección de un subconjunto o una muestra estadística (denominada muestra para abreviar) de individuos de una población estadística para estimar las características de toda la población. El subconjunto pretende reflejar toda la población y los estadísticos intentan recopilar muestras que sean representativas de la población. El muestreo tiene menores costos y una recopilación de datos más rápida en comparación con el registro de datos de toda la población y, por lo tanto, puede proporcionar información en casos en los que no es factible medir una población completa.
Cada observación mide una o más propiedades (como peso, ubicación, color o masa) de objetos o individuos independientes. En el muestreo por encuesta , se pueden aplicar ponderaciones a los datos para ajustar el diseño de la muestra, en particular en el muestreo estratificado . [1] Los resultados de la teoría de la probabilidad y la teoría estadística se emplean para guiar la práctica. En la investigación médica y empresarial, el muestreo se utiliza ampliamente para recopilar información sobre una población. [2] El muestreo de aceptación se utiliza para determinar si un lote de producción de material cumple con las especificaciones vigentes .
El muestreo aleatorio mediante lotes es una idea antigua, mencionada varias veces en la Biblia. En 1786, Pierre Simon Laplace estimó la población de Francia utilizando una muestra, junto con un estimador de razón . También calculó estimaciones probabilísticas del error. Estas no se expresaron como intervalos de confianza modernos , sino como el tamaño de muestra que se necesitaría para lograr un límite superior particular en el error de muestreo con una probabilidad de 1000/1001. Sus estimaciones utilizaron el teorema de Bayes con una probabilidad previa uniforme y asumieron que su muestra era aleatoria. Alexander Ivanovich Chuprov introdujo las encuestas de muestreo en la Rusia imperial en la década de 1870. [3]
En Estados Unidos, la predicción que hizo el Literary Digest en 1936 sobre una victoria republicana en las elecciones presidenciales fracasó estrepitosamente debido a un sesgo grave [1]. Más de dos millones de personas respondieron al estudio con sus nombres obtenidos a través de listas de suscripciones a revistas y directorios telefónicos. No se tuvo en cuenta que estas listas estaban fuertemente sesgadas a favor de los republicanos y la muestra resultante, aunque muy grande, tenía graves defectos. [4] [5]
Las elecciones en Singapur han adoptado esta práctica desde las elecciones de 2015 , también conocida como recuento de muestras, mientras que según el Departamento de Elecciones (ELD), la comisión electoral de su país, los recuentos de muestras ayudan a reducir la especulación y la desinformación, al tiempo que ayudan a los funcionarios electorales a contrastar el resultado de las elecciones para esa división electoral. Los recuentos de muestras informados arrojan un resultado indicativo bastante preciso con un intervalo de confianza del 95% con un margen de error de entre el 4 y el 5%; ELD recordó al público que los recuentos de muestras son independientes de los resultados oficiales, y solo el funcionario electoral declarará los resultados oficiales una vez que se complete el recuento de votos. [6] [7]
Una práctica estadística exitosa se basa en una definición precisa del problema. En el muestreo, esto incluye definir la " población " de la que se extrae la muestra. Una población puede definirse como la totalidad de las personas o elementos con las características que se desean comprender. Debido a que rara vez se dispone de tiempo o dinero suficiente para recopilar información de todos o de todo en una población, el objetivo es encontrar una muestra (o subconjunto) representativa de esa población.
A veces, lo que define una población es obvio. Por ejemplo, un fabricante debe decidir si un lote de material de producción tiene la calidad suficiente para ser entregado al cliente o si debe desecharse o reelaborarse debido a su mala calidad. En este caso, el lote es la población.
Aunque la población de interés suele estar formada por objetos físicos, a veces es necesario realizar un muestreo en el tiempo, el espacio o alguna combinación de estas dimensiones. Por ejemplo, una investigación sobre la dotación de personal de un supermercado podría examinar la longitud de la cola de la caja en distintos momentos, o un estudio sobre pingüinos en peligro de extinción podría apuntar a comprender el uso que hacen de diversos terrenos de caza a lo largo del tiempo. En cuanto a la dimensión temporal, el enfoque puede estar en períodos u ocasiones discretas.
En otros casos, la "población" examinada puede ser incluso menos tangible. Por ejemplo, Joseph Jagger estudió el comportamiento de las ruletas en un casino de Montecarlo y utilizó esto para identificar una ruleta sesgada. En este caso, la "población" que Jagger quería investigar era el comportamiento general de la ruleta (es decir, la distribución de probabilidad de sus resultados a lo largo de una cantidad infinita de ensayos), mientras que su "muestra" se formó a partir de los resultados observados de esa ruleta. Surgen consideraciones similares cuando se toman mediciones repetidas de propiedades de materiales como la conductividad eléctrica del cobre .
Esta situación se presenta a menudo cuando se busca conocer el sistema de causas del que la población observada es un resultado. En tales casos, la teoría del muestreo puede tratar a la población observada como una muestra de una "superpoblación" más grande. Por ejemplo, un investigador podría estudiar la tasa de éxito de un nuevo programa para "dejar de fumar" en un grupo de prueba de 100 pacientes, con el fin de predecir los efectos del programa si se pusiera a disposición de todo el país. En este caso, la superpoblación es "toda la gente del país que tenga acceso a este tratamiento", un grupo que todavía no existe porque el programa aún no está disponible para todos.
La población de la que se extrae la muestra puede no ser la misma que la población de la que se desea obtener la información. A menudo hay una superposición grande, pero no completa, entre estos dos grupos debido a problemas de encuadre, etc. (ver más abajo). A veces pueden ser completamente independientes; por ejemplo, se pueden estudiar ratas para comprender mejor la salud humana, o se pueden estudiar registros de personas nacidas en 2008 para hacer predicciones sobre las personas nacidas en 2009.
El tiempo invertido en precisar la población muestreada y la población en cuestión suele estar bien empleado porque plantea muchos problemas, ambigüedades y preguntas que de otro modo se habrían pasado por alto en esta etapa.
En el caso más sencillo, como el muestreo de un lote de material de producción (muestreo de aceptación por lotes), lo más deseable sería identificar y medir cada uno de los elementos de la población e incluir cualquiera de ellos en nuestra muestra. Sin embargo, en el caso más general esto no suele ser posible ni práctico. No hay forma de identificar a todas las ratas en el conjunto de todas las ratas. Cuando el voto no es obligatorio, no hay forma de identificar qué personas votarán en una próxima elección (antes de la elección). Estas poblaciones imprecisas no son susceptibles de muestreo de ninguna de las formas que se indican a continuación y a las que podríamos aplicar la teoría estadística.
Como solución, buscamos un marco de muestreo que tenga la propiedad de que podamos identificar cada elemento individual e incluir cualquiera de ellos en nuestra muestra. [8] [9] [10] [11] El tipo de marco más sencillo es una lista de elementos de la población (preferiblemente toda la población) con información de contacto apropiada. Por ejemplo, en una encuesta de opinión , los posibles marcos de muestreo incluyen un registro electoral y una guía telefónica .
Una muestra probabilística es una muestra en la que cada unidad de la población tiene una probabilidad (mayor que cero) de ser seleccionada en la muestra, y esta probabilidad puede determinarse con precisión. La combinación de estos rasgos permite producir estimaciones imparciales de los totales de la población, ponderando las unidades muestreadas según su probabilidad de selección.
Ejemplo: Queremos estimar el ingreso total de los adultos que viven en una calle determinada. Visitamos cada hogar de esa calle, identificamos a todos los adultos que viven allí y seleccionamos aleatoriamente a un adulto de cada hogar. (Por ejemplo, podemos asignar a cada persona un número aleatorio, generado a partir de una distribución uniforme entre 0 y 1, y seleccionar a la persona con el número más alto en cada hogar). Luego entrevistamos a la persona seleccionada y calculamos sus ingresos.
Las personas que viven solas seguramente serán seleccionadas, por lo que simplemente sumamos sus ingresos a nuestra estimación del total. Pero una persona que vive en un hogar de dos adultos tiene solo una probabilidad de una en dos de ser seleccionada. Para reflejar esto, cuando nos encontramos con un hogar de ese tipo, contaríamos el ingreso de la persona seleccionada dos veces en el total. (La persona que es seleccionada de ese hogar puede considerarse, en términos generales, como la persona que también representa a la persona que no es seleccionada).
En el ejemplo anterior, no todos tienen la misma probabilidad de ser seleccionados; lo que hace que se trate de una muestra probabilística es el hecho de que se conoce la probabilidad de cada persona. Cuando todos los elementos de la población tienen la misma probabilidad de ser seleccionados, esto se conoce como un diseño de "igual probabilidad de selección" (EPS, por sus siglas en inglés). Estos diseños también se conocen como "autoponderados" porque a todas las unidades muestreadas se les asigna el mismo peso.
El muestreo probabilístico incluye: muestreo aleatorio simple , muestreo sistemático , muestreo estratificado , muestreo de probabilidad proporcional al tamaño y muestreo por conglomerados o multietápico . Estas distintas formas de muestreo probabilístico tienen dos cosas en común:
El muestreo no probabilístico es cualquier método de muestreo en el que algunos elementos de la población no tienen posibilidad de ser seleccionados (a veces se los denomina "fuera de cobertura"/"subcubiertos"), o en el que la probabilidad de selección no se puede determinar con precisión. Implica la selección de elementos en función de suposiciones sobre la población de interés, que forma los criterios de selección. Por lo tanto, debido a que la selección de elementos no es aleatoria, el muestreo no probabilístico no permite la estimación de errores de muestreo. Estas condiciones dan lugar al sesgo de exclusión , que impone límites a la cantidad de información que una muestra puede proporcionar sobre la población. La información sobre la relación entre la muestra y la población es limitada, lo que dificulta la extrapolación de la muestra a la población.
Ejemplo: Visitamos todos los hogares de una calle determinada y entrevistamos a la primera persona que abre la puerta. En cualquier hogar con más de un ocupante, se trata de una muestra no probabilística, porque algunas personas tienen más probabilidades de abrir la puerta (por ejemplo, una persona desempleada que pasa la mayor parte del tiempo en casa tiene más probabilidades de hacerlo que un compañero de casa empleado que podría estar en el trabajo cuando el entrevistador llama) y no es práctico calcular estas probabilidades.
Los métodos de muestreo no probabilístico incluyen el muestreo por conveniencia , el muestreo por cuotas y el muestreo intencional . Además, los efectos de la falta de respuesta pueden convertir cualquier diseño de probabilidad en un diseño no probabilístico si no se comprenden bien las características de la falta de respuesta, ya que la falta de respuesta modifica efectivamente la probabilidad de que cada elemento sea muestreado.
En cualquiera de los tipos de marcos identificados anteriormente, se pueden emplear distintos métodos de muestreo de forma individual o en combinación. Los factores que suelen influir en la elección entre estos diseños son los siguientes:
En una muestra aleatoria simple (MAS) de un tamaño determinado, todos los subconjuntos de un marco de muestreo tienen la misma probabilidad de ser seleccionados. Por lo tanto, cada elemento del marco tiene la misma probabilidad de selección: el marco no se subdivide ni se divide. Además, cualquier par de elementos tiene la misma probabilidad de selección que cualquier otro par de este tipo (y lo mismo ocurre con los triples, etc.). Esto minimiza el sesgo y simplifica el análisis de los resultados. En particular, la varianza entre los resultados individuales dentro de la muestra es un buen indicador de la varianza en la población general, lo que hace que sea relativamente fácil estimar la precisión de los resultados.
El muestreo aleatorio simple puede ser vulnerable a errores de muestreo porque la aleatoriedad de la selección puede dar como resultado una muestra que no refleje la composición de la población. Por ejemplo, una muestra aleatoria simple de diez personas de un país determinado producirá, en promedio, cinco hombres y cinco mujeres, pero es probable que cualquier ensayo dado sobrerrepresentara a un sexo y subrepresentara al otro. Las técnicas sistemáticas y estratificadas intentan superar este problema "utilizando información sobre la población" para elegir una muestra más "representativa".
Además, el muestreo aleatorio simple puede resultar engorroso y tedioso cuando se toma una muestra de una población objetivo grande. En algunos casos, los investigadores están interesados en preguntas de investigación específicas de subgrupos de la población. Por ejemplo, los investigadores podrían estar interesados en examinar si la capacidad cognitiva como predictor del desempeño laboral es igualmente aplicable a todos los grupos raciales. El muestreo aleatorio simple no puede satisfacer las necesidades de los investigadores en esta situación, porque no proporciona submuestras de la población y se pueden utilizar en su lugar otras estrategias de muestreo, como el muestreo estratificado.
El muestreo sistemático (también conocido como muestreo por intervalos) se basa en organizar la población de estudio según un esquema de ordenamiento y luego seleccionar elementos a intervalos regulares a través de esa lista ordenada. El muestreo sistemático implica un inicio aleatorio y luego procede con la selección de cada k elemento a partir de ese momento. En este caso, k = (tamaño de la población / tamaño de la muestra). Es importante que el punto de partida no sea automáticamente el primero en la lista, sino que se elija aleatoriamente entre el primero y el k elemento de la lista. Un ejemplo simple sería seleccionar cada décimo nombre de la guía telefónica (una muestra "cada décimo", también conocida como "muestreo con un salto de 10").
Siempre que el punto de partida sea aleatorio , el muestreo sistemático es un tipo de muestreo probabilístico . Es fácil de implementar y la estratificación inducida puede hacerlo eficiente, si la variable por la que se ordena la lista está correlacionada con la variable de interés. El muestreo "cada 10" es especialmente útil para un muestreo eficiente de bases de datos .
Por ejemplo, supongamos que queremos muestrear a personas de una calle larga que comienza en una zona pobre (casa n.º 1) y termina en un distrito caro (casa n.º 1000). Una simple selección aleatoria de direcciones de esta calle podría fácilmente terminar con demasiadas personas del extremo superior y muy pocas del extremo inferior (o viceversa), lo que daría lugar a una muestra no representativa. Seleccionar (por ejemplo) cada décimo número de calle a lo largo de la calle garantiza que la muestra se distribuya uniformemente a lo largo de la calle, representando todos estos distritos. (Si siempre comenzamos en la casa n.º 1 y terminamos en la n.º 991, la muestra está ligeramente sesgada hacia el extremo inferior; al seleccionar aleatoriamente el inicio entre la n.º 1 y la n.º 10, se elimina este sesgo).
Sin embargo, el muestreo sistemático es especialmente vulnerable a las periodicidades en la lista. Si hay periodicidad y el período es un múltiplo o factor del intervalo utilizado, es especialmente probable que la muestra no sea representativa de la población general, lo que hace que el esquema sea menos preciso que el muestreo aleatorio simple.
Por ejemplo, supongamos que las casas impares están todas en el lado norte (el más caro) de la calle y las casas pares están todas en el lado sur (el más barato). Con el esquema de muestreo indicado anteriormente, es imposible obtener una muestra representativa; o bien las casas muestreadas serán todas del lado impar (el más caro) o serán todas del lado par (el más barato), a menos que el investigador tenga conocimiento previo de este sesgo y lo evite utilizando un salto que asegure el salto entre los dos lados (cualquier salto impar).
Otro inconveniente del muestreo sistemático es que, incluso en los casos en que es más preciso que el muestreo aleatorio simple, sus propiedades teóricas dificultan la cuantificación de esa precisión. (En los dos ejemplos de muestreo sistemático que se dan más arriba, gran parte del error de muestreo potencial se debe a la variación entre casas vecinas, pero como este método nunca selecciona dos casas vecinas, la muestra no nos dará ninguna información sobre esa variación).
Como se ha descrito anteriormente, el muestreo sistemático es un método EPS, porque todos los elementos tienen la misma probabilidad de selección (en el ejemplo dado, una en diez). No se trata de un "muestreo aleatorio simple" porque diferentes subconjuntos del mismo tamaño tienen diferentes probabilidades de selección; por ejemplo, el conjunto {4,14,24,...,994} tiene una probabilidad de selección de una en diez, pero el conjunto {4,13,24,34,...} tiene una probabilidad de selección cero.
El muestreo sistemático también se puede adaptar a un enfoque no EPS; para ver un ejemplo, véase la discusión sobre muestras PPS a continuación.
Cuando la población comprende varias categorías distintas, el marco puede organizarse por categorías en "estratos" separados. Luego, cada estrato se muestrea como una subpoblación independiente, de la cual se pueden seleccionar elementos individuales al azar. [8] La relación entre el tamaño de esta selección aleatoria (o muestra) y el tamaño de la población se denomina fracción de muestreo . [12] El muestreo estratificado tiene varios beneficios potenciales. [12]
En primer lugar, dividir la población en estratos distintos e independientes puede permitir a los investigadores extraer inferencias sobre subgrupos específicos que podrían perderse en una muestra aleatoria más generalizada.
En segundo lugar, la utilización de un método de muestreo estratificado puede conducir a estimaciones estadísticas más eficientes (siempre que los estratos se seleccionen en función de su pertinencia para el criterio en cuestión, en lugar de en función de la disponibilidad de las muestras). Incluso si un método de muestreo estratificado no conduce a una mayor eficiencia estadística, esa táctica no resultará en una menor eficiencia que la del muestreo aleatorio simple, siempre que cada estrato sea proporcional al tamaño del grupo en la población.
En tercer lugar, a veces ocurre que los datos están más fácilmente disponibles para estratos individuales preexistentes dentro de una población que para la población general; en tales casos, usar un enfoque de muestreo estratificado puede ser más conveniente que agregar datos entre grupos (aunque esto puede estar potencialmente en desacuerdo con la importancia previamente señalada de utilizar estratos relevantes para los criterios).
Por último, dado que cada estrato se trata como una población independiente, se pueden aplicar diferentes enfoques de muestreo a diferentes estratos, lo que potencialmente permite a los investigadores utilizar el enfoque más adecuado (o más rentable) para cada subgrupo identificado dentro de la población.
Sin embargo, el uso del muestreo estratificado tiene algunas desventajas potenciales. En primer lugar, la identificación de los estratos y la implementación de este enfoque pueden aumentar el costo y la complejidad de la selección de la muestra, además de generar una mayor complejidad de las estimaciones de población. En segundo lugar, al examinar múltiples criterios, las variables de estratificación pueden estar relacionadas con algunos, pero no con otros, lo que complica aún más el diseño y potencialmente reduce la utilidad de los estratos. Finalmente, en algunos casos (como los diseños con un gran número de estratos o aquellos con un tamaño mínimo de muestra especificado por grupo), el muestreo estratificado puede requerir potencialmente una muestra más grande que otros métodos (aunque en la mayoría de los casos, el tamaño de muestra requerido no sería mayor que el que se requeriría para el muestreo aleatorio simple).
La estratificación se introduce a veces después de la fase de muestreo en un proceso llamado "postestratificación". [8] Este enfoque se implementa normalmente debido a la falta de conocimiento previo de una variable estratificadora adecuada o cuando el experimentador carece de la información necesaria para crear una variable estratificadora durante la fase de muestreo. Aunque el método es susceptible a las trampas de los enfoques post hoc, puede proporcionar varios beneficios en la situación adecuada. La implementación suele seguir a una muestra aleatoria simple. Además de permitir la estratificación en una variable auxiliar, la postestratificación se puede utilizar para implementar la ponderación, lo que puede mejorar la precisión de las estimaciones de una muestra. [8]
El muestreo basado en la elección es una de las estrategias de muestreo estratificado. En el muestreo basado en la elección, [13] los datos se estratifican en función del objetivo y se toma una muestra de cada estrato para que la clase objetivo poco común esté más representada en la muestra. Luego, el modelo se construye sobre esta muestra sesgada . Los efectos de las variables de entrada en el objetivo a menudo se estiman con más precisión con la muestra basada en la elección, incluso cuando se toma un tamaño de muestra general más pequeño, en comparación con una muestra aleatoria. Por lo general, los resultados deben ajustarse para corregir el sobremuestreo.
En algunos casos, el diseñador de la muestra tiene acceso a una "variable auxiliar" o "medida de tamaño", que se cree que está correlacionada con la variable de interés, para cada elemento de la población. Estos datos se pueden utilizar para mejorar la precisión en el diseño de la muestra. Una opción es utilizar la variable auxiliar como base para la estratificación, como se explicó anteriormente.
Otra opción es el muestreo de probabilidad proporcional al tamaño (PPS), en el que la probabilidad de selección de cada elemento se establece de manera que sea proporcional a su medida de tamaño, hasta un máximo de 1. En un diseño PPS simple, estas probabilidades de selección se pueden utilizar como base para el muestreo de Poisson . Sin embargo, esto tiene el inconveniente de que el tamaño de la muestra es variable y diferentes porciones de la población aún pueden estar sobrerrepresentadas o subrepresentadas debido a la variación aleatoria en las selecciones.
La teoría del muestreo sistemático se puede utilizar para crear una muestra con una probabilidad proporcional al tamaño. Esto se hace tratando cada recuento dentro de la variable de tamaño como una sola unidad de muestreo. Luego, las muestras se identifican seleccionando a intervalos regulares entre estos recuentos dentro de la variable de tamaño. Este método a veces se denomina muestreo secuencial PPS o muestreo de unidad monetaria en el caso de auditorías o muestreo forense.
Ejemplo: Supongamos que tenemos seis escuelas con poblaciones de 150, 180, 200, 220, 260 y 490 estudiantes respectivamente (un total de 1500 estudiantes), y queremos usar la población estudiantil como base para una muestra PPS de tamaño tres. Para hacer esto, podríamos asignar los números de la primera escuela del 1 al 150, la segunda escuela del 151 al 330 (= 150 + 180), la tercera escuela del 331 al 530, y así sucesivamente hasta la última escuela (del 1011 al 1500). Luego generamos un inicio aleatorio entre 1 y 500 (igual a 1500/3) y contamos a través de las poblaciones escolares por múltiplos de 500. Si nuestro inicio aleatorio fuera 137, seleccionaríamos las escuelas a las que se les han asignado los números 137, 637 y 1137, es decir, la primera, cuarta y sexta escuela.
El método PPS puede mejorar la precisión para un tamaño de muestra determinado al concentrar la muestra en elementos grandes que tienen el mayor impacto en las estimaciones de población. El muestreo PPS se utiliza comúnmente para encuestas de empresas, donde el tamaño de los elementos varía mucho y a menudo se dispone de información auxiliar; por ejemplo, una encuesta que intente medir la cantidad de pernoctaciones en hoteles podría utilizar la cantidad de habitaciones de cada hotel como variable auxiliar. En algunos casos, se puede utilizar una medición más antigua de la variable de interés como variable auxiliar cuando se intenta producir estimaciones más actuales. [14]
A veces resulta más rentable seleccionar a los encuestados en grupos ("conglomerados"). El muestreo suele agruparse por geografía o por períodos de tiempo (casi todas las muestras están, en cierto sentido, "agrupadas" en el tiempo, aunque esto rara vez se tiene en cuenta en el análisis). Por ejemplo, si se encuestan hogares dentro de una ciudad, podríamos optar por seleccionar 100 manzanas de la ciudad y luego entrevistar a todos los hogares dentro de las manzanas seleccionadas.
La agrupación de las encuestas puede reducir los costos administrativos y de viaje. En el ejemplo anterior, un entrevistador puede hacer un solo viaje para visitar varios hogares en una cuadra, en lugar de tener que conducir hasta una cuadra diferente para cada hogar.
Esto también significa que no es necesario un marco de muestreo que incluya todos los elementos de la población objetivo. En cambio, los conglomerados se pueden elegir a partir de un marco a nivel de conglomerado, y se puede crear un marco a nivel de elemento solo para los conglomerados seleccionados. En el ejemplo anterior, la muestra solo requiere un mapa de la ciudad a nivel de manzanas para las selecciones iniciales y, luego, un mapa a nivel de hogares de las 100 manzanas seleccionadas, en lugar de un mapa a nivel de hogares de toda la ciudad.
El muestreo por conglomerados (también conocido como muestreo por conglomerados) generalmente aumenta la variabilidad de las estimaciones de la muestra por encima de la del muestreo aleatorio simple, dependiendo de cómo los conglomerados difieren entre sí en comparación con la variación dentro del conglomerado. Por esta razón, el muestreo por conglomerados requiere una muestra más grande que el muestreo aleatorio simple para lograr el mismo nivel de precisión, pero el ahorro de costos que supone el agrupamiento puede hacer que esta opción sea más barata.
El muestreo por conglomerados se suele implementar como muestreo multietápico . Se trata de una forma compleja de muestreo por conglomerados en la que dos o más niveles de unidades se insertan uno en el otro. La primera etapa consiste en construir los conglomerados que se utilizarán para el muestreo. En la segunda etapa, se selecciona aleatoriamente una muestra de unidades primarias de cada conglomerado (en lugar de utilizar todas las unidades contenidas en todos los conglomerados seleccionados). En las etapas siguientes, en cada uno de esos conglomerados seleccionados, se seleccionan muestras adicionales de unidades, y así sucesivamente. A continuación, se encuesta a todas las unidades finales (individuos, por ejemplo) seleccionadas en el último paso de este procedimiento. Por tanto, esta técnica es esencialmente el proceso de tomar submuestras aleatorias de muestras aleatorias anteriores.
El muestreo en múltiples etapas puede reducir sustancialmente los costos de muestreo, cuando sería necesario elaborar la lista completa de la población (antes de poder aplicar otros métodos de muestreo). Al eliminar el trabajo que implica describir los conglomerados que no se seleccionan, el muestreo en múltiples etapas puede reducir los grandes costos asociados con el muestreo tradicional por conglomerados. [14] Sin embargo, cada muestra puede no ser una representación completa de toda la población.
En el muestreo por cuotas , primero se segmenta la población en subgrupos mutuamente excluyentes , al igual que en el muestreo estratificado . Luego se utiliza el criterio para seleccionar los sujetos o unidades de cada segmento en función de una proporción específica. Por ejemplo, se le puede pedir a un entrevistador que tome una muestra de 200 mujeres y 300 hombres entre 45 y 60 años.
Este segundo paso es lo que hace que la técnica sea un muestreo no probabilístico. En el muestreo por cuotas, la selección de la muestra no es aleatoria . Por ejemplo, los entrevistadores pueden verse tentados a entrevistar a quienes parezcan más útiles. El problema es que estas muestras pueden estar sesgadas porque no todos tienen la oportunidad de ser seleccionados. Este elemento aleatorio es su mayor debilidad y la comparación entre cuotas y probabilidad ha sido un tema de controversia durante varios años.
En conjuntos de datos desequilibrados, donde la razón de muestreo no sigue las estadísticas de la población, se puede volver a muestrear el conjunto de datos de una manera conservadora llamada muestreo minimax . El muestreo minimax tiene su origen en la razón minimax de Anderson cuyo valor se ha demostrado que es 0,5: en una clasificación binaria, los tamaños de muestra de clase deben elegirse por igual. Se puede demostrar que esta razón es la razón minimax solo bajo el supuesto de un clasificador LDA con distribuciones gaussianas. La noción de muestreo minimax se desarrolló recientemente para una clase general de reglas de clasificación, llamadas clasificadores inteligentes por clase. En este caso, la razón de muestreo de clases se selecciona de modo que el error del clasificador en el peor de los casos sobre todas las estadísticas de población posibles para las probabilidades previas de clase sea el mejor. [12]
El muestreo accidental (a veces conocido como muestreo por conveniencia o por oportunidad ) es un tipo de muestreo no probabilístico que implica que la muestra se extrae de esa parte de la población que está más cerca. Es decir, se selecciona una población porque está disponible y es conveniente. Puede ser mediante el encuentro con la persona o incluyendo a una persona en la muestra cuando uno la conoce o escogida al encontrarla a través de medios tecnológicos como Internet o por teléfono. El investigador que utiliza una muestra de este tipo no puede hacer generalizaciones científicas sobre la población total de esta muestra porque no sería lo suficientemente representativa. Por ejemplo, si el entrevistador fuera a realizar una encuesta de este tipo en un centro comercial temprano en la mañana en un día determinado, las personas que podría entrevistar se limitarían a las que se encuentran allí en ese momento determinado, lo que no representaría las opiniones de otros miembros de la sociedad en esa área, si la encuesta se realizara en diferentes momentos del día y varias veces por semana. Este tipo de muestreo es más útil para pruebas piloto. Varias consideraciones importantes para los investigadores que utilizan muestras de conveniencia incluyen:
En la investigación en ciencias sociales, el muestreo de bola de nieve es una técnica similar, en la que se utilizan sujetos de estudio existentes para incorporar más sujetos a la muestra. Algunas variantes del muestreo de bola de nieve, como el muestreo impulsado por los encuestados, permiten calcular las probabilidades de selección y son métodos de muestreo probabilístico en determinadas condiciones.
El método de muestreo voluntario es un tipo de muestreo no probabilístico. Los voluntarios eligen completar una encuesta.
Se puede invitar a voluntarios a través de anuncios en las redes sociales. [15] La población objetivo de los anuncios se puede seleccionar por características como ubicación, edad, sexo, ingresos, ocupación, educación o intereses utilizando herramientas proporcionadas por el medio social. El anuncio puede incluir un mensaje sobre la investigación y un enlace a una encuesta. Después de seguir el enlace y completar la encuesta, el voluntario envía los datos para que se incluyan en la población de muestra. Este método puede llegar a una población global, pero está limitado por el presupuesto de la campaña. También se pueden incluir en la muestra voluntarios fuera de la población invitada.
Es difícil hacer generalizaciones a partir de esta muestra porque puede no representar a la población total. A menudo, los voluntarios tienen un gran interés en el tema principal de la encuesta.
El muestreo por intersección de líneas es un método de muestreo de elementos en una región mediante el cual se muestrea un elemento si un segmento de línea elegido, llamado "transecto", intersecta el elemento.
El muestreo de panel es el método de seleccionar primero un grupo de participantes a través de un método de muestreo aleatorio y luego pedirle a ese grupo (potencialmente la misma) información varias veces durante un período de tiempo. Por lo tanto, cada participante es entrevistado en dos o más puntos de tiempo; cada período de recolección de datos se llama "ola". El método fue desarrollado por el sociólogo Paul Lazarsfeld en 1938 como un medio para estudiar campañas políticas . [16] Este método de muestreo longitudinal permite estimaciones de cambios en la población, por ejemplo con respecto a enfermedades crónicas, estrés laboral y gastos semanales de comida. El muestreo de panel también se puede utilizar para informar a los investigadores sobre cambios en la salud dentro de la persona debido a la edad o para ayudar a explicar cambios en variables dependientes continuas como la interacción conyugal. [17] Se han propuesto varios métodos para analizar datos de panel , incluidos MANOVA , curvas de crecimiento y modelos de ecuaciones estructurales con efectos rezagados.
El muestreo por bola de nieve consiste en encontrar un pequeño grupo de encuestados iniciales y utilizarlos para reclutar a más encuestados. Es especialmente útil en casos en los que la población está oculta o es difícil de enumerar.
El muestreo teórico [18] se produce cuando se seleccionan muestras en función de los resultados de los datos recopilados hasta el momento con el objetivo de desarrollar una comprensión más profunda del área o desarrollar teorías. Se pueden seleccionar casos extremos o muy específicos para maximizar la probabilidad de que un fenómeno sea realmente observable.
En el muestreo activo, las muestras que se utilizan para entrenar un algoritmo de aprendizaje automático se seleccionan activamente; también se compara el aprendizaje activo (aprendizaje automático) .
Los esquemas de muestreo pueden ser sin reemplazo ('WOR' – ningún elemento puede seleccionarse más de una vez en la misma muestra) o con reemplazo ('WR' – un elemento puede aparecer varias veces en una muestra). Por ejemplo, si capturamos peces, los medimos y los devolvemos inmediatamente al agua antes de continuar con la muestra, este es un diseño WR, porque podríamos terminar capturando y midiendo el mismo pez más de una vez. Sin embargo, si no devolvemos el pez al agua o no etiquetamos y liberamos cada pez después de capturarlo, este se convierte en un diseño WOR.
Las fórmulas, tablas y gráficos de funciones de potencia son enfoques bien conocidos para determinar el tamaño de la muestra.
Pasos para utilizar tablas de tamaño de muestra:
Una buena recopilación de datos implica:
El muestreo permite seleccionar los puntos de datos correctos dentro de un conjunto de datos más amplio para estimar las características de toda la población. Por ejemplo, se producen alrededor de 600 millones de tuits cada día. No es necesario analizarlos todos para determinar los temas que se discuten durante el día, ni tampoco es necesario analizar todos los tuits para determinar el sentimiento sobre cada uno de los temas. Se ha desarrollado una formulación teórica para el muestreo de datos de Twitter. [20]
En la fabricación, se dispone de distintos tipos de datos sensoriales, como datos acústicos, de vibración, de presión, de corriente, de voltaje y de controladores, en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente.
Los resultados de las encuestas suelen estar sujetos a algún error. Los errores totales pueden clasificarse en errores de muestreo y errores ajenos al muestreo. El término "error" incluye aquí tanto los sesgos sistemáticos como los errores aleatorios.
Los errores y sesgos de muestreo son inducidos por el diseño de la muestra. Entre ellos se incluyen:
Los errores ajenos al muestreo son otros errores que pueden afectar las estimaciones finales de la encuesta, causados por problemas en la recopilación de datos, el procesamiento o el diseño de la muestra. Dichos errores pueden incluir:
Después del muestreo, se realiza una revisión del proceso exacto seguido en el muestreo, en lugar del previsto, con el fin de estudiar los posibles efectos que las divergencias pudieran tener en los análisis posteriores.
Un problema particular es la falta de respuesta . Existen dos tipos principales de falta de respuesta: [21] [22]
En el muestreo por encuesta , muchas de las personas identificadas como parte de la muestra pueden no estar dispuestas a participar, no tener tiempo para participar ( costo de oportunidad ), [23] o los administradores de la encuesta pueden no haber podido contactarlas. En este caso, existe el riesgo de que haya diferencias entre los encuestados y los que no responden, lo que lleva a estimaciones sesgadas de los parámetros de la población. Esto a menudo se aborda mejorando el diseño de la encuesta, ofreciendo incentivos y realizando estudios de seguimiento que hagan un intento repetido de contactar a los que no responden y caracterizar sus similitudes y diferencias con el resto del marco. [24] Los efectos también se pueden mitigar ponderando los datos (cuando se dispone de puntos de referencia de la población) o imputando datos basados en las respuestas a otras preguntas. La falta de respuesta es particularmente un problema en el muestreo por Internet. Las razones de este problema pueden incluir encuestas mal diseñadas, [22] encuestas excesivas (o fatiga de encuestas), [17] [25] [ se necesita cita para verificar ] y el hecho de que los participantes potenciales pueden tener múltiples direcciones de correo electrónico, que ya no usan o no revisan regularmente.
En muchas situaciones, la fracción de la muestra puede variar según el estrato y será necesario ponderar los datos para que representen correctamente a la población. Así, por ejemplo, una muestra aleatoria simple de individuos del Reino Unido podría no incluir a algunos de los habitantes de islas remotas de Escocia, cuya muestra sería excesivamente costosa. Un método más económico sería utilizar una muestra estratificada con estratos urbanos y rurales. La muestra rural podría estar subrepresentada en la muestra, pero ponderada adecuadamente en el análisis para compensar.
En términos más generales, los datos deberían ponderarse si el diseño de la muestra no otorga a cada individuo la misma probabilidad de ser seleccionado. Por ejemplo, cuando los hogares tienen las mismas probabilidades de selección pero se entrevista a una persona de cada hogar, esto da a las personas de hogares grandes una menor probabilidad de ser entrevistadas. Esto se puede explicar utilizando ponderaciones de la encuesta. De manera similar, los hogares con más de una línea telefónica tienen una mayor probabilidad de ser seleccionados en una muestra de marcación aleatoria de dígitos, y las ponderaciones pueden ajustarse para tener esto en cuenta.
Los pesos también pueden servir para otros propósitos, como ayudar a corregir la falta de respuesta.
El libro de texto de Groves et alia proporciona una descripción general de la metodología de encuesta, incluida la literatura reciente sobre el desarrollo de cuestionarios (informada por la psicología cognitiva ):
Los otros libros se centran en la teoría estadística del muestreo por encuestas y requieren algunos conocimientos de estadística básica, como se analiza en los siguientes libros de texto:
El libro elemental de Scheaffer et alia utiliza ecuaciones cuadráticas del álgebra de secundaria:
Se requieren más estadísticas matemáticas para Lohr, para Särndal et alia, y para Cochran: [26]
Los libros históricamente importantes de Deming y Kish siguen siendo valiosos para los científicos sociales (en particular sobre el censo de los EE. UU. y el Instituto de Investigación Social de la Universidad de Michigan ):