stringtranslate.com

Muestreo (estadísticas)

Una representación visual del proceso de muestreo.

En estadística , control de calidad y metodología de encuestas , el muestreo es la selección de un subconjunto o una muestra estadística (denominada muestra para abreviar) de individuos de una población estadística para estimar las características de toda la población. El subconjunto pretende reflejar toda la población y los estadísticos intentan recopilar muestras que sean representativas de la población. El muestreo tiene menores costos y una recopilación de datos más rápida en comparación con el registro de datos de toda la población y, por lo tanto, puede proporcionar información en casos en los que no es factible medir una población completa.

Cada observación mide una o más propiedades (como peso, ubicación, color o masa) de objetos o individuos independientes. En el muestreo por encuesta , se pueden aplicar ponderaciones a los datos para ajustar el diseño de la muestra, en particular en el muestreo estratificado . [1] Los resultados de la teoría de la probabilidad y la teoría estadística se emplean para guiar la práctica. En la investigación médica y empresarial, el muestreo se utiliza ampliamente para recopilar información sobre una población. [2] El muestreo de aceptación se utiliza para determinar si un lote de producción de material cumple con las especificaciones vigentes .

Historia

El muestreo aleatorio mediante lotes es una idea antigua, mencionada varias veces en la Biblia. En 1786, Pierre Simon Laplace estimó la población de Francia utilizando una muestra, junto con un estimador de razón . También calculó estimaciones probabilísticas del error. Estas no se expresaron como intervalos de confianza modernos , sino como el tamaño de muestra que se necesitaría para lograr un límite superior particular en el error de muestreo con una probabilidad de 1000/1001. Sus estimaciones utilizaron el teorema de Bayes con una probabilidad previa uniforme y asumieron que su muestra era aleatoria. Alexander Ivanovich Chuprov introdujo las encuestas de muestreo en la Rusia imperial en la década de 1870. [3]

En Estados Unidos, la predicción que hizo el Literary Digest en 1936 sobre una victoria republicana en las elecciones presidenciales fracasó estrepitosamente debido a un sesgo grave [1]. Más de dos millones de personas respondieron al estudio con sus nombres obtenidos a través de listas de suscripciones a revistas y directorios telefónicos. No se tuvo en cuenta que estas listas estaban fuertemente sesgadas a favor de los republicanos y que la muestra resultante, aunque muy grande, tenía graves defectos. [4] [5]

Las elecciones en Singapur han adoptado esta práctica desde las elecciones de 2015 , también conocida como recuento de muestras, mientras que según el Departamento de Elecciones (ELD), la comisión electoral de su país, los recuentos de muestras ayudan a reducir la especulación y la desinformación, al tiempo que ayudan a los funcionarios electorales a contrastar el resultado de las elecciones para esa división electoral. Los recuentos de muestras informados arrojan un resultado indicativo bastante preciso con un intervalo de confianza del 95% con un margen de error de entre el 4 y el 5%; ELD recordó al público que los recuentos de muestras son independientes de los resultados oficiales, y solo el funcionario electoral declarará los resultados oficiales una vez que se complete el recuento de votos. [6] [7]

Definición de población

Una práctica estadística exitosa se basa en una definición precisa del problema. En el caso del muestreo, esto incluye definir la " población " de la que se extrae la muestra. Una población puede definirse como la totalidad de las personas o elementos con las características que se desean comprender. Debido a que rara vez se dispone de tiempo o dinero suficiente para recopilar información de todos o de todo en una población, el objetivo es encontrar una muestra (o subconjunto) representativa de esa población.

A veces, lo que define una población es obvio. Por ejemplo, un fabricante debe decidir si un lote de material de producción tiene la calidad suficiente para ser entregado al cliente o si debe desecharse o reelaborarse debido a su mala calidad. En este caso, el lote es la población.

Aunque la población de interés suele estar formada por objetos físicos, a veces es necesario realizar un muestreo en el tiempo, el espacio o alguna combinación de estas dimensiones. Por ejemplo, una investigación sobre la dotación de personal de un supermercado podría examinar la longitud de la cola de la caja en distintos momentos, o un estudio sobre pingüinos en peligro de extinción podría apuntar a comprender el uso que hacen de diversos terrenos de caza a lo largo del tiempo. En cuanto a la dimensión temporal, el enfoque puede estar en períodos u ocasiones discretas.

En otros casos, la "población" examinada puede ser incluso menos tangible. Por ejemplo, Joseph Jagger estudió el comportamiento de las ruletas en un casino de Montecarlo y utilizó esto para identificar una ruleta sesgada. En este caso, la "población" que Jagger quería investigar era el comportamiento general de la ruleta (es decir, la distribución de probabilidad de sus resultados a lo largo de una cantidad infinita de ensayos), mientras que su "muestra" se formó a partir de los resultados observados de esa ruleta. Surgen consideraciones similares cuando se toman mediciones repetidas de propiedades de materiales como la conductividad eléctrica del cobre .

Esta situación se presenta a menudo cuando se busca conocer el sistema de causas del que la población observada es un resultado. En tales casos, la teoría del muestreo puede tratar a la población observada como una muestra de una "superpoblación" más grande. Por ejemplo, un investigador podría estudiar la tasa de éxito de un nuevo programa para "dejar de fumar" en un grupo de prueba de 100 pacientes, con el fin de predecir los efectos del programa si se pusiera a disposición de todo el país. En este caso, la superpoblación es "toda la gente del país que tenga acceso a este tratamiento", un grupo que todavía no existe porque el programa aún no está disponible para todos.

La población de la que se extrae la muestra puede no ser la misma que la población de la que se desea obtener la información. A menudo hay una superposición grande, pero no completa, entre estos dos grupos debido a problemas de encuadre, etc. (ver más abajo). A veces pueden ser completamente independientes; por ejemplo, se pueden estudiar ratas para comprender mejor la salud humana, o se pueden estudiar registros de personas nacidas en 2008 para hacer predicciones sobre personas nacidas en 2009.

El tiempo invertido en precisar la población muestreada y la población en cuestión suele estar bien empleado porque plantea muchos problemas, ambigüedades y preguntas que de otro modo se habrían pasado por alto en esta etapa.

Marco de muestreo

En el caso más sencillo, como el muestreo de un lote de material de producción (muestreo de aceptación por lotes), lo más deseable sería identificar y medir cada uno de los elementos de la población e incluir cualquiera de ellos en nuestra muestra. Sin embargo, en el caso más general esto no suele ser posible ni práctico. No hay forma de identificar a todas las ratas en el conjunto de todas las ratas. Cuando el voto no es obligatorio, no hay forma de identificar qué personas votarán en una próxima elección (antes de la elección). Estas poblaciones imprecisas no son susceptibles de muestreo de ninguna de las formas que se indican a continuación y a las que podríamos aplicar la teoría estadística.

Como solución, buscamos un marco de muestreo que tenga la propiedad de que podamos identificar cada elemento individual e incluir cualquiera de ellos en nuestra muestra. [8] [9] [10] [11] El tipo de marco más sencillo es una lista de elementos de la población (preferiblemente toda la población) con información de contacto apropiada. Por ejemplo, en una encuesta de opinión , los posibles marcos de muestreo incluyen un registro electoral y una guía telefónica .

Una muestra probabilística es una muestra en la que cada unidad de la población tiene una probabilidad (mayor que cero) de ser seleccionada en la muestra, y esta probabilidad puede determinarse con precisión. La combinación de estos rasgos permite producir estimaciones imparciales de los totales de la población, ponderando las unidades muestreadas según su probabilidad de selección.

Ejemplo: Queremos estimar el ingreso total de los adultos que viven en una calle determinada. Visitamos cada hogar de esa calle, identificamos a todos los adultos que viven allí y seleccionamos aleatoriamente a un adulto de cada hogar. (Por ejemplo, podemos asignar a cada persona un número aleatorio, generado a partir de una distribución uniforme entre 0 y 1, y seleccionar a la persona con el número más alto en cada hogar). Luego entrevistamos a la persona seleccionada y calculamos sus ingresos.

Las personas que viven solas seguramente serán seleccionadas, por lo que simplemente sumamos sus ingresos a nuestra estimación del total. Pero una persona que vive en un hogar de dos adultos tiene solo una probabilidad de una en dos de ser seleccionada. Para reflejar esto, cuando nos encontramos con un hogar de ese tipo, contaríamos los ingresos de la persona seleccionada dos veces en el total. (La persona que es seleccionada de ese hogar puede considerarse, en términos generales, como la persona que no es seleccionada).

En el ejemplo anterior, no todos tienen la misma probabilidad de ser seleccionados; lo que hace que se trate de una muestra probabilística es el hecho de que se conoce la probabilidad de cada persona. Cuando todos los elementos de la población tienen la misma probabilidad de ser seleccionados, esto se conoce como un diseño de "igual probabilidad de selección" (EPS, por sus siglas en inglés). Estos diseños también se conocen como "autoponderados" porque a todas las unidades muestreadas se les asigna el mismo peso.

El muestreo probabilístico incluye: muestreo aleatorio simple , muestreo sistemático , muestreo estratificado , muestreo de probabilidad proporcional al tamaño y muestreo por conglomerados o multietápico . Estas distintas formas de muestreo probabilístico tienen dos cosas en común:

  1. Cada elemento tiene una probabilidad conocida distinta de cero de ser muestreado y
  2. implica una selección aleatoria en algún momento.

Muestreo no probabilístico

El muestreo no probabilístico es cualquier método de muestreo en el que algunos elementos de la población no tienen posibilidad de ser seleccionados (a veces se los denomina "fuera de cobertura"/"subcubiertos"), o en el que la probabilidad de selección no se puede determinar con precisión. Implica la selección de elementos en función de suposiciones sobre la población de interés, que forma los criterios de selección. Por lo tanto, debido a que la selección de elementos no es aleatoria, el muestreo no probabilístico no permite la estimación de errores de muestreo. Estas condiciones dan lugar al sesgo de exclusión , que impone límites a la cantidad de información que una muestra puede proporcionar sobre la población. La información sobre la relación entre la muestra y la población es limitada, lo que dificulta la extrapolación de la muestra a la población.

Ejemplo: Visitamos todos los hogares de una calle determinada y entrevistamos a la primera persona que abre la puerta. En cualquier hogar con más de un ocupante, se trata de una muestra no probabilística, porque algunas personas tienen más probabilidades de abrir la puerta (por ejemplo, una persona desempleada que pasa la mayor parte del tiempo en casa tiene más probabilidades de hacerlo que un compañero de casa empleado que podría estar en el trabajo cuando el entrevistador llama) y no es práctico calcular estas probabilidades.

Los métodos de muestreo no probabilístico incluyen el muestreo por conveniencia , el muestreo por cuotas y el muestreo intencional . Además, los efectos de la falta de respuesta pueden convertir cualquier diseño de probabilidad en un diseño no probabilístico si no se comprenden bien las características de la falta de respuesta, ya que la falta de respuesta modifica efectivamente la probabilidad de que cada elemento sea muestreado.

Métodos de muestreo

En cualquiera de los tipos de marcos identificados anteriormente, se pueden emplear distintos métodos de muestreo de forma individual o en combinación. Los factores que suelen influir en la elección entre estos diseños son los siguientes:

Muestreo aleatorio simple

Una representación visual de la selección de una muestra aleatoria simple

En una muestra aleatoria simple (MAS) de un tamaño determinado, todos los subconjuntos de un marco de muestreo tienen la misma probabilidad de ser seleccionados. Por lo tanto, cada elemento del marco tiene la misma probabilidad de selección: el marco no se subdivide ni se divide. Además, cualquier par de elementos tiene la misma probabilidad de selección que cualquier otro par de este tipo (y lo mismo ocurre con los triples, etc.). Esto minimiza el sesgo y simplifica el análisis de los resultados. En particular, la varianza entre los resultados individuales dentro de la muestra es un buen indicador de la varianza en la población general, lo que hace que sea relativamente fácil estimar la precisión de los resultados.

El muestreo aleatorio simple puede ser vulnerable a errores de muestreo porque la aleatoriedad de la selección puede dar como resultado una muestra que no refleje la composición de la población. Por ejemplo, una muestra aleatoria simple de diez personas de un país determinado producirá, en promedio, cinco hombres y cinco mujeres, pero es probable que cualquier ensayo dado sobrerrepresentará a un sexo y subrepresentará al otro. Las técnicas sistemáticas y estratificadas intentan superar este problema "utilizando información sobre la población" para elegir una muestra más "representativa".

Además, el muestreo aleatorio simple puede resultar engorroso y tedioso cuando se toma una muestra de una población objetivo grande. En algunos casos, los investigadores están interesados ​​en preguntas de investigación específicas de subgrupos de la población. Por ejemplo, los investigadores podrían estar interesados ​​en examinar si la capacidad cognitiva como predictor del desempeño laboral es igualmente aplicable a todos los grupos raciales. El muestreo aleatorio simple no puede satisfacer las necesidades de los investigadores en esta situación, porque no proporciona submuestras de la población y se pueden utilizar en su lugar otras estrategias de muestreo, como el muestreo estratificado.

Muestreo sistemático

Una representación visual de la selección de una muestra aleatoria utilizando la técnica de muestreo sistemático

El muestreo sistemático (también conocido como muestreo por intervalos) se basa en organizar la población de estudio según un esquema de ordenamiento y luego seleccionar elementos a intervalos regulares a través de esa lista ordenada. El muestreo sistemático implica un inicio aleatorio y luego procede con la selección de cada k elemento a partir de ese momento. En este caso, k = (tamaño de la población / tamaño de la muestra). Es importante que el punto de partida no sea automáticamente el primero en la lista, sino que se elija aleatoriamente entre el primero y el k elemento de la lista. Un ejemplo simple sería seleccionar cada décimo nombre de la guía telefónica (una muestra "cada décimo", también conocida como "muestreo con un salto de 10").

Siempre que el punto de partida sea aleatorio , el muestreo sistemático es un tipo de muestreo probabilístico . Es fácil de implementar y la estratificación inducida puede hacerlo eficiente, si la variable por la que se ordena la lista está correlacionada con la variable de interés. El muestreo "cada 10" es especialmente útil para un muestreo eficiente de bases de datos .

Por ejemplo, supongamos que queremos muestrear a personas de una calle larga que comienza en una zona pobre (casa n.º 1) y termina en un distrito caro (casa n.º 1000). Una simple selección aleatoria de direcciones de esta calle podría fácilmente terminar con demasiadas personas del extremo superior y muy pocas del extremo inferior (o viceversa), lo que daría lugar a una muestra no representativa. Seleccionar (por ejemplo) cada décimo número de calle a lo largo de la calle garantiza que la muestra se distribuya uniformemente a lo largo de la calle, representando todos estos distritos. (Si siempre comenzamos en la casa n.º 1 y terminamos en la n.º 991, la muestra está ligeramente sesgada hacia el extremo inferior; al seleccionar aleatoriamente el inicio entre la n.º 1 y la n.º 10, se elimina este sesgo).

Sin embargo, el muestreo sistemático es especialmente vulnerable a las periodicidades en la lista. Si hay periodicidad y el período es un múltiplo o factor del intervalo utilizado, es especialmente probable que la muestra no sea representativa de la población general, lo que hace que el esquema sea menos preciso que el muestreo aleatorio simple.

Por ejemplo, supongamos que las casas impares están todas en el lado norte (el más caro) de la calle y las casas pares están todas en el lado sur (el más barato). Con el esquema de muestreo indicado anteriormente, es imposible obtener una muestra representativa; o bien las casas muestreadas serán todas del lado impar (el más caro) o serán todas del lado par (el más barato), a menos que el investigador tenga conocimiento previo de este sesgo y lo evite utilizando un salto que asegure el salto entre los dos lados (cualquier salto impar).

Otro inconveniente del muestreo sistemático es que, incluso en los casos en que es más preciso que el muestreo aleatorio simple, sus propiedades teóricas dificultan la cuantificación de esa precisión. (En los dos ejemplos de muestreo sistemático que se dan más arriba, gran parte del error de muestreo potencial se debe a la variación entre casas vecinas, pero como este método nunca selecciona dos casas vecinas, la muestra no nos dará ninguna información sobre esa variación).

Como se ha descrito anteriormente, el muestreo sistemático es un método EPS, porque todos los elementos tienen la misma probabilidad de selección (en el ejemplo dado, una en diez). No se trata de un "muestreo aleatorio simple" porque diferentes subconjuntos del mismo tamaño tienen diferentes probabilidades de selección; por ejemplo, el conjunto {4,14,24,...,994} tiene una probabilidad de selección de una en diez, pero el conjunto {4,13,24,34,...} tiene una probabilidad de selección cero.

El muestreo sistemático también se puede adaptar a un enfoque no EPS; para ver un ejemplo, véase la discusión sobre muestras PPS a continuación.

Muestreo estratificado

Una representación visual de la selección de una muestra aleatoria utilizando la técnica de muestreo estratificado

Cuando la población comprende varias categorías distintas, el marco puede organizarse por categorías en "estratos" separados. Luego, cada estrato se muestrea como una subpoblación independiente, de la cual se pueden seleccionar elementos individuales al azar. [8] La relación entre el tamaño de esta selección aleatoria (o muestra) y el tamaño de la población se denomina fracción de muestreo . [12] El muestreo estratificado tiene varios beneficios potenciales. [12]

En primer lugar, dividir la población en estratos distintos e independientes puede permitir a los investigadores extraer inferencias sobre subgrupos específicos que podrían perderse en una muestra aleatoria más generalizada.

En segundo lugar, la utilización de un método de muestreo estratificado puede conducir a estimaciones estadísticas más eficientes (siempre que los estratos se seleccionen en función de su relevancia para el criterio en cuestión, en lugar de en función de la disponibilidad de las muestras). Incluso si un método de muestreo estratificado no conduce a una mayor eficiencia estadística, esa táctica no resultará en una menor eficiencia que la del muestreo aleatorio simple, siempre que cada estrato sea proporcional al tamaño del grupo en la población.

En tercer lugar, a veces ocurre que los datos están más fácilmente disponibles para estratos individuales preexistentes dentro de una población que para la población general; en tales casos, usar un enfoque de muestreo estratificado puede ser más conveniente que agregar datos entre grupos (aunque esto puede estar potencialmente en desacuerdo con la importancia previamente señalada de utilizar estratos relevantes para los criterios).

Por último, dado que cada estrato se trata como una población independiente, se pueden aplicar diferentes enfoques de muestreo a diferentes estratos, lo que potencialmente permite a los investigadores utilizar el enfoque más adecuado (o más rentable) para cada subgrupo identificado dentro de la población.

Sin embargo, el uso del muestreo estratificado tiene algunas desventajas potenciales. En primer lugar, la identificación de los estratos y la implementación de este enfoque pueden aumentar el costo y la complejidad de la selección de la muestra, además de generar una mayor complejidad de las estimaciones de población. En segundo lugar, al examinar múltiples criterios, las variables de estratificación pueden estar relacionadas con algunos, pero no con otros, lo que complica aún más el diseño y potencialmente reduce la utilidad de los estratos. Finalmente, en algunos casos (como los diseños con un gran número de estratos o aquellos con un tamaño mínimo de muestra especificado por grupo), el muestreo estratificado puede requerir potencialmente una muestra más grande que otros métodos (aunque en la mayoría de los casos, el tamaño de muestra requerido no sería mayor que el que se requeriría para el muestreo aleatorio simple).

Un enfoque de muestreo estratificado es más eficaz cuando se cumplen tres condiciones
  1. Se minimiza la variabilidad dentro de los estratos.
  2. Se maximiza la variabilidad entre estratos.
  3. Las variables sobre las que se estratifica la población están fuertemente correlacionadas con la variable dependiente deseada.
Ventajas sobre otros métodos de muestreo
  1. Se centra en subpoblaciones importantes e ignora las irrelevantes.
  2. Permite el uso de diferentes técnicas de muestreo para diferentes subpoblaciones.
  3. Mejora la precisión/eficiencia de la estimación.
  4. Permite un mayor equilibrio del poder estadístico de las pruebas de diferencias entre estratos al muestrear números iguales de estratos que varían ampliamente en tamaño.
Desventajas
  1. Requiere la selección de variables de estratificación relevantes, lo que puede resultar difícil.
  2. No es útil cuando no hay subgrupos homogéneos.
  3. Puede ser costoso de implementar.
Postestratificación

La estratificación se introduce a veces después de la fase de muestreo en un proceso llamado "postestratificación". [8] Este enfoque se implementa normalmente debido a la falta de conocimiento previo de una variable estratificadora adecuada o cuando el experimentador carece de la información necesaria para crear una variable estratificadora durante la fase de muestreo. Aunque el método es susceptible a las trampas de los enfoques post hoc, puede proporcionar varios beneficios en la situación adecuada. La implementación suele seguir a una muestra aleatoria simple. Además de permitir la estratificación en una variable auxiliar, la postestratificación se puede utilizar para implementar la ponderación, lo que puede mejorar la precisión de las estimaciones de una muestra. [8]

Sobremuestreo

El muestreo basado en la elección es una de las estrategias de muestreo estratificado. En el muestreo basado en la elección, [13] los datos se estratifican en función del objetivo y se toma una muestra de cada estrato para que la clase objetivo poco común esté más representada en la muestra. Luego, el modelo se construye sobre esta muestra sesgada . Los efectos de las variables de entrada en el objetivo a menudo se estiman con más precisión con la muestra basada en la elección, incluso cuando se toma un tamaño de muestra general más pequeño, en comparación con una muestra aleatoria. Por lo general, los resultados deben ajustarse para corregir el sobremuestreo.

Muestreo de probabilidad proporcional al tamaño

En algunos casos, el diseñador de la muestra tiene acceso a una "variable auxiliar" o "medida de tamaño", que se cree que está correlacionada con la variable de interés, para cada elemento de la población. Estos datos se pueden utilizar para mejorar la precisión en el diseño de la muestra. Una opción es utilizar la variable auxiliar como base para la estratificación, como se explicó anteriormente.

Otra opción es el muestreo de probabilidad proporcional al tamaño (PPS), en el que la probabilidad de selección de cada elemento se establece de manera que sea proporcional a su medida de tamaño, hasta un máximo de 1. En un diseño PPS simple, estas probabilidades de selección se pueden utilizar como base para el muestreo de Poisson . Sin embargo, esto tiene el inconveniente de que el tamaño de la muestra es variable y diferentes porciones de la población aún pueden estar sobrerrepresentadas o subrepresentadas debido a la variación aleatoria en las selecciones.

La teoría del muestreo sistemático se puede utilizar para crear una muestra con una probabilidad proporcional al tamaño. Esto se hace tratando cada recuento dentro de la variable de tamaño como una sola unidad de muestreo. Luego, las muestras se identifican seleccionando a intervalos regulares entre estos recuentos dentro de la variable de tamaño. Este método a veces se denomina muestreo secuencial PPS o muestreo de unidad monetaria en el caso de auditorías o muestreo forense.

Ejemplo: Supongamos que tenemos seis escuelas con poblaciones de 150, 180, 200, 220, 260 y 490 estudiantes respectivamente (un total de 1500 estudiantes), y queremos usar la población estudiantil como base para una muestra PPS de tamaño tres. Para hacer esto, podríamos asignar los números de la primera escuela del 1 al 150, la segunda escuela del 151 al 330 (= 150 + 180), la tercera escuela del 331 al 530, y así sucesivamente hasta la última escuela (del 1011 al 1500). Luego generamos un inicio aleatorio entre 1 y 500 (igual a 1500/3) y contamos a través de las poblaciones escolares por múltiplos de 500. Si nuestro inicio aleatorio fuera 137, seleccionaríamos las escuelas a las que se les han asignado los números 137, 637 y 1137, es decir, la primera, cuarta y sexta escuela.

El método PPS puede mejorar la precisión para un tamaño de muestra determinado al concentrar la muestra en elementos grandes que tienen el mayor impacto en las estimaciones de población. El muestreo PPS se utiliza comúnmente para encuestas de empresas, donde el tamaño de los elementos varía mucho y a menudo se dispone de información auxiliar; por ejemplo, una encuesta que intente medir la cantidad de noches de alojamiento en hoteles podría utilizar la cantidad de habitaciones de cada hotel como variable auxiliar. En algunos casos, se puede utilizar una medición más antigua de la variable de interés como variable auxiliar cuando se intenta producir estimaciones más actuales. [14]

Muestreo por conglomerados

Una representación visual de la selección de una muestra aleatoria utilizando la técnica de muestreo por conglomerados

A veces resulta más rentable seleccionar a los encuestados en grupos ("conglomerados"). El muestreo suele agruparse por geografía o por períodos de tiempo (casi todas las muestras están, en algún sentido, "agrupadas" en el tiempo, aunque esto rara vez se tiene en cuenta en el análisis). Por ejemplo, si se encuestan hogares dentro de una ciudad, podríamos optar por seleccionar 100 manzanas de la ciudad y luego entrevistar a todos los hogares dentro de las manzanas seleccionadas.

La agrupación de las encuestas puede reducir los costos administrativos y de viaje. En el ejemplo anterior, un entrevistador puede hacer un solo viaje para visitar varios hogares en una cuadra, en lugar de tener que conducir hasta una cuadra diferente para cada hogar.

Esto también significa que no se necesita un marco de muestreo que incluya todos los elementos de la población objetivo. En cambio, los conglomerados se pueden elegir a partir de un marco a nivel de conglomerado, y se puede crear un marco a nivel de elemento solo para los conglomerados seleccionados. En el ejemplo anterior, la muestra solo requiere un mapa de la ciudad a nivel de manzana para las selecciones iniciales y luego un mapa a nivel de hogar de las 100 manzanas seleccionadas, en lugar de un mapa a nivel de hogar de toda la ciudad.

El muestreo por conglomerados (también conocido como muestreo por conglomerados) generalmente aumenta la variabilidad de las estimaciones de la muestra por encima de la del muestreo aleatorio simple, dependiendo de cómo los conglomerados difieren entre sí en comparación con la variación dentro del conglomerado. Por esta razón, el muestreo por conglomerados requiere una muestra más grande que el muestreo aleatorio simple para lograr el mismo nivel de precisión, pero el ahorro de costos que supone el agrupamiento puede hacer que esta opción sea más barata.

El muestreo por conglomerados se suele implementar como muestreo multietápico . Se trata de una forma compleja de muestreo por conglomerados en la que dos o más niveles de unidades se insertan uno en el otro. La primera etapa consiste en construir los conglomerados que se utilizarán para el muestreo. En la segunda etapa, se selecciona aleatoriamente una muestra de unidades primarias de cada conglomerado (en lugar de utilizar todas las unidades contenidas en todos los conglomerados seleccionados). En las etapas siguientes, en cada uno de esos conglomerados seleccionados, se seleccionan muestras adicionales de unidades, y así sucesivamente. A continuación, se encuesta a todas las unidades finales (individuos, por ejemplo) seleccionadas en el último paso de este procedimiento. Por tanto, esta técnica es esencialmente el proceso de tomar submuestras aleatorias de muestras aleatorias anteriores.

El muestreo en múltiples etapas puede reducir sustancialmente los costos de muestreo, cuando sería necesario elaborar la lista completa de la población (antes de poder aplicar otros métodos de muestreo). Al eliminar el trabajo que implica describir los conglomerados que no se seleccionan, el muestreo en múltiples etapas puede reducir los grandes costos asociados con el muestreo tradicional por conglomerados. [14] Sin embargo, cada muestra puede no ser una representación completa de toda la población.

Muestreo por cuotas

En el muestreo por cuotas , primero se segmenta la población en subgrupos mutuamente excluyentes , al igual que en el muestreo estratificado . Luego se utiliza el criterio para seleccionar los sujetos o unidades de cada segmento en función de una proporción específica. Por ejemplo, se le puede pedir a un entrevistador que tome una muestra de 200 mujeres y 300 hombres entre 45 y 60 años.

Este segundo paso es lo que hace que la técnica sea un muestreo no probabilístico. En el muestreo por cuotas, la selección de la muestra no es aleatoria . Por ejemplo, los entrevistadores pueden verse tentados a entrevistar a quienes parezcan más útiles. El problema es que estas muestras pueden estar sesgadas porque no todos tienen la oportunidad de ser seleccionados. Este elemento aleatorio es su mayor debilidad y la comparación entre cuotas y probabilidad ha sido un tema de controversia durante varios años.

Muestreo minimax

En conjuntos de datos desequilibrados, donde la razón de muestreo no sigue las estadísticas de la población, se puede remuestrear el conjunto de datos de una manera conservadora llamada muestreo minimax . El muestreo minimax tiene su origen en la razón minimax de Anderson cuyo valor se demuestra que es 0,5: en una clasificación binaria, los tamaños de muestra de clase deben elegirse por igual. Se puede demostrar que esta razón es la razón minimax solo bajo el supuesto de un clasificador LDA con distribuciones gaussianas. La noción de muestreo minimax se desarrolló recientemente para una clase general de reglas de clasificación, llamadas clasificadores inteligentes por clase. En este caso, la razón de muestreo de clases se selecciona de modo que el error del clasificador en el peor de los casos sobre todas las estadísticas de población posibles para las probabilidades previas de clase sea el mejor. [12]

Muestreo accidental

El muestreo accidental (a veces conocido como muestreo por conveniencia o por oportunidad ) es un tipo de muestreo no probabilístico que implica que la muestra se extrae de esa parte de la población que está más cerca. Es decir, se selecciona una población porque está disponible y es conveniente. Puede ser mediante el encuentro con la persona o incluyendo a una persona en la muestra cuando uno la conoce o escogida al encontrarla a través de medios tecnológicos como Internet o por teléfono. El investigador que utiliza una muestra de este tipo no puede hacer generalizaciones científicas sobre la población total de esta muestra porque no sería lo suficientemente representativa. Por ejemplo, si el entrevistador fuera a realizar una encuesta de este tipo en un centro comercial temprano en la mañana en un día determinado, las personas que podría entrevistar se limitarían a las que se encuentran allí en ese momento determinado, lo que no representaría las opiniones de otros miembros de la sociedad en esa área, si la encuesta se realizara en diferentes momentos del día y varias veces por semana. Este tipo de muestreo es más útil para pruebas piloto. Varias consideraciones importantes para los investigadores que utilizan muestras de conveniencia incluyen:

  1. ¿Existen controles dentro del diseño de la investigación o del experimento que puedan servir para disminuir el impacto de una muestra de conveniencia no aleatoria, garantizando así que los resultados serán más representativos de la población?
  2. ¿Existe una buena razón para creer que una muestra de conveniencia particular respondería o debería comportarse de manera diferente que una muestra aleatoria de la misma población?
  3. ¿La pregunta que plantea la investigación puede responderse adecuadamente utilizando una muestra de conveniencia?

En la investigación en ciencias sociales, el muestreo de bola de nieve es una técnica similar, en la que se utilizan sujetos de estudio existentes para incorporar más sujetos a la muestra. Algunas variantes del muestreo de bola de nieve, como el muestreo impulsado por los encuestados, permiten calcular las probabilidades de selección y son métodos de muestreo probabilístico en determinadas condiciones.

Muestreo voluntario

El método de muestreo voluntario es un tipo de muestreo no probabilístico. Los voluntarios eligen completar una encuesta.

Se puede invitar a voluntarios a través de anuncios en las redes sociales. [15] La población objetivo de los anuncios se puede seleccionar por características como ubicación, edad, sexo, ingresos, ocupación, educación o intereses utilizando herramientas proporcionadas por el medio social. El anuncio puede incluir un mensaje sobre la investigación y un enlace a una encuesta. Después de seguir el enlace y completar la encuesta, el voluntario envía los datos para que se incluyan en la población de muestra. Este método puede llegar a una población global, pero está limitado por el presupuesto de la campaña. También se pueden incluir en la muestra voluntarios fuera de la población invitada.

Es difícil hacer generalizaciones a partir de esta muestra porque puede no representar a la población total. A menudo, los voluntarios tienen un gran interés en el tema principal de la encuesta.

Muestreo por intersección de línea

El muestreo por intersección de líneas es un método de muestreo de elementos en una región mediante el cual se muestrea un elemento si un segmento de línea elegido, llamado "transecto", intersecta el elemento.

Muestreo de panel

El muestreo de panel es el método de seleccionar primero un grupo de participantes a través de un método de muestreo aleatorio y luego pedirle a ese grupo (potencialmente la misma) información varias veces durante un período de tiempo. Por lo tanto, cada participante es entrevistado en dos o más puntos de tiempo; cada período de recolección de datos se llama "ola". El método fue desarrollado por el sociólogo Paul Lazarsfeld en 1938 como un medio para estudiar campañas políticas . [16] Este método de muestreo longitudinal permite estimaciones de cambios en la población, por ejemplo con respecto a enfermedades crónicas, estrés laboral y gastos semanales de comida. El muestreo de panel también se puede utilizar para informar a los investigadores sobre cambios en la salud dentro de la persona debido a la edad o para ayudar a explicar cambios en variables dependientes continuas como la interacción conyugal. [17] Se han propuesto varios métodos para analizar datos de panel , incluidos MANOVA , curvas de crecimiento y modelos de ecuaciones estructurales con efectos rezagados.

Muestreo de bola de nieve

El muestreo por bola de nieve consiste en encontrar un pequeño grupo de encuestados iniciales y utilizarlos para reclutar a más encuestados. Es especialmente útil en casos en los que la población está oculta o es difícil de enumerar.

Muestreo teórico

El muestreo teórico [18] se produce cuando se seleccionan muestras sobre la base de los resultados de los datos recopilados hasta el momento con el objetivo de desarrollar una comprensión más profunda del área o desarrollar teorías. Primero se recopila una muestra general inicial con el objetivo de investigar tendencias generales; luego, se pueden seleccionar casos extremos o muy específicos para maximizar la probabilidad de que un fenómeno sea realmente observable.

Muestreo activo

En el muestreo activo, las muestras que se utilizan para entrenar un algoritmo de aprendizaje automático se seleccionan activamente; también se compara el aprendizaje activo (aprendizaje automático) .

Selección basada en juicios

El muestreo por juicio es un tipo de muestreo no aleatorio en el que las muestras se seleccionan en función de la opinión de un experto, quien puede seleccionar a los participantes en función del valor de la información que proporcionan.

Muestreo aleatorio

El muestreo aleatorio se refiere a la idea de utilizar el criterio humano para simular la aleatoriedad. A pesar de que las muestras se seleccionan a mano, el objetivo es garantizar que no exista ningún sesgo consciente en la elección de las muestras, pero a menudo falla debido al sesgo de selección . [19] El muestreo aleatorio generalmente se opta por su conveniencia, cuando es posible que no existan las herramientas o la capacidad para realizar otros métodos de muestreo.

Reemplazo de unidades seleccionadas

Los esquemas de muestreo pueden ser sin reemplazo ('WOR' – ningún elemento puede seleccionarse más de una vez en la misma muestra) o con reemplazo ('WR' – un elemento puede aparecer varias veces en una muestra). Por ejemplo, si capturamos peces, los medimos y los devolvemos inmediatamente al agua antes de continuar con la muestra, este es un diseño WR, porque podríamos terminar capturando y midiendo el mismo pez más de una vez. Sin embargo, si no devolvemos el pez al agua o no etiquetamos y liberamos cada pez después de capturarlo, este se convierte en un diseño WOR.

Determinación del tamaño de la muestra

Las fórmulas, tablas y gráficos de funciones de potencia son enfoques bien conocidos para determinar el tamaño de la muestra.

Pasos para utilizar tablas de tamaño de muestra:

  1. Postular el tamaño del efecto de interés, α y β.
  2. Consulte la tabla de tamaño de muestra [20]
    1. Seleccione la tabla correspondiente al α seleccionado
    2. Localiza la fila correspondiente a la potencia deseada
    3. Localice la columna correspondiente al tamaño del efecto estimado.
    4. La intersección de la columna y la fila es el tamaño mínimo de muestra requerido.

Muestreo y recolección de datos

Una buena recopilación de datos implica:

Aplicaciones del muestreo

El muestreo permite seleccionar los puntos de datos correctos dentro de un conjunto de datos más amplio para estimar las características de toda la población. Por ejemplo, se producen alrededor de 600 millones de tuits cada día. No es necesario analizarlos todos para determinar los temas que se discuten durante el día, ni tampoco es necesario analizar todos los tuits para determinar el sentimiento sobre cada uno de los temas. Se ha desarrollado una formulación teórica para el muestreo de datos de Twitter. [21]

En la fabricación, se dispone de distintos tipos de datos sensoriales, como datos acústicos, de vibración, de presión, de corriente, de voltaje y de controladores, en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente.

Errores en las encuestas de muestreo

Los resultados de las encuestas suelen estar sujetos a algún error. Los errores totales pueden clasificarse en errores de muestreo y errores ajenos al muestreo. El término "error" incluye aquí tanto los sesgos sistemáticos como los errores aleatorios.

Errores y sesgos de muestreo

Los errores y sesgos de muestreo son inducidos por el diseño de la muestra. Entre ellos se incluyen:

  1. Sesgo de selección : cuando las probabilidades de selección reales difieren de las asumidas al calcular los resultados.
  2. Error de muestreo aleatorio : Variación aleatoria en los resultados debido a que los elementos de la muestra se seleccionan al azar.

Error no muestral

Los errores ajenos al muestreo son otros errores que pueden afectar las estimaciones finales de la encuesta, causados ​​por problemas en la recopilación de datos, el procesamiento o el diseño de la muestra. Dichos errores pueden incluir:

  1. Sobrecobertura: inclusión de datos de fuera de la población
  2. Subcobertura: el marco de muestreo no incluye elementos de la población.
  3. Error de medición: por ejemplo, cuando los encuestados no comprenden una pregunta o les resulta difícil responderla.
  4. Error de procesamiento: errores en la codificación de datos
  5. Sesgo de falta de respuesta o de participación : no obtener datos completos de todos los individuos seleccionados

Después del muestreo, se realiza una revisión del proceso exacto seguido en el muestreo, en lugar del previsto, con el fin de estudiar los posibles efectos que las divergencias pudieran tener en los análisis posteriores.

Un problema particular es la falta de respuesta . Existen dos tipos principales de falta de respuesta: [22] [23]

En el muestreo por encuesta , muchas de las personas identificadas como parte de la muestra pueden no estar dispuestas a participar, no tener tiempo para participar ( costo de oportunidad ), [24] o los administradores de la encuesta pueden no haber podido contactarlas. En este caso, existe el riesgo de que haya diferencias entre los encuestados y los que no responden, lo que lleva a estimaciones sesgadas de los parámetros de la población. Esto a menudo se aborda mejorando el diseño de la encuesta, ofreciendo incentivos y realizando estudios de seguimiento que hagan un intento repetido de contactar a los que no responden y caracterizar sus similitudes y diferencias con el resto del marco. [25] Los efectos también se pueden mitigar ponderando los datos (cuando se dispone de puntos de referencia de la población) o imputando datos basados ​​en las respuestas a otras preguntas. La falta de respuesta es particularmente un problema en el muestreo por Internet. Las razones de este problema pueden incluir encuestas mal diseñadas, [23] encuestas excesivas (o fatiga de encuestas), [17] [26] [ se necesita cita para verificar ] y el hecho de que los participantes potenciales pueden tener múltiples direcciones de correo electrónico, que ya no usan o no revisan regularmente.

Pesos de la encuesta

En muchas situaciones, la fracción de la muestra puede variar según el estrato y será necesario ponderar los datos para que representen correctamente a la población. Así, por ejemplo, una muestra aleatoria simple de individuos del Reino Unido podría no incluir a algunos de los habitantes de islas remotas de Escocia, cuya muestra sería excesivamente costosa. Un método más económico sería utilizar una muestra estratificada con estratos urbanos y rurales. La muestra rural podría estar subrepresentada en la muestra, pero ponderada adecuadamente en el análisis para compensar.

En términos más generales, los datos deberían ponderarse si el diseño de la muestra no otorga a cada individuo la misma probabilidad de ser seleccionado. Por ejemplo, cuando los hogares tienen las mismas probabilidades de selección pero se entrevista a una persona de cada hogar, esto da a las personas de hogares grandes una menor probabilidad de ser entrevistadas. Esto se puede explicar utilizando ponderaciones de la encuesta. De manera similar, los hogares con más de una línea telefónica tienen una mayor probabilidad de ser seleccionados en una muestra de marcación aleatoria de dígitos, y las ponderaciones pueden ajustarse para tener esto en cuenta.

Los pesos también pueden servir para otros propósitos, como ayudar a corregir la falta de respuesta.

Métodos de producción de muestras aleatorias

Véase también

Notas

El libro de texto de Groves et alia proporciona una descripción general de la metodología de encuesta, incluida la literatura reciente sobre el desarrollo de cuestionarios (informada por la psicología cognitiva ):

Los otros libros se centran en la teoría estadística del muestreo por encuestas y requieren algunos conocimientos de estadística básica, como se analiza en los siguientes libros de texto:

El libro elemental de Scheaffer et alia utiliza ecuaciones cuadráticas del álgebra de secundaria:

Se requieren más estadísticas matemáticas para Lohr, para Särndal et alia, y para Cochran: [27]

Los libros históricamente importantes de Deming y Kish siguen siendo valiosos para los científicos sociales (en particular sobre el censo de los EE. UU. y el Instituto de Investigación Social de la Universidad de Michigan ):

Referencias

  1. ^ Lance, P.; Hattori, A. (2016). Muestreo y evaluación. Web: MEASURE Evaluation. págs. 6–8, 62–64.
  2. ^ Salant, Priscilla, I. Dillman y A. Don. Cómo realizar su propia encuesta . N.º 300.723 S3. 1994.
  3. ^ Seneta, E. (1985). "Un bosquejo de la historia del muestreo por encuestas en Rusia". Revista de la Royal Statistical Society. Serie A (General) . 148 (2): 118–125. doi :10.2307/2981944. JSTOR  2981944.
  4. ^ David S. Moore y George P. McCabe. " Introducción a la práctica de la estadística ".
  5. ^ Freedman, David ; Pisani, Robert; Purves, Roger. Estadísticas.
  6. ^ "RECUENTO DE MUESTRAS - Departamento de Elecciones de Singapur" (PDF) . Consultado el 3 de septiembre de 2023 .
  7. ^ Ho, Timothy (1 de septiembre de 2023). "Elecciones presidenciales de 2023: ¿Qué tan preciso será el recuento de votos de esta noche?". DollarsAndSense.sg . Consultado el 3 de septiembre de 2023 .
  8. ^ abcd Robert M. Groves; y otros (2009).Metodología de la encuesta. John Wiley & Sons. ISBN 978-0470465462.
  9. ^ Lohr, Sharon L. Muestreo: diseño y análisis .
  10. ^ Särndal, Carl-Erik; Swensson, Bengt; Wretman, enero. Muestreo de encuestas asistido por modelos .
  11. ^ Scheaffer, Richard L.; William Mendenhal; R. Lyman Ott. (2006). Muestreo de encuesta elemental .
  12. ^ abc Shahrokh Esfahani, Mohammad; Dougherty, Edward (2014). "Efecto del muestreo separado en la precisión de la clasificación". Bioinformática . 30 (2): 242–250. doi : 10.1093/bioinformatics/btt662 . PMID  24257187.
  13. ^ Scott, AJ; Wild, CJ (1986). "Ajuste de modelos logísticos en muestreos de casos y controles o basados ​​en la elección". Journal of the Royal Statistical Society, Serie B . 48 (2): 170–182. doi :10.1111/j.2517-6161.1986.tb01400.x. JSTOR  2345712.
  14. ^ desde
    • Lohr, Sharon L. Muestreo: diseño y análisis .
    • Särndal, Carl-Erik; Swensson, Bengt; Wretman, enero. Muestreo de encuestas asistido por modelos .
  15. ^ Ariyaratne, Buddhika (30 de julio de 2017). "Método de muestreo voluntario combinado con publicidad en redes sociales". Heal-info.blogspot.com . Informática de la salud . Consultado el 18 de diciembre de 2018 .[ ¿ Fuente poco confiable? ]
  16. ^ Lazarsfeld, P., y Fiske, M. (1938). El "panel" como una nueva herramienta para medir la opinión. The Public Opinion Quarterly, 2(4), 596–612.
  17. ^ de Groves, et alia. Metodología de la encuesta
  18. ^ "Ejemplos de métodos de muestreo" (PDF) .
  19. ^ "Definición de muestreo aleatorio". AccountingTools . 7 de enero de 2024.
  20. ^ Cohen, 1988
  21. ^ Deepan Palguna; Vikas Joshi; Venkatesan Chakaravarthy; Ravi Kothari; LV Subramaniam (2015). Análisis de algoritmos de muestreo para Twitter . Conferencia conjunta internacional sobre inteligencia artificial .
  22. ^ Berinsky, AJ (2008). "Survey non-response" (Encuesta de falta de respuesta). En: W. Donsbach y MW Traugott (Eds.), The Sage handbook of public opinion research (págs. 309-321). Thousand Oaks, CA: Sage Publications.
  23. ^ ab Dillman, DA, Eltinge, JL, Groves, RM y Little, RJA (2002). "La falta de respuesta en las encuestas durante el diseño, la recopilación de datos y el análisis". En: RM Groves, DA Dillman, JL Eltinge y RJA Little (Eds.), La falta de respuesta en las encuestas (pp. 3–26). Nueva York: John Wiley & Sons.
  24. ^ Dillman, DA, Smyth, JD y Christian, LM (2009). Encuestas por Internet, correo postal y de modo mixto: el método de diseño personalizado. San Francisco: Jossey-Bass.
  25. ^ Vehovar, V., Batagelj, Z., Manfreda, KL y Zaletel, M. (2002). "Falta de respuesta en encuestas web". En: RM Groves, DA Dillman, JL Eltinge y RJA Little (Eds.), Falta de respuesta a la encuesta (págs. 229-242). Nueva York: John Wiley & Sons.
  26. ^ Porter; Whitcomb; Weitzer (2004). "Encuestas múltiples a estudiantes y fatiga de las encuestas". En Porter, Stephen R (ed.). Superar los problemas de investigación de encuestas. Nuevas direcciones para la investigación institucional. San Francisco: Jossey-Bass. págs. 63–74. ISBN 9780787974770. Recuperado el 15 de julio de 2019 .
  27. ^ Cochran, William G. (1 de enero de 1977). Técnicas de muestreo, 3.ª edición (3.ª ed.). Nueva York, NY: John Wiley & Sons. ISBN 978-0-471-16240-7.

Lectura adicional

Normas

YO ASI

Norma ASTM

Normas ANSI y ASQ

Normas federales y militares de EE. UU.

Enlaces externos