stringtranslate.com

Muestreo (estadísticas)

Una representación visual del proceso de muestreo.

En estadística , control de calidad y metodología de encuestas , el muestreo es la selección de un subconjunto o una muestra estadística (denominada muestra para abreviar) de individuos dentro de una población estadística para estimar las características de toda la población. Los estadísticos intentan recolectar muestras que sean representativas de la población. El muestreo tiene costos más bajos y una recopilación de datos más rápida en comparación con el registro de datos de toda la población y, por lo tanto, puede proporcionar información en los casos en que no es factible medir una población completa.

Cada observación mide una o más propiedades (como peso, ubicación, color o masa) de objetos o individuos independientes. En el muestreo de encuestas , se pueden aplicar ponderaciones a los datos para ajustarlos al diseño de la muestra, particularmente en el muestreo estratificado . [1] Los resultados de la teoría de la probabilidad y la teoría estadística se emplean para guiar la práctica. En la investigación médica y empresarial, el muestreo se utiliza ampliamente para recopilar información sobre una población. [2] El muestreo de aceptación se utiliza para determinar si un lote de producción de material cumple con las especificaciones vigentes .

Historia

El muestreo aleatorio mediante lotes es una idea antigua, mencionada varias veces en la Biblia. En 1786, Pierre Simon Laplace estimó la población de Francia utilizando una muestra, junto con un estimador de proporciones . También calculó estimaciones probabilísticas del error. Estos no se expresaron como intervalos de confianza modernos sino como el tamaño de muestra que se necesitaría para alcanzar un límite superior particular en el error de muestreo con probabilidad 1000/1001. Sus estimaciones utilizaron el teorema de Bayes con una probabilidad previa uniforme y supusieron que su muestra era aleatoria. Alexander Ivanovich Chuprov introdujo las encuestas por muestreo en la Rusia imperial en la década de 1870. [3]

En Estados Unidos, la predicción de 1936 del Literary Digest sobre una victoria republicana en las elecciones presidenciales salió muy mal debido a un grave sesgo [1]. Más de dos millones de personas respondieron al estudio con sus nombres obtenidos a través de listas de suscripción a revistas y directorios telefónicos. No se apreció que estas listas estuvieran fuertemente sesgadas hacia los republicanos y la muestra resultante, aunque muy grande, adolecía de profundos defectos. [4] [5]

Las elecciones en Singapur han adoptado esta práctica desde las elecciones de 2015 , también conocida como conteo de muestras, mientras que según el Departamento Electoral (ELD), la comisión electoral de su país, los conteos de muestra ayudan a reducir la especulación y la desinformación, al tiempo que ayudan a los funcionarios electorales a comparar con la resultado electoral para esa división electoral. Los recuentos de muestras informados arrojan un resultado indicativo bastante preciso con un intervalo de confianza del 95% con un margen de error del 4-5%; ELD recordó al público que los conteos de muestra están separados de los resultados oficiales, y solo el escrutador declarará los resultados oficiales una vez que se complete el conteo de votos. [6] [7]

Definición de población

La práctica estadística exitosa se basa en la definición enfocada del problema. En el muestreo, esto incluye definir la " población " de la que se extrae nuestra muestra. Se puede definir una población como el conjunto de personas o elementos con las características que se desea comprender. Debido a que rara vez hay suficiente tiempo o dinero para recopilar información de todos o de todo en una población, el objetivo es encontrar una muestra (o subconjunto) representativa de esa población.

A veces lo que define a una población es obvio. Por ejemplo, un fabricante necesita decidir si un lote de material de producción tiene la calidad suficiente para entregarse al cliente o si debe desecharse o reelaborarse debido a su mala calidad. En este caso, el lote es la población.

Aunque la población de interés suele estar formada por objetos físicos, a veces es necesario realizar un muestreo en el tiempo, el espacio o alguna combinación de estas dimensiones. Por ejemplo, una investigación sobre la dotación de personal de los supermercados podría examinar la longitud de las colas en las cajas en distintos momentos, o un estudio sobre pingüinos en peligro de extinción podría intentar comprender el uso que hacen de diversos cotos de caza a lo largo del tiempo. Para la dimensión temporal, la atención puede centrarse en períodos u ocasiones discretas.

En otros casos, la "población" examinada puede ser incluso menos tangible. Por ejemplo, Joseph Jagger estudió el comportamiento de las ruedas de la ruleta en un casino de Montecarlo y lo utilizó para identificar una rueda sesgada. En este caso, la "población" que Jagger quería investigar era el comportamiento general de la rueda (es decir, la distribución de probabilidad de sus resultados en un número infinito de ensayos), mientras que su "muestra" se formó a partir de los resultados observados en esa rueda. Surgen consideraciones similares al realizar mediciones repetidas de propiedades de materiales como la conductividad eléctrica del cobre .

Esta situación surge a menudo cuando se busca conocimiento sobre el sistema de causas del cual la población observada es un resultado. En tales casos, la teoría del muestreo puede tratar a la población observada como una muestra de una "superpoblación" más grande. Por ejemplo, un investigador podría estudiar la tasa de éxito de un nuevo programa para "dejar de fumar" en un grupo de prueba de 100 pacientes, para predecir los efectos del programa si estuviera disponible en todo el país. Aquí la superpoblación es "todos los habitantes del país que tienen acceso a este tratamiento", un grupo que aún no existe porque el programa aún no está disponible para todos.

La población de la que se extrae la muestra puede no ser la misma que la población de la que se desea obtener información. A menudo existe una superposición grande pero no completa entre estos dos grupos debido a problemas de marco, etc. (ver más abajo). A veces pueden estar completamente separados; por ejemplo, se podrían estudiar ratas para comprender mejor la salud humana, o se podrían estudiar registros de personas nacidas en 2008 para hacer predicciones sobre las personas nacidas en 2009.

El tiempo dedicado a precisar la población muestreada y la población de interés a menudo es bien invertido porque plantea muchas cuestiones, ambigüedades y preguntas que de otro modo se habrían pasado por alto en esta etapa.

Marco de muestreo

En el caso más sencillo, como el muestreo de un lote de material de producción (muestreo de aceptación por lotes), sería más deseable identificar y medir cada elemento de la población e incluir cualquiera de ellos en nuestra muestra. Sin embargo, en el caso más general esto no suele ser posible ni práctico. No hay manera de identificar todas las ratas en el conjunto de todas las ratas. Cuando el voto no es obligatorio, no hay forma de identificar qué personas votarán en las próximas elecciones (antes de las elecciones). Estas poblaciones imprecisas no son susceptibles de muestreo de ninguna de las formas siguientes y a las que podríamos aplicar la teoría estadística.

Como solución, buscamos un marco muestral que tenga la propiedad de que podamos identificar cada elemento e incluir cualquiera en nuestra muestra. [8] [9] [10] [11] El tipo de marco más sencillo es una lista de elementos de la población (preferiblemente toda la población) con información de contacto adecuada. Por ejemplo, en una encuesta de opinión , los posibles marcos muestrales incluyen un registro electoral y una guía telefónica .

Una muestra probabilística es una muestra en la que cada unidad de la población tiene una probabilidad (mayor que cero) de ser seleccionada en la muestra, y esta probabilidad se puede determinar con precisión. La combinación de estos rasgos permite producir estimaciones insesgadas de los totales de población, ponderando las unidades muestreadas según su probabilidad de selección.

Ejemplo: queremos estimar el ingreso total de los adultos que viven en una calle determinada. Visitamos cada hogar en esa calle, identificamos a todos los adultos que viven allí y seleccionamos al azar a un adulto de cada hogar. (Por ejemplo, podemos asignar a cada persona un número aleatorio, generado a partir de una distribución uniforme entre 0 y 1, y seleccionar la persona con el número más alto en cada hogar). Luego entrevistamos a la persona seleccionada y encontramos sus ingresos.

Las personas que viven solas seguramente serán seleccionadas, por lo que simplemente sumamos sus ingresos a nuestra estimación del total. Pero una persona que vive en un hogar de dos adultos tiene sólo una posibilidad entre dos de ser seleccionada. Para reflejar esto, cuando lleguemos a un hogar así, contaríamos el ingreso de la persona seleccionada dos veces para el total. ( Se puede considerar que la persona seleccionada de ese hogar también representa a la persona que no es seleccionada).

En el ejemplo anterior, no todos tienen la misma probabilidad de selección; lo que la convierte en una muestra probabilística es el hecho de que se conoce la probabilidad de cada persona. Cuando todos los elementos de la población tienen la misma probabilidad de selección, esto se conoce como diseño de "igual probabilidad de selección" (EPS). Estos diseños también se denominan "autoponderados" porque a todas las unidades muestreadas se les asigna la misma ponderación.

El muestreo probabilístico incluye: muestreo aleatorio simple , muestreo sistemático , muestreo estratificado , muestreo de probabilidad proporcional al tamaño y muestreo por conglomerados o multietapa . Estas diversas formas de muestreo probabilístico tienen dos cosas en común:

  1. Cada elemento tiene una probabilidad conocida distinta de cero de ser muestreado y
  2. implica una selección aleatoria en algún momento.

Muestreo no probabilístico

El muestreo no probabilístico es cualquier método de muestreo en el que algunos elementos de la población no tienen posibilidades de ser seleccionados (a veces se los denomina "fuera de cobertura" o "insuficientemente cubiertos"), o donde la probabilidad de selección no se puede determinar con precisión. Implica la selección de elementos basada en supuestos sobre la población de interés, que forma el criterio de selección. Por lo tanto, debido a que la selección de elementos no es aleatoria, el muestreo no probabilístico no permite estimar los errores de muestreo. Estas condiciones dan lugar a un sesgo de exclusión , que impone límites a la cantidad de información que una muestra puede proporcionar sobre la población. La información sobre la relación entre muestra y población es limitada, lo que dificulta la extrapolación de la muestra a la población.

Ejemplo: Visitamos todos los hogares de una calle determinada y entrevistamos a la primera persona que abre la puerta. En cualquier hogar con más de un ocupante, ésta es una muestra no probabilística, porque es más probable que algunas personas abran la puerta (por ejemplo, una persona desempleada que pasa la mayor parte del tiempo en casa tiene más probabilidades de abrir que un compañero de casa empleado que podría estar en casa). en el trabajo cuando el entrevistador llama) y no es práctico calcular estas probabilidades.

Los métodos de muestreo no probabilístico incluyen el muestreo por conveniencia , el muestreo por cuotas y el muestreo intencional . Además, los efectos de la falta de respuesta pueden convertir cualquier diseño probabilístico en un diseño no probabilístico si no se comprenden bien las características de la falta de respuesta, ya que la falta de respuesta modifica efectivamente la probabilidad de que cada elemento sea muestreado.

Métodos de muestreo

Dentro de cualquiera de los tipos de marcos identificados anteriormente, se pueden emplear una variedad de métodos de muestreo individualmente o en combinación. Los factores que comúnmente influyen en la elección entre estos diseños incluyen:

Muestreo aleatorio simple

Una representación visual de la selección de una muestra aleatoria simple.

En una muestra aleatoria simple (SRS) de un tamaño determinado, todos los subconjuntos de un marco muestral tienen la misma probabilidad de ser seleccionados. Cada elemento del marco tiene, por tanto, la misma probabilidad de selección: el marco no está subdividido ni dividido. Además, cualquier par de elementos dado tiene las mismas posibilidades de selección que cualquier otro par (y lo mismo ocurre con los triples, etc.). Esto minimiza el sesgo y simplifica el análisis de los resultados. En particular, la varianza entre los resultados individuales dentro de la muestra es un buen indicador de la varianza en la población general, lo que hace que sea relativamente fácil estimar la precisión de los resultados.

El muestreo aleatorio simple puede ser vulnerable a errores de muestreo porque la aleatoriedad de la selección puede dar como resultado una muestra que no refleja la composición de la población. Por ejemplo, una muestra aleatoria simple de diez personas de un país determinado producirá en promedio cinco hombres y cinco mujeres, pero es probable que cualquier ensayo determinado sobre represente a un sexo y subrepresente al otro. Las técnicas sistemáticas y estratificadas intentan superar este problema "utilizando información sobre la población" para elegir una muestra más "representativa".

Además, el muestreo aleatorio simple puede resultar engorroso y tedioso cuando se toma una muestra de una población objetivo grande. En algunos casos, los investigadores están interesados ​​en preguntas de investigación específicas de subgrupos de la población. Por ejemplo, los investigadores podrían estar interesados ​​en examinar si la capacidad cognitiva como predictor del desempeño laboral es igualmente aplicable en todos los grupos raciales. El muestreo aleatorio simple no puede satisfacer las necesidades de los investigadores en esta situación porque no proporciona submuestras de la población y, en su lugar, se pueden utilizar otras estrategias de muestreo, como el muestreo estratificado.

Muestreo sistemático

Una representación visual de la selección de una muestra aleatoria utilizando la técnica de muestreo sistemático.

El muestreo sistemático (también conocido como muestreo por intervalos) se basa en organizar la población de estudio de acuerdo con algún esquema de ordenamiento y luego seleccionar elementos a intervalos regulares a través de esa lista ordenada. El muestreo sistemático implica un inicio aleatorio y luego continúa con la selección de cada késimo elemento a partir de ese momento. En este caso, k =(tamaño de la población/tamaño de la muestra). Es importante que el punto de partida no sea automáticamente el primero de la lista, sino que se elija aleatoriamente entre el primero y el késimo elemento de la lista. Un ejemplo sencillo sería seleccionar cada décimo nombre del directorio telefónico (una muestra "cada décimo", también conocida como "muestreo con un salto de 10").

Siempre que el punto de partida sea aleatorio , el muestreo sistemático es un tipo de muestreo probabilístico . Es fácil de implementar y la estratificación inducida puede hacerlo eficiente, si la variable por la que se ordena la lista está correlacionada con la variable de interés. El muestreo 'cada 10' es especialmente útil para un muestreo eficiente de bases de datos .

Por ejemplo, supongamos que deseamos tomar una muestra de personas de una calle larga que comienza en un área pobre (casa No. 1) y termina en un distrito caro (casa No. 1000). Una simple selección aleatoria de direcciones de esta calle fácilmente podría terminar con demasiadas del extremo superior y muy pocas del extremo inferior (o viceversa), lo que llevaría a una muestra no representativa. Seleccionar (por ejemplo) cada décimo número de calle a lo largo de la calle garantiza que la muestra se distribuya uniformemente a lo largo de la calle, representando todos estos distritos. (Si siempre comenzamos en la casa #1 y terminamos en la #991, la muestra está ligeramente sesgada hacia el extremo inferior; al seleccionar aleatoriamente el inicio entre #1 y #10, este sesgo se elimina).

Sin embargo, el muestreo sistemático es especialmente vulnerable a las periodicidades en la lista. Si hay periodicidad y el período es un múltiplo o un factor del intervalo utilizado, es especialmente probable que la muestra no sea representativa de la población general, lo que hace que el esquema sea menos preciso que el muestreo aleatorio simple.

Por ejemplo, considere una calle donde las casas con números impares están todas en el lado norte (caro) de la carretera y las casas pares están todas en el lado sur (barato). Según el esquema de muestreo expuesto anteriormente, es imposible obtener una muestra representativa; O bien las casas muestreadas serán todas del lado impar y caro, o todas serán del lado par y barato, a menos que el investigador tenga conocimiento previo de este sesgo y lo evite mediante el uso de un salto que asegure el salto. entre los dos lados (cualquier salto con número impar).

Otro inconveniente del muestreo sistemático es que incluso en escenarios en los que es más preciso que el SRS, sus propiedades teóricas dificultan la cuantificación de esa precisión. (En los dos ejemplos de muestreo sistemático que se dan arriba, gran parte del posible error de muestreo se debe a la variación entre casas vecinas, pero como este método nunca selecciona dos casas vecinas, la muestra no nos dará ninguna información sobre esa variación).

Como se describió anteriormente, el muestreo sistemático es un método EPS, porque todos los elementos tienen la misma probabilidad de selección (en el ejemplo dado, uno entre diez). No es un 'muestreo aleatorio simple' porque diferentes subconjuntos del mismo tamaño tienen diferentes probabilidades de selección; por ejemplo, el conjunto {4,14,24,...,994} tiene una probabilidad de selección de uno entre diez, pero el conjunto {4,13,24,34,...} tiene probabilidad de selección cero.

El muestreo sistemático también puede adaptarse a un enfoque que no utilice EPS; para ver un ejemplo, consulte la discusión sobre ejemplos de PPS a continuación.

Muestreo estratificado

Una representación visual de la selección de una muestra aleatoria utilizando la técnica de muestreo estratificado.

Cuando la población abarca varias categorías distintas, el marco puede organizarse mediante estas categorías en "estratos" separados. Luego se muestrea cada estrato como una subpoblación independiente, de la cual se pueden seleccionar elementos individuales al azar. [8] La relación entre el tamaño de esta selección aleatoria (o muestra) y el tamaño de la población se denomina fracción de muestreo . [12] El muestreo estratificado tiene varios beneficios potenciales. [12]

En primer lugar, dividir la población en estratos distintos e independientes puede permitir a los investigadores sacar inferencias sobre subgrupos específicos que pueden perderse en una muestra aleatoria más generalizada.

En segundo lugar, utilizar un método de muestreo estratificado puede conducir a estimaciones estadísticas más eficientes (siempre que los estratos se seleccionen en función de la relevancia para el criterio en cuestión, en lugar de la disponibilidad de las muestras). Incluso si un enfoque de muestreo estratificado no conduce a una mayor eficiencia estadística, tal táctica no resultará en menos eficiencia que el muestreo aleatorio simple, siempre que cada estrato sea proporcional al tamaño del grupo en la población.

En tercer lugar, a veces ocurre que es más fácil obtener datos sobre estratos individuales preexistentes dentro de una población que sobre la población en general; en tales casos, utilizar un enfoque de muestreo estratificado puede ser más conveniente que agregar datos entre grupos (aunque esto puede estar potencialmente en desacuerdo con la importancia previamente señalada de utilizar estratos relevantes para los criterios).

Finalmente, dado que cada estrato se trata como una población independiente, se pueden aplicar diferentes enfoques de muestreo a diferentes estratos, lo que potencialmente permite a los investigadores utilizar el enfoque más adecuado (o más rentable) para cada subgrupo identificado dentro de la población.

Sin embargo, existen algunos inconvenientes potenciales al utilizar el muestreo estratificado. En primer lugar, identificar estratos e implementar un enfoque de este tipo puede aumentar el costo y la complejidad de la selección de muestras, además de conducir a una mayor complejidad de las estimaciones de población. En segundo lugar, al examinar múltiples criterios, las variables estratificadoras pueden estar relacionadas con algunos, pero no con otros, lo que complica aún más el diseño y reduce potencialmente la utilidad de los estratos. Finalmente, en algunos casos (como los diseños con un gran número de estratos o aquellos con un tamaño de muestra mínimo específico por grupo), el muestreo estratificado puede requerir potencialmente una muestra más grande que otros métodos (aunque en la mayoría de los casos, el tamaño de muestra requerido no sería mayor que el requerido para un muestreo aleatorio simple).

Un enfoque de muestreo estratificado es más eficaz cuando se cumplen tres condiciones
  1. Se minimiza la variabilidad dentro de los estratos.
  2. Se maximiza la variabilidad entre estratos.
  3. Las variables sobre las cuales se estratifica la población están fuertemente correlacionadas con la variable dependiente deseada.
Ventajas sobre otros métodos de muestreo
  1. Se centra en subpoblaciones importantes e ignora las irrelevantes.
  2. Permite el uso de diferentes técnicas de muestreo para diferentes subpoblaciones.
  3. Mejora la precisión/eficiencia de la estimación.
  4. Permite un mayor equilibrio del poder estadístico de las pruebas de diferencias entre estratos al muestrear números iguales de estratos que varían ampliamente en tamaño.
Desventajas
  1. Requiere la selección de variables de estratificación relevantes, lo que puede resultar difícil.
  2. No es útil cuando no existen subgrupos homogéneos.
  3. Puede resultar costoso implementarlo.
Postestratificación

A veces, la estratificación se introduce después de la fase de muestreo en un proceso llamado "postestratificación". [8] Este enfoque generalmente se implementa debido a la falta de conocimiento previo de una variable estratificadora adecuada o cuando el experimentador carece de la información necesaria para crear una variable estratificadora durante la fase de muestreo. Aunque el método es susceptible a los inconvenientes de los enfoques post hoc, puede proporcionar varios beneficios en la situación adecuada. La implementación suele seguir una muestra aleatoria simple. Además de permitir la estratificación de una variable auxiliar, la postestratificación se puede utilizar para implementar ponderaciones, lo que puede mejorar la precisión de las estimaciones de una muestra. [8]

Sobremuestreo

El muestreo basado en elecciones es una de las estrategias de muestreo estratificado. En el muestreo basado en elecciones, [13] los datos se estratifican según el objetivo y se toma una muestra de cada estrato para que la clase objetivo poco común esté más representada en la muestra. Luego, el modelo se construye sobre esta muestra sesgada . Los efectos de las variables de entrada sobre el objetivo a menudo se estiman con mayor precisión con la muestra basada en elecciones, incluso cuando se toma un tamaño de muestra general más pequeño, en comparación con una muestra aleatoria. Por lo general, los resultados deben ajustarse para corregir el sobremuestreo.

Muestreo de probabilidad proporcional al tamaño

En algunos casos, el diseñador de la muestra tiene acceso a una "variable auxiliar" o "medida de tamaño", que se cree que está correlacionada con la variable de interés, para cada elemento de la población. Estos datos se pueden utilizar para mejorar la precisión en el diseño de muestras. Una opción es utilizar la variable auxiliar como base para la estratificación, como se analizó anteriormente.

Otra opción es el muestreo de probabilidad proporcional al tamaño ('PPS'), en el que la probabilidad de selección de cada elemento se establece de manera proporcional a su medida de tamaño, hasta un máximo de 1. En un diseño PPS simple, estas probabilidades de selección pueden luego utilizarse como base para el muestreo de Poisson . Sin embargo, esto tiene el inconveniente de que el tamaño de la muestra es variable, y diferentes porciones de la población aún pueden estar sobrerrepresentadas o subrepresentadas debido a la variación aleatoria en las selecciones.

La teoría del muestreo sistemático se puede utilizar para crear una probabilidad proporcional al tamaño de la muestra. Esto se hace tratando cada recuento dentro de la variable de tamaño como una única unidad de muestreo. Luego se identifican las muestras seleccionándolas a intervalos pares entre estos recuentos dentro de la variable de tamaño. Este método a veces se denomina muestreo de unidades monetarias o secuencial PPS en el caso de auditorías o muestreo forense.

Ejemplo: supongamos que tenemos seis escuelas con poblaciones de 150, 180, 200, 220, 260 y 490 estudiantes respectivamente (un total de 1500 estudiantes) y queremos utilizar la población estudiantil como base para una muestra de PPS de tamaño tres. Para hacer esto, podríamos asignar los números de la primera escuela del 1 al 150, la segunda escuela del 151 al 330 (= 150 + 180), la tercera escuela del 331 al 530, y así sucesivamente hasta la última escuela (1011 al 1500). Luego generamos un inicio aleatorio entre 1 y 500 (igual a 1500/3) y contamos las poblaciones escolares en múltiplos de 500. Si nuestro inicio aleatorio fuera 137, seleccionaríamos las escuelas a las que se les han asignado los números 137, 637 y 1137, es decir, las escuelas primera, cuarta y sexta.

El enfoque PPS puede mejorar la precisión para un tamaño de muestra determinado al concentrar la muestra en elementos grandes que tienen el mayor impacto en las estimaciones de población. El muestreo PPS se utiliza comúnmente para encuestas de empresas, donde el tamaño de los elementos varía mucho y a menudo hay información auxiliar disponible; por ejemplo, una encuesta que intenta medir el número de noches de huéspedes pasadas en hoteles podría utilizar el número de habitaciones de cada hotel como variable auxiliar. . En algunos casos, se puede utilizar una medición más antigua de la variable de interés como variable auxiliar cuando se intenta producir estimaciones más actuales. [14]

Muestreo por conglomerados

Una representación visual de la selección de una muestra aleatoria utilizando la técnica de muestreo por conglomerados.

A veces es más rentable seleccionar a los encuestados en grupos ("clústeres"). El muestreo suele agruparse por geografía o por períodos de tiempo. (Casi todas las muestras están, en cierto sentido, 'agrupadas' en el tiempo, aunque esto rara vez se tiene en cuenta en el análisis). Por ejemplo, si encuestamos hogares dentro de una ciudad, podríamos optar por seleccionar 100 manzanas de la ciudad y luego entrevistar a cada hogar dentro de una ciudad. los bloques seleccionados.

La agrupación puede reducir los costos administrativos y de viaje. En el ejemplo anterior, un entrevistador puede hacer un solo viaje para visitar varios hogares en una cuadra, en lugar de tener que conducir hasta una cuadra diferente para cada hogar.

También significa que no se necesita un marco muestral que enumere todos los elementos de la población objetivo. En cambio, los clústeres se pueden elegir desde un marco a nivel de clúster, con un marco a nivel de elemento creado solo para los clústeres seleccionados. En el ejemplo anterior, la muestra solo requiere un mapa de la ciudad a nivel de cuadra para las selecciones iniciales, y luego un mapa a nivel de hogar de las 100 cuadras seleccionadas, en lugar de un mapa a nivel de hogar de toda la ciudad.

El muestreo por conglomerados (también conocido como muestreo por conglomerados) generalmente aumenta la variabilidad de las estimaciones de la muestra por encima de la del muestreo aleatorio simple, dependiendo de cómo los conglomerados difieren entre sí en comparación con la variación dentro del conglomerado. Por esta razón, el muestreo por conglomerados requiere una muestra más grande que el SRS para lograr el mismo nivel de precisión, pero los ahorros de costos derivados del agrupamiento aún podrían hacer que esta sea una opción más barata.

El muestreo por conglomerados se implementa comúnmente como muestreo multietapa . Se trata de una forma compleja de muestreo por conglomerados en la que dos o más niveles de unidades están integrados uno en el otro. La primera etapa consiste en construir los conglomerados que se utilizarán para tomar muestras. En la segunda etapa, se selecciona aleatoriamente una muestra de unidades primarias de cada conglomerado (en lugar de utilizar todas las unidades contenidas en todos los conglomerados seleccionados). En las siguientes etapas, en cada uno de esos conglomerados seleccionados, se seleccionan muestras adicionales de unidades, y así sucesivamente. Luego se encuestan todas las unidades finales (individuos, por ejemplo) seleccionadas en el último paso de este procedimiento. Por tanto, esta técnica es esencialmente el proceso de tomar submuestras aleatorias de muestras aleatorias anteriores.

El muestreo multietapa puede reducir sustancialmente los costos de muestreo, donde sería necesario construir la lista completa de la población (antes de poder aplicar otros métodos de muestreo). Al eliminar el trabajo que implica describir conglomerados que no se seleccionan, el muestreo multietapa puede reducir los grandes costos asociados con el muestreo por conglomerados tradicional. [14] Sin embargo, cada muestra puede no ser un representante completo de toda la población.

Muestreo por cuotas

En el muestreo por cuotas , la población se segmenta primero en subgrupos mutuamente excluyentes , al igual que en el muestreo estratificado . Luego se utiliza el juicio para seleccionar los sujetos o unidades de cada segmento en función de una proporción específica. Por ejemplo, se le puede pedir a un entrevistador que muestree 200 mujeres y 300 hombres entre 45 y 60 años.

Es este segundo paso el que hace que la técnica sea de muestreo no probabilístico. En el muestreo por cuotas la selección de la muestra no es aleatoria . Por ejemplo, los entrevistadores podrían verse tentados a entrevistar a quienes parecen más útiles. El problema es que estas muestras pueden estar sesgadas porque no todos tienen la oportunidad de ser seleccionados. Este elemento aleatorio es su mayor debilidad y cuota versus probabilidad ha sido motivo de controversia durante varios años.

Muestreo minimax

En conjuntos de datos desequilibrados, donde la proporción de muestreo no sigue las estadísticas de la población, se puede volver a muestrear el conjunto de datos de una manera conservadora llamada muestreo minimax . El muestreo minimax tiene su origen en el ratio minimax de Anderson cuyo valor resulta ser 0,5: en una clasificación binaria, los tamaños de clase-muestra deben elegirse por igual. Se puede demostrar que esta relación es una relación minimax solo bajo el supuesto de un clasificador LDA con distribuciones gaussianas. La noción de muestreo minimax se desarrolló recientemente para una clase general de reglas de clasificación, denominadas clasificadores inteligentes de clase. En este caso, la proporción de muestreo de clases se selecciona de modo que el error del clasificador en el peor de los casos sobre todas las estadísticas de población posibles para las probabilidades anteriores de clase sea el mejor. [12]

Muestreo accidental

El muestreo accidental (a veces conocido como muestreo aleatorio , de conveniencia o de oportunidad ) es un tipo de muestreo no probabilístico que implica que la muestra se extrae de esa parte de la población que está cerca. Es decir, se selecciona una población porque está fácilmente disponible y es conveniente. Puede ser a través de conocer a la persona o incluir a una persona en la muestra cuando uno la conoce o elegirla encontrándola a través de medios tecnológicos como Internet o por teléfono. El investigador que utiliza dicha muestra no puede hacer generalizaciones científicas sobre la población total a partir de esta muestra porque no sería lo suficientemente representativa. Por ejemplo, si el entrevistador realizara una encuesta de este tipo en un centro comercial temprano en la mañana de un día determinado, las personas que podría entrevistar se limitarían a las que se dieron allí en ese momento determinado, lo que no representaría las opiniones de otros miembros de la sociedad en dicha zona, si la encuesta se realizara en diferentes momentos del día y varias veces por semana. Este tipo de muestreo es más útil para pruebas piloto. Varias consideraciones importantes para los investigadores que utilizan muestras de conveniencia incluyen:

  1. ¿Existen controles dentro del diseño de investigación o experimento que puedan servir para disminuir el impacto de una muestra de conveniencia no aleatoria, asegurando así que los resultados sean más representativos de la población?
  2. ¿Existe una buena razón para creer que una muestra de conveniencia particular respondería o debería comportarse de manera diferente que una muestra aleatoria de la misma población?
  3. ¿La pregunta que plantea la investigación puede responderse adecuadamente utilizando una muestra de conveniencia?

En la investigación de ciencias sociales, el muestreo en bola de nieve es una técnica similar, en la que los sujetos de estudio existentes se utilizan para reclutar más sujetos en la muestra. Algunas variantes del muestreo en bola de nieve, como el muestreo impulsado por el encuestado, permiten el cálculo de probabilidades de selección y son métodos de muestreo probabilístico bajo ciertas condiciones.

Muestreo voluntario

El método de muestreo voluntario es un tipo de muestreo no probabilístico. Los voluntarios eligen completar una encuesta.

Se podrá invitar a voluntarios a través de anuncios en las redes sociales. [15] La población objetivo de los anuncios se puede seleccionar según características como ubicación, edad, sexo, ingresos, ocupación, educación o intereses utilizando herramientas proporcionadas por el medio social. El anuncio puede incluir un mensaje sobre la investigación y un enlace a una encuesta. Después de seguir el enlace y completar la encuesta, el voluntario envía los datos para ser incluidos en la población de muestra. Este método puede llegar a una población mundial, pero está limitado por el presupuesto de la campaña. También se pueden incluir en la muestra voluntarios fuera de la población invitada.

Es difícil hacer generalizaciones a partir de esta muestra porque puede no representar a la población total. A menudo, los voluntarios tienen un gran interés en el tema principal de la encuesta.

Muestreo de intersección de línea

El muestreo de intersección de línea es un método de muestreo de elementos en una región mediante el cual se muestrea un elemento si un segmento de línea elegido, llamado "transecto", cruza el elemento.

Muestreo de paneles

El muestreo de panel es el método de seleccionar primero un grupo de participantes a través de un método de muestreo aleatorio y luego pedirle a ese grupo información (potencialmente la misma) varias veces durante un período de tiempo. Por lo tanto, cada participante es entrevistado en dos o más momentos; cada período de recopilación de datos se denomina "ola". El método fue desarrollado por el sociólogo Paul Lazarsfeld en 1938 como medio para estudiar campañas políticas . [16] Este método de muestreo longitudinal permite realizar estimaciones de los cambios en la población, por ejemplo con respecto a las enfermedades crónicas, el estrés laboral y los gastos semanales en alimentos. El muestreo de panel también se puede utilizar para informar a los investigadores sobre los cambios en la salud de una persona debido a la edad o para ayudar a explicar los cambios en variables dependientes continuas, como la interacción conyugal. [17] Se han propuesto varios métodos para analizar datos de panel , incluidos MANOVA , curvas de crecimiento y modelos de ecuaciones estructurales con efectos retardados.

Muestreo de bola de nieve

El muestreo en bola de nieve implica encontrar un pequeño grupo de encuestados iniciales y utilizarlos para reclutar más encuestados. Es particularmente útil en casos donde la población está oculta o es difícil de enumerar.

Muestreo teórico

El muestreo teórico [18] ocurre cuando las muestras se seleccionan en base a los resultados de los datos recopilados hasta el momento con el objetivo de desarrollar una comprensión más profunda del área o desarrollar teorías. Se pueden seleccionar casos extremos o muy específicos para maximizar la probabilidad de que un fenómeno sea realmente observable.

Muestreo activo

En el muestreo activo, las muestras que se utilizan para entrenar un algoritmo de aprendizaje automático se seleccionan activamente; también se compara el aprendizaje activo (aprendizaje automático) .

Reemplazo de unidades seleccionadas

Los esquemas de muestreo pueden ser sin reemplazo ('WOR' – ningún elemento puede seleccionarse más de una vez en la misma muestra) o con reemplazo ('WR' – un elemento puede aparecer varias veces en una muestra). Por ejemplo, si capturamos peces, los medimos y los devolvemos inmediatamente al agua antes de continuar con la muestra, este es un diseño WR, porque podríamos terminar capturando y midiendo el mismo pez más de una vez. Sin embargo, si no devolvemos el pez al agua o no etiquetamos y liberamos cada pez después de capturarlo, esto se convierte en un diseño WOR.

Determinación del tamaño de la muestra

Las fórmulas, tablas y gráficos de funciones de potencia son enfoques bien conocidos para determinar el tamaño de la muestra.

Pasos para utilizar tablas de tamaños de muestra:

  1. Postule el tamaño del efecto de interés, α y β.
  2. Consulte la tabla de tamaños de muestra [19]
    1. Seleccione la tabla correspondiente al α seleccionado
    2. Localice la fila correspondiente a la potencia deseada
    3. Localice la columna correspondiente al tamaño del efecto estimado.
    4. La intersección de la columna y la fila es el tamaño mínimo de muestra requerido.

Muestreo y recopilación de datos.

Una buena recopilación de datos implica:

Aplicaciones del muestreo

El muestreo permite seleccionar puntos de datos correctos dentro de un conjunto de datos más amplio para estimar las características de toda la población. Por ejemplo, cada día se producen alrededor de 600 millones de tweets. No es necesario mirarlos todos para determinar los temas que se tratan durante el día, ni es necesario mirar todos los tweets para determinar el sentimiento sobre cada uno de los temas. Se ha desarrollado una formulación teórica para muestrear datos de Twitter. [20]

En la fabricación, se dispone de diferentes tipos de datos sensoriales, como acústica, vibración, presión, corriente, voltaje y datos del controlador, en intervalos de tiempo cortos. Para predecir el tiempo de inactividad puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente.

Errores en encuestas por muestreo

Los resultados de la encuesta suelen estar sujetos a algún error. Los errores totales se pueden clasificar en errores de muestreo y errores ajenos al muestreo. El término "error" aquí incluye sesgos sistemáticos así como errores aleatorios.

Errores y sesgos de muestreo.

Los errores y sesgos de muestreo son inducidos por el diseño de la muestra. Incluyen:

  1. Sesgo de selección : Cuando las verdaderas probabilidades de selección difieren de las asumidas al calcular los resultados.
  2. Error de muestreo aleatorio : variación aleatoria en los resultados debido a que los elementos de la muestra se seleccionan al azar.

Error no muestral

Los errores ajenos al muestreo son otros errores que pueden afectar las estimaciones finales de la encuesta, causados ​​por problemas en la recopilación, el procesamiento o el diseño de la muestra de datos. Dichos errores pueden incluir:

  1. Sobrecobertura: inclusión de datos ajenos a la población
  2. Subcobertura: el marco muestral no incluye elementos de la población.
  3. Error de medición: por ejemplo, cuando los encuestados no entienden una pregunta o les resulta difícil responderla.
  4. Error de procesamiento: errores en la codificación de datos.
  5. Falta de respuesta o sesgo de participación : no obtener datos completos de todos los individuos seleccionados

Después del muestreo, se debe realizar una revisión [ ¿quién? ] del proceso exacto seguido en el muestreo, en lugar del previsto, con el fin de estudiar los efectos que las posibles divergencias puedan tener en los análisis posteriores.

Un problema particular implica la falta de respuesta . Existen dos tipos principales de falta de respuesta: [21] [22]

En el muestreo de encuestas , muchos de los individuos identificados como parte de la muestra pueden no estar dispuestos a participar, no tener tiempo para hacerlo ( costo de oportunidad ), [23] o es posible que los administradores de la encuesta no hayan podido contactarlos. En este caso, existe el riesgo de que se produzcan diferencias entre los encuestados y los no encuestados, lo que daría lugar a estimaciones sesgadas de los parámetros poblacionales. Esto a menudo se aborda mejorando el diseño de la encuesta, ofreciendo incentivos y realizando estudios de seguimiento que hacen un intento repetido de contactar a los que no responden y caracterizar sus similitudes y diferencias con el resto del marco. [24] Los efectos también pueden mitigarse ponderando los datos (cuando se disponga de puntos de referencia poblacionales) o imputando datos basados ​​en respuestas a otras preguntas. La falta de respuesta es particularmente un problema en el muestreo de Internet. Las razones de este problema pueden incluir encuestas mal diseñadas, [22] sobreencuestas (o fatiga de las encuestas), [17] [25] [ necesita cotización para verificar ] y el hecho de que los participantes potenciales pueden tener múltiples direcciones de correo electrónico, que no lo use más o no lo revise regularmente.

Ponderaciones de la encuesta

En muchas situaciones, la fracción de muestra puede variar según el estrato y los datos deberán ponderarse para representar correctamente a la población. Así, por ejemplo, una muestra aleatoria simple de individuos en el Reino Unido podría no incluir a algunos de islas escocesas remotas, cuyo muestreo sería excesivamente costoso. Un método más económico sería utilizar una muestra estratificada con estratos urbanos y rurales. La muestra rural podría estar subrepresentada en la muestra, pero ponderada adecuadamente en el análisis para compensar.

En términos más generales, los datos deberían ponderarse si el diseño de la muestra no da a cada individuo la misma probabilidad de ser seleccionado. Por ejemplo, cuando los hogares tienen iguales probabilidades de selección pero se entrevista a una persona dentro de cada hogar, esto da a las personas de hogares grandes una menor probabilidad de ser entrevistadas. Esto se puede contabilizar utilizando ponderaciones de encuestas. De manera similar, los hogares con más de una línea telefónica tienen una mayor probabilidad de ser seleccionados en una muestra de marcación aleatoria de dígitos, y las ponderaciones pueden ajustarse en función de esto.

Las ponderaciones también pueden servir para otros propósitos, como ayudar a corregir la falta de respuesta.

Métodos de producción de muestras aleatorias.


Ver también

Notas

El libro de texto de Groves et alia proporciona una descripción general de la metodología de la encuesta, incluida la literatura reciente sobre el desarrollo de cuestionarios (informada por la psicología cognitiva ):

Los otros libros se centran en la teoría estadística del muestreo de encuestas y requieren algunos conocimientos de estadística básica, como se analiza en los siguientes libros de texto:

El libro de primaria de Scheaffer et alia utiliza ecuaciones cuadráticas del álgebra de la escuela secundaria:

Se necesitan más estadísticas matemáticas para Lohr, para Särndal et alia y para Cochran: [26]

Los libros históricamente importantes de Deming y Kish siguen siendo valiosos para los científicos sociales (particularmente sobre el censo de Estados Unidos y el Instituto de Investigación Social de la Universidad de Michigan ):

Referencias

  1. ^ Lanza, P.; Hattori, A. (2016). Muestreo y Evaluación. Web: Evaluación MEDIDA. págs. 6–8, 62–64.
  2. ^ Salant, Priscilla, I. Dillman y A. Don. Cómo llevar a cabo su propia encuesta . N° 300.723 S3. 1994.
  3. ^ Seneta, E. (1985). "Un bosquejo de la historia del muestreo de encuestas en Rusia". Revista de la Real Sociedad de Estadística. Serie A (General) . 148 (2): 118-125. doi :10.2307/2981944. JSTOR  2981944.
  4. ^ David S. Moore y George P. McCabe. " Introducción a la Práctica de la Estadística ".
  5. ^ Liberto, David ; Pisani, Robert; Purves, Roger. Estadísticas.
  6. ^ "RECUENTO DE MUESTRA - Departamento de Elecciones de Singapur" (PDF) . Consultado el 3 de septiembre de 2023 .
  7. ^ Ho, Timothy (1 de septiembre de 2023). "Elecciones presidenciales de 2023: ¿Cuán preciso será el recuento de muestras esta noche?". DollarsAndSense.sg . Consultado el 3 de septiembre de 2023 .
  8. ^ abcd Robert M. Groves; et al. (2009).Metodología de la encuesta. ISBN 978-0470465462.
  9. ^ Lohr, Sharon L. Muestreo: diseño y análisis .
  10. ^ Särndal, Carl-Erik; Swensson, Bengt; Wretman, enero. Muestreo de encuestas asistido por modelos .
  11. ^ Scheaffer, Richard L.; Guillermo Mendenhal; R. Lyman Ott. (2006). Muestreo de encuesta elemental .
  12. ^ abc Shahrokh Esfahani, Mohammad; Dougherty, Eduardo (2014). "Efecto del muestreo por separado sobre la precisión de la clasificación". Bioinformática . 30 (2): 242–250. doi : 10.1093/bioinformática/btt662 . PMID  24257187.
  13. ^ Scott, AJ; Salvaje, CJ (1986). "Ajuste de modelos logísticos bajo muestreo de casos y controles o basado en elecciones". Revista de la Royal Statistical Society, Serie B. 48 (2): 170–182. JSTOR  2345712.
  14. ^ ab
    • Lohr, Sharon L. Muestreo: diseño y análisis .
    • Särndal, Carl-Erik; Swensson, Bengt; Wretman, enero. Muestreo de encuestas asistido por modelos .
  15. ^ Ariyaratne, Buddhika (30 de julio de 2017). "Método de muestreo voluntario combinado con publicidad en redes sociales". sanar-info.blogspot.com . Informática de la Salud . Consultado el 18 de diciembre de 2018 .[ fuente poco confiable? ]
  16. ^ Lazarsfeld, P. y Fiske, M. (1938). El"panel" como nueva herramienta de medición de opinión. La Opinión Pública Trimestral, 2(4), 596–612.
  17. ^ ab Groves, y otros. Metodología de la encuesta
  18. ^ "Ejemplos de métodos de muestreo" (PDF) .
  19. ^ Cohen, 1988
  20. ^ Deepan Palguna; Vikas Joshi; Venkatesan Chakaravarthy; Ravi Kothari; LV Subramaniam (2015). Análisis de Algoritmos de Muestreo para Twitter . Conferencia Conjunta Internacional sobre Inteligencia Artificial .
  21. ^ Berinsky, AJ (2008). "Encuesta sin respuesta". En: W. Donsbach y MW Traugott (Eds.), El manual Sage de investigación de la opinión pública (págs. 309–321). Thousand Oaks, CA: Publicaciones Sage.
  22. ^ ab Dillman, DA, Eltinge, JL, Groves, RM y Little, RJA (2002). "Falta de respuesta de la encuesta en el diseño, recopilación y análisis de datos". En: RM Groves, DA Dillman, JL Eltinge y RJA Little (Eds.), Falta de respuesta a la encuesta (págs. 3–26). Nueva York: John Wiley & Sons.
  23. ^ Dillman, DA, Smyth, JD y Christian, LM (2009). Encuestas por Internet, correo y modo mixto: el método de diseño personalizado. San Francisco: Jossey-Bass.
  24. ^ Vehovar, V., Batagelj, Z., Manfreda, KL y Zaletel, M. (2002). "Falta de respuesta en encuestas web". En: RM Groves, DA Dillman, JL Eltinge y RJA Little (Eds.), Falta de respuesta a la encuesta (págs. 229-242). Nueva York: John Wiley & Sons.
  25. ^ Portero; Whitcomb; Weitzer (2004). "Múltiples encuestas a estudiantes y fatiga de las encuestas". En Porter, Stephen R (ed.). Superar los problemas de investigación por encuestas. Nuevas direcciones para la investigación institucional. San Francisco: Jossey-Bass. págs. 63–74. ISBN 9780787974770. Consultado el 15 de julio de 2019 .
  26. ^ Cochran, William G. (1 de enero de 1977). Técnicas de muestreo, tercera edición (3ª ed.). Nueva York, Nueva York: John Wiley & Sons. ISBN 978-0-471-16240-7.

Otras lecturas

Estándares

YO ASI

ASTM

ANSI, ASQ

Estándares federales y militares de EE. UU.

enlaces externos