En la investigación por encuesta, el efecto de diseño es un número que muestra qué tan bien una muestra de personas puede representar a un grupo más grande de personas para una medida de interés específica (como la media). Esto es importante cuando la muestra proviene de un método de muestreo que es diferente a la selección de personas mediante una muestra aleatoria simple .
El efecto de diseño es un número real positivo , representado por el símbolo . Si , entonces la muestra se seleccionó de una manera tan buena como si las personas hubieran sido elegidas al azar. Cuando , entonces la inferencia a partir de los datos recopilados no es tan precisa como podría haber sido si las personas hubieran sido elegidas al azar.
Cuando los investigadores utilizan métodos complicados para seleccionar su muestra, utilizan el efecto de diseño para comprobar y ajustar sus resultados. También puede utilizarse al planificar un estudio para determinar el tamaño de la muestra .
Introducción
En la metodología de encuestas , el efecto de diseño (generalmente denotado como , , o ) es una medida del impacto esperado de un diseño de muestreo en la varianza de un estimador para algún parámetro de una población. Se calcula como la relación entre la varianza de un estimador basado en una muestra de un diseño de muestreo (a menudo) complejo , y la varianza de un estimador alternativo basado en una muestra aleatoria simple (SRS) del mismo número de elementos. [1] : 258 El (ya sea estimado o conocido a priori ) se puede utilizar para evaluar la varianza de un estimador en casos en los que la muestra no se extrae mediante un muestreo aleatorio simple. También puede ser útil en los cálculos del tamaño de la muestra [2] y para cuantificar la representatividad de las muestras recogidas con varios diseños de muestreo.
El efecto de diseño es un número real positivo que indica una inflación ( ), o deflación ( ) en la varianza de un estimador para algún parámetro, que se debe a que el estudio no utiliza SRS (con , cuando las varianzas son idénticas). [3] : 53, 54 Intuitivamente podemos obtener cuando tenemos algún conocimiento a priori que podemos explotar durante el proceso de muestreo (lo cual es algo raro). Y, en contraste, a menudo lo obtenemos cuando necesitamos compensar alguna limitación en nuestra capacidad para recopilar datos (lo cual es más común). Algunos diseños de muestreo que podrían introducir generalmente mayor que 1 incluyen: muestreo por conglomerados (como cuando hay correlación entre observaciones), muestreo estratificado (con asignación desproporcionada a los tamaños de los estratos), ensayo controlado aleatorio por conglomerados , muestra desproporcionada (probabilidad desigual) (por ejemplo, muestreo de Poisson ), ajustes estadísticos de los datos por falta de cobertura o falta de respuesta, y muchos otros. El muestreo estratificado puede dar como resultado un valor menor que 1 cuando se utiliza la asignación proporcional a los tamaños de los estratos (cuando estos se conocen a priori y están correlacionados con el resultado de interés) o la asignación óptima (cuando la varianza difiere entre los estratos y se conoce a priori). [ cita requerida ]
En la literatura se han propuesto muchos cálculos (y estimadores) sobre cómo un diseño de muestreo conocido influye en la varianza de los estimadores de interés, ya sea incrementándola o disminuyéndola. Generalmente, el efecto del diseño varía entre diferentes estadísticas de interés, como la media total o la media de la razón . También es importante si el diseño de muestreo está correlacionado con el resultado de interés. Por ejemplo, un posible diseño de muestreo podría ser tal que cada elemento de la muestra tenga una probabilidad diferente de ser seleccionado. En tales casos, el nivel de correlación entre la probabilidad de selección de un elemento y su resultado medido puede tener una influencia directa en el efecto de diseño posterior. Por último, el efecto de diseño puede verse influenciado por la distribución del resultado en sí. Todos estos factores deben considerarse al estimar y utilizar el efecto de diseño en la práctica. [4] : 13
Historia
El término "efecto de diseño" fue acuñado por Leslie Kish en su libro de 1965 "Survey Sampling". [1] : 88, 258 En él, Kish propuso la definición general para el efecto de diseño, [a] así como fórmulas para el efecto de diseño del muestreo por conglomerados (con correlación intraclase); [1] : 162 y la famosa fórmula del efecto de diseño para el muestreo de probabilidad desigual. [1] : 427 Estos a menudo se conocen como "efecto de diseño de Kish", y luego se combinaron en una sola fórmula.
En un artículo de 1995, [5] : 73 Kish menciona que un concepto similar, denominado "cociente Lexis", fue descrito a fines del siglo XIX. La correlación intraclase, estrechamente relacionada, fue descrita por Fisher en 1950, mientras que los cálculos de cocientes de varianzas ya habían sido publicados por Kish y otros desde fines de la década de 1940 hasta la década de 1950. Uno de los precursores de la definición de Kish fue el trabajo realizado por Cornfield en 1951. [6] [4]
En su artículo de 1995, Kish propuso que es necesario considerar el efecto de diseño cuando se promedia la misma cantidad medida de múltiples encuestas realizadas durante un período de tiempo. [5] : 57–62 También sugirió que se debe considerar el efecto de diseño cuando se extrapola el error de estadísticas simples (por ejemplo, la media) a otras más complejas (por ejemplo, coeficientes de regresión). Sin embargo, al analizar datos (por ejemplo, utilizando datos de encuestas para ajustar modelos), los valores son menos útiles hoy en día debido a la disponibilidad de software especializado para analizar datos de encuestas. Antes del desarrollo de software que calcula errores estándar para muchos tipos de diseños y estimaciones, los analistas ajustaban los errores estándar producidos por el software que asumía que todos los registros en un conjunto de datos eran iid multiplicándolos por a (ver la definición de Deft a continuación). [ cita requerida ]
Definiciones
Notaciones
Definitivamente
El efecto de diseño , comúnmente denotado por (o , a veces con subíndices adicionales), es la relación de dos varianzas teóricas para estimadores de algún parámetro ( ): [1] [7]
- El numerador representa la varianza real de un estimador de un parámetro ( ) bajo un diseño de muestreo dado ;
- El denominador representa la varianza asumiendo el mismo tamaño de muestra, pero si la muestra se obtuviera utilizando el estimador de muestreo aleatorio simple sin reemplazo ( ).
De modo que:
En otras palabras, mide el grado en que la varianza ha aumentado (o, en algunos casos, disminuido) debido a que la muestra fue extraída y ajustada a un diseño de muestreo específico (por ejemplo, utilizando ponderaciones u otras medidas) en comparación con si la muestra fuera de una muestra aleatoria simple (sin reemplazo). Observe cómo la definición de se basa en parámetros de la población que a menudo son desconocidos y que son difíciles de estimar directamente. Específicamente, la definición involucra las varianzas de los estimadores bajo dos diseños de muestreo diferentes, aunque solo se utiliza un único diseño de muestreo en la práctica. [ cita requerida ]
Por ejemplo, al estimar la media de la población, la (para algún diseño de muestreo p) es: [4] : 4 [3] : 54 [b]
Donde es el tamaño de la muestra, es la fracción de la muestra de la población, es la corrección de población finita (al cuadrado) (FPC), es la varianza de muestra no sesgada y es un estimador de la varianza de la media bajo el diseño de muestreo. El problema con la fórmula anterior es que es extremadamente raro poder estimar directamente la varianza de la media estimada bajo dos diseños de muestreo diferentes, ya que la mayoría de los estudios se basan en un solo diseño de muestreo.
Hay muchas formas de cálculo , dependiendo del parámetro de interés (por ejemplo, total de la población, media de la población, cuantiles, relación de cantidades, etc.), el estimador utilizado y el diseño de muestreo (por ejemplo, muestreo por conglomerados, muestreo estratificado, posestratificación, muestreo multietápico, etc.). [8] : 98 El proceso de estimación para diseños específicos se describirá en la siguiente sección.
Hábil
Una cantidad relacionada con , propuesta por Kish en 1995, es el Factor de Efecto de Diseño , abreviado como (o también ). [5] : 56 [4] Se define como la raíz cuadrada de las razones de varianza mientras que también se tiene el denominador utilizando una muestra aleatoria simple con reemplazo (SRSWR), en lugar de sin reemplazo (SRSWOR):
En esta definición posterior (propuesta en 1995, frente a 1965) Kish argumentó a favor de utilizar sobre por varias razones. Se argumentó que el SRS "sin reemplazo" (con su efecto positivo sobre la varianza) debería capturarse en la parte del denominador en la definición del efecto de diseño, ya que es parte del diseño de muestreo. Además, dado que a menudo el uso del factor está en intervalos de confianza ), se afirmó que usar será más simple que escribir . También se dice que para muchos casos cuando la población es muy grande, es (casi) la raíz cuadrada de ( ), por lo tanto, es más fácil de usar que calcular exactamente la corrección de población finita (FPC). [ cita requerida ] [c]
Aun así, en varios casos un investigador podría aproximarse calculando la varianza en el numerador mientras supone un muestreo aleatorio simple con reemplazo (SRSWR) en lugar de un muestreo aleatorio simple sin reemplazo (SRSWOR), incluso si no es preciso. Por ejemplo, considere un diseño multietapa con unidades primarias de muestreo (PSU) seleccionadas sistemáticamente con probabilidad proporcional a alguna medida de tamaño de una lista ordenada de una manera particular (por ejemplo, por número de hogares en cada PSU). Además, supongamos que se combina con un estimador que utiliza rastrillaje para hacer coincidir los totales de varias variables demográficas. En un diseño de este tipo, las probabilidades de selección conjunta para las PSU, que son necesarias para un estimador de varianza sin reemplazo, son 0 para algunos pares de PSU, lo que implica que no existe un estimador de varianza basado en diseño exacto (es decir, muestreo repetido). Otro ejemplo es cuando se utiliza un archivo de uso público emitido por alguna agencia gubernamental para el análisis. En tal caso, la información sobre las probabilidades de selección conjunta de las unidades de primera etapa casi nunca se publica. Como resultado, un analista no puede estimar una varianza con reemplazo para el numerador incluso si lo desea. La solución estándar es calcular un estimador de varianza como si las PSU se hubieran seleccionado con reemplazo. Esta es la opción predeterminada en paquetes de software como Stata, el paquete de encuestas R y los procedimientos de encuestas SAS. [ cita requerida ]
Tamaño efectivo de la muestra
El tamaño efectivo de la muestra , definido por Kish en 1965, se calcula dividiendo el tamaño de la muestra original por el efecto del diseño. [1] : 162, 259 [9] : 190, 192 A saber:
Esta cantidad refleja cuál sería el tamaño de muestra que se necesita para lograr la varianza actual del estimador (para algún parámetro) con el diseño existente, si el diseño de la muestra (y su estimador de parámetro relevante) se basaran en una muestra aleatoria simple . [10]
Una cantidad relacionada es la relación del tamaño efectivo de la muestra , que se puede calcular simplemente tomando la inversa de (es decir, ).
Por ejemplo, supongamos que el efecto de diseño, para estimar la media de la población con base en algún diseño de muestreo, es 2. Si el tamaño de la muestra es 1000, entonces el tamaño de muestra efectivo será 500. Esto significa que la varianza de la media ponderada basada en 1000 muestras será la misma que la de una media simple basada en 500 muestras obtenidas utilizando una muestra aleatoria simple.
El efecto del diseño para diseños de muestreo conocidos
El efecto del diseño depende del diseño del muestreo y de los ajustes estadísticos.
Diferentes diseños de muestreo y ajustes estadísticos pueden tener un impacto sustancialmente diferente en el sesgo y la varianza de los estimadores (como la media). [ cita requerida ]
Un ejemplo de un diseño que puede conducir a una estimación eficiente, en comparación con el muestreo aleatorio simple, es el muestreo estratificado . Esta eficiencia se obtiene aprovechando la información sobre la composición de la población. Por ejemplo, si se sabe que el género está correlacionado con el resultado de interés, y también que la proporción de hombres y mujeres para cierta población es (por ejemplo) 50%-50%, entonces muestrear exactamente la mitad de la muestra de cada género reducirá la varianza del estimador del resultado. De manera similar, si una subpoblación particular es de especial interés, sobremuestrear deliberadamente a partir de esa subpoblación disminuirá la varianza de las estimaciones realizadas sobre ella. [ cita requerida ]
En ocasiones, la mejora de la eficiencia de la varianza puede sacrificarse por conveniencia o costo. Por ejemplo, en el caso del muestreo por conglomerados, las unidades pueden tener probabilidades de selección iguales o desiguales, independientemente de su correlación intraclase (y su efecto negativo de aumentar la varianza de los estimadores). Podríamos decidir (por razones prácticas) recolectar respuestas de solo 2 personas de cada hogar (es decir, un conglomerado muestreado), lo que podría llevar a un ajuste posterior al muestreo más complejo para lidiar con probabilidades de selección desiguales. Además, tales decisiones podrían llevar a estimadores menos eficientes que simplemente tomar una proporción fija de respuestas de un conglomerado. [ cita requerida ]
Cuando el diseño de muestreo no se establece de antemano y se debe determinar a partir de los datos que tenemos, esto puede llevar a un aumento tanto de la varianza como del sesgo del estimador ponderado. Esto puede suceder al realizar ajustes por cuestiones como la falta de cobertura, la falta de respuesta o una división inesperada de la población en estratos que no estaba disponible durante la etapa inicial de muestreo. En estos casos, podemos utilizar procedimientos estadísticos como la posestratificación, el rastrillaje o la ponderación inversa de la puntuación de propensión (donde se estiman las puntuaciones de propensión), entre otros métodos. El uso de estos métodos requiere suposiciones sobre el modelo de diseño inicial. Por ejemplo, cuando utilizamos la posestratificación basada en la edad y el género, se supone que estas variables pueden explicar una parte significativa del sesgo en la muestra. La calidad de estos estimadores está estrechamente relacionada con la calidad de la información adicional y las suposiciones de falta de datos al azar utilizadas al realizarlos. De cualquier manera, incluso cuando los estimadores (como los modelos de puntaje de propensión) hacen un buen trabajo al capturar la mayor parte del diseño de muestreo, el uso de ponderaciones puede hacer una diferencia pequeña o grande, dependiendo del conjunto de datos específico. [ cita requerida ]
Debido a la gran variedad de diseños de muestreo (con o sin efecto sobre las probabilidades de selección desiguales), se han desarrollado diferentes fórmulas para capturar el efecto potencial del diseño, así como para estimar la varianza de los estimadores al tener en cuenta los diseños de muestreo. [11] A veces, estos diferentes efectos de diseño se pueden combinar (como en el caso de la probabilidad de selección desigual y el muestreo por conglomerados, más detalles en las secciones siguientes). El uso o no de estas fórmulas, o simplemente asumir el SRS, depende de la cantidad esperada de reducción del sesgo frente al aumento de la varianza del estimador (y de la sobrecarga de la complejidad metodológica y técnica). [1] : 426
Probabilidades de selección desiguales
Fuentes de probabilidades de selección desiguales
Existen varias formas de muestrear unidades de modo que cada unidad tenga exactamente la misma probabilidad de selección. Estos métodos se denominan métodos de muestreo de probabilidad igual (EPSEM). Algunos de los métodos más básicos incluyen el muestreo aleatorio simple (SRS, con o sin reemplazo) y el muestreo sistemático para obtener un tamaño de muestra fijo. También existe el muestreo Bernoulli con un tamaño de muestra aleatorio. Las técnicas más avanzadas, como el muestreo estratificado y el muestreo por conglomerados, también se pueden diseñar para que sean EPSEM. Por ejemplo, en el muestreo por conglomerados podemos utilizar un muestreo en dos etapas en el que muestreamos cada conglomerado (que puede ser de diferentes tamaños) con la misma probabilidad y, a continuación, muestreamos de cada conglomerado en la segunda etapa utilizando SRS con una proporción fija (por ejemplo, muestreamos la mitad del conglomerado, todo el conglomerado, etc.). Este método producirá EPSEM, pero el número específico de elementos con los que terminamos es estocástico (es decir, no determinista). [d] [12] : 3–8 Otra estrategia para el muestreo por conglomerados que conduce al EPSEM es muestrear los conglomerados de una manera que sea proporcional a sus tamaños y, a continuación, muestrear un número fijo de elementos dentro de cada conglomerado. [e]
En sus trabajos, Kish y otros destacan varias razones conocidas que conducen a probabilidades de selección desiguales: [1] : 425 [9] : 185 [5] : 69 [13] : 50, 395 [14] : 306
- Muestreo desproporcionado debido al marco o procedimiento de selección. Esto sucede cuando un investigador deliberadamente realiza muestreos excesivos o insuficientes de subpoblaciones o conglomerados específicos. Por ejemplo:
- En el muestreo estratificado , cuando se sabe que las unidades de algunos estratos tienen una varianza mayor que otros estratos. En tales casos, la intención del investigador puede ser utilizar este conocimiento previo sobre la varianza entre estratos para reducir la varianza general de un estimador de algún parámetro de interés a nivel de población (por ejemplo, la media). Esto se puede lograr mediante una estrategia conocida como asignación óptima , en la que un estrato se sobremuestrea proporcionalmente a una desviación estándar más alta y un costo de muestreo más bajo (es decir, , donde es la desviación estándar del resultado en , y se relaciona con el costo de reclutar un elemento de ). Un ejemplo de una asignación óptima es la asignación óptima de Neyman que, cuando el costo es fijo para reclutar personas de cada estrato, el tamaño de la muestra es: . Donde la suma es sobre todos los estratos: n es el tamaño total de la muestra; es el tamaño de la muestra para el estrato h ; es el tamaño relativo del estrato h en comparación con toda la población N ; y es el error estándar en el estrato h . [15] Un concepto relacionado con el diseño óptimo es el diseño experimental óptimo .
- Si existe interés en comparar dos estratos (por ejemplo, personas de dos grupos sociodemográficos específicos, o de dos regiones, etc.), en cuyo caso se puede sobremuestrear el grupo más pequeño. De esta manera, se reduce la varianza del estimador que compara los dos grupos.
- En el muestreo por conglomerados puede haber conglomerados de diferentes tamaños, pero el procedimiento toma muestras de todos los conglomerados utilizando SRS y se miden todos los elementos del conglomerado (por ejemplo, si los tamaños de los conglomerados no se conocen de antemano en la etapa de muestreo).
- En algunos muestreos por conglomerados en dos etapas, se utilizan tamaños de conglomerado. Por ejemplo, cuando en la primera etapa los conglomerados se muestrean proporcionalmente a la estimación de su tamaño (también conocido como: probabilidad proporcional al tamaño según PPS ) y en la segunda etapa se elige una proporción fija de elementos (por ejemplo, la mitad o todos los elementos del conglomerado), las probabilidades de selección son diferentes para los elementos de diferentes conglomerados. Un caso similar es cuando en la primera etapa se intenta muestrear los conglomerados utilizando PPS, mientras que en la segunda etapa se utiliza un número fijo de elementos en cada conglomerado, pero los tamaños de conglomerado utilizados para el muestreo de la primera etapa fueron inexactos (de modo que algunos conglomerados más pequeños pueden tener una probabilidad mayor de la que deberían de ser seleccionados, y viceversa para conglomerados más grandes con una probabilidad demasiado pequeña de ser muestreados). En tales casos, cuanto mayores sean los errores en las probabilidades de muestreo utilizadas en la primera etapa, mayores serán las probabilidades de selección desiguales para cada elemento. [8] : 109 [f]
- Cuando el marco utilizado para el muestreo incluye la duplicación de algunos de los elementos, lo que hace que algunos elementos tengan una mayor probabilidad que otros de ser muestreados (por ejemplo, si el marco de muestreo se creó fusionando varias listas o si se reclutan usuarios de varios canales publicitarios en los que algunos de los usuarios están disponibles para ser reclutados de varios de los canales, mientras que otros están disponibles para ser reclutados de solo uno de los canales), de modo que las diferentes unidades tendrían diferentes probabilidades de muestreo, lo que hace que este procedimiento de muestreo no sea EPSEM. [12] : 3–8 [9] : 186
- Cuando se deben combinar varias muestras o marcos diferentes. Por ejemplo, si se realizan diferentes campañas publicitarias para reclutar encuestados o cuando se combinan resultados de varios estudios realizados por diferentes investigadores o en diferentes momentos (es decir, metanálisis ). [9] : 188
- Cuando se produce un muestreo desproporcionado, debido a decisiones de diseño de muestreo, el investigador puede (a veces) rastrear la decisión y calcular con precisión la probabilidad exacta de inclusión. Cuando estas probabilidades de selección son difíciles de rastrear, se pueden estimar utilizando algún modelo de puntaje de propensión combinado con información de variables auxiliares (por ejemplo, edad, género, etc.).
- No cobertura . [1] : 527, 528 Esto sucede, por ejemplo, si se muestrea a las personas basándose en una lista predefinida que no incluye a todas las personas de la población (por ejemplo, una guía telefónica o el uso de anuncios para reclutar personas para una encuesta). Estas unidades faltantes faltan debido a algún fallo en la creación del marco de muestreo , en lugar de la exclusión deliberada de algunas personas (por ejemplo, menores, personas que no pueden votar, etc.). El efecto de la no cobertura en la probabilidad de muestreo se considera difícil de medir (y ajustar) en varias situaciones de encuesta, a menos que se hagan suposiciones sólidas. Los ajustes por no cobertura pueden llevar a ponderaciones inadecuadas cuando las covariables relevantes no se utilizan para el ajuste. Si hay covariables que se pueden utilizar para corregir la no cobertura, se espera que lleven a ponderaciones de encuesta desiguales.
- Falta de respuesta . Se refiere a la imposibilidad de obtener mediciones en las unidades muestreadas que se pretende medir. Las razones de la falta de respuesta son variadas y dependen del contexto. Una persona puede no estar disponible temporalmente, por ejemplo, si no está disponible para responder el teléfono cuando se realiza una encuesta telefónica. Una persona también puede negarse a responder la encuesta debido a una variedad de razones, por ejemplo, diferentes tendencias de personas de diferentes grupos étnicos/demográficos/socioeconómicos para responder en general; incentivo insuficiente para dedicar el tiempo o compartir datos; la identidad de la institución que realiza la encuesta; incapacidad para responder (por ejemplo, debido a enfermedad, analfabetismo o una barrera del idioma); no se encuentra al encuestado (por ejemplo, se mudó); la respuesta se perdió/destruyó durante la codificación o transmisión (es decir, error de medición). En el contexto de las encuestas, estas razones pueden estar relacionadas con responder a toda la encuesta o solo a preguntas específicas. [1] : 532 [9] : 186
- Ajustes estadísticos . Estos pueden incluir métodos como modelos de post-estratificación , rastrillaje o de puntaje de propensión (estimación) , utilizados para realizar un ajuste de la muestra a algunos tamaños de estratos conocidos (o estimados). Estos ajustes pueden ser además de pesos de diseño , que apuntan a tener en cuenta los desequilibrios debidos a algún diseño de muestreo conocido. Tales procedimientos se utilizan para mitigar problemas en el muestreo que van desde el error de muestreo , la cobertura insuficiente del marco de muestreo hasta la falta de respuesta. [16] : 45 [17] Por ejemplo, estos métodos se pueden utilizar para hacer que la muestra sea más similar a algunos "controles" objetivo (es decir, la población de interés), un proceso también llamado "estandarización". [9] : 187 En tales casos, estos ajustes ayudan a proporcionar estimadores imparciales (a menudo con el costo de una mayor varianza, como se ve en las siguientes secciones). Si la muestra original es una muestra no probabilística , entonces los ajustes post-estratificación son simplemente similares al muestreo por cuotas . [9] : 188, 189 Nótese que si se utiliza una muestra aleatoria simple, una post-estratificación (usando alguna información auxiliar) no ofrece un estimador que sea uniformemente mejor que un estimador no ponderado. Sin embargo, puede ser visto como un estimador más "robusto". [18] Alternativamente, cuando el diseño de muestreo es completamente conocido (lo que lleva a alguna probabilidad de selección para algún elemento del estrato h ), y la falta de respuesta es medible (es decir, sabemos que solo las observaciones respondidas en el estrato h ), entonces un peso de probabilidad inversa exactamente conocido puede calcularse para cada elemento i del estrato h usando: . [9] : 186 [g] A veces se utiliza un ajuste estadístico, como la post-estratificación o el rastrillaje, para estimar la probabilidad de selección. Por ejemplo, cuando comparamos la muestra que tenemos con la misma población objetivo, también conocido como emparejamiento con controles. El proceso de estimación puede centrarse únicamente en ajustar la población existente a una población alternativa (por ejemplo, si se intenta extrapolar desde un panel extraído de varias regiones a un país entero). En tal caso, el ajuste podría centrarse en algún factor de calibración y los pesos se calcularían como . [9] : 187 Sin embargo, en otros casos, tanto la subcobertura como la falta de respuesta se modelan como parte del ajuste estadístico, lo que conduce a una estimación de la probabilidad de muestreo general (digamos). En tal caso, los pesos son simplemente: . Nótese que cuando se utilizan ajustes estadísticos, a menudo se estima con base en algún modelo. La formulación en las siguientes secciones asume que esto es conocido, lo que no es cierto para los ajustes estadísticos (ya que solo tenemos ). Sin embargo, si se supone que el error de estimación de es muy pequeño, entonces las siguientes secciones se pueden utilizar como si se conociera. Que este supuesto sea cierto depende del tamaño de la muestra utilizada para el modelado, y vale la pena tenerlo en cuenta durante el análisis. Cuando las probabilidades de selección pueden ser diferentes, el tamaño de la muestra es aleatorio y las probabilidades de selección por pares son independientes, lo llamamos muestreo de Poisson . [19]
“Basado en diseño” versus “basado en modelo” para describir las propiedades de los estimadores
El ajuste de la selección de probabilidad desigual mediante "pesos de casos individuales" (por ejemplo, ponderación de probabilidad inversa) produce varios tipos de estimadores para las cantidades de interés. Estimadores como el estimador de Horvitz-Thompson producen estimadores insesgados (si las probabilidades de selección son de hecho conocidas, o aproximadamente conocidas), para el total y la media de la población. Deville y Särndal (1992) acuñaron el término " estimador de calibración " para los estimadores que utilizan pesos tales que satisfacen alguna condición, como que la suma de los pesos sea igual al tamaño de la población. Y, de manera más general, que la suma ponderada de los pesos sea igual a alguna cantidad de una variable auxiliar: (por ejemplo, que la suma de las edades ponderadas de los encuestados sea igual al tamaño de la población en cada grupo de edad). [20] [17] : 132 [21] : 1
Las dos formas principales de discutir las propiedades de los estimadores de calibración son: [17] : 133–134 [22]
- basado en aleatorización (o, basado en diseño de muestreo) - en este caso, los pesos ( ) y valores del resultado de interés que se miden en la muestra se tratan como conocidos. En este marco, hay variabilidad en los valores (conocidos) del resultado ( Y ). Sin embargo, la única aleatoriedad proviene de cuáles de los elementos de la población fueron seleccionados para la muestra (a menudo denotado como , obteniendo 1 si el elemento está en la muestra y 0 si no lo está). Para una muestra aleatoria simple , cada una será una distribución Bernoulli IID con algún parámetro . Para EPSEM general (muestreo de probabilidad igual) seguirá siendo Bernoulli con algún parámetro , pero es posible que ya no sean variables aleatorias independientes . Es decir, saber que una muestra es EPSEM significa que mantiene una probabilidad de selección marginalmente igual, pero no nos informa sobre la probabilidad conjunta de selección. Para algo como la estratificación posterior, el número de elementos en cada estrato se puede modelar como una distribución multinomial con diferentes probabilidades de inclusión para cada elemento que pertenece a algún estrato . En estos casos, el tamaño de la muestra en sí mismo puede ser una variable aleatoria.
- Basado en modelos : en este caso, la muestra es fija, los pesos son fijos, pero el resultado de interés se trata como una variable aleatoria. Por ejemplo, en el caso de la posestratificación, el resultado se puede modelar como una función de regresión lineal donde las variables independientes son variables indicadoras que asignan cada observación a su estrato relevante y la variabilidad viene con el término de error.
Como veremos más adelante, algunas pruebas en la literatura se basan en el marco basado en la aleatorización, mientras que otras se centran en la perspectiva basada en modelos. Al pasar de la media a la media ponderada , se agrega más complejidad. Por ejemplo, en el contexto de la metodología de encuestas , a menudo el tamaño de la población en sí se considera una cantidad desconocida que se estima. Entonces, en el cálculo de la media ponderada se basa de hecho en un estimador de razón , con un estimador del total en el numerador y un estimador del tamaño de la población en el denominador (lo que hace que el cálculo de la varianza sea más complejo). [23] [3] : 182
Tipos comunes de pesas
Existen muchos tipos (y subtipos) de ponderaciones, con diferentes formas de utilizarlas e interpretarlas. En el caso de algunas ponderaciones, su valor absoluto tiene un significado importante, mientras que en el caso de otras, lo importante son los valores relativos de las ponderaciones entre sí. En esta sección se presentan algunos de los tipos de ponderaciones más comunes para que se pueda hacer referencia a ellos en secciones posteriores.
- Los pesos de frecuencia [24] son un tipo básico de ponderación que se presenta en los cursos introductorios de estadística. En estos, cada peso es un número entero que indica la frecuencia absoluta de un elemento en la muestra. A veces también se los denomina pesos de repetición (o de ocurrencia). El valor específico tiene un significado absoluto que se pierde si se transforman los pesos, como cuando se escala . Por ejemplo: si tenemos los números 10 y 20 con los valores de pesos de frecuencia de 2 y 3, entonces al "dispersar" nuestros datos es: 10,10, 20, 20, 20 (con pesos de 1 para cada uno de estos elementos). Los pesos de frecuencia incluyen la cantidad de información contenida en un conjunto de datos y, por lo tanto, permiten cosas como crear una estimación de varianza ponderada imparcial utilizando la corrección de Bessel . Tenga en cuenta que dichos pesos son a menudo variables aleatorias , ya que el número específico de elementos que veremos de cada valor en el conjunto de datos es aleatorio.
- La ponderación de varianza inversa , también conocida como ponderaciones analíticas , [24] es cuando a cada elemento se le asigna una ponderación que es la inversa de su varianza (conocida). [25] [9] : 187 Cuando todos los elementos tienen la misma expectativa, el uso de dichas ponderaciones para calcular promedios ponderados tiene la menor varianza entre todos los promedios ponderados. En la formulación común, estas ponderaciones son conocidas y no aleatorias.
- Los pesos normalizados (convexos) son un conjunto de pesos que forman una combinación convexa , es decir, cada peso es un número entre 0 y 1, y la suma de todos los pesos es igual a 1. Cualquier conjunto de pesos (no negativos) se puede convertir en pesos normalizados dividiendo cada peso por la suma de todos los pesos, lo que hace que estos pesos se normalicen para sumar 1.
- Una forma relacionada son los pesos normalizados para sumar el tamaño de la muestra (n) . Estos pesos (no negativos) suman el tamaño de la muestra (n) y su media es 1. Cualquier conjunto de pesos se puede normalizar al tamaño de la muestra dividiendo cada peso por el promedio de todos los pesos. Estos pesos tienen una buena interpretación relativa donde los elementos con pesos mayores que 1 son más "influyentes" (en términos de su influencia relativa en, digamos, la media ponderada) que la observación promedio, mientras que los pesos menores que 1 son menos "influyentes" que la observación promedio.
- La ponderación de probabilidad inversa , o simplemente pesos de probabilidad , [24] es cuando a cada elemento se le da un peso que es (proporcional) a la probabilidad inversa de seleccionar ese elemento. Por ejemplo, al usar. [9] : 185 Con pesos de probabilidad inversa, aprendemos cuántos elementos "representa" cada elemento en la población objetivo. Por lo tanto, la suma de dichos pesos devuelve el tamaño de la población objetivo de interés. Los pesos de probabilidad inversa se pueden normalizar para que sumen 1 o para que sumen el tamaño de la muestra (n), y muchos de los cálculos de las siguientes secciones arrojarán los mismos resultados.
- Cuando una muestra es EPSEM , todas las probabilidades son iguales y la inversa de la probabilidad de selección produce ponderaciones que son todas iguales entre sí (todas son iguales a , donde es el tamaño de la muestra y es el tamaño de la población). Este tipo de muestra se denomina muestra autoponderada . [9] : 193
También hay formas indirectas de aplicar ajustes "ponderados". Por ejemplo, los casos existentes pueden duplicarse para imputar observaciones faltantes (por ejemplo, por falta de respuesta), con varianza estimada utilizando métodos como la imputación múltiple . Un enfoque alternativo es eliminar (asignar un peso de 0 a) algunos casos. Por ejemplo, cuando se desea reducir la influencia de grupos sobremuestreados que son menos esenciales para algún análisis. Ambos casos son similares en naturaleza a la ponderación de probabilidad inversa, pero la aplicación en la práctica proporciona más/menos filas de datos (lo que hace que la entrada sea potencialmente más sencilla de usar en alguna implementación de software), en lugar de aplicar una columna adicional de ponderaciones. Sin embargo, las consecuencias de tales implementaciones son similares a las de simplemente usar ponderaciones. Entonces, mientras que en el caso de eliminar observaciones los datos pueden manejarse fácilmente con implementaciones de software comunes, el caso de agregar filas requiere ajustes especiales para las estimaciones de incertidumbre. No hacerlo puede llevar a conclusiones erróneas (es decir, no hay almuerzo gratis cuando se usa una representación alternativa de los problemas subyacentes). [9] : 189, 190
El término "pesos aleatorios", acuñado por Kish, se utiliza para referirse a pesos que corresponden a probabilidades de selección desiguales, pero que no están relacionados con la expectativa o varianza de los elementos seleccionados. [9] : 190, 191
Pesos aleatorios con relación-media estimada () - Efecto de diseño de Kish
Al tomar una muestra sin restricciones de elementos, podemos dividir aleatoriamente estos elementos en estratos disjuntos , cada uno de ellos conteniendo algún tamaño de elementos de modo que . Todos los elementos en cada estrato tienen algún peso no negativo (conocido) asignado a ellos ( ). El peso puede producirse por la inversa de alguna probabilidad de selección desigual para los elementos en cada estrato (es decir, ponderación de probabilidad inversa siguiendo un procedimiento como la posestratificación). En este contexto, el efecto de diseño de Kish , para el aumento en la varianza de la media ponderada de la muestra debido a este diseño (reflejado en los pesos), frente a la SRS de alguna variable de resultado y (cuando no hay correlación entre los pesos y el resultado, es decir, pesos aleatorios) es: [1] : 427 [9] : 191(4.2)
Al tratar cada elemento como si viniera de su propio estrato , Kish (en 1992) simplificó la fórmula anterior a la siguiente versión (bien conocida): [9] : 191(4.3) [26] : 318 [4] : 8
Esta versión de la fórmula es válida cuando se extrajeron varias observaciones de un estrato (es decir, cada una con el mismo peso), o cuando hay muchos estratos de los cuales se extrajo una observación de cada uno, pero varios de ellos tuvieron la misma probabilidad de selección. Si bien la interpretación es ligeramente diferente, el cálculo de los dos escenarios resulta ser el mismo.
Al utilizar el efecto de diseño de Kish para pesos desiguales, puede utilizar la siguiente fórmula simplificada para el " Tamaño de muestra efectivo de Kish " [27] [1] : 162, 259
[Prueba]
Suposiciones y pruebas
La fórmula anterior, de Kish , da el aumento de la varianza de la media ponderada en función de ponderaciones "al azar". Esto también se puede escribir como la siguiente fórmula donde y son observaciones seleccionadas utilizando probabilidades de selección desiguales (sin correlación dentro del conglomerado y sin relación con la expectativa o la varianza de la medición del resultado), [9] : 190, 191 e y' son las observaciones que habríamos tenido si las hubiéramos obtenido de una muestra aleatoria simple :
Se puede demostrar que la fórmula de la razón de varianzas se puede reducir a la fórmula de Kish utilizando una perspectiva basada en modelos. [28] En ella, la fórmula de Kish se cumplirá cuando todas las n observaciones ( ) estén (al menos aproximadamente) no correlacionadas ( ), con la misma varianza ( ) en la variable de respuesta de interés (y). También será necesario suponer que los pesos en sí mismos no son una variable aleatoria sino más bien algunas constantes conocidas (por ejemplo, la inversa de la probabilidad de selección, para algún diseño de muestreo predeterminado y conocido ). [ cita requerida ]
Las condiciones de y se cumplen de manera trivial si las observaciones y son IID con la misma expectativa y varianza . En tales casos, , y podemos estimar utilizando . [9] [29] Si las y no tienen todas las mismas expectativas, entonces no podemos utilizar la varianza estimada para el cálculo, ya que esa estimación supone que todas las s tienen la misma expectativa. Específicamente, si hay una correlación entre los pesos y la variable de resultado y, entonces significa que la expectativa de y no es la misma para todas las observaciones (sino que depende del valor de peso específico para cada observación). En tal caso, si bien la fórmula del efecto de diseño aún podría ser correcta (si se cumplen las otras condiciones), requeriría un estimador diferente para la varianza de la media ponderada. Por ejemplo, podría ser mejor utilizar un estimador de varianza ponderada . [ cita requerida ]
Si diferentes valores s tienen diferentes varianzas, entonces, si bien la varianza ponderada podría capturar la varianza correcta a nivel de población, la fórmula de Kish para el efecto del diseño puede dejar de ser verdadera. [ cita requerida ]
Un problema similar ocurre si existe alguna estructura de correlación en las muestras (como cuando se utiliza un muestreo por conglomerados ). [ cita requerida ]
Relación con el coeficiente de variación
Obsérvese que la definición de Kish del efecto de diseño está estrechamente vinculada al coeficiente de variación (Kish también lo llama relvarianza o relvar para abreviar [h] ) de los pesos (cuando se utiliza la desviación estándar de la muestra (a nivel de población) no corregida para la estimación ). Esto tiene varias notaciones en la literatura: [9] : 191 [13] : 396
- .
Donde es la varianza de la población de , y es la media. Cuando los pesos se normalizan al tamaño de la muestra (de modo que su suma sea igual a n y su media sea igual a 1), entonces y la fórmula se reduce a . Si bien es cierto que asumimos que los pesos son fijos, podemos pensar en su varianza como la varianza de una distribución empírica definida al muestrear (con igual probabilidad) un peso de nuestro conjunto de pesos (de manera similar a cómo pensaríamos en la correlación de x e y en una regresión lineal simple ). [ cita requerida ]
[Prueba]
Relación con el muestreo estratificado desproporcionado
La definición original de Kish comparaba la varianza bajo un diseño de muestreo con la varianza lograda a través de una muestra aleatoria simple . Algunas publicaciones proporcionan la siguiente definición alternativa para el efecto de diseño de Kish: "la relación entre la varianza de la media ponderada de la encuesta bajo un muestreo estratificado desproporcionado y la varianza bajo un muestreo estratificado proporcionado cuando todas las varianzas de las unidades de estrato son iguales". [26] : 318 [13] : 396 Al reflexionar sobre esto, Park y Lee (2006) afirmaron que "la lógica detrás de [...] la derivación [de Kish] es que la pérdida de precisión de [la media ponderada] debido a una ponderación desigual aleatoria se puede aproximar por la relación entre la varianza bajo un muestreo estratificado desproporcionado y la varianza bajo un muestreo estratificado proporcionado". [4] : 8
Tenga en cuenta que esta definición alternativa es solo aproximada, ya que si el denominador se basa en un "muestreo estratificado proporcional" (logrado mediante un muestreo estratificado ), entonces dicha selección producirá una varianza reducida en comparación con el muestreo aleatorio simple . Esto se debe a que el muestreo estratificado elimina parte de la variabilidad en el número específico de elementos por estrato, como ocurre con el muestreo aleatorio simple. [ cita requerida ]
En relación con esto, Cochran (1977) proporciona una fórmula para el aumento proporcional de la varianza debido a la desviación de la asignación óptima (lo que, en las fórmulas de Kish, se llamaría L ). [3] : 116
Convenciones de nombres alternativas
Los primeros artículos utilizaron el término . [9] : 192 A medida que aparecieron más definiciones del efecto de diseño, el efecto de diseño de Kish para probabilidades de selección desiguales se denominó (o ) o simplemente para abreviar. [4] : 8 [13] : 396 [26] : 318 El efecto de diseño de Kish también se conoce como "Efecto de ponderación desigual" (o simplemente UWE), denominado por Liu et al. en 2002. [30] : 2124
Cuando el resultado se correlaciona con las probabilidades de selección
De SpencerDefinitivamentepara un total estimado ()
El estimador para el total es el estimador "p-expandido con reemplazo" (también conocido como estimador pwr o Hansen y Hurwitz ). Se basa en una muestra aleatoria simple (con reemplazo, denotada como SIR ) de n elementos ( ) de una población de tamaño N. [i] Cada elemento tiene una probabilidad de (k de 1 a N) de ser extraído en un solo sorteo ( , es decir, es una distribución multinomial ). La probabilidad de que un elemento específico aparezca en la muestra es . El valor "p-expandido con reemplazo" es con la siguiente expectativa: . Por lo tanto , el estimador pwr, es un estimador insesgado para la suma total de y. [3] : 51
En 2000, Bruce D. Spencer propuso una fórmula para estimar el efecto del diseño para la varianza de estimar el total (no la media) de alguna cantidad ( ), cuando existe correlación entre las probabilidades de selección de los elementos y la variable de resultado de interés. [31]
En esta configuración, se extrae una muestra de tamaño n (con reemplazo) de una población de tamaño N . Cada elemento se extrae con probabilidad (donde , es decir, distribución multinomial ). Las probabilidades de selección se utilizan para definir los pesos normalizados (convexos): . Observe que para un conjunto aleatorio de n elementos, la suma de los pesos será igual a 1 solo por expectativa ( ) con cierta variabilidad de la suma a su alrededor (es decir, la suma de elementos de una distribución binomial de Poisson ). La relación entre y se define mediante la siguiente regresión lineal simple (poblacional) :
Donde es el resultado del elemento i , que depende linealmente de con la intersección y la pendiente . El residuo de la línea ajustada es . También podemos definir las varianzas poblacionales del resultado y los residuos como y . La correlación entre y es . [ cita requerida ]
El efecto de diseño (aproximado) de Spencer para estimar el total de y es: [31] : 138 [32] : 4 [13] : 401
Dónde:
- Estimaciones
- estima la pendiente
- estima la varianza de la población , y
- L es la relatividad de los pesos, tal como se define en la fórmula de Kish: .
Esto supone que el modelo de regresión se ajusta bien de modo que la probabilidad de selección y los residuos son independientes , ya que conduce a que los residuos y los residuos cuadrados no estén correlacionados con los pesos, es decir, que y también . [31] : 138
Cuando el tamaño de la población (N) es muy grande, la fórmula se puede escribir como: [26] : 319
(desde , donde )
Esta aproximación supone que se cumple la relación lineal entre P e y , y también que la correlación de los pesos con los errores y los errores al cuadrado son ambos cero. Es decir, y . [32] : 4
Observamos que si , entonces (es decir, el promedio de y ). En tal caso, la fórmula se reduce a
Solo si la varianza de y es mucho mayor que su media, entonces el término más a la derecha está cerca de 0 (es decir, ), lo que reduce el efecto de diseño de Spencer (para el total estimado) para que sea igual al efecto de diseño de Kish (para las medias de la razón): [32] : 5 . De lo contrario, las dos fórmulas producirán resultados diferentes, lo que demuestra la diferencia entre el efecto de diseño del total frente al efecto de diseño de la media.
Parque y Leepara la relación-media estimada ()
En 2001, Park y Lee extendieron la fórmula de Spencer al caso de la media de razón (es decir, estimando la media dividiendo el estimador del total por el estimador del tamaño de la población). Es: [32] : 4
Dónde:
- es el coeficiente de variación al cuadrado (estimado) de las probabilidades de selección.
La fórmula de Park y Lee es exactamente igual a la fórmula de Kish cuando . Ambas fórmulas se relacionan con el efecto de diseño de la media de y , mientras que la de Spencer se relaciona con la estimación del total de la población.
En general, la para el total ( ) tiende a ser menos eficiente que la para la media de la razón ( ) cuando es pequeña. Y, en general, afecta la eficiencia de ambos efectos de diseño. [4] : 8
Muestreo por conglomerados
Para los datos recopilados mediante muestreo por conglomerados asumimos la siguiente estructura:
- observaciones en cada conglomerado y K conglomerados, y con un total de observaciones.
- Las observaciones tienen una matriz de correlación diagonal en bloques en la que cada par de observaciones del mismo conglomerado está correlacionado con una correlación intraclase de , mientras que cada par de conglomerados diferentes no está correlacionado. [33] Es decir, para cada par de observaciones, y , si pertenecen al mismo conglomerado , obtenemos . Y dos elementos de dos conglomerados diferentes no están correlacionados, es decir: .
- Se supone que un elemento de cualquier grupo tiene la misma varianza: .
Cuando todos los clústeres tienen el mismo tamaño , el efecto de diseño D eff , propuesto por Kish en 1965 (y posteriormente revisado por otros), viene dado por: [1] : 162 [13] : 399 [4] : 9 [34] [35] [14] : 241
A veces también se denota como . [30] : 2124
En varios artículos, cuando los tamaños de los clústeres no son iguales, la fórmula anterior también se utiliza con como el tamaño promedio del clúster (que a veces también se denota como ). [36] [28] : 105 En tales casos, la fórmula de Kish (que utiliza el peso promedio del clúster) sirve como un conservador (límite superior) del efecto de diseño exacto. [28] : 106
Existen fórmulas alternativas para tamaños de conglomerados desiguales. [1] : 193 En trabajos de seguimiento se había analizado la sensibilidad de utilizar el tamaño de conglomerado promedio con diversas suposiciones. [37]
El efecto del diseño para diseños complejos
Probabilidades de selección desigualesMuestreo por conglomerados
En un artículo de 1987, Kish propuso un efecto de diseño combinado que incorpora tanto los efectos debidos a la ponderación que tiene en cuenta las probabilidades de selección desiguales como el muestreo por conglomerados: [36] : 16 [28] : 105 [38] : 4 [32] : 2
Lo anterior utiliza notaciones similares a las que se utilizan en este artículo (la publicación original de 1987 utilizó una notación diferente). [j] Gabler et al. proporcionaron una justificación basada en modelos para esta fórmula. [28]
Muestreo estratificadoprobabilidades de selección desigualesMuestreo por conglomerados
En 2000, Liu y Aragon propusieron una descomposición del efecto del diseño de probabilidades de selección desiguales para diferentes estratos en el muestreo estratificado. [39] En 2002, Liu et al. ampliaron ese trabajo para tener en cuenta las muestras estratificadas, donde dentro de cada estrato hay un conjunto de ponderaciones de probabilidad de selección desiguales. El muestreo por conglomerados es global o por estrato. [30] Park et al. también realizaron un trabajo similar en 2003. [40]
Chen-Rust:Efectos del diseño en diseños de dos y tres etapas con estratificación
La fórmula de Chen-Rust amplía la justificación basada en modelos de la fórmula de Kish de 1987 para los efectos de diseño propuesta por Gabler, et al., [28] aplicándola a diseños de dos etapas con estratificación en la primera etapa y a diseños de tres etapas sin estratificación. [41] Las fórmulas modificadas definen el efecto de diseño general utilizando ponderaciones de encuestas y correlaciones intraconglomerados de la población. Estas fórmulas permiten interpretaciones perspicaces de los efectos de diseño a partir de varias fuentes y pueden estimar correlaciones intraconglomerados en encuestas completadas o predecir efectos de diseño en encuestas futuras. [ cita requerida ]
De Henry: una medida del efecto del diseño para la ponderación de la calibración en muestras de una sola etapa
Henry [26] propone una medida extendida del efecto del diseño de ponderación asistida por modelo para el muestreo de una sola etapa y los ajustes de ponderación de calibración para un caso donde , donde es un vector de covariables, los errores del modelo son independientes y el estimador del total de la población es el estimador de regresión general (GREG) de Särndal, Swensson y Wretman (1992). [3] La nueva medida considera los efectos combinados del diseño de muestreo no epsem, ponderaciones desiguales de los ajustes de calibración y la correlación entre una variable de análisis y los auxiliares utilizados en la calibración.
De Lohr:un efecto de diseño para una pendiente de regresión en una muestra de conglomerados
El estudio [42] de Lohr se centra en los estimadores de mínimos cuadrados ordinarios (MCO) y mínimos cuadrados generalizados (MGL) en el contexto del muestreo por conglomerados, utilizando un modelo de regresión de coeficientes aleatorios. Lohr presenta las condiciones en las que el estimador MCO de la pendiente de regresión tiene un efecto de diseño menor que 1, lo que indica una mayor eficiencia. Sin embargo, el efecto de diseño del estimador MCO es muy sensible a la especificación del modelo. Si un modelo de coeficientes aleatorios subyacente se especifica incorrectamente como un modelo de intersección aleatoria, el efecto de diseño puede subestimarse seriamente. Por el contrario, el estimador MCO de la pendiente de regresión y el efecto de diseño calculado desde una perspectiva basada en el diseño son robustos a la especificación incorrecta de la estructura de varianza, lo que los hace más confiables en situaciones en las que la especificación del modelo puede no ser precisa. [ cita requerida ]
Usos
Puede utilizarse al planificar una futura recopilación de datos, así como una herramienta de diagnóstico: [14] : 85
- Al planificar una futura recolección de datos , se puede utilizar para evaluar la eficiencia del muestreo. Por ejemplo, si existe un aumento potencialmente "demasiado" en la varianza debido a alguna decisión de diseño de muestreo, o si algún diseño alternativo (económicamente factible) es más eficiente. Esto también influye en el tamaño de la muestra (general, por estrato, por conglomerado, etc.). Al planificar el tamaño de la muestra, se puede trabajar para corregir el efecto del diseño de modo de separar el efecto del entrevistador (error de medición) de los efectos del diseño de muestreo en la varianza del muestreo. [43]
- Como herramienta de diagnóstico , puede ayudar a evaluar posibles problemas con un análisis de ponderación post-hoc (por ejemplo, ajustes por falta de respuesta). [8] Por ejemplo, si el valor es especialmente alto, podría indicar un problema con el esquema de muestreo o ponderación. Esto también puede ayudar cuando se realiza alguna manipulación en los pesos (por ejemplo, recorte de pesos), el efecto de diseño podría usarse para evaluar la influencia de la manipulación en el tamaño de muestra efectivo. [44] Y también para identificar problemas evidentes con los datos o su análisis (por ejemplo, que van desde errores hasta la presencia de valores atípicos ). [9] : 191 Aunque alguna literatura sugiere que es probable que requiera cierta atención, [13] : 396 no existe una regla general universal para qué valor de efecto de diseño es "demasiado alto". Las consideraciones prácticas de los valores a menudo dependen del contexto. [ investigación original? ]
Considerar el efecto de diseño es innecesario cuando [5] : 57–62 la población de origen es cercanamente IID , o cuando el diseño de la muestra de los datos se extrajo como una muestra aleatoria simple . También es menos útil cuando el tamaño de la muestra es relativamente pequeño (al menos parcialmente, por razones prácticas). [ ¿ Investigación original? ]
Si bien Kish originalmente esperaba que el efecto de diseño fuera lo más independiente posible de la distribución subyacente de los datos, las probabilidades de muestreo, sus correlaciones y las estadísticas de interés, las investigaciones posteriores han demostrado que estos factores sí influyen en el efecto de diseño. Por lo tanto, estas propiedades deben considerarse cuidadosamente al decidir qué cálculo utilizar y cómo utilizarlo. [4] : 13 [32] : 6
El efecto de diseño rara vez se aplica al construir intervalos de confianza. Idealmente, uno podría determinar, para un estimador de un parámetro particular, tanto la varianza bajo una muestra aleatoria simple (SRS) con reemplazo como el efecto de diseño (que representa todos los elementos del diseño de muestreo que cambian la varianza). En tales escenarios, la varianza básica y el efecto de diseño podrían haberse multiplicado para calcular la varianza del estimador para el diseño específico. [1] : 259 Este valor calculado puede emplearse luego para formar intervalos de confianza. Sin embargo, en aplicaciones del mundo real, es poco común estimar ambos valores simultáneamente. Como resultado, se prefieren otros métodos. Por ejemplo, la linealización de Taylor se utiliza para construir intervalos de confianza basados en la varianza de la media ponderada . Más ampliamente, el método bootstrap, también conocido como pesos de replicación , se aplica para una gama de estadísticas ponderadas. [ cita requerida ]
Implementaciones de software
El efecto de diseño de Kish se implementa en varios paquetes de software estadístico:
- R: surveysummary del paquete survey. [45] También se implementa en otros paquetes R (por ejemplo, pewmethods, [46] y samplesize4surveys [47] ).
- Python: design_effect del paquete balance. [48]
- SAS: Uso de Proc Surveymeans. [49]
- Stata: Uso del comando de post-estimación estat después del comando svy: mean. [50]
- Sudán. [51]
- WESVAR: calcula el efecto de diseño de Kish con reemplazo (SRSWR), es decir . [52]
Notas
- ^ Es decir, que el efecto del diseño es la relación de las varianzas de dos estimadores, uno de una muestra con algún diseño y el otro de una muestra aleatoria simple.
- ^ En Cochran 1977 se ofrece una fórmula general para el efecto de diseño (teórico) de estimar un total (no la media) para algún diseño. [3] : 54
- ^ La intención original de Kish para era que "expresara los efectos del diseño de la muestra más allá de la variabilidad elemental , eliminando tanto la unidad de medida como el tamaño de la muestra como parámetros molestos". La esperanza era que el efecto del diseño fuera generalizable (relevante para) muchas estadísticas y variables dentro de la misma encuesta (e incluso entre encuestas). [5] : 55 Sin embargo, trabajos de seguimiento han demostrado que el efecto del diseño depende del diseño de muestreo específico, el resultado y la estadística de interés (por ejemplo, el total de la población frente a la media). Especialmente, depende de la asociación entre algún resultado específico con un diseño específico (por ejemplo, la correlación entre y la probabilidad de selección ). [4] : 5 Por lo tanto, la literatura actual no respalda la generalización de la a través de muchas estadísticas y medidas de resultados.
- ^ Como ejemplo simple de esto, imaginemos que tenemos grupos de diferentes tamaños y tomamos una muestra de un solo grupo (usando SRS) y medimos todos los elementos que contiene. Esto generará EPSEM, pero la cantidad de observaciones que obtendremos dependerá del tamaño del grupo.
- ^
Para ser más precisos: supongamos que es la medida del tamaño del conglomerado . Un método común de muestreo PPS (probabilidad proporcional al tamaño) es muestrear cada conglomerado con una probabilidad de selección que es proporcional a su tamaño de la siguiente manera: donde es el número de conglomerados que queremos muestrear y es el marco utilizado para muestrear conglomerados. Si submuestreamos un número igual, , de elementos dentro de cada conglomerado de muestra utilizando algún método de probabilidad igual, y es el número correcto de elementos en el conglomerado , entonces la probabilidad de selección del elemento (en algún conglomerado ) será la misma para cada elemento en todos los conglomerados (es decir, EPSEM): . Si resulta no ser el tamaño correcto, el muestreo a la tasa de seguirá produciendo EPSEM (método de selección de probabilidad igual). Observe que si enumeramos (medimos) todas las unidades en un conglomerado de muestra (en lugar de un número fijo , o una proporción fija ), entonces cada unidad en el conglomerado tiene la probabilidad de selección del conglomerado, lo que conducirá a una probabilidad desigual de selecciones entre elementos de diferentes conglomerados (es decir, ).
- ^ Por ejemplo, digamos que asumimos que para cada conglomerado su tamaño es , podemos muestrear conglomerados con la siguiente probabilidad de selección: . Y luego, tomamos un número fijo de elementos de cada conglomerado. En tal caso, si decimos que el tamaño real del conglomerado es, digamos, , entonces la probabilidad de selección para cada elemento tomado del conglomerado , será: . Tenga en cuenta que esto podría mitigarse en la etapa de muestreo si muestreamos de cada conglomerado utilizando la tasa , entonces la probabilidad de selección será EPSEM (aunque el tamaño real del conglomerado fuera y no ).
- ^ Esta fórmula se aplicaría sólo si se seleccionara una muestra de probabilidad igual en el estrato h y cada elemento tuviera la misma probabilidad de responder.
- ^ Observe que existe otro término llamado varianza relativa , que es diferente. Es la relación entre la varianza y la media, mientras que la varianza relativa de Kish es la relación entre la varianza y la media al cuadrado.
- ^ En la literatura, los tamaños de muestra y población a veces se marcan como n y N , y a veces m y M . En este artículo usamos n y N .
- ^
La fórmula para el efecto de diseño de Kish utilizando la notación original: [36] : 16
Referencias
Este artículo fue enviado a WikiJournal of Science para su revisión académica externa por pares en 2023 (informes de los revisores). El contenido actualizado fue reintegrado a la página de Wikipedia bajo una licencia CC-BY-SA-3.0 ( 2024 ). La versión de registro revisada es: Tal Galili; et al. (5 de mayo de 2024). "Efecto del diseño". WikiJournal of Science . 7 (1): 4. doi : 10.15347/WJS/2024.004 . ISSN 2470-6345. Wikidata Q116768211.
- ^ abcdefghijklmno Kish, Leslie (1965). Muestreo de encuestas . Nueva York: John Wiley & Sons, Inc. ISBN 0-471-10949-5.
- ^ Heo, Moonseong; Kim, Yongman; Xue, Xiaonan; Kim, Mimi Y. (2010). "Requisitos de tamaño de muestra para detectar un efecto de intervención al final del seguimiento en un ensayo aleatorizado longitudinal por conglomerados". Estadísticas en Medicina . 29 (3): 382–390. doi :10.1002/sim.3806. ISSN 1097-0258. PMID 20014353. S2CID 30001378. Archivado desde el original el 5 de enero de 2013.
- ^ abcdefg Sarndal, Carl-Erik; Swensson, Bengt; Wretman, enero (1992). Muestreo de encuestas asistido por modelos . Saltador. doi :10.1007/978-1-4612-4378-6 (inactivo el 1 de noviembre de 2024). ISBN 9780387975283.
{{cite book}}
: CS1 maint: DOI inactive as of November 2024 (link) - ^ abcdefghijk Park, Inho; Lee, Hyunshik (2004). "Efectos de diseño para los estimadores de media ponderada y total bajo un muestreo de encuesta complejo" (PDF) . Metodología de encuestas . 30 (2): 183–193. ISSN 1492-0921.
- ^ abcdef Kish, Leslie (1995). "Métodos para efectos de diseño" (PDF) . Revista de Estadística Oficial . 11 (1): 55. ISSN 0282-423X.
- ^ Cochran, William G. (junio de 1951). "Principios generales en la selección de una muestra". Revista estadounidense de salud pública y salud de la nación . 41 (6): 647–653. doi :10.2105/AJPH.41.6.647. ISSN 0090-0036. PMC 1525569. PMID 14838186 .
- ^ Everitt, BS (2002). Diccionario de estadística de Cambridge (2.ª edición). Cambridge University Press. ISBN 0-521-81099-X.
- ^ abc Kalton, Graham; Brick, J. Michael; Lȇ, Thanh (2005). Estimación de componentes de efectos de diseño para su uso en el diseño de muestras (PDF) . Encuestas por muestreo de hogares en países en desarrollo y en transición (informe). Nueva York: Departamento de Asuntos Económicos y Sociales, División de Estadística, Naciones Unidas. pp. 95–121. ISBN 92-1-161481-3. ST/ESA/STAT/SER.F/96.
- ^ abcdefghijklmnopqrstu Kish, Leslie (1992). "Ponderación para Pi desigual" (PDF) . Revista de Estadística Oficial . 8 (2): 183–200. ISSN 0282-423X.
- ^ Leinster, Tom (18 de diciembre de 2014). "Tamaño de muestra efectivo". The n-Category Café .
- ^ Wolter, Kirk M. (2007). Introducción a la estimación de la varianza . Estadística para las ciencias sociales y del comportamiento (2.ª ed.). Springer. doi :10.1007/978-0-387-35099-8. ISBN 978-0387329178.
- ^ ab Frerichs, RR (2004). "Igual probabilidad de selección". Encuestas rápidas (PDF) . inédito.
- ^ abcdefg Valliant, Richard; Dever, Jill A.; Kreuter, Frauke (2013). Herramientas prácticas para diseñar y ponderar muestras de encuestas . Nueva York: Springer. doi :10.1007/978-1-4614-6449-5. ISBN 978-1-4899-9381-6.
- ^ abc Cochran, WG (1977). Técnicas de muestreo (3.ª ed.). Nashville, TN: John Wiley & Sons. ISBN 978-0-471-16240-7.
- ^ Neyman, Jerzy (1934). "Sobre los dos aspectos diferentes del método representativo: el método de muestreo estratificado y el método de selección intencional". Revista de la Royal Statistical Society . 97 (4): 558–625. doi :10.2307/2342192. ISSN 0952-8385. JSTOR 2342192.
- ^ Dever, Jill A.; Valliant, Richard (2010). "Una comparación de estimadores de varianza para la postestratificación con totales de control estimados" (PDF) . Metodología de encuestas . 36 (1): 45–56. ISSN 1492-0921.
- ^ abc Kott, Phillip S. (2006). "Uso de ponderación de calibración para ajustar errores de cobertura y de falta de respuesta" (PDF) . Metodología de encuestas . 32 (2): 133. ISSN 1492-0921.
- ^ Holt, D.; Smith, TMF (1979). "Postestratificación". Revista de la Royal Statistical Society. Serie A (General) . 142 (1): 33–46. doi :10.2307/2344652. ISSN 0035-9238. JSTOR 2344652.
- ^ Ghosh, Dhiren; Vogt, Andrew (2002). "Métodos de muestreo relacionados con el muestreo de Bernoulli y Poisson" (PDF) . Actas de la Sección de Métodos de Investigación por Encuesta . 2002 : 3569–3570. ISSN 0733-5830.
- ^ Deville, Jean-Claude; Särndal, Carl-Erik (1992). "Estimadores de calibración en muestreos de encuestas". Revista de la Asociación Estadounidense de Estadística . 87 (418): 376–382. doi :10.1080/01621459.1992.10475217. ISSN 0162-1459.
- ^ Brick, J. Michael; Montaquila, Jill; Roth, Shelley (2003). "Identificación de problemas con estimadores de rastrillaje" (PDF) . Actas de la Sección de Métodos de Investigación de Encuestas . 2003 : 710–717. ISSN 0733-5830.
- ^ Keiding, Niels; Clayton, David (2014). "Estandarización y control de la confusión en estudios observacionales: una perspectiva histórica". Ciencia estadística . 29 (4): 529–558. arXiv : 1503.02853 . doi :10.1214/13-STS453. ISSN 0883-4237.
- ^ Lumley, Thomas (25 de mayo de 2021). "¿Cómo estimar la varianza (aproximada) de la media ponderada?". Stack Exchange .
- ^ abc "¿Qué tipos de ponderaciones admiten SAS, Stata y SPSS?". UCLA Statistical Consulting Group. 2021. Archivado desde el original el 2 de septiembre de 2023. Consultado el 2 de septiembre de 2023 .
- ^ Kalton, Graham (1968). "Estandarización: una técnica para controlar las variables extrañas". Revista de la Royal Statistical Society. Serie C (Estadística aplicada) . 17 (2): 118–136. doi :10.2307/2985676. ISSN 0035-9254. JSTOR 2985676.
- ^ abcde Henry, Kimberly A.; Valliant, Richard (2015). "Una medida del efecto del diseño para la ponderación de la calibración en muestras de una sola etapa" (PDF) . Metodología de encuestas . 41 (2): 315–331. ISSN 1492-0921.
- ^ Bock, Tim (24 de marzo de 2017). "Efectos del diseño y tamaño de muestra efectivo". Displayr .
- ^ abcdefg Gabler, Siegfried; Häder, Sabine; Lahiri, Partha (1999). "Una justificación basada en modelos de la fórmula de Kish para efectos de diseño para ponderación y agrupamiento" (PDF) . Metodología de encuestas . 25 : 105–106. ISSN 1492-0921.
- ^ Little, Roderick J.; Vartivarian, Sonya (2005). "¿La ponderación de la falta de respuesta aumenta la varianza de las medias de las encuestas?" (PDF) . Metodología de encuestas . 31 (2): 161. ISSN 1492-0921.
- ^ abc Liu, Jun; Iannacchione, Vince; Byron, Margie (2002). "Descomposición de los efectos de diseño para el muestreo estratificado" (PDF) . Actas de la Sección de Métodos de Investigación de Encuestas . 2002 : 2124–2126. ISSN 0733-5830.
- ^ abc Spencer, Bruce D. (2000). "Un efecto de diseño aproximado para ponderación desigual cuando las mediciones pueden correlacionarse con las probabilidades de selección" (PDF) . Metodología de encuestas . 26 : 137–138. ISSN 1492-0921.
- ^ abcdef Park, Inho; Lee, Hyunshik (2001). "El efecto del diseño: ¿lo sabemos todo sobre él?" ( PDF) . Actas de la Sección de Métodos de Investigación por Encuesta . 2001. ISSN 0733-5830.
- ^ Rowe, Alexander K.; Lama, Marcel; Onikpo, Faustin; Deming, Michael S. (2002). "Efectos de diseño y coeficientes de correlación intraclase de una encuesta por conglomerados de centros de salud en Benin". Revista internacional de calidad en la atención sanitaria . 14 (6): 521–523. doi :10.1093/intqhc/14.6.521. ISSN 1353-4505. PMID 12515339.
- ^ Bland, Michael (2005). "Ensayos aleatorios por conglomerados en la literatura médica". Universidad de York.
- ^ Ahmed, Saifuddin (2009). "Métodos en encuestas por muestreo" (PDF) . Facultad de Salud Pública Bloomberg de la Universidad Johns Hopkins. pp. 5–6. Archivado desde el original (PDF) el 28 de septiembre de 2013.
- ^ abc Kish, Leslie (1987). "Preguntas y respuestas" (PDF) . The Survey Statistician . Vol. 17. págs. 13-17. ISSN 0214-3240.
- ^ Lynn, Peter; Gabler, Siegfried (2005). "Aproximaciones a b* en la predicción de efectos de diseño debido a la agrupación" (PDF) . Metodología de encuestas . 31 (1): 101–104. ISSN 1492-0921.
- ^ Gabler, Siegfried; Hader, Sabine; Lynn, Peter (2005). "Efectos de diseño para muestras de diseño múltiples" (PDF) . Metodología de encuestas . 32 (1): 115–120. ISSN 1492-0921.
- ^ Liu, Jun; Aragon, Elvessa (2000). "Estrategias de submuestreo en encuestas longitudinales" (PDF) . Actas de la Sección de Métodos de Investigación de Encuestas . 2000 : 307–312. ISSN 0733-5830.
- ^ Park, Inho; Winglee, Marianne; Clark, Jay; Rust, Keith; Sedlak, Andrea; Morganstein, David (2003). "Efectos del diseño y planificación de encuestas" (PDF) . Actas de la Sección de Métodos de Investigación de Encuestas . 2003 : 3179–3186. ISSN 0733-5830.
- ^ Chen, Sixia; Rust, Keith (2017). "Una extensión de la fórmula de Kish para efectos de diseño a diseños de dos y tres etapas con estratificación". Revista de estadística y metodología de encuestas . 5 (2): 111–130. doi :10.1093/jssam/smw036. ISSN 2325-0984. PMC 10426793 . PMID 37583392.
- ^ Lohr, Sharon L. (2014). "Efectos de diseño para una pendiente de regresión en una muestra por conglomerados". Revista de estadística y metodología de encuestas . 2 (2): 97–125. doi :10.1093/jssam/smu003. ISSN 2325-0984.
- ^ Zins, Stefan; Burgard, Jan Pablo (2020). "Consideración de los efectos del entrevistador y del diseño al planificar tamaños de muestra". Metodología de encuestas . 46 (1): 93–119. ISSN 1492-0921.
- ^ Potter, Frank; Zheng, Yuhong (2015). "Métodos y problemas en la reducción de pesos extremos en encuestas por muestreo" (PDF) . Actas de la Sección de Métodos de Investigación de Encuestas . 2015 : 2707–2719. ISSN 0733-5830.
- ^ Lumley, Thomas (2004). "Análisis de muestras de encuestas complejas". Journal of Statistical Software . 9 (1): 1–19. doi : 10.18637/jss.v009.i08 . ISSN 1548-7660.
Versión del paquete R 2.2
- ^ Pew Research Center. "pewmethods". GitHub . Consultado el 28 de noviembre de 2023 .
- ^ Gutierrez Rojas, Hugo Andres (17 de enero de 2020). "samplesize4surveys". The Comprehensive R Archive Network (CRAN) . Consultado el 28 de noviembre de 2023 .
- ^ Sarig, Tal; Galili, Tal; Eilat, Roee (2023). "balance: un paquete de Python para equilibrar muestras de datos sesgadas". arXiv : 2307.06024 [stat.CO].
- ^ Buskirk, Trent D. (2011). Estimación de efectos de diseño para medias, proporciones y totales a partir de datos de encuestas de muestras complejas utilizando SAS® Proc Surveymeans (PDF) . Conferencia del grupo de usuarios de SAS del Medio Oeste de 2011. Saint Louis, MO: Facultad de Salud Pública de la Universidad de Saint Louis. págs. 1–13. Archivado desde el original (PDF) el 11 de mayo de 2015. Consultado el 28 de noviembre de 2023 .
- ^ "Análisis de datos de encuestas en Stata 17". UCLA Statistical Consulting Group. 2021. Archivado desde el original el 7 de junio de 2023. Consultado el 28 de noviembre de 2023 .
- ^ "DESCRIPCIÓN Ejemplo 1" (PDF) . RTI International . Consultado el 28 de noviembre de 2023 .
- ^ Choudhry, G. Hussain; Valliant, Richard (2002). WesVar: Software for complex survey data analysis (PDF) . Simposio de Statistics Canada. Ottawa: Statistics Canada . Consultado el 28 de noviembre de 2023 .