stringtranslate.com

prueba de diferencias pareadas

Una prueba de diferencias pareadas , más conocida como comparación pareada , es un tipo de prueba de ubicación que se utiliza al comparar dos conjuntos de mediciones pareadas para evaluar si sus medias poblacionales difieren. Una prueba de diferencias pareadas está diseñada para situaciones en las que existe dependencia entre pares de mediciones (en cuyo caso una prueba diseñada para comparar dos muestras independientes no sería apropiada). Esto se aplica en un diseño de estudio intrasujetos, es decir, en un estudio en el que el mismo conjunto de sujetos se somete a ambas condiciones que se comparan.

Los métodos específicos para llevar a cabo pruebas de diferencias pareadas incluyen la prueba t para muestras pareadas , la prueba Z pareada , la prueba de rangos con signos de Wilcoxon [1] y otros.

Uso para reducir la varianza

Las pruebas de diferencias pareadas para reducir la varianza son un tipo específico de bloqueo . Para ilustrar la idea, supongamos que estamos evaluando el rendimiento de un fármaco para tratar el colesterol alto. Según el diseño de nuestro estudio, inscribimos a 100 sujetos y medimos el nivel de colesterol de cada sujeto. Luego, todos los sujetos son tratados con el medicamento durante seis meses, después de lo cual se miden nuevamente sus niveles de colesterol. Nuestro interés es saber si el fármaco tiene algún efecto sobre los niveles medios de colesterol, lo que se puede inferir mediante una comparación de las mediciones posteriores al tratamiento con las previas al tratamiento.

La cuestión clave que motiva la prueba de diferencias pareadas es que, a menos que el estudio tenga criterios de ingreso muy estrictos, es probable que los sujetos difieran sustancialmente entre sí antes de que comience el tratamiento. Las diferencias iniciales importantes entre los sujetos pueden deberse a su sexo, edad, tabaquismo, nivel de actividad y dieta.

Hay dos enfoques naturales para analizar estos datos:

Si sólo consideramos las medias, los enfoques pareados y no pareados dan el mismo resultado. Para ver esto, sean Y i 1Y i 2 los datos observados para el  i  ésimo par , y sean Di = Y i 2  −  Y i 1 . También sean D , Y 1 e Y 2 los que denotan, respectivamente, las medias muestrales de Di , Y i 1 y Y i 2 . Reordenando los términos podemos ver que

donde n es el número de pares. Por tanto, la diferencia de medias entre los grupos no depende de si organizamos los datos como pares.

Aunque la diferencia de medias es la misma para las estadísticas pareadas y no pareadas, sus niveles de significancia estadística pueden ser muy diferentes, porque es fácil exagerar la varianza de la estadística no pareada. La varianza de D es

donde σ 1 y σ 2 son las desviaciones estándar poblacionales de los datos de Y i 1 y Y i 2 , respectivamente. Por tanto, la varianza de D es menor si existe una correlación positiva dentro de cada par. Esta correlación es muy común en el contexto de medidas repetidas, ya que muchos factores que influyen en el valor que se compara no se ven afectados por el tratamiento. Por ejemplo, si los niveles de colesterol están asociados con la edad, el efecto de la edad conducirá a correlaciones positivas entre los niveles de colesterol medidos en los sujetos, siempre que la duración del estudio sea pequeña en relación con la variación de edades en la muestra.

Potencia de la prueba Z pareada

Supongamos que estamos utilizando una prueba Z para analizar los datos, donde se conocen las varianzas de los datos previos y posteriores al tratamiento σ 1 2 y σ 2 2 (la situación con una prueba t es similar). El estadístico de la prueba Z no apareada es

La potencia de la prueba unilateral no apareada realizada al nivel α  = 0,05 se puede calcular de la siguiente manera:

donde S es la desviación estándar de D , Φ es la función de distribución acumulativa normal estándar y δ  = E Y 2  − E Y 1 es el verdadero efecto del tratamiento. La constante 1,645 es el percentil 95 de la distribución normal estándar, que define la región de rechazo de la prueba.

Mediante un cálculo similar, la potencia de la prueba Z pareada es

Al comparar las expresiones de potencia de las pruebas pareadas y no pareadas, se puede ver que la prueba pareada tiene más potencia siempre que

Esta condición se cumple siempre que , la correlación entre pares, sea positiva.

Un modelo de efectos aleatorios para pruebas pareadas

El siguiente modelo estadístico es útil para comprender la prueba de diferencias pareadas.

donde α i es un efecto aleatorio compartido entre los dos valores del par, y ε ij es un término de ruido aleatorio que es independiente en todos los puntos de datos. Los valores constantes μ 1μ 2 son los valores esperados de las dos mediciones que se comparan, y nuestro interés está en δ  =  μ 2  −  μ 1 .

En este modelo, el α i captura "factores de confusión estables" que tienen el mismo efecto en las mediciones previas y posteriores al tratamiento. Cuando restamos para formar Di , los α i se cancelan, por lo que no contribuyen a la varianza. La covarianza dentro de pares es

Esto no es negativo, por lo que conduce a un mejor rendimiento de la prueba de diferencias pareadas en comparación con la prueba no pareada, a menos que α i sean constantes sobre i , en cuyo caso las pruebas pareadas y no pareadas son equivalentes.

En términos menos matemáticos, la prueba no apareada supone que los datos de los dos grupos que se comparan son independientes. Este supuesto determina la forma de la varianza de D. Sin embargo, cuando se realizan dos mediciones para cada sujeto, es poco probable que las dos mediciones sean independientes. Si las dos mediciones dentro de un sujeto están correlacionadas positivamente, la prueba no apareada sobreestima la varianza de D , convirtiéndola en una prueba conservadora en el sentido de que su probabilidad real de error tipo I será menor que el nivel nominal, con la correspondiente pérdida de poder estadístico. . En casos raros, los datos pueden tener una correlación negativa dentro de los sujetos, en cuyo caso la prueba no apareada se vuelve anticonservadora. El test emparejado se utiliza generalmente cuando se realizan mediciones repetidas a los mismos sujetos, ya que tiene el nivel correcto independientemente de la correlación de las mediciones dentro de pares.

Uso para reducir la confusión

Otra aplicación de las pruebas de diferencias pareadas surge cuando se comparan dos grupos en un conjunto de datos observacionales , con el objetivo de aislar el efecto de un factor de interés de los efectos de otros factores que pueden desempeñar un papel. Por ejemplo, supongamos que los profesores adoptan uno de dos enfoques diferentes, denominados "A" y "B", para enseñar un tema matemático en particular. Podría interesarnos saber si el desempeño de los estudiantes en una prueba estandarizada de matemáticas difiere según el enfoque de enseñanza. Si los profesores son libres de adoptar el enfoque A o el enfoque B, es posible que los profesores cuyos estudiantes ya tengan un buen desempeño en matemáticas elijan preferentemente el método A (o viceversa). En esta situación, una simple comparación entre el desempeño medio de los estudiantes enseñados con el enfoque A y el enfoque B probablemente mostrará una diferencia, pero esta diferencia se debe parcial o totalmente a las diferencias preexistentes entre los dos grupos de estudiantes. En esta situación, las habilidades básicas de los estudiantes sirven como una variable de confusión , en el sentido de que están relacionadas tanto con el resultado (rendimiento en la prueba estandarizada) como con la asignación del tratamiento para el enfoque A o el enfoque B.

Es posible reducir, pero no necesariamente eliminar, los efectos de las variables de confusión formando "pares artificiales" y realizando una prueba de diferencias por pares. Estos pares artificiales se construyen basándose en variables adicionales que se cree que sirven como factores de confusión. Al emparejar estudiantes cuyos valores en las variables de confusión son similares, una fracción mayor de la diferencia en el valor de interés (por ejemplo, la puntuación de la prueba estandarizada en el ejemplo analizado anteriormente) se debe al factor de interés, y una fracción menor se debe al factor de interés. al confundidor. La formación de pares artificiales para pruebas de diferencias pareadas es un ejemplo de un enfoque general para reducir los efectos de confusión al realizar comparaciones utilizando datos de observación llamado emparejamiento . [2] [3] [4]

Como ejemplo concreto, supongamos que observamos las puntuaciones X de los exámenes de los estudiantes bajo las estrategias de enseñanza A y B , y que cada estudiante tiene un nivel "alto" o "bajo" de conocimiento matemático antes de implementar las dos estrategias de enseñanza. Sin embargo, no sabemos qué estudiantes están en la categoría "alta" y cuáles en la categoría "baja". Las puntuaciones medias de las pruebas de la población en los cuatro grupos posibles son y las proporciones de estudiantes en los grupos son donde p HA  +  p HB  +  p LA  +  p LB  = 1 .

La "diferencia de tratamiento" entre los estudiantes del grupo "alto" es μ HA  -  μ HB y la diferencia de tratamiento entre los estudiantes del grupo "bajo" es μ LA  -  μ LB. En general, es posible que las dos estrategias de enseñanza difieran en cualquier dirección, o que no muestren diferencias, y que los efectos puedan diferir en magnitud o incluso en signo entre los grupos "altos" y "bajos". Por ejemplo, si la estrategia B fuera superior a la estrategia A para estudiantes bien preparados, pero la estrategia A fuera superior a la estrategia B para estudiantes mal preparados, las dos diferencias de tratamiento tendrían signos opuestos.

Como no conocemos los niveles de referencia de los estudiantes, el valor esperado de la puntuación promedio de la prueba X A entre los estudiantes del grupo A es un promedio de aquellos en los dos niveles de referencia:

y de manera similar, el puntaje promedio de la prueba X B entre los estudiantes del grupo B es

Por lo tanto, el valor esperado de la diferencia de tratamiento observada D  =  X A  −  X B es

Una hipótesis nula razonable es que no hay ningún efecto del tratamiento dentro de los grupos de estudiantes "altos" o "bajos", de modo que μ HA  =  μ HB y μ LA  =  μ LB. Bajo esta hipótesis nula, el valor esperado de D será cero si

y

Esta condición afirma que la asignación de estudiantes a los grupos de estrategias de enseñanza A y B es independiente de su conocimiento matemático antes de que se implementen las estrategias de enseñanza. Si esto es así, el conocimiento matemático básico no es un factor de confusión y, a la inversa, si el conocimiento matemático básico es un factor de confusión, el valor esperado de D generalmente diferirá de cero. Si el valor esperado de D bajo la hipótesis nula no es igual a cero, entonces una situación en la que rechazamos la hipótesis nula podría deberse a un efecto diferencial real entre las estrategias de enseñanza A y B , o podría deberse a la falta de independencia. en la asignación de estudiantes a los grupos A y B (incluso en ausencia total de un efecto debido a la estrategia de enseñanza).

Este ejemplo ilustra que si hacemos una comparación directa entre dos grupos cuando hay factores de confusión presentes, no sabemos si alguna diferencia observada se debe al grupo en sí o a algún otro factor. Si podemos emparejar a los estudiantes según una medida exacta o estimada de su capacidad matemática básica, entonces solo compararemos a los estudiantes "dentro de las filas" de la tabla de medias proporcionada anteriormente. En consecuencia, si se cumple la hipótesis nula, el valor esperado de D será igual a cero y los niveles de significancia estadística tendrán la interpretación prevista.

Ver también

Referencias

  1. ^ Torre de perforación, B; Amplio, A; Al rebaño; Blanco, P (2017). "El impacto de una observación extrema en un diseño de muestras pareadas". Metodološki Zvezki - Avances en Metodología y Estadística . 14 (2): 1–17.
  2. ^ Rubin, Donald B. (1973). "Emparejamiento para eliminar sesgos en estudios observacionales". Biometría . 29 (1): 159–183. doi :10.2307/2529684. JSTOR  2529684.
  3. ^ Anderson, Dallas W.; Kish, Leslie; Cornell, Richard G. (1980). "Sobre estratificación, agrupación y emparejamiento". Revista escandinava de estadística . 7 (2). Publicación Blackwell: 61–66. JSTOR  4615774.
  4. ^ Kupper, Lawrence L.; Karon, John M.; Kleinbaum, David G.; Morgenstern, Hal; Lewis, Donald K. (1981). "Coincidencia en estudios epidemiológicos: consideraciones de validez y eficiencia". Biometría . 37 (2): 271–291. CiteSeerX 10.1.1.154.1197 . doi :10.2307/2530417. JSTOR  2530417. PMID  7272415. 

enlaces externos