Una prueba de diferencia pareada , más conocida como comparación pareada , es un tipo de prueba de ubicación que se utiliza al comparar dos conjuntos de mediciones pareadas para evaluar si sus medias poblacionales difieren. Una prueba de diferencia pareada está diseñada para situaciones en las que existe dependencia entre pares de mediciones (en cuyo caso una prueba diseñada para comparar dos muestras independientes no sería apropiada). Eso se aplica en un diseño de estudio intra-sujetos, es decir, en un estudio en el que el mismo conjunto de sujetos experimenta ambas condiciones que se comparan.
Los métodos específicos para realizar pruebas de diferencias pareadas incluyen la prueba t de muestras pareadas , la prueba Z pareada , la prueba de rangos con signo de Wilcoxon [1] y otras.
Las pruebas de diferencias pareadas para reducir la varianza son un tipo específico de bloqueo . Para ilustrar la idea, supongamos que estamos evaluando el rendimiento de un fármaco para tratar el colesterol alto. Según el diseño de nuestro estudio, inscribimos a 100 sujetos y medimos el nivel de colesterol de cada uno. Luego, todos los sujetos son tratados con el fármaco durante seis meses, después de lo cual se miden nuevamente sus niveles de colesterol. Nuestro interés es saber si el fármaco tiene algún efecto sobre los niveles medios de colesterol, lo que se puede inferir a través de una comparación de las mediciones posteriores al tratamiento con las anteriores.
La cuestión clave que motiva la prueba de diferencias pareadas es que, a menos que el estudio tenga criterios de inclusión muy estrictos, es probable que los sujetos difieran sustancialmente entre sí antes de que comience el tratamiento. Las diferencias iniciales importantes entre los sujetos pueden deberse a su género, edad, estado de tabaquismo, nivel de actividad y dieta.
Hay dos enfoques naturales para analizar estos datos:
Si sólo consideramos las medias, los enfoques pareados y no pareados dan el mismo resultado. Para comprobarlo, sean Y i 1 , Y i 2 los datos observados para el i ésimo par, y sea D i = Y i 2 − Y i 1 . Además, sean D , Y 1 e Y 2 , respectivamente, las medias muestrales de D i , Y i 1 y Y i 2 . Al reordenar los términos podemos ver que
donde n es el número de pares. Por lo tanto, la diferencia de medias entre los grupos no depende de si organizamos los datos como pares.
Aunque la diferencia de medias es la misma para las estadísticas pareadas y no pareadas, sus niveles de significación estadística pueden ser muy diferentes, porque es fácil exagerar la varianza de la estadística no pareada. A través de la identidad de Bienaymé , la varianza de D es
donde σ 1 y σ 2 son las desviaciones estándar de la población de los datos Y i 1 e Y i 2 , respectivamente. Por lo tanto, la varianza de D es menor si hay correlación positiva dentro de cada par. Dicha correlación es muy común en el contexto de medidas repetidas, ya que muchos factores que influyen en el valor que se compara no se ven afectados por el tratamiento. Por ejemplo, si los niveles de colesterol están asociados con la edad, el efecto de la edad conducirá a correlaciones positivas entre los niveles de colesterol medidos en los sujetos, siempre que la duración del estudio sea pequeña en relación con la variación de edades en la muestra.
Supongamos que estamos utilizando una prueba Z para analizar los datos, donde se conocen las varianzas de los datos previos y posteriores al tratamiento σ 1 2 y σ 2 2 (la situación con una prueba t es similar). La estadística de la prueba Z no pareada es
La potencia de la prueba unilateral no pareada realizada en el nivel α = 0,05 se puede calcular de la siguiente manera:
donde S es la desviación estándar de D , Φ es la función de distribución acumulativa normal estándar y δ = E Y 2 − E Y 1 es el efecto real del tratamiento. La constante 1,645 es el percentil 95 de la distribución normal estándar, que define la región de rechazo de la prueba.
Mediante un cálculo similar, la potencia de la prueba Z pareada es
Al comparar las expresiones de potencia de las pruebas pareadas y no pareadas, se puede ver que la prueba pareada tiene más potencia siempre que
Esta condición se cumple siempre que , la correlación dentro de los pares, sea positiva.
El siguiente modelo estadístico es útil para comprender la prueba de diferencias pareadas
donde α i es un efecto aleatorio que se comparte entre los dos valores del par, y ε ij es un término de ruido aleatorio que es independiente en todos los puntos de datos. Los valores constantes μ 1 , μ 2 son los valores esperados de las dos mediciones que se comparan, y nuestro interés está en δ = μ 2 − μ 1 .
En este modelo, los α i capturan "factores de confusión estables" que tienen el mismo efecto en las mediciones previas y posteriores al tratamiento. Cuando restamos para formar D i , los α i se cancelan, por lo que no contribuyen a la varianza. La covarianza dentro de los pares es
Esto no es negativo, por lo que conduce a un mejor rendimiento de la prueba de diferencias pareadas en comparación con la prueba no pareada, a menos que los α i sean constantes durante i , en cuyo caso las pruebas pareadas y no pareadas son equivalentes.
En términos menos matemáticos, la prueba no pareada supone que los datos de los dos grupos que se comparan son independientes. Esta suposición determina la forma de la varianza de D . Sin embargo, cuando se realizan dos mediciones para cada sujeto, es poco probable que las dos mediciones sean independientes. Si las dos mediciones dentro de un sujeto están correlacionadas positivamente, la prueba no pareada exagera la varianza de D , lo que la convierte en una prueba conservadora en el sentido de que su probabilidad real de error de tipo I será menor que el nivel nominal, con una pérdida correspondiente de poder estadístico. En casos raros, los datos pueden estar correlacionados negativamente dentro de los sujetos, en cuyo caso la prueba no pareada se vuelve anticonservadora. La prueba pareada se utiliza generalmente cuando se realizan mediciones repetidas en los mismos sujetos, ya que tiene el nivel correcto independientemente de la correlación de las mediciones dentro de los pares.
Otra aplicación de las pruebas de diferencias pareadas surge cuando se comparan dos grupos en un conjunto de datos de observación , con el objetivo de aislar el efecto de un factor de interés de los efectos de otros factores que pueden desempeñar un papel. Por ejemplo, supongamos que los profesores adoptan uno de dos enfoques diferentes, denominados "A" y "B", para enseñar un tema matemático en particular. Puede que nos interese saber si los resultados de los estudiantes en una prueba estandarizada de matemáticas difieren según el enfoque de enseñanza. Si los profesores tienen la libertad de adoptar el enfoque A o el enfoque B, es posible que los profesores cuyos estudiantes ya tienen un buen rendimiento en matemáticas elijan preferentemente el método A (o viceversa). En esta situación, una simple comparación entre los resultados medios de los estudiantes enseñados con el enfoque A y el enfoque B probablemente mostrará una diferencia, pero esta diferencia se debe parcial o totalmente a las diferencias preexistentes entre los dos grupos de estudiantes. En esta situación, las habilidades de referencia de los estudiantes sirven como una variable de confusión , ya que están relacionadas tanto con el resultado (rendimiento en la prueba estandarizada) como con la asignación del tratamiento al enfoque A o al enfoque B.
Es posible reducir, pero no necesariamente eliminar, los efectos de las variables de confusión mediante la formación de "pares artificiales" y la realización de una prueba de diferencias por pares. Estos pares artificiales se construyen en función de variables adicionales que se cree que actúan como factores de confusión. Al emparejar a estudiantes cuyos valores en las variables de confusión son similares, una fracción mayor de la diferencia en el valor de interés (por ejemplo, la puntuación de la prueba estandarizada en el ejemplo analizado anteriormente) se debe al factor de interés, y una fracción menor se debe al factor de confusión. La formación de pares artificiales para la prueba de diferencias por pares es un ejemplo de un enfoque general para reducir los efectos de la confusión al realizar comparaciones utilizando datos observacionales denominados emparejamiento . [2] [3] [4]
Como ejemplo concreto, supongamos que observamos las puntuaciones de los exámenes de los estudiantes X bajo las estrategias de enseñanza A y B , y que cada estudiante tiene un nivel "alto" o "bajo" de conocimiento matemático antes de que se implementen las dos estrategias de enseñanza. Sin embargo, no sabemos qué estudiantes están en la categoría "alta" y cuáles en la categoría "baja". Las puntuaciones medias de las pruebas de la población en los cuatro grupos posibles son y las proporciones de estudiantes en los grupos son donde p HA + p HB + p LA + p LB = 1 .
La "diferencia de tratamiento" entre los estudiantes del grupo "alto" es μ HA − μ HB y la diferencia de tratamiento entre los estudiantes del grupo "bajo" es μ LA − μ LB. En general, es posible que las dos estrategias de enseñanza difieran en cualquier dirección, o que no muestren ninguna diferencia, y que los efectos difieran en magnitud o incluso en signo entre los grupos "alto" y "bajo". Por ejemplo, si la estrategia B fuera superior a la estrategia A para los estudiantes bien preparados, pero la estrategia A fuera superior a la estrategia B para los estudiantes mal preparados, las dos diferencias de tratamiento tendrían signos opuestos.
Como no conocemos los niveles de referencia de los estudiantes, el valor esperado de la puntuación media de la prueba X A entre los estudiantes del grupo A es un promedio de los de los dos niveles de referencia:
y de manera similar, la puntuación media de la prueba X B entre los estudiantes del grupo B es
Por lo tanto, el valor esperado de la diferencia de tratamiento observada D = X A − X B es
Una hipótesis nula razonable es que no hay efecto del tratamiento ni en el grupo de estudiantes de "alto" ni en el de "bajo", de modo que μ HA = μ HB y μ LA = μ LB. Bajo esta hipótesis nula, el valor esperado de D será cero si
y
Esta condición afirma que la asignación de estudiantes a los grupos de estrategias de enseñanza A y B es independiente de su conocimiento matemático antes de que se implementen las estrategias de enseñanza. Si esto es así, el conocimiento matemático de base no es un factor de confusión y, a la inversa, si el conocimiento matemático de base es un factor de confusión, el valor esperado de D generalmente diferirá de cero. Si el valor esperado de D bajo la hipótesis nula no es igual a cero, entonces una situación en la que rechazamos la hipótesis nula podría deberse a un efecto diferencial real entre las estrategias de enseñanza A y B , o podría deberse a la no independencia en la asignación de estudiantes a los grupos A y B (incluso en ausencia total de un efecto debido a la estrategia de enseñanza).
Este ejemplo ilustra que si hacemos una comparación directa entre dos grupos cuando hay factores de confusión presentes, no sabemos si cualquier diferencia que se observe se debe a la agrupación en sí o a algún otro factor. Si podemos agrupar a los estudiantes según una medida exacta o estimada de su capacidad matemática de referencia, entonces solo estamos comparando a los estudiantes "dentro de las filas" de la tabla de medias dada anteriormente. En consecuencia, si la hipótesis nula se cumple, el valor esperado de D será igual a cero y los niveles de significación estadística tendrán la interpretación deseada.