La invariancia de la medición o equivalencia de la medición es una propiedad estadística de la medición que indica que se está midiendo el mismo constructo en algunos grupos específicos. [1] Por ejemplo, la invariancia de la medición se puede utilizar para estudiar si una medida dada es interpretada de manera conceptualmente similar por encuestados que representan diferentes géneros o antecedentes culturales. Las violaciones de la invariancia de la medición pueden impedir una interpretación significativa de los datos de medición. Las pruebas de invariancia de la medición se utilizan cada vez más en campos como la psicología para complementar la evaluación de la calidad de la medición basada en la teoría clásica de las pruebas . [1]
La invariancia de la medición se prueba a menudo en el marco del análisis factorial confirmatorio de múltiples grupos (CFA). [2] En el contexto de los modelos de ecuaciones estructurales , incluido el CFA, la invariancia de la medición a menudo se denomina invariancia factorial . [3]
En el modelo de factor común , la invariancia de la medición puede definirse como la siguiente igualdad:
donde es una función de distribución, es una puntuación observada, es una puntuación factorial y s denota la pertenencia a un grupo (p. ej., caucásico=0, afroamericano=1). Por lo tanto, la invariancia de la medición implica que, dada la puntuación factorial de un sujeto, su puntuación observada no depende de su pertenencia a un grupo. [4]
Se pueden distinguir varios tipos diferentes de invariancia de medición en el modelo de factor común para resultados continuos: [5]
La misma tipología se puede generalizar al caso de resultados discretos:
Cada una de estas condiciones corresponde a un modelo factorial confirmatorio de grupos múltiples con restricciones específicas. La viabilidad de cada modelo se puede probar estadísticamente mediante una prueba de razón de verosimilitud u otros índices de ajuste . Las comparaciones significativas entre grupos generalmente requieren que se cumplan las cuatro condiciones, lo que se conoce como invariancia de medición estricta . Sin embargo, la invariancia de medición estricta rara vez se cumple en un contexto aplicado. [6] Por lo general, esto se prueba introduciendo secuencialmente restricciones adicionales comenzando por la condición de forma igual y eventualmente procediendo a la condición de residuos iguales si el ajuste del modelo no se deteriora mientras tanto.
Aunque se necesita más investigación sobre la aplicación de varias pruebas de invariancia y sus respectivos criterios en diversas condiciones de prueba, dos enfoques son comunes entre los investigadores aplicados. Para cada modelo que se compara (por ejemplo, forma igual, intersecciones iguales), se estima iterativamente una estadística de ajuste χ 2 a partir de la minimización de la diferencia entre las matrices de media y covarianza implícitas del modelo y las matrices de media y covarianza observadas. [7] Siempre que los modelos bajo comparación estén anidados, la diferencia entre los valores χ 2 y sus respectivos grados de libertad de dos modelos CFA cualesquiera con distintos niveles de invariancia sigue una distribución χ 2 (diff χ 2 ) y, como tal, se puede inspeccionar para determinar su significancia como una indicación de si los modelos cada vez más restrictivos producen cambios apreciables en el ajuste modelo-datos. [7] Sin embargo, hay alguna evidencia de que la diff χ 2 es sensible a factores no relacionados con los cambios en las restricciones de invariancia objetivo (por ejemplo, tamaño de la muestra). [8] Por consiguiente, se recomienda que los investigadores también utilicen la diferencia entre el índice de ajuste comparativo (ΔCFI) de dos modelos especificados para investigar la invariancia de la medición. Cuando la diferencia entre los CFI de dos modelos con distintos niveles de invariancia de la medición (por ejemplo, formas iguales frente a cargas iguales) es inferior a −0,01 (es decir, cae en más de 0,01), entonces es probable que la invariancia sea insostenible. [8] Se espera que los valores de CFI que se restan provengan de modelos anidados como en el caso de la prueba diff χ 2 ; [9] sin embargo, parece que los investigadores aplicados rara vez tienen esto en cuenta al aplicar la prueba de CFI. [10]
La equivalencia también se puede categorizar según tres niveles jerárquicos de equivalencia de medición. [11] [12]
Las pruebas de invariancia de medición están disponibles en el lenguaje de programación R. [ 13] [14]
El conocido politólogo Christian Welzel y sus colegas critican la excesiva dependencia de las pruebas de invariancia como criterio de validez de los constructos culturales y psicológicos en las estadísticas transculturales . Han demostrado que los criterios de invariancia favorecen a los constructos con baja varianza entre grupos , mientras que los constructos con alta varianza entre grupos no superan estas pruebas. Una alta varianza entre grupos es de hecho necesaria para que un constructo sea útil en las comparaciones transculturales. La varianza entre grupos es máxima si algunas medias de grupo están cerca de los extremos de las escalas cerradas, donde la varianza intragrupo es necesariamente baja. Una baja varianza intragrupo produce correlaciones bajas y cargas factoriales bajas que los académicos interpretan rutinariamente como una indicación de inconsistencia. Welzel y sus colegas recomiendan, en cambio, confiar en los criterios nomológicos de validez de constructo basados en si el constructo se correlaciona de las formas esperadas con otras medidas de diferencias entre grupos. Ofrecen varios ejemplos de constructos culturales que tienen un alto poder explicativo y poder predictivo en las comparaciones transculturales, pero no superan las pruebas de invariancia. [15] [16] Quienes defienden las pruebas de invariancia argumentan en contra que la confianza en el vínculo nomológico ignora que dicha validación externa depende del supuesto de comparabilidad. [17]