Funcionamiento diferencial de los elementos

El funcionamiento diferencial de los ítems ( DIF ) es una propiedad estadística de un ítem de una prueba que indica la probabilidad de que individuos de distintos grupos, que poseen habilidades similares, respondan de manera diferente al ítem. Se manifiesta cuando individuos de diferentes grupos, con niveles de habilidad comparables, no tienen la misma probabilidad de responder correctamente a una pregunta. Hay dos tipos principales de DIF: DIF uniforme, donde un grupo tiene constantemente una ventaja sobre el otro, y DIF no uniforme, donde la ventaja varía según el nivel de habilidad del individuo. ^[1] La presencia de DIF requiere revisión y juicio, pero no siempre significa sesgo. El análisis de DIF proporciona una indicación del comportamiento inesperado de los ítems en una prueba. La característica DIF de un ítem no está determinada únicamente por las probabilidades variables de seleccionar una respuesta específica entre individuos de diferentes grupos. Más bien, el DIF se vuelve pronunciado cuando individuos de diferentes grupos, que poseen la misma habilidad verdadera subyacente , exhiben diferentes probabilidades de dar una determinada respuesta. Incluso cuando existe un sesgo uniforme, los desarrolladores de pruebas a veces recurren a suposiciones como que los sesgos DIF pueden compensarse entre sí debido al extenso trabajo requerido para abordarlo, comprometiendo la ética de las pruebas y perpetuando los sesgos sistémicos. ^[2] Los procedimientos comunes para evaluar el DIF son el procedimiento de Mantel-Haenszel, la regresión logística , los métodos basados en la teoría de respuesta al ítem (TRI) y los métodos basados en el análisis factorial confirmatorio (AFC). ^[3]

Descripción

El DIF se refiere a las diferencias en el funcionamiento de los ítems entre grupos, a menudo demográficos, que coinciden en el rasgo latente o, más generalmente, el atributo que se mide mediante los ítems o la prueba. ^[4]^[5] Es importante señalar que al examinar ítems en busca de DIF, los grupos deben coincidir en el atributo medido, de lo contrario, esto puede resultar en una detección inexacta del DIF. Para crear una comprensión general del DIF o el sesgo de medición, considere el siguiente ejemplo ofrecido por Osterlind y Everson (2009). ^[6] En este caso, Y se refiere a una respuesta a un ítem de prueba en particular que está determinada por el constructo latente que se está midiendo. El constructo latente de interés se conoce como theta (θ), donde Y es un indicador de θ que se puede organizar en términos de la distribución de probabilidad de Y en θ mediante la expresión f (Y)|θ . Por lo tanto, la respuesta Y está condicionada al rasgo latente (θ). Dado que el DIF examina las diferencias en las probabilidades condicionales de Y entre grupos, etiquetemos a los grupos como grupos de "referencia" y "focal". Aunque la designación no importa, una práctica típica en la literatura es designar al grupo de referencia como el grupo que se sospecha que tiene una ventaja, mientras que el grupo focal se refiere al grupo que se anticipa que estará en desventaja según la prueba. ^[3] Por lo tanto, dada la relación funcional y bajo el supuesto de que existen distribuciones de error de medición idénticas para los grupos de referencia y focal, se puede concluir que bajo la hipótesis nula : $f(Y)|\theta$

f(Y=1|\theta ,G=r)=f(Y=1|\theta ,G=f)

donde G corresponde a la variable de agrupamiento, "r" al grupo de referencia y "f" al grupo focal. Esta ecuación representa un caso en el que no hay DIF. En este caso, la ausencia de DIF está determinada por el hecho de que la distribución de probabilidad condicional de Y no depende de la pertenencia al grupo. Para ilustrarlo, considere un ítem con opciones de respuesta 0 y 1, donde Y = 0 indica una respuesta incorrecta e Y = 1 indica una respuesta correcta. La probabilidad de responder correctamente a un ítem es la misma para los miembros de ambos grupos. Esto indica que no hay DIF ni sesgo de ítem porque los miembros del grupo de referencia y focal con la misma capacidad o atributo subyacente tienen la misma probabilidad de responder correctamente. Por lo tanto, no hay sesgo ni desventaja para un grupo sobre el otro. Considere el caso en el que la probabilidad condicional de Y no es la misma para los grupos de referencia y focal. En otras palabras, los miembros de diferentes grupos con el mismo rasgo o nivel de capacidad tienen distribuciones de probabilidad desiguales en Y. Una vez que se controla θ, existe una dependencia clara entre la pertenencia al grupo y el desempeño en un ítem. En el caso de los ítems dicotómicos , esto sugiere que cuando los grupos focal y de referencia están en la misma posición en θ, existe una probabilidad diferente de obtener una respuesta correcta o de respaldar un ítem. Por lo tanto, el grupo con la mayor probabilidad condicional de responder correctamente a un ítem es el grupo que se beneficia del ítem de prueba. Esto sugiere que el ítem de prueba está sesgado y funciona de manera diferente para los grupos, por lo que presenta DIF. Es importante establecer la distinción entre DIF o sesgo de medición y diferencias de grupo ordinarias. Mientras que las diferencias de grupo indican diferentes distribuciones de puntaje en Y, DIF implica explícitamente el condicionamiento en θ. Por ejemplo, considere la siguiente ecuación:

p(Y=1|G=g)\neq p(Y=1)

Esto indica que la puntuación de un examinado está condicionada a la agrupación, de modo que tener información sobre la pertenencia al grupo cambia la probabilidad de una respuesta correcta. Por lo tanto, si los grupos difieren en θ, y el rendimiento depende de θ, entonces la ecuación anterior sugeriría un sesgo del ítem incluso en ausencia de DIF. Por esta razón, en general se acepta en la literatura de medición que las diferencias en Y condicionadas a la pertenencia al grupo por sí solas son inadecuadas para establecer un sesgo. ^[7]^[8]^[9] De hecho, las diferencias en θ o la capacidad son comunes entre los grupos y establecen la base para mucha investigación. Recuerde que para establecer un sesgo o DIF, los grupos deben estar emparejados en θ y luego demostrar probabilidades diferenciales en Y como una función de la pertenencia al grupo.

Formularios

El DIF uniforme es el tipo más simple de DIF donde la magnitud de la dependencia condicional es relativamente invariante a lo largo del continuo de rasgos latentes (θ). El elemento de interés le da consistentemente a un grupo una ventaja a lo largo de todos los niveles de habilidad θ. ^[10] Dentro de un marco de teoría de respuesta al ítem (TRI) esto se evidenciaría cuando ambas curvas características del ítem (ICC) son igualmente discriminantes pero exhiben diferencias en los parámetros de dificultad (es decir, a _r = a _f y b _r < b _f ) como se muestra en la Figura 1. ^[11] Sin embargo, el DIF no uniforme presenta un caso interesante. En lugar de que se le dé una ventaja consistente al grupo de referencia a lo largo del continuo de habilidad, la dependencia condicional se mueve y cambia de dirección en diferentes ubicaciones en el continuo θ. ^[12] Por ejemplo, un elemento puede darle al grupo de referencia una ventaja menor en el extremo inferior del continuo mientras que una ventaja importante en el extremo superior. Además, a diferencia del DIF uniforme, un ítem puede variar simultáneamente en discriminación para los dos grupos y también variar en dificultad (es decir, a _r ≠ a _f y b _r < b _f ). Aún más complejo es "cruzar" el DIF no uniforme. Como se muestra en la Figura 2, esto ocurre cuando un ítem da una ventaja a un grupo de referencia en un extremo del continuo θ mientras que favorece al grupo focal en el otro extremo. Las diferencias en los ICC indican que los examinados de los dos grupos con niveles de habilidad idénticos tienen probabilidades desiguales de responder correctamente a un ítem. Cuando las curvas son diferentes pero no se cruzan, esto es evidencia de DIF uniforme. Sin embargo, si los ICC se cruzan en cualquier punto a lo largo de la escala θ, hay evidencia de DIF no uniforme.

Procedimientos para detectar DIF

Mantel-Haenszel

Un procedimiento común para detectar DIF es el enfoque de Mantel-Haenszel (MH). ^[13] El procedimiento MH es un enfoque basado en una tabla de contingencia de chi-cuadrado que examina las diferencias entre los grupos de referencia y focal en todos los ítems de la prueba, uno por uno. ^[14] El continuo de habilidad, definido por las puntuaciones totales de la prueba, se divide en k intervalos que luego sirven como base para emparejar a los miembros de ambos grupos. ^{[15] Se utiliza una}tabla de contingencia de 2 x 2 en cada intervalo de k para comparar ambos grupos en un ítem individual. Las filas de la tabla de contingencia corresponden a la pertenencia al grupo (de referencia o focal) mientras que las columnas corresponden a las respuestas correctas o incorrectas. La siguiente tabla presenta la forma general para un solo ítem en el k -ésimo intervalo de habilidad.

Razón de probabilidades

El siguiente paso en el cálculo de la estadística MH es utilizar los datos de la tabla de contingencia para obtener una razón de probabilidades para los dos grupos en el ítem de interés en un intervalo k particular . Esto se expresa en términos de p y q , donde p representa la proporción correcta y q la proporción incorrecta tanto para el grupo de referencia (R) como para el grupo focal (F). Para el procedimiento MH, la razón de probabilidades obtenida se representa por α con un valor posible que varía de 0 a ∞. Un valor α de 1,0 indica una ausencia de DIF y, por lo tanto, un desempeño similar por parte de ambos grupos. Los valores mayores de 1,0 sugieren que el grupo de referencia superó o encontró el ítem menos difícil que el grupo focal. Por otro lado, si el valor obtenido es menor de 1,0, esto es una indicación de que el ítem fue menos difícil para el grupo focal. ^[8] Utilizando variables de la tabla de contingencia anterior, el cálculo es el siguiente: α = (p _Rk / q _Rk ) ⁄ (p _Fk / q _Fk ) = (A _k / (A _k + B _k )) / (B _k / (A _k + B _k )) ⁄ (C _k / (C _k + D _k )) / (D _k / (C _k + D _k )) = (A _k / B _k ) ⁄ (C _k / D _k ) = A _k D _k ⁄ B _k C _k El cálculo anterior pertenece a un elemento individual en un único intervalo de habilidad. La estimación de población α se puede ampliar para reflejar una razón de probabilidades común en todos los intervalos de habilidad k para un elemento específico. El estimador común de razón de probabilidades se denota α _MH y se puede calcular mediante la siguiente ecuación: α _MH = Σ(A _k D _k / N _k ) ⁄ Σ(B _k C _k / N _k )
para todos los valores de k y donde N _k representa el tamaño total de la muestra en el intervalo k . El α _{MH obtenido}a menudo se estandariza a través de la transformación logarítmica, centrando el valor alrededor de 0. ^[16] El nuevo estimador transformado MH _D-DIF se calcula de la siguiente manera: MH _D-DIF = -2,35ln(α _MH ) Por lo tanto, un valor obtenido de 0 indicaría que no hay DIF. Al examinar la ecuación, es importante notar que el signo menos cambia la interpretación de valores menores o mayores que 0. Los valores menores que 0 indican una ventaja del grupo de referencia, mientras que los valores mayores que 0 indican una ventaja para el grupo focal.

Teoría de la respuesta al ítem

La teoría de respuesta a los ítems (TRI) es otro método ampliamente utilizado para evaluar la DIF. La TRI permite un examen crítico de las respuestas a ítems particulares de una prueba o medida. Como se señaló anteriormente, la DIF examina la probabilidad de responder correctamente o respaldar un ítem condicionado al rasgo o habilidad latente. Debido a que la TRI examina la relación monótona entre las respuestas y el rasgo o habilidad latente, es un enfoque adecuado para examinar la DIF. ^[17] Tres ventajas principales de usar la TRI en la detección de la DIF son: ^[18]

En comparación con la teoría de pruebas clásica , las estimaciones de los parámetros IRT no están tan confundidas por las características de la muestra.
Las propiedades estadísticas de los elementos se pueden expresar con mayor precisión, lo que aumenta la exactitud de la interpretación del DIF entre dos grupos.
Estas propiedades estadísticas de los elementos se pueden expresar gráficamente, mejorando la interpretabilidad y la comprensión de cómo los elementos funcionan de manera diferente entre grupos.

En relación con el DIF, las estimaciones de los parámetros de los ítems se calculan y examinan gráficamente a través de curvas características de los ítems (ICC), también conocidas como líneas de traza o funciones de respuesta al ítem (IRF). Después del examen de las ICC y la posterior sospecha de DIF, se implementan procedimientos estadísticos para probar las diferencias entre las estimaciones de los parámetros. Las ICC representan funciones matemáticas de la relación entre el posicionamiento en el continuo del rasgo latente y la probabilidad de dar una respuesta particular. ^[19] La Figura 3 ilustra esta relación como una función logística . Los individuos más bajos en el rasgo latente o con menos habilidad tienen una menor probabilidad de obtener una respuesta correcta o respaldar un ítem, especialmente a medida que aumenta la dificultad. Por lo tanto, aquellos más altos en el rasgo latente o en habilidad tienen una mayor probabilidad de una respuesta correcta o respaldar un ítem. Por ejemplo, en un inventario de depresión, los individuos muy deprimidos tendrían una mayor probabilidad de respaldar un ítem que los individuos con menor depresión. De manera similar, los individuos con mayor habilidad matemática tienen una mayor probabilidad de obtener correctamente un ítem matemático que aquellos con menor habilidad. Otro aspecto crítico de los CCI se relaciona con el punto de inflexión . Este es el punto en la curva donde la probabilidad de una respuesta particular es 0,5 y también representa el valor máximo de la pendiente . ^[20] Este punto de inflexión indica dónde la probabilidad de una respuesta correcta o de respaldar un ítem se vuelve mayor que el 50%, excepto cuando un parámetro c es mayor que 0, lo que coloca el punto de inflexión en 1 + c/2 (se seguirá una descripción a continuación). El punto de inflexión está determinado por la dificultad del ítem que corresponde a los valores en el continuo de habilidad o rasgo latente. ^[21] Por lo tanto, para un ítem fácil, este punto de inflexión puede ser más bajo en el continuo de habilidad, mientras que para un ítem difícil puede ser más alto en la misma escala.

Antes de presentar los procedimientos estadísticos para probar las diferencias de los parámetros de los ítems, es importante proporcionar primero una comprensión general de los diferentes modelos de estimación de parámetros y sus parámetros asociados. Estos incluyen los modelos logísticos (PL) de uno, dos y tres parámetros. Todos estos modelos suponen un único rasgo o habilidad latente subyacente. Los tres modelos tienen un parámetro de dificultad del ítem denotado b . Para los modelos 1PL y 2PL, el parámetro b corresponde al punto de inflexión en la escala de habilidad, como se mencionó anteriormente. En el caso del modelo 3PL, la inflexión corresponde a 1 + c/2 donde c es una asíntota inferior (discutida a continuación). Los valores de dificultad, en teoría, pueden variar de -∞ a +∞; sin embargo, en la práctica rara vez superan ±3. Los valores más altos son indicativos de ítems de prueba más difíciles. Los ítems que exhiben parámetros b bajos son ítems de prueba fáciles. ^[22] Otro parámetro que se estima es un parámetro de discriminación designado a . Este parámetro pertenece a la capacidad de un ítem para discriminar entre individuos. El parámetro a se estima en los modelos 2PL y 3PL. En el caso del modelo 1PL, este parámetro está restringido a ser igual entre los grupos. En relación con los ICC, el parámetro a es la pendiente del punto de inflexión. Como se mencionó anteriormente, la pendiente es máxima en el punto de inflexión. El parámetro a , similar al parámetro b , puede variar de -∞ a +∞; sin embargo, los valores típicos son menores que 2. En este caso, un valor más alto indica una mayor discriminación entre individuos. ^[23] El modelo 3PL tiene un parámetro adicional denominado parámetro de adivinación o pseudoazar y se denota por c . Esto corresponde a una asíntota inferior que esencialmente permite la posibilidad de que un individuo responda correctamente un elemento moderado o difícil incluso si tiene baja habilidad. Los valores de c varían entre 0 y 1, sin embargo, normalmente caen por debajo de .3. ^[24] Al aplicar procedimientos estadísticos para evaluar el DIF, los parámetros a y b (discriminación y dificultad) son de particular interés. Sin embargo, supongamos que se utilizó un modelo 1PL, donde los parámetros a se limitan a ser iguales para ambos grupos, dejando solo la estimación de los parámetros b . Después de examinar los ICC, existe una diferencia aparente en los parámetros b para ambos grupos. Utilizando un método similar a una prueba t de StudentEl siguiente paso es determinar si la diferencia en dificultad es estadísticamente significativa. Bajo la hipótesis nula H ₀ : b _r = b _f Lord (1980) proporciona una estadística de prueba de fácil cálculo y distribución normal . d = (b _r - b _f ) / SE(b _r - b _f ) El error estándar de la diferencia entre los parámetros b se calcula mediante √[SE(b _r )] ² + √[SE(b _f )] ²

Estadística de Wald

Sin embargo, lo más común es que un modelo 2PL o 3PL sea más apropiado que ajustar un modelo 1PL a los datos y, por lo tanto, se deben probar los parámetros a y b para DIF. Lord (1980) propuso otro método para probar las diferencias en los parámetros a y b , donde los parámetros c están restringidos a ser iguales en todos los grupos. Esta prueba produce una estadística de Wald que sigue una distribución de chi-cuadrado. En este caso, la hipótesis nula que se está probando es H ₀ : a _r = a _f y b _r = b _f . Primero, se calcula una matriz de covarianza de 2 x 2 de las estimaciones de los parámetros para cada grupo que están representadas por S _r y S _f para los grupos de referencia y focal. Estas matrices de covarianza se calculan invirtiendo las matrices de información obtenidas. A continuación, las diferencias entre los parámetros estimados se introducen en un vector 2 x 1 y se denota por V' = (a _r - a _f , b _r - b _f ) A continuación, la matriz de covarianza S se estima sumando S _r y S _f . Utilizando esta información, el estadístico de Wald se calcula de la siguiente manera: χ ² = V'S ⁻¹ V que se evalúa en 2 grados de libertad .

Prueba de razón de verosimilitud

La prueba de razón de verosimilitud es otro método basado en la IRT para evaluar el DIF. Este procedimiento implica comparar la razón de dos modelos. Bajo el modelo (M _c ) los parámetros de los ítems están restringidos a ser iguales o invariantes entre los grupos de referencia y focal. Bajo el modelo (M _v ) los parámetros de los ítems son libres de variar. ^[25] La función de verosimilitud bajo M _c se denota (L _c ) mientras que la función de verosimilitud bajo M _v se designa (L _v ). Los ítems restringidos a ser iguales sirven como ítems de anclaje para este procedimiento mientras que los ítems sospechosos de DIF pueden variar libremente. Al utilizar ítems de anclaje y permitir que los parámetros restantes de los ítems varíen, se pueden evaluar simultáneamente varios ítems para DIF. ^[26] Sin embargo, si la razón de verosimilitud indica un DIF potencial, un análisis ítem por ítem sería apropiado para determinar qué ítems, si no todos, contienen DIF. La razón de verosimilitud de los dos modelos se calcula mediante G ² = 2ln[L _v / L _c ] Alternativamente, la razón se puede expresar mediante G ² = -2ln[L _c / L _v ] donde L _v y L _c se invierten y luego se multiplican por -2ln. G ² sigue aproximadamente una distribución de chi cuadrado, especialmente con muestras más grandes. Por lo tanto, se evalúa mediante los grados de libertad que corresponden al número de restricciones necesarias para derivar el modelo restringido a partir del modelo que varía libremente. ^[27] Por ejemplo, si se utiliza un modelo 2PL y los parámetros a y b son libres de variar bajo M _v y estos mismos dos parámetros están restringidos bajo M _c , entonces la razón se evalúa en 2 grados de libertad.

Regresión logística

Los métodos de regresión logística para la detección de diferencias de inferencia implican la ejecución de un análisis independiente para cada elemento. Las variables independientes incluidas en el análisis son la pertenencia a un grupo, una variable de coincidencia de capacidades (normalmente una puntuación total) y un término de interacción entre las dos. La variable dependiente de interés es la probabilidad o posibilidad de obtener una respuesta correcta o de respaldar un elemento. Dado que el resultado de interés se expresa en términos de probabilidades, la estimación de máxima verosimilitud es el procedimiento adecuado. ^[28] Este conjunto de variables puede expresarse mediante la siguiente ecuación de regresión:

Y = β ₀ + β ₁ M + β ₂ G + β ₃ MG

donde β ₀ corresponde a la intersección o la probabilidad de una respuesta cuando M y G son iguales a 0 con los β restantes _{correspondientes} a los coeficientes de peso para cada variable independiente. La primera variable independiente, M, es la variable de emparejamiento utilizada para vincular a los individuos en capacidad, en este caso una puntuación total de la prueba, similar a la empleada por el procedimiento de Mantel-Haenszel. La variable de pertenencia al grupo se denota G y en el caso de la regresión se representa a través de variables codificadas ficticias. El término final MG corresponde a la interacción entre las dos variables mencionadas anteriormente. Para este procedimiento, las variables se ingresan jerárquicamente. Siguiendo la estructura de la ecuación de regresión proporcionada anteriormente, las variables se ingresan mediante la siguiente secuencia: variable de emparejamiento M, variable de agrupamiento G y la variable de interacción MG. La determinación de DIF se realiza evaluando la estadística de chi-cuadrado obtenida con 2 grados de libertad. Además, se prueba la significancia de la estimación del parámetro. A partir de los resultados de la regresión logística, se podría indicar la existencia de DIF si los individuos emparejados en cuanto a capacidad tienen probabilidades significativamente diferentes de responder a un ítem y, por lo tanto, curvas de regresión logística diferentes. Por el contrario, si las curvas de ambos grupos son iguales, entonces el ítem es imparcial y, por lo tanto, no hay DIF presente. En términos de DIF uniforme y no uniforme, si los interceptos y los parámetros de las variables emparejadas para ambos grupos no son iguales, entonces hay evidencia de DIF uniforme. Sin embargo, si hay un parámetro de interacción distinto de cero, esto es una indicación de DIF no uniforme. ^[29]

Consideraciones

Tamaño de la muestra

La primera consideración se refiere a cuestiones de tamaño de la muestra, específicamente con respecto a los grupos de referencia y focal. Antes de cualquier análisis, normalmente se conoce la información sobre el número de personas en cada grupo, como el número de hombres/mujeres o miembros de grupos étnicos/raciales. Sin embargo, la cuestión gira más estrechamente en torno a si el número de personas por grupo es suficiente para que haya suficiente poder estadístico para identificar DIF. En algunos casos, como la etnia, puede haber evidencia de tamaños de grupo desiguales, de modo que los blancos representan una muestra de grupo mucho más grande que cada grupo étnico individual representado. Por lo tanto, en tales casos, puede ser apropiado modificar o ajustar los datos para que los grupos que se comparan para DIF sean de hecho iguales o más cercanos en tamaño. La codificación o recodificación ficticia es una práctica común que se emplea para ajustar las disparidades en el tamaño del grupo de referencia y focal. En este caso, todos los grupos étnicos no blancos se pueden agrupar para tener un tamaño de muestra relativamente igual para los grupos de referencia y focal. Esto permitiría una comparación de "mayoría/minoría" del funcionamiento de los ítems. Si no se realizan modificaciones y se llevan a cabo procedimientos de DIF, puede que no haya suficiente poder estadístico para identificar DIF incluso si existe DIF entre grupos. Otra cuestión relacionada con el tamaño de la muestra se relaciona directamente con el procedimiento estadístico que se utiliza para detectar DIF. Además de las consideraciones sobre el tamaño de la muestra de los grupos de referencia y focales, se deben cumplir ciertas características de la muestra en sí para cumplir con los supuestos de cada prueba estadística utilizada en la detección de DIF. Por ejemplo, el uso de enfoques de IRT puede requerir muestras más grandes que las requeridas para el procedimiento de Mantel-Haenszel. Esto es importante, ya que la investigación del tamaño del grupo puede llevar a uno a usar un procedimiento en lugar de otro. Dentro del enfoque de regresión logística, los valores apalancados y los valores atípicos son de particular preocupación y deben examinarse antes de la detección de DIF. Además, como con todos los análisis, se deben cumplir los supuestos de la prueba estadística. Algunos procedimientos son más robustos a las infracciones menores, mientras que otros lo son menos. Por lo tanto, la naturaleza distributiva de las respuestas de la muestra debe investigarse antes de implementar cualquier procedimiento de DIF.

Elementos

Se debe tener en cuenta la determinación del número de ítems que se utilizan para la detección de DIF. No existe ningún estándar en cuanto a cuántos ítems se deben utilizar para la detección de DIF, ya que esto varía de un estudio a otro. En algunos casos puede ser adecuado probar todos los ítems para detectar DIF, mientras que en otros puede no ser necesario. Si solo se sospecha que ciertos ítems pueden tener DIF con un razonamiento adecuado, entonces puede ser más adecuado probar esos ítems y no todo el conjunto. Sin embargo, a menudo es difícil simplemente suponer qué ítems pueden ser problemáticos. Por esta razón, a menudo se recomienda examinar simultáneamente todos los ítems de prueba para detectar DIF. Esto proporcionará información sobre todos los ítems, arrojando luz sobre los ítems problemáticos, así como sobre aquellos que funcionan de manera similar tanto para el grupo de referencia como para el grupo focal. Con respecto a las pruebas estadísticas, algunos procedimientos como la prueba de razón de verosimilitud IRT requieren el uso de ítems de anclaje. Algunos ítems están restringidos a ser iguales en todos los grupos, mientras que los ítems sospechosos de tener DIF pueden variar libremente. En este caso, sólo un subconjunto se identificaría como elementos DIF mientras que el resto serviría como un grupo de comparación para la detección de DIF. Una vez que se identifican los elementos DIF, los elementos de anclaje también se pueden analizar restringiendo los elementos DIF originales y permitiendo que los elementos de anclaje originales varíen libremente. Por lo tanto, parece que probar todos los elementos simultáneamente puede ser un procedimiento más eficiente. Sin embargo, como se señaló, dependiendo del procedimiento implementado se utilizan diferentes métodos para seleccionar elementos DIF. Además de identificar el número de elementos que se utilizan en la detección de DIF, es de importancia adicional determinar el número de elementos en toda la prueba o medida en sí. La recomendación típica, como se señaló en Zumbo (1999), es tener un mínimo de 20 elementos. El razonamiento para un mínimo de 20 elementos se relaciona directamente con la formación de criterios de coincidencia. Como se señaló en secciones anteriores, una puntuación total de la prueba se utiliza típicamente como un método para emparejar a los individuos en función de la capacidad. La puntuación total de la prueba se divide normalmente en 3-5 niveles de capacidad (k) que luego se utilizan para emparejar a los individuos en función de la capacidad antes de los procedimientos de análisis DIF. El uso de un mínimo de 20 ítems permite una mayor variabilidad en la distribución de la puntuación, lo que da como resultado grupos de niveles de habilidad más significativos. Aunque las propiedades psicométricas del instrumento deberían haberse evaluado antes de su uso, es importante que la validez y la confiabilidad de un instrumento sean adecuadas. Los ítems de la prueba deben aprovechar con precisión el constructo de interés para derivar grupos de niveles de habilidad significativos. Por supuesto, no se desea inflar los coeficientes de confiabilidad simplemente agregando ítems redundantes. La clave es tener una medida válida y confiable con suficientes ítems para desarrollar grupos de emparejamiento significativos. Gadermann et al. (2012), ^[30] Revelle y Zinbarg (2009), ^[31] y John y Soto (2007)^[32] ofrecen más información sobre los enfoques modernos para la validación estructural y métodos más precisos y apropiados para evaluar la confiabilidad.

Equilibrar la estadística y el razonamiento

Como en toda investigación psicológica y evaluación psicométrica, las estadísticas desempeñan un papel fundamental, pero no deben ser en ningún caso la única base para tomar decisiones y llegar a conclusiones. El juicio razonado es de importancia fundamental a la hora de evaluar ítems en busca de DIF. Por ejemplo, según el procedimiento estadístico utilizado para la detección de DIF, pueden obtenerse resultados diferentes. Algunos procedimientos son más precisos, mientras que otros no. Por ejemplo, el procedimiento de Mantel-Haenszel requiere que el investigador construya niveles de capacidad basados en las puntuaciones totales de la prueba, mientras que la IRT ubica de forma más eficaz a los individuos a lo largo del rasgo latente o del continuo de capacidad. Por tanto, un procedimiento puede indicar DIF para ciertos ítems, mientras que otros no.

Otro problema es que, en ocasiones, se puede indicar un DIF, pero no hay una razón clara de su existencia. Aquí es donde entra en juego el juicio razonado, especialmente al comprender por qué se produce un DIF uniforme y no uniforme. ^[33] El investigador debe usar el sentido común para extraer significados de los análisis del DIF. No basta con informar que los elementos funcionan de manera diferente para los grupos; es necesario que exista un razonamiento cualitativo que explique por qué ocurre.

El DIF uniforme se produce cuando existe una ventaja constante de un grupo en comparación con otro en todos los niveles de capacidad. Este tipo de sesgo a menudo se puede abordar mediante el uso de normas de prueba separadas para diferentes grupos para garantizar la imparcialidad en la evaluación. El DIF no uniforme, por otro lado, es más complejo ya que la ventaja varía según los niveles de capacidad de los individuos. Factores como el estatus socioeconómico, las diferencias culturales, las barreras lingüísticas y las disparidades en el acceso al conocimiento pueden contribuir al DIF no uniforme. Identificar y abordar el DIF no uniforme requiere una comprensión más profunda de los procesos cognitivos subyacentes involucrados y puede requerir intervenciones personalizadas para garantizar prácticas de evaluación justas.

En los estudios de DIF, es común descubrir ciertos ítems que presentan DIF, lo que indica posibles problemas que requieren un escrutinio. Sin embargo, la evidencia de DIF no implica automáticamente que toda la prueba sea injusta. En cambio, indica que ítems específicos pueden estar sesgados, lo que requiere atención para mantener la integridad y la imparcialidad de la prueba para todos los examinados. Identificar ítems con DIF ofrece una oportunidad de revisar y potencialmente modificar o eliminar ítems problemáticos, lo que garantiza prácticas de evaluación equitativas. Por lo tanto, el análisis de DIF sirve como una herramienta valiosa para el análisis de ítems, en particular cuando se complementa con una exploración cualitativa de los factores causales.

Software estadístico

A continuación se muestran programas estadísticos comunes capaces de realizar los procedimientos que se describen en este documento. Al hacer clic en la lista de paquetes estadísticos , se lo dirigirá a una lista completa de software estadístico de código abierto, dominio público, freeware y propietario.

Procedimiento de Mantel-Haenszel

Programa estadístico SPSS
SAS
Estado
R (por ejemplo, paquete 'difR' ^{[34] )}
Sistema
Lertap 5

Procedimientos basados en IRT

BILOG-MG
MULTILOG
PARSCALE
HECHO DE PRUEBA
EQSIRT
R (por ejemplo, paquete 'difR' ^[34] o 'mirt' ^{[35] )}
IRTPRO

Regresión logística

Programa estadístico SPSS
SAS
Estado
R (por ejemplo, paquete 'difR' ^{[34] )}
Sistema

Véase también

Invariancia de la medición

Referencias

^ Consejo Nacional de Medición en Educación http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorD Archivado el 22 de julio de 2017 en Wayback Machine.
^ De Leo, Joseph A.; Van Dam, Nicholas T.; Hobkirk, Andréa L.; Earleywine, Mitch (1 de abril de 2011). "Examen del sesgo en la escala de búsqueda impulsiva de sensaciones (ImpSS) utilizando el funcionamiento diferencial de los ítems (DIF): un análisis de la respuesta a los ítems". Personalidad y diferencias individuales . 50 (5): 570–576. doi :10.1016/j.paid.2010.11.030. ISSN 0191-8869.
^ Zumbo, BD (2007). Tres generaciones de análisis del funcionamiento diferencial de los ítems (DIF): considerando dónde ha estado, dónde está ahora y hacia dónde va. Language Assessment Quarterly, 4, 223–233.
^ Camilli, G. (2006). Imparcialidad en las pruebas: en RL (Ed.), Educational measurement (4.ª ed., págs. 220-256). Westport, CT: American Council on Education.
^ Holland, PW y Wainer, H. (1993). Funcionamiento diferencial de ítems. Hillsdale, NJ: Lawrence Erlbaum.
^ Osterlind, SJ y Everson, HT (2009). Funcionamiento diferencial de ítems. Thousand Oaks, CA: Sage Publishing.
^ Ackerman, T. (1992). Una explicación didáctica del sesgo de los ítems, el impacto de los ítems y la validez de los ítems desde una perspectiva multidimensional. Journal of Educational Measurement, 29, 674–691.
^ Lord, FM (1980). Aplicaciones de la teoría de respuesta al ítem a problemas prácticos de evaluación. Hillsdale, NJ: Lawrence Erlbaum.
^ Millsap, RE y Everson, HT (1993). Revisión metodológica: Enfoques estadísticos para evaluar el sesgo de medición. Applied Psychological Measurement, 17(4), 297–334.
^ Walker, C. (2011). ¿Qué es el DIF? Por qué los análisis del funcionamiento diferencial de los ítems son una parte importante del desarrollo y la validación de instrumentos. Journal of Psychoeducational Assessment, 29, 364–376
^ Mellenbergh, GJ (1982). Modelos de tablas de contingencia para evaluar el sesgo de ítems. Journal of Educational Statistics, 7, 105–118.
^ Walker, CM, Beretvas, SN, Ackerman, TA (2001). Un examen de las variables de condicionamiento utilizadas en pruebas adaptativas por computadora para DIF. Medición aplicada en educación, 14, 3–16.
^ Mantel, N., y Haenszel, W. (1959). Aspectos estadísticos del análisis de datos de estudios retrospectivos de enfermedades. Journal of the National Cancer Institute, 22, 719–748.
^ Marasculio, LA y Slaughter, RE (1981). Procedimientos estadísticos para identificar posibles fuentes de sesgo de ítems basados en estadísticas 2 x 2. Journal of Educational Measurement, 18, 229–248.
^ Holland, PW y Thayer, DT (1988). Rendimiento diferencial de ítems y el procedimiento de Mantel-Haenszel. En H. Wainer y HI Braun (Eds.), Validez de pruebas (pp. 129-145). Hillsdale, NJ: Erlbaum.
^ Dorans, NJ, y Holland, PW (1993). Detección y descripción de DIF: Mantel-Haenszel y estandarización. En PW Holland y H. Wainer (Eds.), Funcionamiento diferencial de ítems (pp. 35–66). Hillsdale, NJ: Erlbaum.
^ Steinberg, L., y Thissen, D. (2006). Uso de los tamaños del efecto para la elaboración de informes de investigación: ejemplos que utilizan la teoría de respuesta a los ítems para analizar el funcionamiento diferencial de los ítems. Psychological Methods, 11(4), 402–415.
^ Camilli, G., y Shepard, L. (1994). Métodos para identificar ítems de prueba sesgados . Thousand Oaks, CA: Sage.
^ Reise, SP, y Ainsworth, AT, y Haviland, MG (2005). Teoría de la respuesta al ítem: fundamentos, aplicaciones y promesas en la investigación psicológica. Current Directions in Psychological Science, 14, 95–101.
^ Edelen, MO, Reeve, BB (2007). Aplicación de modelos de teoría de respuesta al ítem (TRI) al desarrollo, evaluación y refinamiento de cuestionarios. Quality of Life Research, 16, 5–18.
^ DeMars, C. (2010). Teoría de la respuesta al ítem. Nueva York: Oxford Press.
^ Harris, D. (1989). Comparación de modelos IRT de 1, 2 y 3 parámetros. Medición educativa: cuestiones y práctica , 8, 35–41.
^ Baker, FB (2001). Los fundamentos de la teoría de respuesta al ítem . ERIC Clearinghouse on Assessment and Evaluation.
^ Birnbaum, A. (1968). Algunos modelos de rasgos latentes y su uso para inferir la capacidad de un examinado. Parte 5 en FM Lord y MR Novick. Teorías estadísticas de las puntuaciones de las pruebas mentales . Reading, MA: Addison-Wesley
^ Thissen, D., Steinberg, L., Gerrard, M. (1986). Más allá de las diferencias grupales: el concepto de sesgo. Psychological Bulletin, 99, 118–128.
^ IRTPRO: Guía del usuario . (2011). Lincolnwood, Illinois: Scientific Software International, Inc.
^ Thissen, D., Steinberg, L. y Wainer, H. (1993). Detección del funcionamiento diferencial de los ítems utilizando los parámetros de los modelos de respuesta a los ítems. En PW Holland y & H. Wainer (Eds.), Differential item functional (pp. 67–113). Hillsdale, NJ: Lawrence Erlbaum.
^ Bock, RD (1975). Métodos estadísticos multivariados . Nueva York: McGraw-Hill.
^ Swaminathan, H., y Rogers, HJ (1990). Detección del funcionamiento diferencial de los ítems mediante procedimientos de regresión logística. Journal of Educational Measurement, 27, 361–370.
^ Gadermann, A., M., Guhn, M. y Zumbo, BD (2012). Estimación de la confiabilidad ordinal para datos de respuestas a ítems ordinales y de tipo Likert: una guía conceptual, empírica y práctica. Practical Assessment, Research, & Evaluation, 17(3), 1–13.
^ Revelle, W. y Zinbarg, RE (2009). Coeficientes alfa, beta, omega y GLB: comentarios sobre Sijtsma. Psicometrika, 74(1), 145-154.
^ John, OP, y Soto, CJ (2007). La importancia de ser válido: confiabilidad y el proceso de validación de constructos. En RW Robins, RC Fraley y RF Krueger (Eds.), Manual de métodos de investigación en psicología de la personalidad (pp. 461–494). Nueva York, NY: Cambridge University Press.
^ Holland, PW y Thayer, DT (1988). Rendimiento diferencial de ítems y el procedimiento de Mantel-Haenszel. En H. Wainer y HI Braun (Eds.), Validez de pruebas (pp. 129-145). Lawrence Erlbaum Associates, Inc.
^ abc Magis, David; Béland, Sébastien; Tuerlinckx, Francisco; De Boeck, Paul (2010). "Un marco general y un paquete R para la detección del funcionamiento diferencial dicotómico de elementos". Métodos de investigación del comportamiento . 42 (3): 847–862. doi : 10.3758/BRM.42.3.847 . PMID 20805607.
^ Chalmers, RP (2012). "mirt: Un paquete de teoría de respuesta a ítems multidimensional para el entorno R". Revista de software estadístico . 48 (6): 1–29. doi : 10.18637/jss.v048.i06 .