En psicometría , la teoría de respuesta al ítem ( TRI ) (también conocida como teoría de rasgos latentes , teoría de puntaje verdadero fuerte o teoría moderna de pruebas mentales ) es un paradigma para el diseño, análisis y puntuación de pruebas , cuestionarios e instrumentos similares que miden habilidades, actitudes u otras variables. Es una teoría de pruebas basada en la relación entre el desempeño de los individuos en un ítem de prueba y los niveles de desempeño de los examinados en una medida general de la habilidad que ese ítem fue diseñado para medir. Se utilizan varios modelos estadísticos diferentes para representar tanto las características del ítem como las del examinado. [1] A diferencia de alternativas más simples para crear escalas y evaluar las respuestas del cuestionario, no asume que cada ítem sea igualmente difícil. Esto distingue a la TRI de, por ejemplo, la escala Likert , en la que " se supone que todos los ítems son réplicas entre sí o, en otras palabras, los ítems se consideran instrumentos paralelos". [2] Por el contrario, la teoría de respuesta al ítem trata la dificultad de cada ítem (las curvas características del ítem o ICC) como información que se debe incorporar en los ítems de escala.
Se basa en la aplicación de modelos matemáticos relacionados a los datos de prueba . Debido a que a menudo se considera superior a la teoría clásica de pruebas , [3] es el método preferido para desarrollar escalas en los Estados Unidos, [ cita requerida ] especialmente cuando se exigen decisiones óptimas, como en las llamadas pruebas de alto riesgo , por ejemplo, el Graduate Record Examination (GRE) y el Graduate Management Admission Test (GMAT).
El nombre de teoría de respuesta al ítem se debe al enfoque de la teoría en el ítem, en contraposición al enfoque a nivel de prueba de la teoría clásica de las pruebas. Por lo tanto, la TRI modela la respuesta de cada examinado de una habilidad dada a cada ítem de la prueba. El término ítem es genérico y abarca todo tipo de ítems informativos. Pueden ser preguntas de opción múltiple que tienen respuestas incorrectas y correctas, pero también son comúnmente afirmaciones en cuestionarios que permiten a los encuestados indicar el nivel de acuerdo (una calificación o escala de Likert ), o síntomas del paciente puntuados como presentes/ausentes, o información diagnóstica en sistemas complejos.
La IRT se basa en la idea de que la probabilidad de una respuesta correcta/teclear a un ítem es una función matemática de los parámetros de la persona y del ítem . (La expresión "una función matemática de los parámetros de la persona y del ítem" es análoga a la ecuación de Lewin , B = f(P, E) , que afirma que el comportamiento es una función de la persona en su entorno). El parámetro de la persona se interpreta como (normalmente) un rasgo o dimensión latente único. Los ejemplos incluyen la inteligencia general o la fuerza de una actitud. Los parámetros en los que se caracterizan los ítems incluyen su dificultad (conocida como "ubicación" por su ubicación en el rango de dificultad); discriminación (pendiente o correlación), que representa cuán pronunciadamente varía la tasa de éxito de los individuos con su capacidad; y un parámetro de pseudoadivinación, que caracteriza la asíntota (inferior) en la que incluso las personas menos capaces puntuarán debido a la adivinación (por ejemplo, 25% para una pura casualidad en un ítem de opción múltiple con cuatro posibles respuestas).
De la misma manera, la TRI puede utilizarse para medir el comportamiento humano en las redes sociales en línea. Las opiniones expresadas por diferentes personas pueden agregarse para ser estudiadas mediante la TRI. También se ha evaluado su uso para clasificar la información como información falsa o información verdadera.
El concepto de la función de respuesta al ítem existía antes de 1950. El trabajo pionero de la IRT como teoría ocurrió durante los años 1950 y 1960. Tres de los pioneros fueron el psicometrista del Educational Testing Service Frederic M. Lord , [4] el matemático danés Georg Rasch y el sociólogo austríaco Paul Lazarsfeld , quienes llevaron a cabo investigaciones paralelas de forma independiente. Las figuras clave que impulsaron el progreso de la IRT incluyen a Benjamin Drake Wright y David Andrich . La IRT no se generalizó hasta finales de los años 1970 y 1980, cuando a los profesionales se les dijo la "utilidad" y las "ventajas" de la IRT por un lado, y las computadoras personales dieron a muchos investigadores acceso a la potencia informática necesaria para la IRT por el otro. En la década de 1990, Margaret Wu desarrolló dos programas de software de respuesta al ítem que analizan los datos de PISA y TIMSS; ACER ConQuest (1998) y el paquete R TAM (2010).
Entre otras cosas, el propósito de la TRI es proporcionar un marco para evaluar el funcionamiento de las evaluaciones y de los ítems individuales de las evaluaciones. La aplicación más común de la TRI es en educación, donde los psicometristas la utilizan para desarrollar y diseñar exámenes , mantener bancos de ítems para exámenes y equiparar las dificultades de los ítems para versiones sucesivas de exámenes (por ejemplo, para permitir comparaciones entre resultados a lo largo del tiempo). [5]
Los modelos de IRT se denominan a menudo modelos de rasgos latentes . El término latente se utiliza para enfatizar que las respuestas discretas a los ítems se consideran manifestaciones observables de rasgos, constructos o atributos hipotéticos, no observados directamente, pero que deben inferirse a partir de las respuestas manifiestas. Los modelos de rasgos latentes se desarrollaron en el campo de la sociología, pero son prácticamente idénticos a los modelos de IRT.
En general, se afirma que la IRT es una mejora con respecto a la teoría clásica de pruebas (CTT). Para las tareas que se pueden realizar utilizando CTT, la IRT generalmente brinda mayor flexibilidad y proporciona información más sofisticada. Algunas aplicaciones, como las pruebas adaptativas computarizadas , son posibles gracias a la IRT y no se pueden realizar razonablemente utilizando solo la teoría clásica de pruebas. Otra ventaja de la IRT con respecto a la CTT es que la información más sofisticada que proporciona la IRT permite a un investigador mejorar la confiabilidad de una evaluación .
La TRI implica tres supuestos:
Se supone además que el rasgo es medible en una escala (la mera existencia de una prueba supone esto), normalmente establecida en una escala estándar con una media de 0,0 y una desviación estándar de 1,0. La unidimensionalidad debe interpretarse como homogeneidad, una cualidad que debe definirse o demostrarse empíricamente en relación con un propósito o uso determinado, pero no una cantidad que pueda medirse. "Independencia local" significa (a) que la probabilidad de que se utilice un elemento no está relacionada con el uso de ningún otro elemento y (b) que la respuesta a un elemento es una decisión independiente de cada uno de los examinados, es decir, no hay trampas ni trabajo en parejas o en grupo. El tema de la dimensionalidad a menudo se investiga con el análisis factorial , mientras que el IRF es el componente básico de la IRT y es el centro de gran parte de la investigación y la literatura.
El IRF indica la probabilidad de que una persona con un determinado nivel de habilidad responda correctamente. Las personas con menor habilidad tienen menos posibilidades, mientras que las personas con mayor habilidad tienen muchas probabilidades de responder correctamente; por ejemplo, los estudiantes con mayor habilidad matemática tienen más probabilidades de responder correctamente una pregunta de matemáticas. El valor exacto de la probabilidad depende, además de la habilidad, de un conjunto de parámetros de preguntas para el IRF.
Por ejemplo, en el modelo logístico de tres parámetros ( 3PL ), la probabilidad de una respuesta correcta a un ítem dicotómico i , generalmente una pregunta de opción múltiple, es:
donde indica que las capacidades de la persona se modelan como una muestra de una distribución normal con el fin de estimar los parámetros del ítem. Una vez que se han estimado los parámetros del ítem, se estiman las capacidades de las personas individuales con fines de presentación de informes. , y son los parámetros del ítem. Los parámetros del ítem determinan la forma del IRF. La Figura 1 representa un ICC 3PL ideal.
Los parámetros del artículo se pueden interpretar como un cambio en la forma de la función logística estándar :
En resumen, los parámetros se interpretan de la siguiente manera (eliminando los subíndices para facilitar su lectura); b es el más básico, por lo que se enumera primero:
Si entonces estos se simplifican a y lo que significa que b es igual al nivel de éxito del 50% (dificultad), y a (dividido por cuatro) es la pendiente máxima (discriminación), que ocurre en el nivel de éxito del 50%. Además, el logit (logaritmo de probabilidades ) de una respuesta correcta es (asumiendo ): en particular, si la habilidad θ es igual a la dificultad b, hay probabilidades iguales (1:1, por lo que logit 0) de una respuesta correcta, cuanto mayor sea la habilidad por encima (o por debajo) de la dificultad, más (o menos) probable es una respuesta correcta, y la discriminación a determina qué tan rápido aumentan o disminuyen las probabilidades con la habilidad.
En otras palabras, la función logística estándar tiene un mínimo asintótico de 0 ( ), está centrada alrededor de 0 ( , ) y tiene una pendiente máxima. El parámetro estira la escala horizontal, el parámetro desplaza la escala horizontal y el parámetro comprime la escala vertical de a Esto se explica a continuación.
El parámetro representa la ubicación del ítem, que en el caso de las pruebas de rendimiento se denomina dificultad del ítem. Es el punto en el que el IRF tiene su pendiente máxima y donde el valor está a mitad de camino entre el valor mínimo de y el valor máximo de 1. El ítem del ejemplo es de dificultad media ya que = 0,0, que está cerca del centro de la distribución. Nótese que este modelo escala la dificultad del ítem y el rasgo de la persona en el mismo continuo. Por lo tanto, es válido hablar de que un ítem es aproximadamente tan difícil como el nivel de rasgo de la Persona A o de que el nivel de rasgo de una persona es aproximadamente igual a la dificultad del Ítem Y, en el sentido de que el desempeño exitoso de la tarea involucrada con un ítem refleja un nivel específico de habilidad.
El parámetro del ítem representa la discriminación del ítem: es decir, el grado en el que el ítem discrimina entre personas en diferentes regiones del continuo latente. Este parámetro caracteriza la pendiente del IRF donde la pendiente es máxima. El ítem del ejemplo tiene =1,0, lo que discrimina bastante bien; las personas con baja capacidad tienen de hecho una probabilidad mucho menor de responder correctamente que las personas con mayor capacidad. Este parámetro de discriminación corresponde al coeficiente de ponderación del ítem o indicador respectivo en una regresión lineal ponderada estándar (Mínimos Cuadrados Ordinarios, MCO ) y, por lo tanto, se puede utilizar para crear un índice ponderado de indicadores para la medición no supervisada de un concepto latente subyacente.
En el caso de ítems como los de opción múltiple , el parámetro se utiliza para intentar explicar los efectos de adivinar sobre la probabilidad de una respuesta correcta. Indica la probabilidad de que individuos con habilidades muy bajas respondan correctamente este ítem por casualidad, representada matemáticamente como una asíntota inferior . Un ítem de opción múltiple de cuatro opciones podría tener una IRF como el ítem del ejemplo; hay una probabilidad de 1/4 de que un candidato con habilidades extremadamente bajas adivine la respuesta correcta, por lo que sería aproximadamente 0,25. Este enfoque supone que todas las opciones son igualmente plausibles, porque si una opción no tuviera sentido, incluso la persona con la habilidad más baja podría descartarla, por lo que los métodos de estimación de parámetros IRT tienen esto en cuenta y estiman una en función de los datos observados. [6]
En términos generales, los modelos de IRT se pueden dividir en dos familias: unidimensionales y multidimensionales. Los modelos unidimensionales requieren una única dimensión de rasgo (capacidad) . Los modelos de IRT multidimensionales modelan datos de respuesta que se supone que surgen de múltiples rasgos. Sin embargo, debido a la gran complejidad, la mayoría de las investigaciones y aplicaciones de IRT utilizan un modelo unidimensional.
Los modelos de IRT también pueden clasificarse en función del número de respuestas puntuadas. El elemento típico de opción múltiple es dicotómico ; aunque puede haber cuatro o cinco opciones, todavía se puntúa solo como correcto/incorrecto (correcto/incorrecto). Otra clase de modelos se aplica a los resultados politómicos , donde cada respuesta tiene un valor de puntuación diferente. [7] [8] Un ejemplo común de esto son los elementos de tipo Likert , por ejemplo, "Califique en una escala de 1 a 5". Otro ejemplo es la puntuación de crédito parcial, a la que se pueden aplicar modelos como el modelo de Rasch politómico .
Los modelos IRT dicotómicos se describen por el número de parámetros que utilizan. [9] El 3PL se llama así porque emplea tres parámetros de ítem. El modelo de dos parámetros (2PL) supone que los datos no tienen conjeturas, pero que los ítems pueden variar en términos de ubicación ( ) y discriminación ( ). El modelo de un parámetro (1PL) supone que las conjeturas son parte de la habilidad y que todos los ítems que se ajustan al modelo tienen discriminaciones equivalentes, de modo que los ítems solo se describen por un único parámetro ( ). Esto da como resultado modelos de un parámetro que tienen la propiedad de objetividad específica, lo que significa que el rango de la dificultad del ítem es el mismo para todos los encuestados independientemente de la habilidad, y que el rango de la habilidad de la persona es el mismo para los ítems independientemente de la dificultad. Por lo tanto, los modelos de 1 parámetro son independientes de la muestra, una propiedad que no se cumple para los modelos de dos y tres parámetros. Además, teóricamente existe un modelo de cuatro parámetros (4PL), con una asíntota superior , denotada por donde en el 3PL se reemplaza por . Sin embargo, esto rara vez se utiliza. Nótese que el orden alfabético de los parámetros de los ítems no coincide con su importancia práctica o psicométrica; el parámetro de ubicación/dificultad ( ) es claramente el más importante porque está incluido en los tres modelos. El 1PL utiliza solo , el 2PL utiliza y , el 3PL agrega , y el 4PL agrega .
El modelo 2PL es equivalente al modelo 3PL con , y es apropiado para probar ítems en los que adivinar la respuesta correcta es muy poco probable, como ítems que requieren completar espacios en blanco ("¿Cuál es la raíz cuadrada de 121?"), o donde el concepto de adivinar no se aplica, como ítems de personalidad, actitud o interés (por ejemplo, "Me gustan los musicales de Broadway. Estoy de acuerdo/en desacuerdo").
El modelo 1PL no solo supone que no hay conjeturas (o que son irrelevantes), sino que todos los elementos son equivalentes en términos de discriminación, de manera análoga a un análisis factorial común con cargas idénticas para todos los elementos. Los elementos individuales o los individuos pueden tener factores secundarios, pero se supone que estos son mutuamente independientes y colectivamente ortogonales .
Una formulación alternativa construye los IRF basados en la distribución de probabilidad normal; a veces se los llama modelos de ojiva normal . Por ejemplo, la fórmula para un IRF de ojiva normal de dos parámetros es:
donde Φ es la función de distribución acumulativa (CDF) de la distribución normal estándar.
El modelo de ojiva normal se deriva del supuesto de que el error de medición se distribuye normalmente y es teóricamente atractivo sobre esa base. Aquí está, nuevamente, el parámetro de dificultad. El parámetro de discriminación es , la desviación estándar del error de medición para el elemento i , y comparable a 1/ .
Se puede estimar un modelo de rasgo latente de ojiva normal mediante el análisis factorial de una matriz de correlaciones tetracóricas entre elementos. [10] Esto significa que es técnicamente posible estimar un modelo IRT simple utilizando un software estadístico de propósito general.
Con el reescalado del parámetro de capacidad, es posible hacer que el modelo logístico 2PL se aproxime a la ojiva normal acumulativa . [11] Normalmente, las IRF logísticas 2PL y de ojiva normal difieren en probabilidad en no más de 0,01 en todo el rango de la función. Sin embargo, la diferencia es mayor en las colas de distribución, que tienden a tener más influencia en los resultados.
El modelo de rasgo latente/IRT se desarrolló originalmente utilizando ojivas normales, pero se consideró que esto demandaba demasiado trabajo computacional para las computadoras de la época (década de 1960). El modelo logístico se propuso como una alternativa más simple y ha disfrutado de un amplio uso desde entonces. Sin embargo, más recientemente se demostró que, utilizando aproximaciones polinómicas estándar a la CDF normal , [12] el modelo de ojiva normal no es más exigente computacionalmente que los modelos logísticos. [13]
El modelo de Rasch se considera a menudo el modelo IRT 1PL. Sin embargo, los defensores del modelado de Rasch prefieren verlo como un enfoque completamente diferente para conceptualizar la relación entre los datos y la teoría. [14] Al igual que otros enfoques de modelado estadístico, IRT enfatiza la primacía del ajuste de un modelo a los datos observados, [15] mientras que el modelo de Rasch enfatiza la primacía de los requisitos para la medición fundamental, siendo el ajuste adecuado de los datos al modelo un requisito importante pero secundario que debe cumplirse antes de que se pueda afirmar que una prueba o un instrumento de investigación mide un rasgo. [16] Operativamente, esto significa que los enfoques IRT incluyen parámetros de modelo adicionales para reflejar los patrones observados en los datos (por ejemplo, permitiendo que los elementos varíen en su correlación con el rasgo latente), mientras que en el enfoque de Rasch, las afirmaciones sobre la presencia de un rasgo latente solo pueden considerarse válidas cuando (a) los datos se ajustan al modelo de Rasch y (b) los elementos de prueba y los examinados se ajustan al modelo. Por lo tanto, según los modelos de Rasch, las respuestas inadecuadas requieren un diagnóstico de la razón de la inadecuación y pueden excluirse del conjunto de datos si se puede explicar sustancialmente por qué no abordan el rasgo latente. [17] Por lo tanto, el enfoque de Rasch puede considerarse un enfoque confirmatorio, a diferencia de los enfoques exploratorios que intentan modelar los datos observados.
La presencia o ausencia de un parámetro de conjetura o pseudo-azar es una distinción importante y a veces controvertida. El enfoque IRT incluye un parámetro de asíntota izquierda para tener en cuenta la conjetura en los exámenes de opción múltiple , mientras que el modelo de Rasch no lo hace porque se supone que la conjetura agrega ruido distribuido aleatoriamente a los datos. Como el ruido se distribuye aleatoriamente, se supone que, siempre que se prueben suficientes ítems, el orden de clasificación de las personas a lo largo del rasgo latente por puntaje bruto no cambiará, sino que simplemente experimentará un reescalamiento lineal. Por el contrario, el IRT de tres parámetros logra el ajuste del modelo de datos seleccionando un modelo que se ajuste a los datos, [18] a expensas de sacrificar la objetividad específica.
En la práctica, el modelo de Rasch tiene al menos dos ventajas principales en comparación con el enfoque de la TRI. La primera ventaja es la primacía de los requisitos específicos de Rasch [19] , que (cuando se cumplen) proporcionan una medición fundamental sin personas (donde las personas y los elementos pueden mapearse en la misma escala invariante). [20] Otra ventaja del enfoque de Rasch es que la estimación de parámetros es más sencilla en los modelos de Rasch debido a la presencia de estadísticas suficientes, lo que en esta aplicación significa un mapeo uno a uno de las puntuaciones correctas de los números brutos a las estimaciones de Rasch. [21]
Al igual que con cualquier uso de modelos matemáticos, es importante evaluar el ajuste de los datos al modelo. Si se diagnostica que un ítem no se ajusta a un modelo debido a una mala calidad del ítem, por ejemplo, distractores confusos en una prueba de opción múltiple, entonces los ítems pueden eliminarse de esa prueba y reescribirse o reemplazarse en futuras pruebas. Sin embargo, si hay una gran cantidad de ítems que no se ajustan sin una razón aparente para ello, será necesario reconsiderar la validez del constructo de la prueba y tal vez sea necesario reescribir las especificaciones de la prueba. Por lo tanto, el desajuste proporciona herramientas de diagnóstico invaluables para los desarrolladores de pruebas, lo que permite que las hipótesis en las que se basan las especificaciones de la prueba se prueben empíricamente con los datos.
Existen varios métodos para evaluar el ajuste, como la estadística de Chi-cuadrado o una versión estandarizada de esta. Los modelos IRT de dos y tres parámetros ajustan la discriminación de ítems, lo que garantiza un mejor ajuste del modelo de datos, por lo que las estadísticas de ajuste carecen del valor diagnóstico confirmatorio que se encuentra en los modelos de un parámetro, donde el modelo idealizado se especifica de antemano.
Los datos no deben eliminarse por no ajustarse al modelo, sino porque se ha diagnosticado una razón relevante para el constructo que explica el desajuste, como por ejemplo, un hablante no nativo de inglés que realiza un examen de ciencias escrito en inglés. Se puede argumentar que un candidato de este tipo no pertenece a la misma población de personas dependiendo de la dimensionalidad de la prueba y, aunque se argumenta que las medidas de IRT de un parámetro son independientes de la muestra, no son independientes de la población, por lo que un desajuste como este es relevante para el constructo y no invalida la prueba ni el modelo. Este enfoque es una herramienta esencial en la validación de instrumentos. En los modelos de dos y tres parámetros, donde el modelo psicométrico se ajusta para ajustarse a los datos, las futuras administraciones de la prueba deben verificarse para comprobar que se ajustan al mismo modelo utilizado en la validación inicial a fin de confirmar la hipótesis de que las puntuaciones de cada administración se generalizan a otras administraciones. Si se especifica un modelo diferente para cada administración a fin de lograr el ajuste al modelo de datos, entonces se está midiendo un rasgo latente diferente y no se puede argumentar que las puntuaciones de la prueba sean comparables entre administraciones.
Una de las principales contribuciones de la teoría de respuesta al ítem es la extensión del concepto de confiabilidad . Tradicionalmente, la confiabilidad se refiere a la precisión de la medición (es decir, el grado en que la medición está libre de error). Tradicionalmente, se mide utilizando un único índice definido de diversas maneras, como la relación entre la varianza de la puntuación verdadera y la observada. Este índice es útil para caracterizar la confiabilidad promedio de una prueba, por ejemplo, para comparar dos pruebas. Pero la TRI deja en claro que la precisión no es uniforme en todo el rango de puntuaciones de la prueba. Las puntuaciones en los extremos del rango de la prueba, por ejemplo, generalmente tienen más error asociado con ellas que las puntuaciones más cercanas a la mitad del rango.
La teoría de la respuesta a los ítems avanza el concepto de información de los ítems y de las pruebas para reemplazar la confiabilidad. La información también es una función de los parámetros del modelo. Por ejemplo, según la teoría de la información de Fisher , la información de los ítems suministrada en el caso del 1PL para los datos de respuesta dicotómica es simplemente la probabilidad de una respuesta correcta multiplicada por la probabilidad de una respuesta incorrecta, o,
El error estándar de estimación (EE) es el recíproco de la información de prueba de un nivel de rasgo dado, es el
Por lo tanto, más información implica menos error de medición.
En otros modelos, como los modelos de dos y tres parámetros, el parámetro de discriminación desempeña un papel importante en la función. La función de información del elemento para el modelo de dos parámetros es
La función de información del artículo para el modelo de tres parámetros es
En general, las funciones de información de los ítems tienden a tener forma de campana. Los ítems con un alto grado de discriminación tienen funciones de información altas y estrechas; contribuyen en gran medida, pero en un rango estrecho. Los ítems con un grado de discriminación menor brindan menos información, pero en un rango más amplio.
Los gráficos de información de los ítems se pueden utilizar para ver cuánta información aporta un ítem y a qué parte del rango de puntuación de la escala. Debido a la independencia local, las funciones de información de los ítems son aditivas . Por lo tanto, la función de información de la prueba es simplemente la suma de las funciones de información de los ítems del examen. Al utilizar esta propiedad con un banco de ítems grande, las funciones de información de la prueba se pueden configurar para controlar el error de medición con mucha precisión.
La caracterización de la precisión de las puntuaciones de las pruebas es quizás la cuestión central de la teoría psicométrica y constituye una diferencia fundamental entre la TRI y la TTC. Los hallazgos de la TRI revelan que el concepto de fiabilidad de la TTC es una simplificación. En lugar de la fiabilidad, la TRI ofrece la función de información de la prueba que muestra el grado de precisión en diferentes valores de theta, θ.
Estos resultados permiten a los psicometristas (potencialmente) moldear cuidadosamente el nivel de confiabilidad para diferentes rangos de habilidad al incluir ítems cuidadosamente seleccionados. Por ejemplo, en una situación de certificación en la que una prueba solo puede aprobarse o reprobarse, donde solo hay una única "puntuación límite" y donde la puntuación de aprobación real no es importante, se puede desarrollar una prueba muy eficiente seleccionando solo ítems que tengan información alta cerca de la puntuación límite. Estos ítems generalmente corresponden a ítems cuya dificultad es aproximadamente la misma que la de la puntuación límite.
El parámetro persona representa la magnitud del rasgo latente del individuo, que es la capacidad o atributo humano medido por la prueba. [23] Puede ser una capacidad cognitiva, una capacidad física, una habilidad, un conocimiento, una actitud, una característica de personalidad, etc.
La estimación del parámetro persona - la "puntuación" en una prueba con IRT - se calcula e interpreta de una manera muy diferente en comparación con las puntuaciones tradicionales como el número o el porcentaje correcto. La puntuación total del número correcto del individuo no es la puntuación real, sino que se basa en las IRF, lo que lleva a una puntuación ponderada cuando el modelo contiene parámetros de discriminación de ítems. En realidad, se obtiene multiplicando la función de respuesta del ítem para cada ítem para obtener una función de verosimilitud , cuyo punto más alto es la estimación de máxima verosimilitud de . Este punto más alto se estima típicamente con el software IRT utilizando el método Newton-Raphson . [24] Si bien la puntuación es mucho más sofisticada con IRT, para la mayoría de las pruebas, la correlación entre la estimación theta y una puntuación tradicional es muy alta; a menudo es 0,95 o más [cita?]. Un gráfico de las puntuaciones IRT contra las puntuaciones tradicionales muestra una forma de ojiva que implica que las estimaciones IRT separan a los individuos en los bordes del rango más que en el medio.
Una diferencia importante entre la TCC y la TIR es el tratamiento del error de medición, indexado por el error estándar de medición . Todas las pruebas, cuestionarios e inventarios son herramientas imprecisas; nunca podemos saber la puntuación real de una persona , sino que solo tenemos una estimación, la puntuación observada. Existe una cierta cantidad de error aleatorio que puede hacer que la puntuación observada sea mayor o menor que la puntuación real. La TCC supone que la cantidad de error es la misma para cada examinado, pero la TIR permite que varíe. [25]
Además, nada en la TRI refuta el desarrollo o la mejora humana ni presupone que un nivel de rasgo sea fijo. Una persona puede aprender habilidades, conocimientos o incluso las llamadas "habilidades para realizar exámenes" que pueden traducirse en una puntuación real más alta. De hecho, una parte de la investigación de la TRI se centra en la medición del cambio en el nivel de rasgo. [26]
La teoría clásica de pruebas (TCP) y la teoría de pruebas independientes (TRI) se ocupan en gran medida de los mismos problemas, pero son cuerpos teóricos diferentes y requieren métodos diferentes. Aunque los dos paradigmas son generalmente coherentes y complementarios, existen varios puntos de diferencia:
También vale la pena mencionar algunas similitudes específicas entre CTT e IRT que ayudan a entender la correspondencia entre conceptos. En primer lugar, Lord [27] demostró que bajo el supuesto de que se distribuye normalmente, la discriminación en el modelo 2PL es aproximadamente una función monótona de la correlación biserial puntual . En particular:
donde es la correlación biserial puntual del elemento i . Por lo tanto, si se cumple el supuesto, donde hay una mayor discriminación generalmente habrá una correlación biserial puntual más alta.
Otra similitud es que, si bien la IRT proporciona un error estándar de cada estimación y una función de información, también es posible obtener un índice para una prueba en su conjunto que es directamente análogo al alfa de Cronbach , llamado índice de separación . Para ello, es necesario comenzar con una descomposición de una estimación de la IRT en una ubicación y un error verdaderos, de manera análoga a la descomposición de una puntuación observada en una puntuación y un error verdaderos en la CTT. Sea
donde es la ubicación verdadera y es la asociación de error con una estimación. Entonces es una estimación de la desviación estándar de para una persona con una puntuación ponderada dada y el índice de separación se obtiene de la siguiente manera
donde el error estándar cuadrático medio de la estimación de la persona da una estimación de la varianza de los errores, , entre personas. Los errores estándar se producen normalmente como un subproducto del proceso de estimación. El índice de separación suele tener un valor muy cercano al alfa de Cronbach. [28]
A la IRT a veces se la denomina teoría de la puntuación verdadera fuerte o teoría de las pruebas mentales modernas porque es un cuerpo teórico más reciente y hace más explícitas las hipótesis implícitas en la CTT.
Las implementaciones de diferentes variaciones de la teoría de respuesta a los ítems están disponibles en muchos programas y lenguajes estadísticos diferentes, incluido el lenguaje de programación R , [29] [30] [31] y Python . [32]
Se han escrito muchos libros que abordan la teoría de respuesta a los ítems o que contienen modelos de TRI o similares. Esta es una lista parcial, que se centra en textos que brindan más profundidad.