stringtranslate.com

Teoría de la respuesta al ítem

En psicometría , la teoría de respuesta al ítem ( TRI ) (también conocida como teoría del rasgo latente , teoría de la puntuación verdadera fuerte o teoría moderna de las pruebas mentales ) es un paradigma para el diseño, análisis y puntuación de pruebas , cuestionarios e instrumentos similares que miden habilidades. actitudes u otras variables. Es una teoría de las pruebas basada en la relación entre el desempeño de los individuos en un ítem de la prueba y los niveles de desempeño de los examinados en una medida general de la capacidad para medir ese ítem fue diseñado. Se utilizan varios modelos estadísticos diferentes para representar las características tanto del ítem como del examinado. [1] A diferencia de alternativas más simples para crear escalas y evaluar las respuestas al cuestionario, no supone que cada ítem sea igualmente difícil. Esto distingue a la TRI de, por ejemplo, la escala Likert , en la que " se supone que todos los ítems son réplicas entre sí o, en otras palabras, los ítems se consideran instrumentos paralelos". [2] Por el contrario, la teoría de la respuesta al ítem trata la dificultad de cada ítem (las curvas características del ítem, o CCI) como información que debe incorporarse en los ítems de escala.

Se basa en la aplicación de modelos matemáticos relacionados para probar datos . Debido a que a menudo se la considera superior a la teoría de pruebas clásica , [3] es el método preferido para desarrollar escalas en los Estados Unidos, [ cita necesaria ] especialmente cuando se exigen decisiones óptimas, como en las llamadas pruebas de alto riesgo , por ejemplo , el Graduate Record Examination (GRE) y el Graduate Management Admission Test (GMAT).

El nombre de teoría de respuesta al ítem se debe al enfoque de la teoría en el ítem, a diferencia del enfoque a nivel de prueba de la teoría de pruebas clásica. Así, la TRI modela la respuesta de cada examinado de una habilidad determinada a cada ítem de la prueba. El término artículo es genérico y abarca todo tipo de artículos informativos. Pueden ser preguntas de opción múltiple que tienen respuestas incorrectas y correctas, pero también suelen ser declaraciones en cuestionarios que permiten a los encuestados indicar el nivel de acuerdo (una calificación o escala Likert ), o síntomas del paciente calificados como presentes/ausentes, o información de diagnóstico en forma compleja. sistemas.

La TRI se basa en la idea de que la probabilidad de una respuesta correcta o clave a un ítem es una función matemática de los parámetros de la persona y del ítem . (La expresión "una función matemática de los parámetros de persona y elemento" es análoga a la ecuación de Lewin , B = f(P, E) , que afirma que el comportamiento es una función de la persona en su entorno). El parámetro de persona se interpreta como ( generalmente) un solo rasgo o dimensión latente. Los ejemplos incluyen la inteligencia general o la fuerza de una actitud. Los parámetros por los que se caracterizan los elementos incluyen su dificultad (conocida como "ubicación" por su ubicación en el rango de dificultad); discriminación (pendiente o correlación), que representa cuán marcadamente varía la tasa de éxito de los individuos con su capacidad; y un parámetro de pseudoadivinación, que caracteriza la asíntota (inferior) en la que incluso las personas menos capaces obtendrán una puntuación debido a las adivinanzas (por ejemplo, 25% para una probabilidad pura en un ítem de opción múltiple con cuatro respuestas posibles).

De la misma manera, la TRI se puede utilizar para medir el comportamiento humano en las redes sociales en línea. Las opiniones expresadas por diferentes personas se pueden agregar para estudiarlas mediante TRI. También se ha evaluado su uso en la clasificación de información como información errónea o información verdadera.

Descripción general

El concepto de función de respuesta al ítem existía antes de 1950. El trabajo pionero de la TRI como teoría se produjo durante las décadas de 1950 y 1960. Tres de los pioneros fueron el psicometrista del Servicio de Pruebas Educativas Frederic M. Lord , [4] el matemático danés Georg Rasch y el sociólogo austriaco Paul Lazarsfeld , quienes llevaron a cabo investigaciones paralelas de forma independiente. Entre las figuras clave que impulsaron el progreso de la TRI se encuentran Benjamin Drake Wright y David Andrich . La TRI no se utilizó ampliamente hasta finales de los años 1970 y 1980, cuando a los profesionales se les dijo la "utilidad" y las "ventajas" de la TRI, por un lado, y las computadoras personales dieron a muchos investigadores acceso a la potencia informática necesaria para la TRI, por el otro. En la década de 1990, Margaret Wu desarrolló dos programas de software de respuesta a ítems que analizan datos de PISA y TIMSS; ACER ConQuest (1998) y el paquete R TAM (2010).

Entre otras cosas, el propósito de la TRI es proporcionar un marco para evaluar qué tan bien funcionan las evaluaciones y qué tan bien funcionan los elementos individuales de las evaluaciones. La aplicación más común de la TRI es en educación, donde los psicometristas la utilizan para desarrollar y diseñar exámenes , mantener bancos de ítems para los exámenes y equiparar las dificultades de los ítems para versiones sucesivas de los exámenes (por ejemplo, para permitir comparaciones entre resultados a lo largo del tiempo). . [5]

Los modelos TRI a menudo se denominan modelos de rasgos latentes . El término latente se utiliza para enfatizar que las respuestas a ítems discretos se consideran manifestaciones observables de rasgos, constructos o atributos hipotéticos, no observados directamente, pero que deben inferirse de las respuestas manifiestas. Los modelos de rasgos latentes se desarrollaron en el campo de la sociología, pero son prácticamente idénticos a los modelos TRI.

Generalmente se afirma que la TRI es una mejora con respecto a la teoría de pruebas clásica (CTT). Para las tareas que se pueden realizar utilizando CTT, la IRT generalmente aporta mayor flexibilidad y proporciona información más sofisticada. Algunas aplicaciones, como las pruebas adaptativas computarizadas , están habilitadas por IRT y no pueden realizarse razonablemente utilizando únicamente la teoría de pruebas clásica. Otra ventaja de la TRI sobre la CTT es que la información más sofisticada que proporciona la TRI permite al investigador mejorar la confiabilidad de una evaluación.

La TRI implica tres supuestos:

  1. Un rasgo unidimensional denotado por  ;
  2. Independencia local de artículos;
  3. La respuesta de una persona a un ítem se puede modelar mediante una función matemática de respuesta al ítem (IRF).

Además, se supone que el rasgo es mensurable en una escala (la mera existencia de una prueba lo supone), generalmente establecida en una escala estándar con una media de 0,0 y una desviación estándar de 1,0. La unidimensionalidad debe interpretarse como homogeneidad, una cualidad que debe definirse o demostrarse empíricamente en relación con un propósito o uso determinado, pero no una cantidad que pueda medirse. 'Independencia local' significa (a) que la posibilidad de que se utilice un ítem no está relacionada con ningún otro ítem que se utilice y (b) que la respuesta a un ítem es la decisión independiente de todos y cada uno de los examinados, es decir, no hay trampas ni trabajo en parejas o en grupo. El tema de la dimensionalidad a menudo se investiga con análisis factorial , mientras que el IRF es el componente básico de la TRI y es el centro de gran parte de la investigación y la literatura.

La función de respuesta al ítem

El IRF da la probabilidad de que una persona con un determinado nivel de habilidad responda correctamente. Las personas con menor capacidad tienen menos posibilidades, mientras que las personas con mayor capacidad tienen muchas probabilidades de responder correctamente; por ejemplo, los estudiantes con mayor capacidad matemática tienen más probabilidades de acertar en un elemento matemático. El valor exacto de la probabilidad depende, además de la capacidad, de un conjunto de parámetros del ítem del IRF.

Modelo logístico de tres parámetros.

Figura 1: Ejemplo de 3PL IRF, con líneas de puntos superpuestas para demostrar los parámetros.

Por ejemplo, en el modelo logístico de tres parámetros ( 3PL ), la probabilidad de una respuesta correcta a un ítem dicotómico i , generalmente una pregunta de opción múltiple, es:

donde indica que las habilidades de la persona se modelan como una muestra de una distribución normal con el fin de estimar los parámetros del ítem. Una vez estimados los parámetros de los elementos, se estiman las capacidades de las personas individuales para fines de elaboración de informes. , y son los parámetros del elemento. Los parámetros del elemento determinan la forma del IRF. La Figura 1 muestra un ICC 3PL ideal.

Los parámetros del artículo se pueden interpretar como un cambio en la forma de la función logística estándar :

En resumen, los parámetros se interpretan de la siguiente manera (eliminando subíndices para mayor legibilidad); b es el más básico, por lo que aparece en primer lugar:

Si entonces estos se simplifican y significan que b es igual al nivel de éxito del 50% (dificultad), y a (dividido por cuatro) es la pendiente máxima (discriminación), que ocurre en el nivel de éxito del 50%. Además, el logit (log de probabilidades ) de una respuesta correcta es (asumiendo ): en particular, si la habilidad θ es igual a la dificultad b, hay probabilidades pares (1:1, por lo tanto logit 0) de una respuesta correcta, cuanto mayor sea la habilidad por encima (o menor) la dificultad es más (o menos) probable una respuesta correcta, y la discriminación determina qué tan rápido las probabilidades aumentan o disminuyen con la habilidad.

En otras palabras, la función logística estándar tiene un mínimo asintótico de 0 ( ), está centrada alrededor de 0 ( , ) y tiene pendiente máxima. El parámetro estira la escala horizontal, desplaza la escala horizontal y comprime la escala vertical. desde hasta Esto se detalla a continuación.

El parámetro representa la ubicación del ítem que, en el caso de pruebas de logro, se conoce como dificultad del ítem. Es el punto donde el IRF tiene su máxima pendiente, y donde el valor está a medio camino entre el valor mínimo de y el valor máximo de 1. El ítem de ejemplo es de dificultad media ya que =0.0, que está cerca del centro de la distribución. Tenga en cuenta que este modelo escala la dificultad del ítem y el rasgo de la persona en el mismo continuo. Por lo tanto, es válido hablar de que un ítem es tan difícil como el nivel de rasgo de la Persona A o de que el nivel de rasgo de una persona es aproximadamente igual a la dificultad del Ítem Y, en el sentido de que el desempeño exitoso de la tarea involucrada con un ítem refleja una dificultad específica. nivel de habilidad.

El parámetro del ítem representa la discriminación del ítem: es decir, el grado en que el ítem discrimina entre personas en diferentes regiones del continuo latente. Este parámetro caracteriza la pendiente del IRF donde la pendiente es máxima. El ítem de ejemplo tiene =1,0, lo que discrimina bastante bien; De hecho, las personas con baja capacidad tienen muchas menos posibilidades de responder correctamente que las personas con mayor capacidad. Este parámetro de discriminación corresponde al coeficiente de ponderación del elemento o indicador respectivo en una regresión lineal ponderada estándar (mínimos cuadrados ordinarios, MCO ) y, por lo tanto, puede usarse para crear un índice ponderado de indicadores para la medición no supervisada de un concepto latente subyacente.

Para elementos como los de opción múltiple , el parámetro se utiliza para intentar tener en cuenta los efectos de adivinar sobre la probabilidad de una respuesta correcta. Indica la probabilidad de que individuos con muy baja capacidad acierten este ítem por casualidad, representado matemáticamente como una asíntota inferior . Un ítem de opción múltiple de cuatro opciones podría tener un IRF como el ítem de ejemplo; Hay una probabilidad de 1/4 de que un candidato con habilidades extremadamente bajas adivine la respuesta correcta, por lo que sería aproximadamente 0,25. Este enfoque supone que todas las opciones son igualmente plausibles, porque si una opción no tuviera sentido, incluso la persona con menor capacidad podría descartarla, por lo que los métodos de estimación de parámetros TRI tienen esto en cuenta y estiman en base a los datos observados. [6]

Modelos TRI

En términos generales, los modelos TRI se pueden dividir en dos familias: unidimensionales y multidimensionales. Los modelos unidimensionales requieren una única dimensión de rasgo (capacidad) . Los modelos TRI multidimensionales modelan datos de respuesta que, según la hipótesis, surgen de múltiples rasgos. Sin embargo, debido al gran aumento de la complejidad, la mayoría de las investigaciones y aplicaciones de la TRI utilizan un modelo unidimensional.

Los modelos TRI también se pueden clasificar según la cantidad de respuestas calificadas. El ítem típico de opción múltiple es dicotómico ; aunque puede haber cuatro o cinco opciones, todavía se califica solo como correcta/incorrecta (correcta/incorrecta). Otra clase de modelos se aplica a resultados politómicos , donde cada respuesta tiene un valor de puntuación diferente. [7] [8] Un ejemplo común de esto son los elementos de tipo Likert , por ejemplo, "Califique en una escala de 1 a 5". Otro ejemplo es la puntuación de crédito parcial, a la que se pueden aplicar modelos como el modelo Polytomous Rasch .


Número de parámetros IRT

Los modelos TRI dicotómicos se describen por la cantidad de parámetros que utilizan. [9] El 3PL se llama así porque emplea tres parámetros de elementos. El modelo de dos parámetros (2PL) supone que los datos no tienen conjeturas, pero que los ítems pueden variar en términos de ubicación ( ) y discriminación ( ). El modelo de un parámetro (1PL) supone que adivinar es parte de la habilidad y que todos los ítems que se ajustan al modelo tienen discriminaciones equivalentes, de modo que los ítems solo se describen mediante un único parámetro ( ). Esto da como resultado modelos de un solo parámetro que tienen la propiedad de objetividad específica, lo que significa que el rango de dificultad del ítem es el mismo para todos los encuestados independientemente de la habilidad, y que el rango de la habilidad de la persona es el mismo para los ítems independientemente de la dificultad. Por lo tanto, los modelos de 1 parámetro son independientes de la muestra, una propiedad que no se cumple para los modelos de dos y tres parámetros. Además, existe teóricamente un modelo de cuatro parámetros (4PL), con una asíntota superior , denotada por donde en el 3PL se reemplaza por . Sin embargo, esto rara vez se utiliza. Tenga en cuenta que el orden alfabético de los parámetros de los ítems no coincide con su importancia práctica o psicométrica; El parámetro ubicación/dificultad ( ) es claramente el más importante porque está incluido en los tres modelos. El 1PL usa sólo , el 2PL usa y , el 3PL suma y el 4PL suma .

El 2PL es equivalente al modelo 3PL con y es apropiado para probar ítems donde es muy poco probable adivinar la respuesta correcta, como ítems para completar espacios en blanco ("¿Cuál es la raíz cuadrada de 121?"), o donde el concepto de adivinanzas no se aplica, como elementos de personalidad, actitud o intereses (por ejemplo, "Me gustan los musicales de Broadway. De acuerdo/en desacuerdo").

El 1PL supone no sólo que las conjeturas no están presentes (o son irrelevantes), sino que todos los ítems son equivalentes en términos de discriminación, análogo a un análisis factorial común con cargas idénticas para todos los ítems. Los elementos individuales o los individuos pueden tener factores secundarios, pero se supone que son mutuamente independientes y colectivamente ortogonales .

Modelos IRT logísticos y normales.

Una formulación alternativa construye IRF basándose en la distribución de probabilidad normal; A veces se les llama modelos ojiva normales . Por ejemplo, la fórmula para un IRF ojival normal de dos parámetros es:

donde Φ es la función de distribución acumulativa (CDF) de la distribución normal estándar.

El modelo de ojiva normal se deriva del supuesto de error de medición distribuido normalmente y es teóricamente atractivo sobre esa base. Aquí está, nuevamente, el parámetro de dificultad. El parámetro de discriminación es , la desviación estándar del error de medición para el elemento i , y comparable a 1/ .

Se puede estimar un modelo de rasgo latente de ojiva normal mediante el análisis factorial de una matriz de correlaciones tetracóricas entre elementos. [10] Esto significa que es técnicamente posible estimar un modelo IRT simple utilizando software estadístico de propósito general.

Con el cambio de escala del parámetro de capacidad, es posible hacer que el modelo logístico 2PL se acerque mucho a la ojiva normal acumulativa . [11] Normalmente, los IRF logísticos y ojivales normales de 2PL difieren en probabilidad en no más de 0,01 en todo el rango de la función. Sin embargo, la diferencia es mayor en las colas de distribución, que tienden a tener más influencia en los resultados.

El modelo de rasgo latente/IRT se desarrolló originalmente utilizando ojivas normales, pero se consideró demasiado exigente desde el punto de vista computacional para las computadoras de la época (década de 1960). El modelo logístico se propuso como una alternativa más sencilla y ha gozado de un amplio uso desde entonces. Más recientemente, sin embargo, se demostró que, utilizando aproximaciones polinómicas estándar a la CDF normal , [12] el modelo de ojiva normal no es más exigente desde el punto de vista computacional que los modelos logísticos. [13]

El modelo Rasch

El modelo de Rasch a menudo se considera el modelo 1PL IRT. Sin embargo, los defensores del modelado de Rasch prefieren verlo como un enfoque completamente diferente para conceptualizar la relación entre datos y teoría. [14] Al igual que otros enfoques de modelización estadística, la TRI enfatiza la primacía del ajuste de un modelo a los datos observados, [15] mientras que el modelo de Rasch enfatiza la primacía de los requisitos para la medición fundamental, siendo un ajuste adecuado del modelo de datos un factor importante, pero Requisito secundario que debe cumplirse antes de que se pueda afirmar que una prueba o instrumento de investigación mide un rasgo. [16] Operacionalmente, esto significa que los enfoques TRI incluyen parámetros de modelo adicionales para reflejar los patrones observados en los datos (por ejemplo, permitiendo que los elementos varíen en su correlación con el rasgo latente), mientras que en el enfoque de Rasch, las afirmaciones sobre la presencia de un rasgo latente sólo puede considerarse válido cuando (a) los datos se ajustan al modelo de Rasch y (b) los elementos de la prueba y los examinados se ajustan al modelo. Por lo tanto, según los modelos de Rasch, las respuestas desadaptadas requieren un diagnóstico del motivo del desadaptado y pueden excluirse del conjunto de datos si se puede explicar sustancialmente por qué no abordan el rasgo latente. [17] Por lo tanto, el enfoque de Rasch puede verse como un enfoque confirmatorio, a diferencia de los enfoques exploratorios que intentan modelar los datos observados.

La presencia o ausencia de un parámetro de conjetura o pseudoazar es una distinción importante y a veces controvertida. El enfoque IRT incluye un parámetro de asíntota izquierda para tener en cuenta las conjeturas en exámenes de opción múltiple , mientras que el modelo de Rasch no lo incluye porque se supone que las conjeturas añaden ruido distribuido aleatoriamente a los datos. Como el ruido se distribuye aleatoriamente, se supone que, siempre que se prueben suficientes elementos, la clasificación de las personas a lo largo del rasgo latente por puntuación bruta no cambiará, sino que simplemente sufrirá un cambio de escala lineal. Por el contrario, la TRI de tres parámetros logra el ajuste del modelo de datos seleccionando un modelo que se ajuste a los datos, [18] a expensas de sacrificar la objetividad específica.

En la práctica, el modelo de Rasch tiene al menos dos ventajas principales en comparación con el enfoque TRI. La primera ventaja es la primacía de los requisitos específicos de Rasch, [19] que (cuando se cumplen) proporcionan una medición fundamental sin personas (donde las personas y los elementos se pueden mapear en la misma escala invariante). [20] Otra ventaja del enfoque de Rasch es que la estimación de parámetros es más sencilla en los modelos de Rasch debido a la presencia de estadísticas suficientes, lo que en esta aplicación significa una correlación uno a uno de las puntuaciones numéricas correctas brutas con las estimaciones de Rasch. [21]

Análisis de ajuste del modelo.

Como ocurre con cualquier uso de modelos matemáticos, es importante evaluar el ajuste de los datos al modelo. Si se diagnostica que el ítem no encaja con cualquier modelo debido a una mala calidad del ítem, por ejemplo, distractores confusos en una prueba de opción múltiple, entonces los ítems pueden eliminarse de ese formulario de prueba y reescribirse o reemplazarse en formularios de prueba futuros. Sin embargo, si ocurre una gran cantidad de ítems que no se ajustan sin razón aparente para el mal ajuste, será necesario reconsiderar la validez de constructo de la prueba y es posible que sea necesario reescribir las especificaciones de la prueba. Por lo tanto, Misfit proporciona herramientas de diagnóstico invaluables para los desarrolladores de pruebas, permitiendo que las hipótesis en las que se basan las especificaciones de las pruebas se prueben empíricamente con los datos.

Existen varios métodos para evaluar el ajuste, como la estadística Chi-cuadrado o una versión estandarizada de la misma. Los modelos TRI de dos y tres parámetros ajustan la discriminación de ítems, asegurando un mejor ajuste del modelo de datos, por lo que las estadísticas de ajuste carecen del valor de diagnóstico confirmatorio que se encuentra en los modelos de un parámetro, donde el modelo idealizado se especifica de antemano.

Los datos no deben eliminarse por un desajuste del modelo, sino más bien porque se ha diagnosticado una razón relevante para el desajuste, como por ejemplo que un hablante no nativo de inglés realice un examen de ciencias escrito en inglés. Se puede argumentar que dicho candidato no pertenece a la misma población de personas dependiendo de la dimensionalidad de la prueba y, aunque se argumenta que un parámetro de las medidas TRI es independiente de la muestra, no lo son de la población, por lo que inadaptados como este son constructo relevante y no invalida la prueba ni el modelo. Este enfoque es una herramienta esencial en la validación de instrumentos. En los modelos de dos y tres parámetros, donde el modelo psicométrico se ajusta para ajustarse a los datos, se debe verificar que las futuras administraciones de la prueba se ajusten al mismo modelo utilizado en la validación inicial para confirmar la hipótesis de que las puntuaciones de cada administración se generalizan. a otras administraciones. Si se especifica un modelo diferente para cada administración con el fin de lograr un ajuste del modelo de datos, entonces se está midiendo un rasgo latente diferente y no se puede argumentar que las puntuaciones de las pruebas sean comparables entre administraciones.

Información

Una de las principales contribuciones de la teoría de la respuesta al ítem es la extensión del concepto de confiabilidad . Tradicionalmente, la confiabilidad se refiere a la precisión de la medición (es decir, el grado en que la medición está libre de errores). Tradicionalmente, se mide utilizando un único índice definido de varias maneras, como la relación entre la varianza de la puntuación verdadera y la observada. Este índice es útil para caracterizar la confiabilidad promedio de una prueba, por ejemplo para comparar dos pruebas. Pero la TRI deja claro que la precisión no es uniforme en toda la gama de puntuaciones de las pruebas. Las puntuaciones en los límites del rango de la prueba, por ejemplo, generalmente tienen más errores asociados que las puntuaciones más cercanas a la mitad del rango.

La teoría de la respuesta al ítem avanza el concepto de información del ítem y de la prueba para reemplazar la confiabilidad. La información también es función de los parámetros del modelo. Por ejemplo, según la teoría de la información de Fisher , la información del ítem proporcionada en el caso del 1PL para datos de respuesta dicotómica es simplemente la probabilidad de una respuesta correcta multiplicada por la probabilidad de una respuesta incorrecta, o,

El error estándar de estimación (SE) es el recíproco de la información de la prueba en un nivel de rasgo dado, es el

Por tanto, más información implica menos error de medición.

Para otros modelos, como los de dos y tres parámetros, el parámetro de discriminación juega un papel importante en la función. La función de información del artículo para el modelo de dos parámetros es

La función de información del artículo para el modelo de tres parámetros es

[22]

En general, las funciones de información de elementos tienden a tener forma de campana. Los elementos altamente discriminantes tienen funciones de información altas y estrechas; contribuyen en gran medida, pero en un rango estrecho. Los elementos menos discriminatorios proporcionan menos información pero sobre un rango más amplio.

Se pueden utilizar gráficos de información de ítems para ver cuánta información aporta un ítem y en qué parte del rango de puntuación de la escala. Debido a la independencia local, las funciones de información de artículos son aditivas . Por tanto, la función de información de la prueba es simplemente la suma de las funciones de información de los ítems del examen. Utilizando esta propiedad con un banco de elementos grande, las funciones de información de prueba se pueden configurar para controlar el error de medición con mucha precisión.

Caracterizar la precisión de las puntuaciones de las pruebas es quizás la cuestión central de la teoría psicométrica y es una diferencia principal entre la TRI y la CTT. Los hallazgos del IRT revelan que el concepto de confiabilidad del CTT es una simplificación. En lugar de confiabilidad, IRT ofrece la función de información de prueba que muestra el grado de precisión en diferentes valores de theta, θ.

Estos resultados permiten a los psicometristas moldear (potencialmente) cuidadosamente el nivel de confiabilidad para diferentes rangos de habilidad al incluir elementos cuidadosamente seleccionados. Por ejemplo, en una situación de certificación en la que una prueba sólo se puede aprobar o reprobar, donde sólo hay una "puntuación de corte" y donde la puntuación de aprobación real no es importante, se puede desarrollar una prueba muy eficiente seleccionando sólo elementos que tengan información alta cerca del cutscore. Estos ítems generalmente corresponden a ítems cuya dificultad es aproximadamente la misma que la de la puntuación de corte.

Puntuación

El parámetro persona representa la magnitud del rasgo latente del individuo, que es la capacidad o atributo humano medido por la prueba. [23] Podría ser una capacidad cognitiva, una capacidad física, una habilidad, un conocimiento, una actitud, una característica de personalidad, etc.

La estimación del parámetro de la persona (la "puntaje" en una prueba con TRI) se calcula e interpreta de una manera muy diferente en comparación con las puntuaciones tradicionales como el número o el porcentaje correcto. La puntuación total correcta del individuo no es la puntuación real, sino que se basa en los IRF, lo que lleva a una puntuación ponderada cuando el modelo contiene parámetros de discriminación de ítems. En realidad, se obtiene multiplicando la función de respuesta al ítem de cada ítem para obtener una función de verosimilitud , cuyo punto más alto es la estimación de máxima verosimilitud de . Este punto más alto normalmente se estima con software IRT utilizando el método de Newton-Raphson . [24] Si bien la puntuación es mucho más sofisticada con la TRI, para la mayoría de las pruebas, la correlación entre la estimación theta y una puntuación tradicional es muy alta; a menudo es 0,95 o más [cita?]. Un gráfico de las puntuaciones del IRT frente a las puntuaciones tradicionales muestra una forma de ojiva, lo que implica que el IRT estima individuos separados en los límites del rango más que en el medio.

Una diferencia importante entre CTT y IRT es el tratamiento del error de medición, indexado por el error estándar de medición . Todas las pruebas, cuestionarios e inventarios son herramientas imprecisas; Nunca podremos conocer la verdadera puntuación de una persona , sino que sólo tendremos una estimación, la puntuación observada. Existe cierta cantidad de error aleatorio que puede hacer que la puntuación observada sea mayor o menor que la puntuación real. CTT supone que la cantidad de error es la misma para cada examinado, pero IRT permite que varíe. [25]

Además, nada en la TRI refuta el desarrollo o la mejora humana ni supone que el nivel de un rasgo sea fijo. Una persona puede aprender habilidades, conocimientos o incluso las llamadas "habilidades para tomar exámenes", lo que puede traducirse en una puntuación real más alta. De hecho, una parte de la investigación de la TRI se centra en la medición del cambio en el nivel de rasgo. [26]

Una comparación de las teorías clásica y de respuesta al ítem.

La teoría clásica de las pruebas (CTT) y la TRI se ocupan en gran medida de los mismos problemas, pero son cuerpos teóricos diferentes e implican métodos diferentes. Aunque los dos paradigmas son generalmente consistentes y complementarios, existen varios puntos de diferencia:

Vale la pena mencionar también algunas similitudes específicas entre CTT y TRI que ayudan a comprender la correspondencia entre conceptos. Primero, Lord [27] demostró que bajo el supuesto de que se distribuye normalmente, la discriminación en el modelo 2PL es aproximadamente una función monótona de la correlación biserial puntual . En particular:

¿Dónde está la correlación biserial puntual del ítem i ? Por lo tanto, si el supuesto se cumple, donde hay una mayor discriminación generalmente habrá una correlación biserial puntual más alta.

Otra similitud es que, si bien la TRI proporciona un error estándar de cada estimación y una función de información, también es posible obtener un índice para una prueba en su conjunto que es directamente análogo al alfa de Cronbach , llamado índice de separación . Para hacerlo, es necesario comenzar con una descomposición de una estimación del IRT en una ubicación verdadera y un error, de manera análoga a la descomposición de una puntuación observada en una puntuación verdadera y un error en CTT. Dejar

donde es la ubicación real y es la asociación del error con una estimación. Luego se estima la desviación estándar de una persona con una puntuación ponderada determinada y el índice de separación se obtiene de la siguiente manera

donde el error estándar cuadrático medio de la estimación de personas da una estimación de la varianza de los errores, entre personas. Los errores estándar normalmente se producen como subproducto del proceso de estimación. El índice de separación suele tener un valor muy cercano al alfa de Cronbach. [28]

La TRI a veces se denomina teoría fuerte de la puntuación verdadera o teoría moderna de las pruebas mentales porque es un cuerpo teórico más reciente y hace más explícitas las hipótesis implícitas en la CTT.

Ver también

Referencias

  1. ^ "Glosario de términos importantes de evaluación y medición". Consejo Nacional de Medición en Educación . Archivado desde el original el 22 de julio de 2017.
  2. ^ A. van Alphen, R. Halfens, A. Hasman y T. Imbos. (1994). ¿Likert o Rasch? Nada es más aplicable que una buena teoría. Revista de Enfermería Avanzada . 20 , 196-201
  3. ^ Embretson, Susan E.; Reise, Steven P. (2000). Teoría de respuesta al ítem para psicólogos. Prensa de Psicología. ISBN 9780805828191.
  4. ^ Descripción general de la investigación de ETS
  5. ^ Hambleton, RK, Swaminathan, H. y Rogers, HJ (1991). Fundamentos de la teoría de respuesta al ítem . Newbury Park, California: Sage Press.
  6. ^ Bock, RD; Aitkin, M. (1981). "Estimación de máxima verosimilitud marginal de parámetros de ítems: aplicación de un algoritmo EM". Psicometrika . 46 (4): 443–459. doi :10.1007/BF02293801. S2CID  122123206.
  7. ^ Ostini, Remo; Nering, Michael L. (2005). Modelos de teoría de respuesta al ítem politómico. Aplicaciones cuantitativas en las ciencias sociales. vol. 144. SABIO. ISBN 978-0-7619-3068-6.
  8. ^ Nering, Michael L.; Ostini, Remo, eds. (2010). Manual de modelos de teoría de respuesta a ítems politómicos. Taylor y Francisco. ISBN 978-0-8058-5992-8.
  9. ^ Thissen, D. y Orlando, M. (2001). Teoría de respuesta al ítem para ítems puntuados en dos categorías. En D. Thissen & Wainer, H. (Eds.), Puntuación de pruebas (págs. 73-140). Mahwah, Nueva Jersey: Lawrence Erlbaum Associates, Inc.
  10. ^ KG Jöreskog y D. Sörbom (1988). Manual de usuario PRELIS 1, versión 1 . Chicago: software científico, inc.
  11. ^ Camilli, Gregory (1994). "Origen de la constante de escala d = 1,7 en la teoría de respuesta al ítem". Revista de estadísticas educativas y del comportamiento . 19 (3): 293–295. doi :10.3102/10769986019003293. S2CID  122401679.
  12. ^ Abramowitz M., Stegun IA (1972). Manual de funciones matemáticas . Washington DC: Imprenta del Gobierno de Estados Unidos.
  13. ^ Uebersax, JS (diciembre de 1999). "Análisis de clases latentes de Probit con medidas de categorías dicotómicas u ordenadas: modelos condicionales de independencia/dependencia". Medición Psicológica Aplicada . 23 (4): 283–297. doi :10.1177/01466219922031400. S2CID  120497324.
  14. ^ Andrich, D (1989), Distinciones entre supuestos y requisitos en la medición en las ciencias sociales", en Keats, JA, Taft, R., Heath, RA, Lovibond, S (Eds), Sistemas matemáticos y teóricos , Elsevier Science Publishers , Holanda Septentrional, Amsterdam, págs. 7-16.
  15. ^ Steinberg, J. (2000). Frederic Lord, quien ideó el criterio de prueba, muere a los 87 años. New York Times, 10 de febrero de 2000
  16. ^ Andrich, D. (enero de 2004). "La controversia y el modelo de Rasch: ¿una característica de paradigmas incompatibles?". Atención médica . 42 (1): I-7. doi :10.1097/01.mlr.0000103528.48582.7c. PMID  14707751. S2CID  23087904.
  17. ^ Smith, RM (1990). "Teoría y práctica del ajuste". Transacciones de medición de Rasch . 3 (4): 78.
  18. ^ Zwick, R.; Thayer, DT; Wingersky, M. (diciembre de 1995). "Efecto de la calibración de Rasch sobre la capacidad y la estimación del DIF en pruebas adaptativas por computadora". Revista de Medición Educativa . 32 (4): 341–363. doi :10.1111/j.1745-3984.1995.tb00471.x.
  19. ^ Rasch, G. (1960/1980). Modelos probabilísticos para algunas pruebas de inteligencia y de logro . (Copenhague, Instituto Danés de Investigación Educativa), edición ampliada (1980) con prólogo y epílogo de BD Wright. Chicago: Prensa de la Universidad de Chicago.
  20. ^ Wright, BD (1992). "IRT en la década de 1990: ¿Qué modelos funcionan mejor?". Transacciones de medición de Rasch . 6 (1): 196–200.
  21. ^ Fischer, GH y Molenaar, IW (1995). Modelos de Rasch: fundamentos, desarrollos recientes y aplicaciones . Nueva York: Springer.
  22. ^ de Ayala, RJ (2009). La teoría y práctica de la teoría de la respuesta al ítem , Nueva York, NY: The Guilford Press. (6.12), pág.144
  23. ^ Lazarsfeld PF y Henry NW (1968). Análisis de estructura latente . Boston: Houghton Mifflin.
  24. ^ Thompson, NA (2009). «Estimación de capacidades con IRT» (PDF) .
  25. ^ Kolen, Michael J.; Zeng, Lingjia; Hanson, Bradley A. (junio de 1996). "Errores estándar condicionales de medición de puntuaciones de escala utilizando TRI". Revista de Medición Educativa . 33 (2): 129-140. doi :10.1111/j.1745-3984.1996.tb00485.x.
  26. ^ Hall, LA y McDonald, JL (2000). Medición del cambio en las percepciones de los docentes sobre el impacto que tiene el desarrollo del personal en la enseñanza. Documento presentado en la Reunión Anual de la Asociación Estadounidense de Investigación Educativa (Nueva Orleans, LA, 24 al 28 de abril de 2000).
  27. ^ Señor, FM (1980). Aplicaciones de la teoría de la respuesta al ítem a problemas de pruebas prácticas . Mahwah, Nueva Jersey: Lawrence Erlbaum Associates, Inc.
  28. ^ Andrich, D. (1982). "Un índice de separación de personas en la teoría del rasgo latente, el índice KR.20 tradicional y el patrón de respuesta de la escala de Guttman". Investigación y perspectivas en educación . 9 : 95-104.

Otras lecturas

Se han escrito muchos libros que abordan la teoría de la respuesta al ítem o contienen TRI o modelos similares a la TRI. Esta es una lista parcial, centrándose en textos que brindan más profundidad.

Este libro resume gran parte del trabajo de TRI de Lord, incluidos capítulos sobre la relación entre TRI y los métodos clásicos, fundamentos de TRI, estimación y varios temas avanzados. Su capítulo de estimación ahora está anticuado porque analiza principalmente el método de máxima verosimilitud conjunta en lugar del método de máxima verosimilitud marginal implementado por Darrell Bock y sus colegas.
Este libro es una introducción accesible a la TRI, dirigida, como dice el título, a psicólogos.
Este libro introductorio es de uno de los pioneros en este campo y está disponible en línea en [1]
Este libro describe varios modelos de teoría de respuesta al ítem y proporciona explicaciones detalladas de los algoritmos que pueden usarse para estimar los parámetros del ítem y de habilidad. Partes del libro están disponibles en línea como vista previa limitada en Google Books .
Este libro proporciona una descripción general completa de varios modelos IRT populares. Es muy adecuado para personas que ya han adquirido conocimientos básicos de TRI.
Este volumen muestra una introducción integrada a los modelos de respuesta al ítem, dirigida principalmente a profesionales, investigadores y estudiantes de posgrado.
Este libro analiza el enfoque bayesiano hacia el modelado de respuesta al ítem. El libro será útil para personas (que estén familiarizadas con la TRI) interesadas en analizar datos de respuesta a ítems desde una perspectiva bayesiana.

enlaces externos