El modelo de Rasch , llamado así por Georg Rasch , es un modelo psicométrico para analizar datos categóricos , como las respuestas a preguntas de una evaluación de lectura o las respuestas de un cuestionario, en función de la compensación entre las habilidades, actitudes o rasgos de personalidad del encuestado y la dificultad del ítem. [1] [2] Por ejemplo, pueden usarse para estimar la capacidad de lectura de un estudiante o la extremidad de la actitud de una persona hacia la pena capital a partir de las respuestas de un cuestionario. Además de la psicometría y la investigación educativa, el modelo de Rasch y sus extensiones se utilizan en otras áreas, incluidas la profesión de la salud , [3] la agricultura , [4] y la investigación de mercados. [5] [6]
La teoría matemática que sustenta los modelos de Rasch es un caso especial de la teoría de respuesta a los ítems . Sin embargo, existen diferencias importantes en la interpretación de los parámetros del modelo y sus implicaciones filosóficas [7] que separan a los defensores del modelo de Rasch de la tradición del modelado de respuesta a los ítems. Un aspecto central de esta división se relaciona con el papel de la objetividad específica, [8] una propiedad definitoria del modelo de Rasch según Georg Rasch , como requisito para una medición exitosa.
En el modelo de Rasch, la probabilidad de una respuesta específica (por ejemplo, respuesta correcta/incorrecta) se modela como una función de los parámetros de la persona y del ítem. Específicamente, en el modelo original de Rasch, la probabilidad de una respuesta correcta se modela como una función logística de la diferencia entre el parámetro de la persona y el del ítem. La forma matemática del modelo se proporciona más adelante en este artículo. En la mayoría de los contextos, los parámetros del modelo caracterizan la competencia de los encuestados y la dificultad de los ítems como ubicaciones en una variable latente continua. Por ejemplo, en las pruebas educativas, los parámetros del ítem representan la dificultad de los ítems mientras que los parámetros de la persona representan la capacidad o el nivel de logro de las personas que son evaluadas. Cuanto mayor sea la capacidad de una persona en relación con la dificultad de un ítem, mayor será la probabilidad de una respuesta correcta en ese ítem. Cuando la ubicación de una persona en el rasgo latente es igual a la dificultad del ítem, existe por definición una probabilidad de 0,5 de una respuesta correcta en el modelo de Rasch.
Un modelo de Rasch es un modelo en cierto sentido, ya que representa la estructura que deben presentar los datos para obtener mediciones a partir de ellos; es decir, proporciona un criterio para una medición exitosa. Más allá de los datos, las ecuaciones de Rasch modelan las relaciones que esperamos obtener en el mundo real. Por ejemplo, la educación tiene como objetivo preparar a los niños para toda la gama de desafíos que enfrentarán en la vida, y no solo aquellos que aparecen en los libros de texto o en las pruebas. Al exigir que las medidas permanezcan iguales (invariantes) en diferentes pruebas que miden lo mismo, los modelos de Rasch permiten probar la hipótesis de que los desafíos particulares planteados en un currículo y en una prueba representan de manera coherente la población infinita de todos los desafíos posibles en ese dominio. Por lo tanto, un modelo de Rasch es un modelo en el sentido de un ideal o estándar que proporciona una ficción heurística que sirve como un principio organizador útil incluso cuando nunca se observa realmente en la práctica.
La perspectiva o paradigma que sustenta el modelo de Rasch es distinta de la perspectiva que sustenta el modelado estadístico . Los modelos se utilizan con mayor frecuencia con la intención de describir un conjunto de datos. Los parámetros se modifican y se aceptan o rechazan en función de lo bien que se ajusten a los datos. Por el contrario, cuando se emplea el modelo de Rasch, el objetivo es obtener datos que se ajusten al modelo. [9] [10] [11] La razón fundamental de esta perspectiva es que el modelo de Rasch incorpora requisitos que se deben cumplir para obtener mediciones, en el sentido en que la medición se entiende generalmente en las ciencias físicas.
Una analogía útil para entender este razonamiento es considerar los objetos medidos en una balanza. Supongamos que el peso de un objeto A se mide y resulta ser sustancialmente mayor que el peso de un objeto B en una ocasión, y que inmediatamente después se mide el peso del objeto B y resulta ser sustancialmente mayor que el peso del objeto A. Una propiedad que exigimos a las mediciones es que la comparación resultante entre objetos sea la misma o invariable, independientemente de otros factores. Este requisito clave está incorporado en la estructura formal del modelo de Rasch. En consecuencia, el modelo de Rasch no se modifica para adaptarse a los datos. En cambio, el método de evaluación debe modificarse para que se cumpla este requisito, de la misma manera que una balanza debe rectificarse si da diferentes comparaciones entre objetos tras mediciones separadas de los mismos.
Los datos analizados con este modelo suelen ser respuestas a preguntas convencionales de pruebas, como pruebas educativas con respuestas correctas o incorrectas. Sin embargo, el modelo es general y se puede aplicar en cualquier lugar donde se obtengan datos discretos con la intención de medir un atributo o rasgo cuantitativo.
Cuando todos los participantes tienen la oportunidad de intentar responder a todos los ítems de una sola prueba, cada puntaje total de la prueba se corresponde con una estimación única de la capacidad y cuanto mayor sea el total, mayor será la estimación de la capacidad. Los puntajes totales no tienen una relación lineal con las estimaciones de la capacidad. Más bien, la relación no es lineal, como se muestra en la Figura 1. El puntaje total se muestra en el eje vertical, mientras que la estimación de la ubicación de la persona correspondiente se muestra en el eje horizontal. Para la prueba particular en la que se basa la curva característica de la prueba (TCC) que se muestra en la Figura 1, la relación es aproximadamente lineal en todo el rango de puntajes totales de aproximadamente 13 a 31. La forma de la TCC es generalmente algo sigmoidea como en este ejemplo. Sin embargo, la relación precisa entre los puntajes totales y las estimaciones de la ubicación de la persona depende de la distribución de los ítems de la prueba. La TCC es más pronunciada en los rangos del continuo en los que hay más ítems, como en el rango a ambos lados de 0 en las Figuras 1 y 2.
Al aplicar el modelo de Rasch, las ubicaciones de los ítems suelen escalarse primero, basándose en métodos como los que se describen a continuación. Esta parte del proceso de escalamiento suele denominarse calibración de ítems . En las pruebas educativas, cuanto menor sea la proporción de respuestas correctas, mayor será la dificultad de un ítem y, por lo tanto, mayor será la ubicación de la escala del ítem. Una vez que se escalan las ubicaciones de los ítems, se miden las ubicaciones de las personas en la escala. Como resultado, las ubicaciones de las personas y de los ítems se estiman en una sola escala, como se muestra en la Figura 2.
En el caso de datos dicotómicos, como las respuestas correctas o incorrectas, por definición, la ubicación de un elemento en una escala se corresponde con la ubicación de la persona en la que hay una probabilidad de 0,5 de una respuesta correcta a la pregunta. En general, la probabilidad de que una persona responda correctamente a una pregunta con una dificultad menor que la ubicación de esa persona es mayor que 0,5, mientras que la probabilidad de responder correctamente a una pregunta con una dificultad mayor que la ubicación de la persona es menor que 0,5. La curva característica del elemento (ICC) o la función de respuesta al elemento (IRF) muestra la probabilidad de una respuesta correcta en función de la capacidad de las personas. En este artículo se muestra y explica una única ICC con más detalle en relación con la Figura 4 (consulte también la función de respuesta al elemento ). Las ICC más a la izquierda en la Figura 3 son los elementos más fáciles, las ICC más a la derecha en la misma figura son los elementos más difíciles.
Cuando las respuestas de una persona se clasifican según la dificultad de los ítems, de menor a mayor, el patrón más probable es un patrón o vector de Guttman, es decir, {1,1,...,1,0,0,0,...,0}. Sin embargo, si bien este patrón es el más probable dada la estructura del modelo de Rasch, el modelo solo requiere patrones de respuesta probabilísticos de Guttman, es decir, patrones que tienden hacia el patrón de Guttman. Es inusual que las respuestas se ajusten estrictamente al patrón porque hay muchos patrones posibles. No es necesario que las respuestas se ajusten estrictamente al patrón para que los datos se ajusten al modelo de Rasch.
Cada estimación de capacidad tiene asociado un error estándar de medición , que cuantifica el grado de incertidumbre asociado con la estimación de capacidad. Las estimaciones de ítems también tienen errores estándar. Generalmente, los errores estándar de las estimaciones de ítems son considerablemente menores que los errores estándar de las estimaciones de personas porque normalmente hay más datos de respuesta para un ítem que para una persona. Es decir, el número de personas que intentan un ítem determinado suele ser mayor que el número de ítems intentados por una persona determinada. Los errores estándar de las estimaciones de personas son menores cuando la pendiente del ICC es más pronunciada, lo que generalmente se encuentra en el rango medio de puntuaciones en una prueba. Por lo tanto, hay una mayor precisión en este rango ya que cuanto más pronunciada sea la pendiente, mayor será la distinción entre dos puntos cualesquiera en la línea.
Las pruebas estadísticas y gráficas se utilizan para evaluar la correspondencia de los datos con el modelo. Algunas pruebas son globales, mientras que otras se centran en elementos o personas específicos. Algunas pruebas de ajuste proporcionan información sobre qué elementos se pueden utilizar para aumentar la fiabilidad de una prueba omitiendo o corrigiendo problemas con elementos deficientes. En la medición de Rasch, se utiliza el índice de separación de personas en lugar de los índices de fiabilidad. Sin embargo, el índice de separación de personas es análogo a un índice de fiabilidad. El índice de separación es un resumen de la separación genuina como una relación con la separación que incluye el error de medición. Como se mencionó anteriormente, el nivel de error de medición no es uniforme en todo el rango de una prueba, pero generalmente es mayor para las puntuaciones más extremas (bajas y altas).
La clase de modelos recibe su nombre de Georg Rasch , un matemático y estadístico danés que propuso el caso epistemológico de los modelos basándose en su congruencia con un requisito central de la medición en física ; a saber, el requisito de comparación invariante . [1] Esta es la característica definitoria de la clase de modelos, como se explica en la siguiente sección. El modelo de Rasch para datos dicotómicos tiene una estrecha relación conceptual con la ley del juicio comparativo (LCJ), un modelo formulado y utilizado ampliamente por LL Thurstone , [12] [13] y, por lo tanto, también con la escala de Thurstone . [14]
Antes de introducir el modelo de medición por el que es más conocido, Rasch había aplicado la distribución de Poisson a los datos de lectura como modelo de medición, planteando la hipótesis de que en el contexto empírico relevante, el número de errores cometidos por un individuo determinado estaba determinado por la relación entre la dificultad del texto y la capacidad de lectura de la persona. Rasch se refirió a este modelo como el modelo de Poisson multiplicativo . El modelo de Rasch para datos dicotómicos (es decir, donde las respuestas se pueden clasificar en dos categorías) es su modelo más conocido y utilizado, y es el principal foco aquí. Este modelo tiene la forma de una función logística simple .
El breve resumen anterior destaca ciertas características distintivas e interrelacionadas de la perspectiva de Rasch sobre la medición social, que son las siguientes:
Por lo tanto, en congruencia con la perspectiva articulada por Thomas Kuhn en su artículo de 1961 La función de la medición en la ciencia física moderna , la medición se consideraba tanto como fundada en la teoría como instrumental para detectar anomalías cuantitativas incongruentes con hipótesis relacionadas con un marco teórico más amplio. [15] Esta perspectiva contrasta con la que generalmente prevalece en las ciencias sociales, en la que los datos como los puntajes de las pruebas se tratan directamente como mediciones sin requerir una base teórica para la medición. Aunque este contraste existe, la perspectiva de Rasch es en realidad complementaria al uso del análisis estadístico o modelado que requiere mediciones a nivel de intervalo, porque el propósito de aplicar un modelo de Rasch es obtener tales mediciones. Las aplicaciones de los modelos de Rasch se describen en una amplia variedad de fuentes. [16]
El modelo de Rasch para datos dicotómicos suele considerarse un modelo de teoría de respuesta al ítem (TRI) con un parámetro de ítem. Sin embargo, en lugar de ser un modelo de TRI particular, los defensores del modelo [17] lo consideran un modelo que posee una propiedad que lo distingue de otros modelos de TRI. En concreto, la propiedad definitoria de los modelos de Rasch es su encarnación formal o matemática del principio de comparación invariante. Rasch resumió el principio de comparación invariante de la siguiente manera:
Los modelos de Rasch incorporan este principio porque su estructura formal permite la separación algebraica de los parámetros de la persona y del ítem, en el sentido de que el parámetro de la persona puede eliminarse durante el proceso de estimación estadística de los parámetros del ítem. Este resultado se logra mediante el uso de la estimación de máxima verosimilitud condicional , en la que el espacio de respuesta se divide según las puntuaciones totales de la persona. La consecuencia es que la puntuación bruta de un ítem o de una persona es la estadística suficiente para el parámetro del ítem o de la persona . Es decir, la puntuación total de la persona contiene toda la información disponible dentro del contexto especificado sobre el individuo, y la puntuación total del ítem contiene toda la información con respecto al ítem, con respecto al rasgo latente relevante. El modelo de Rasch requiere una estructura específica en los datos de respuesta, a saber, una estructura probabilística de Guttman .
En términos un poco más familiares, los modelos de Rasch proporcionan una base y justificación para obtener las posiciones de las personas en un continuo a partir de las puntuaciones totales en las evaluaciones. Aunque no es raro tratar las puntuaciones totales directamente como mediciones, en realidad son recuentos de observaciones discretas en lugar de mediciones. Cada observación representa el resultado observable de una comparación entre una persona y un elemento. Estos resultados son directamente análogos a la observación de la inclinación de una balanza de vigas en una u otra dirección. Esta observación indicaría que uno u otro objeto tiene una masa mayor, pero los recuentos de tales observaciones no pueden tratarse directamente como mediciones.
Rasch señaló que el principio de comparación invariante es característico de la medición en física utilizando, a modo de ejemplo, un marco de referencia experimental de dos vías en el que cada instrumento ejerce una fuerza mecánica sobre cuerpos sólidos para producir aceleración . Rasch [1] : 112–3 afirmó sobre este contexto: "En general: si para dos objetos cualesquiera encontramos una cierta relación de sus aceleraciones producidas por un instrumento, entonces se encontrará la misma relación para cualquier otro de los instrumentos". Se demuestra fácilmente que la segunda ley de Newton implica que dichas relaciones son inversamente proporcionales a las relaciones de las masas de los cuerpos.
Sea una variable aleatoria dicotómica donde, por ejemplo, denota una respuesta correcta y una respuesta incorrecta a un ítem de evaluación dado. En el modelo de Rasch para datos dicotómicos, la probabilidad del resultado viene dada por:
donde es la capacidad de la persona y es la dificultad del ítem . Por lo tanto, en el caso de un ítem de logro dicotómico, es la probabilidad de éxito tras la interacción entre la persona relevante y el ítem de evaluación. Se muestra fácilmente que las probabilidades logarítmicas , o logit , de una respuesta correcta de una persona a un ítem, según el modelo, es igual a . Dados dos sujetos examinados con diferentes parámetros de capacidad y y un ítem arbitrario con dificultad , calcule la diferencia en logits para estos dos sujetos examinados mediante . Esta diferencia se convierte en . A la inversa, se puede demostrar que las probabilidades logarítmicas de una respuesta correcta de la misma persona a un ítem, condicionada a una respuesta correcta a uno de los dos ítems, es igual a la diferencia entre las ubicaciones de los ítems. Por ejemplo,
donde es la puntuación total de la persona n sobre los dos ítems, lo que implica una respuesta correcta a uno u otro de los ítems. [1] [19] [20] Por lo tanto, las probabilidades logarítmicas condicionales no involucran al parámetro persona , que por lo tanto puede eliminarse mediante el condicionamiento de la puntuación total . Es decir, al particionar las respuestas según las puntuaciones brutas y calcular las probabilidades logarítmicas de una respuesta correcta, se obtiene una estimación sin la participación de . De manera más general, una serie de parámetros de ítems se pueden estimar iterativamente mediante la aplicación de un proceso como la estimación de máxima verosimilitud condicional (véase estimación del modelo de Rasch ). Si bien es más complejo, el mismo principio fundamental se aplica en tales estimaciones.
El ICC del modelo de Rasch para datos dicotómicos se muestra en la Figura 4. La línea gris representa la probabilidad del resultado discreto (es decir, responder correctamente la pregunta) para personas con diferentes ubicaciones en el continuo latente (es decir, su nivel de habilidades). La ubicación de un elemento es, por definición, aquella ubicación en la que la probabilidad es igual a 0,5. En la figura 4, los círculos negros representan las proporciones reales u observadas de personas dentro de los intervalos de clase para los que se observó el resultado. Por ejemplo, en el caso de un elemento de evaluación utilizado en el contexto de la psicología educativa , estos podrían representar las proporciones de personas que respondieron correctamente el elemento. Las personas se ordenan según las estimaciones de sus ubicaciones en el continuo latente y se clasifican en intervalos de clase sobre esta base para inspeccionar gráficamente la concordancia de las observaciones con el modelo. Existe una estrecha conformidad de los datos con el modelo. Además de la inspección gráfica de los datos, se utiliza una serie de pruebas estadísticas de ajuste para evaluar si las desviaciones de las observaciones respecto del modelo pueden atribuirse únicamente a efectos aleatorios , según se requiere, o si hay desviaciones sistemáticas del modelo.
Existen múltiples extensiones politómicas del modelo de Rasch que generalizan el modelo dicotómico para que pueda aplicarse en contextos en los que puntuaciones enteras sucesivas representan categorías de nivel o magnitud crecientes de un rasgo latente, como el aumento de la capacidad, la función motora, la aprobación de una afirmación, etc. Estas extensiones politómicas son aplicables, por ejemplo, al uso de escalas Likert, la calificación en la evaluación educativa y la calificación de los resultados por parte de los jueces.
Una crítica al modelo de Rasch es que es excesivamente restrictivo o prescriptivo porque uno de los supuestos del modelo es que todos los ítems tienen la misma discriminación, mientras que en la práctica, la discriminación de los ítems varía y, por lo tanto, ningún conjunto de datos mostrará jamás un ajuste perfecto al modelo de datos. Un malentendido frecuente es que el modelo de Rasch no permite que cada ítem tenga una discriminación diferente, sino que la discriminación igual es un supuesto de medición invariante, por lo que las diferentes discriminaciones de ítems no están prohibidas, sino que indican que la calidad de la medición no es igual a un ideal teórico. Al igual que en la medición física, los conjuntos de datos del mundo real nunca coincidirán perfectamente con los modelos teóricos, por lo que la pregunta relevante es si un conjunto de datos en particular proporciona una calidad de medición suficiente para el propósito en cuestión, no si coincide perfectamente con un estándar de perfección inalcanzable.
Una crítica específica al uso del modelo de Rasch con datos de respuesta de ítems de opción múltiple es que no hay ninguna disposición en el modelo para adivinar porque la asíntota izquierda siempre se acerca a una probabilidad cero en el modelo de Rasch. Esto implica que una persona de baja capacidad siempre se equivocará en un ítem. Sin embargo, las personas de baja capacidad que completan un examen de opción múltiple tienen una probabilidad sustancialmente mayor de elegir la respuesta correcta solo por casualidad (para un ítem de k opciones, la probabilidad es de alrededor de 1/ k ).
El modelo logístico de tres parámetros relaja ambos supuestos y el modelo logístico de dos parámetros permite variaciones de pendiente. [21] Sin embargo, la especificación de discriminación uniforme y asíntota izquierda cero son propiedades necesarias del modelo para mantener la suficiencia de la puntuación bruta simple y no ponderada. En la práctica, la asíntota inferior distinta de cero que se encuentra en los conjuntos de datos de opción múltiple es una amenaza menor para la medición de lo que se supone comúnmente y, por lo general, no da lugar a errores sustanciales en la medición cuando se utilizan elementos de prueba bien desarrollados de manera sensata [22].
Verhelst y Glas (1995) derivan ecuaciones de máxima verosimilitud condicional (CML) para un modelo al que denominan modelo logístico de un parámetro (OPLM). En forma algebraica, parece ser idéntico al modelo 2PL, pero el OPLM contiene índices de discriminación preestablecidos en lugar de los parámetros de discriminación estimados del 2PL. Sin embargo, como señalan estos autores, el problema al que se enfrenta uno en la estimación con parámetros de discriminación estimados es que las discriminaciones son desconocidas, lo que significa que la puntuación bruta ponderada "no es una mera estadística y, por lo tanto, es imposible utilizar el CML como método de estimación". [23] : 217 Es decir, la suficiencia de la "puntuación" ponderada en el 2PL no se puede utilizar de acuerdo con la forma en que se define una estadística suficiente . Si los pesos se imputan en lugar de estimarse, como en el OPLM, es posible la estimación condicional y se conservan algunas de las propiedades del modelo de Rasch. [24] [23] En OPLM, los valores del índice de discriminación están restringidos a entre 1 y 15. Una limitación de este enfoque es que, en la práctica, los valores de los índices de discriminación deben preestablecerse como punto de partida. Esto significa que se involucra algún tipo de estimación de la discriminación cuando el propósito es evitarla.
El modelo de Rasch para datos dicotómicos implica inherentemente un único parámetro de discriminación que, como señala Rasch, [1] : 121 constituye una elección arbitraria de la unidad en términos de la cual se expresan o estiman las magnitudes del rasgo latente. Sin embargo, el modelo de Rasch requiere que la discriminación sea uniforme en todas las interacciones entre personas e ítems dentro de un marco de referencia específico (es decir, el contexto de evaluación dadas las condiciones para la evaluación).
La aplicación del modelo proporciona información diagnóstica sobre qué tan bien se cumple el criterio. La aplicación del modelo también puede proporcionar información sobre qué tan bien funcionan los elementos o preguntas en las evaluaciones para medir la capacidad o el rasgo. Por ejemplo, conociendo la proporción de personas que participan en un comportamiento determinado, el modelo de Rasch se puede utilizar para derivar las relaciones entre la dificultad de los comportamientos , las actitudes y los comportamientos. [25] Entre los defensores destacados de los modelos de Rasch se incluyen Benjamin Drake Wright , David Andrich y Erling Andersen.