stringtranslate.com

Prueba de clasificación informatizada

Una prueba de clasificación computarizada ( CCT ) se refiere, como su nombre lo sugiere, a un sistema de evaluación del desempeño que se administra por computadora con el propósito de clasificar a los examinados. La CCT más común es una prueba de dominio en la que la prueba clasifica a los examinados como "aprobado" o "reprobado", pero el término también incluye pruebas que clasifican a los examinados en más de dos categorías. Si bien el término generalmente se puede considerar que se refiere a todas las pruebas administradas por computadora para la clasificación, generalmente se usa para referirse a pruebas que se administran de manera interactiva o de duración variable, similar a las pruebas adaptativas computarizadas (CAT). Al igual que CAT, las CCT de duración variable pueden lograr el objetivo de la prueba (clasificación precisa) con una fracción de la cantidad de elementos utilizados en una prueba convencional de formato fijo.

Un CCT requiere varios componentes:

  1. Un banco de ítems calibrado con un modelo psicométrico seleccionado por el diseñador de la prueba
  2. Un punto de partida
  3. Un algoritmo de selección de elementos
  4. Un criterio de terminación y un procedimiento de puntuación

El punto de partida no es un tema de controversia; la investigación sobre la CCT investiga principalmente la aplicación de diferentes métodos para los otros tres componentes. Nota: El criterio de terminación y el procedimiento de puntuación son independientes en la CAT, pero son los mismos en la CCT porque la prueba finaliza cuando se realiza una clasificación. Por lo tanto, hay cinco componentes que deben especificarse para diseñar una CAT.

Se puede encontrar una introducción al CCT en Thompson (2007) [1] y en un libro de Parshall, Spray, Kalohn y Davey (2006). [2] A continuación se incluye una bibliografía de investigaciones publicadas sobre CCT.

Cómo funciona

Un CCT es muy similar a un CAT. Los ítems se administran de uno en uno al examinado. Después de que el examinado responde al ítem, la computadora lo califica y determina si el examinado ya puede ser clasificado. Si es así, la prueba finaliza y el examinado es clasificado. Si no, se administra otro ítem. Este proceso se repite hasta que el examinado es clasificado o se cumple otro punto final (se han administrado todos los ítems del banco o se alcanza una duración máxima de la prueba).

Modelo psicométrico

Existen dos enfoques para el modelo psicométrico de un CCT: la teoría clásica de los tests (CTT) y la teoría de respuesta al ítem (TRI). La teoría clásica de los tests supone un modelo de estado porque se aplica determinando los parámetros de los ítems para una muestra de sujetos que se determina que pertenecen a cada categoría. Por ejemplo, se pueden tomar muestras de varios cientos de "expertos" y varios cientos de "no expertos" para determinar la dificultad y la discriminación de cada uno, pero para ello es necesario poder identificar fácilmente un conjunto distinto de personas que se encuentran en cada grupo. La TRI, por otro lado, supone un modelo de rasgos; el conocimiento o la capacidad medidos por el test es un continuo. Los grupos de clasificación deberán definirse de forma más o menos arbitraria a lo largo del continuo, como el uso de una puntuación de corte para demarcar a los expertos y los no expertos, pero la especificación de los parámetros de los ítems supone un modelo de rasgos.

Cada una de ellas tiene sus ventajas y desventajas. La CTT ofrece una mayor simplicidad conceptual. Más importante aún, la CTT requiere menos sujetos en la muestra para la calibración de los parámetros de los ítems que se utilizarán en el diseño de la CCT, lo que la hace útil para programas de evaluación más pequeños. Véase Frick (1992) [3] para una descripción de una CCT basada en la CTT. Sin embargo, la mayoría de las CCT utilizan la IRT. La IRT ofrece una mayor especificidad, pero la razón más importante puede ser que el diseño de una CCT (y una CAT) es costoso y, por lo tanto, es más probable que lo realice un programa de evaluación grande con amplios recursos. Un programa de este tipo probablemente utilizaría la IRT.

Punto de partida

Un CCT debe tener un punto de inicio específico para permitir ciertos algoritmos. Si se utiliza la prueba de razón de probabilidad secuencial como criterio de terminación, se supone implícitamente una razón de inicio de 1,0 (igual probabilidad de que el examinado sea experto o no experto). Si el criterio de terminación es un enfoque de intervalo de confianza , se debe especificar un punto de inicio específico en theta. Por lo general, este es 0,0, el centro de la distribución , pero también podría extraerse aleatoriamente de una distribución determinada si se conocen los parámetros de la distribución del examinado. Además, se puede utilizar información previa sobre un examinado individual, como su puntuación la última vez que realizó la prueba (si se vuelve a realizar).

Selección de artículos

En una prueba de control de la conducta, los ítems se seleccionan para su administración a lo largo de la prueba, a diferencia del método tradicional de administrar un conjunto fijo de ítems a todos los examinados. Si bien esto se hace generalmente por ítem individual, también se puede hacer en grupos de ítems conocidos como testlets (Leucht y Nungester, 1996; [4] Vos y Glas, 2000 [5] ).

Los métodos de selección de ítems se dividen en dos categorías: basados ​​en puntajes de corte y basados ​​en estimaciones. Los métodos basados ​​en puntajes de corte (también conocidos como selección secuencial) maximizan la información proporcionada por el ítem en el puntaje de corte, o los puntajes de corte si hay más de uno, independientemente de la capacidad del examinado. Los métodos basados ​​en estimaciones (también conocidos como selección adaptativa) maximizan la información en la estimación actual de la capacidad del examinado, independientemente de la ubicación del puntaje de corte. Ambos funcionan de manera eficiente, pero la eficiencia depende en parte del criterio de terminación empleado. Debido a que la prueba de razón de probabilidad secuencial solo evalúa probabilidades cercanas al puntaje de corte, la selección de ítems basada en puntajes de corte es más apropiada. Debido a que el criterio de terminación del intervalo de confianza se centra en la estimación de la capacidad del examinado, la selección de ítems basada en estimaciones es más apropiada. Esto se debe a que la prueba realizará una clasificación cuando el intervalo de confianza sea lo suficientemente pequeño como para estar completamente por encima o por debajo del puntaje de corte (ver a continuación). El intervalo de confianza será menor cuando el error estándar de medición sea menor, y el error estándar de medición será menor cuando haya más información en el nivel theta del sujeto examinado.

Criterio de terminación

Existen tres criterios de terminación que se utilizan comúnmente para las CCT. Los métodos de la teoría de decisión bayesiana ofrecen una gran flexibilidad al presentar una elección infinita de estructuras de pérdida/utilidad y consideraciones de evaluación, pero también introducen una mayor arbitrariedad. Un enfoque de intervalo de confianza calcula un intervalo de confianza alrededor de la estimación theta actual del examinado en cada punto de la prueba y clasifica al examinado cuando el intervalo cae completamente dentro de una región de theta que define una clasificación. Esto se conocía originalmente como prueba de dominio adaptativa (Kingsbury y Weiss, 1983), pero no requiere necesariamente una selección de ítems adaptativa, ni se limita a la situación de prueba de dominio de dos clasificaciones. La prueba de razón de probabilidad secuencial (Reckase, 1983) define el problema de clasificación como una prueba de hipótesis de que la theta del examinado es igual a un punto específico por encima de la puntuación de corte o un punto específico por debajo de la puntuación de corte.

Referencias

  1. ^ Thompson, NA (2007). Guía para profesionales de pruebas de clasificación computarizada de longitud variable. Practical Assessment Research & Evaluation, 12(1). [1]
  2. ^ Parshall, CG, Spray, JA, Kalohn, JC y Davey, T. (2006). Consideraciones prácticas en pruebas basadas en computadora. Nueva York: Springer.
  3. ^ Frick, T. (1992). Pruebas de dominio adaptativas informatizadas como sistemas expertos. Journal of Educational Computing Research, 8(2), 187-213.
  4. ^ Luecht, RM y Nungester, RJ (1998). Algunos ejemplos prácticos de pruebas secuenciales adaptativas por computadora. Journal of Educational Measurement, 35, 229-249.
  5. ^ Vos, HJ y Glas, CAW (2000). Pruebas adaptativas de dominio basadas en testlets. En van der Linden, WJ y Glas, CAW (Eds.) Pruebas adaptativas computarizadas: teoría y práctica.

Bibliografía de la investigación sobre el CCT

Con el modelo logístico de 3 parámetros. Tesis doctoral inédita, Universidad de Minnesota, Minneapolis, MN.

Enlaces externos