stringtranslate.com

Prueba de clasificación computarizada

Una prueba de clasificación computarizada ( CCT ) se refiere, como su nombre indica, a un sistema de evaluación del desempeño que se administra por computadora con el fin de clasificar a los examinados. El CCT más común es una prueba de dominio en la que la prueba clasifica a los examinados como "Aprobado" o "Reprobado", pero el término también incluye pruebas que clasifican a los examinados en más de dos categorías. Si bien generalmente se puede considerar que el término se refiere a todas las pruebas de clasificación administradas por computadora, generalmente se usa para referirse a pruebas que se administran de forma interactiva o de duración variable, similar a las pruebas adaptativas computarizadas (CAT). Al igual que CAT, las CCT de longitud variable pueden lograr el objetivo de la prueba (clasificación precisa) con una fracción del número de ítems utilizados en una prueba convencional de forma fija.

Una TMC requiere varios componentes:

  1. Un banco de ítems calibrado con un modelo psicométrico seleccionado por el diseñador de la prueba.
  2. Un punto de partida
  3. Un algoritmo de selección de artículos.
  4. Un criterio de terminación y un procedimiento de puntuación

El punto de partida no es un tema de controversia; La investigación sobre TMC investiga principalmente la aplicación de diferentes métodos para los otros tres componentes. Nota: El criterio de finalización y el procedimiento de puntuación están separados en CAT, pero son iguales en CCT porque la prueba finaliza cuando se realiza una clasificación. Por lo tanto, hay cinco componentes que se deben especificar para diseñar un CAT.

Una introducción a las CCT se encuentra en Thompson (2007) [1] y en un libro de Parshall, Spray, Kalohn y Davey (2006). [2] A continuación se incluye una bibliografía de investigaciones publicadas sobre TMC.

Cómo funciona

Un CCT es muy similar a un CAT. Los ítems se administran uno por uno al examinado. Después de que el examinado responde al ítem, la computadora lo califica y determina si el examinado ya puede ser clasificado. Si es así, se da por finalizada la prueba y se clasifica al examinado. En caso contrario, se administra otro ítem. Este proceso se repite hasta que se clasifica al examinado o se cumple otro punto final (se han administrado todos los elementos del banco o se alcanza la duración máxima de la prueba).

modelo psicométrico

Hay dos enfoques disponibles para el modelo psicométrico de un CCT: la teoría clásica de las pruebas (CTT) y la teoría de la respuesta al ítem (IRT). La teoría clásica de las pruebas supone un modelo de estado porque se aplica determinando los parámetros de los ítems para una muestra de examinados que se determina que pertenecen a cada categoría. Por ejemplo, se pueden tomar muestras de varios cientos de "maestros" y varios cientos de "no maestros" para determinar la dificultad y la discriminación de cada uno, pero hacerlo requiere que sea capaz de identificar fácilmente un conjunto distinto de personas que están en cada grupo. La TRI, por otra parte, supone un modelo de rasgos; el conocimiento o habilidad medido por la prueba es un continuo. Los grupos de clasificación deberán definirse más o menos arbitrariamente a lo largo del continuo, como el uso de una puntuación de corte para demarcar los maestros y los no maestros, pero la especificación de los parámetros de los ítems supone un modelo de rasgos.

Hay ventajas y desventajas para cada uno. CTT ofrece una mayor simplicidad conceptual. Más importante aún, el CTT requiere menos examinados en la muestra para la calibración de los parámetros de los ítems que eventualmente se utilizarán en el diseño del CCT, lo que lo hace útil para programas de prueba más pequeños. Véase Frick (1992) [3] para una descripción de una TMC basada en CTT. Sin embargo, la mayoría de las TMC utilizan TRI. La TRI ofrece una mayor especificidad, pero la razón más importante puede ser que el diseño de una CCT (y una CAT) es costoso y, por lo tanto, es más probable que se realice mediante un gran programa de pruebas con amplios recursos. Un programa de este tipo probablemente utilizaría TRI.

Punto de partida

Un CCT debe tener un punto de partida específico para habilitar ciertos algoritmos. Si se utiliza la prueba de razón de probabilidad secuencial como criterio de terminación, implícitamente se supone una razón inicial de 1,0 (igual probabilidad de que el examinado sea un maestro o no maestro). Si el criterio de terminación es un enfoque de intervalo de confianza , se debe especificar un punto de partida específico en theta. Por lo general, es 0,0, el centro de la distribución , pero también podría extraerse aleatoriamente de una determinada distribución si se conocen los parámetros de la distribución del examinado. Además, se puede utilizar información previa sobre un examinado individual, como su puntuación la última vez que tomó el examen (si lo vuelve a tomar).

Selección de artículos

En un CCT, los ítems se seleccionan para su administración a lo largo de la prueba, a diferencia del método tradicional de administrar un conjunto fijo de ítems a todos los examinados. Si bien esto generalmente se hace por ítem individual, también se puede hacer en grupos de ítems conocidos como testlets (Leucht & Nungester, 1996; [4] Vos & Glas, 2000 [5] ).

Los métodos de selección de elementos se dividen en dos categorías: basados ​​en puntuaciones de corte y basados ​​en estimaciones. Los métodos basados ​​en puntuaciones de corte (también conocidos como selección secuencial) maximizan la información proporcionada por el ítem en la puntuación de corte, o puntuaciones de corte si hay más de una, independientemente de la capacidad del examinado. Los métodos basados ​​en estimaciones (también conocidos como selección adaptativa) maximizan la información en la estimación actual de la capacidad del examinado, independientemente de la ubicación de la puntuación de corte. Ambos funcionan eficientemente, pero la eficiencia depende en parte del criterio de terminación empleado. Debido a que la prueba de razón de probabilidad secuencial solo evalúa probabilidades cercanas al puntaje de corte, la selección de elementos basada en el puntaje de corte es más apropiada. Debido a que el criterio de terminación del intervalo de confianza se centra en la estimación de la capacidad del examinado, la selección de ítems basada en estimaciones es más apropiada. Esto se debe a que la prueba realizará una clasificación cuando el intervalo de confianza sea lo suficientemente pequeño como para estar completamente por encima o por debajo de la puntuación de corte (ver más abajo). El intervalo de confianza será menor cuando el error estándar de medición sea menor, y el error estándar de medición será menor cuando haya más información en el nivel theta del examinado.

Criterio de rescisión

Hay tres criterios de terminación comúnmente utilizados para las TMC. Los métodos de la teoría de la decisión bayesiana ofrecen una gran flexibilidad al presentar una elección infinita de estructuras de pérdida/utilidad y consideraciones de evaluación, pero también introducen una mayor arbitrariedad. Un enfoque de intervalo de confianza calcula un intervalo de confianza alrededor de la estimación theta actual del examinado en cada punto de la prueba y clasifica al examinado cuando el intervalo cae completamente dentro de una región de theta que define una clasificación. Esto se conoció originalmente como prueba de dominio adaptativo (Kingsbury y Weiss, 1983), pero no requiere necesariamente una selección adaptativa de ítems, ni se limita a la situación de prueba de dominio de dos clasificaciones. La prueba de razón de probabilidad secuencial (Reckase, 1983) define el problema de clasificación como una prueba de hipótesis de que la theta del examinado es igual a un punto específico por encima de la puntuación de corte o un punto específico por debajo de la puntuación de corte.

Referencias

  1. ^ Thompson, NA (2007). Guía del profesional para pruebas de clasificación computarizadas de longitud variable. Investigación y evaluación de evaluación práctica, 12 (1). [1]
  2. ^ Parshall, CG, Spray, JA, Kalohn, JC y Davey, T. (2006). Consideraciones prácticas en pruebas por computadora. Nueva York: Springer.
  3. ^ Frick, T. (1992). Pruebas computarizadas de dominio adaptativo como sistemas expertos. Revista de investigación en informática educativa, 8(2), 187-213.
  4. ^ Luecht, RM y Nungester, RJ (1998). Algunos ejemplos prácticos de pruebas secuenciales adaptativas por ordenador. Revista de Medición Educativa, 35, 229-249.
  5. ^ Vos, HJ y Glas, CAW (2000). Pruebas de dominio adaptativo basadas en testlets. En van der Linden, WJ y Glas, CAW (Eds.) Pruebas adaptativas computarizadas: teoría y práctica.

Bibliografía de la investigación en TMC

Con el Modelo Logístico de 3 Parámetros. Tesis doctoral no publicada, Universidad de Minnesota, Minneapolis, MN.

enlaces externos