Prueba de clasificación computarizada

Una prueba de clasificación computarizada ( CCT ) se refiere, como su nombre indica, a un sistema de evaluación del desempeño que se administra por computadora con el fin de clasificar a los examinados. El CCT más común es una prueba de dominio en la que la prueba clasifica a los examinados como "Aprobado" o "Reprobado", pero el término también incluye pruebas que clasifican a los examinados en más de dos categorías. Si bien generalmente se puede considerar que el término se refiere a todas las pruebas de clasificación administradas por computadora, generalmente se usa para referirse a pruebas que se administran de forma interactiva o de duración variable, similar a las pruebas adaptativas computarizadas (CAT). Al igual que CAT, las CCT de longitud variable pueden lograr el objetivo de la prueba (clasificación precisa) con una fracción del número de ítems utilizados en una prueba convencional de forma fija.

Una TMC requiere varios componentes:

Un banco de ítems calibrado con un modelo psicométrico seleccionado por el diseñador de la prueba.
Un punto de partida
Un algoritmo de selección de artículos.
Un criterio de terminación y un procedimiento de puntuación

El punto de partida no es un tema de controversia; La investigación sobre TMC investiga principalmente la aplicación de diferentes métodos para los otros tres componentes. Nota: El criterio de finalización y el procedimiento de puntuación están separados en CAT, pero son iguales en CCT porque la prueba finaliza cuando se realiza una clasificación. Por lo tanto, hay cinco componentes que se deben especificar para diseñar un CAT.

Una introducción a las CCT se encuentra en Thompson (2007) ^[1] y en un libro de Parshall, Spray, Kalohn y Davey (2006). ^[2] A continuación se incluye una bibliografía de investigaciones publicadas sobre TMC.

Cómo funciona

Un CCT es muy similar a un CAT. Los ítems se administran uno por uno al examinado. Después de que el examinado responde al ítem, la computadora lo califica y determina si el examinado ya puede ser clasificado. Si es así, se da por finalizada la prueba y se clasifica al examinado. En caso contrario, se administra otro ítem. Este proceso se repite hasta que se clasifica al examinado o se cumple otro punto final (se han administrado todos los elementos del banco o se alcanza la duración máxima de la prueba).

modelo psicométrico

Hay dos enfoques disponibles para el modelo psicométrico de un CCT: la teoría clásica de las pruebas (CTT) y la teoría de la respuesta al ítem (IRT). La teoría clásica de las pruebas supone un modelo de estado porque se aplica determinando los parámetros de los ítems para una muestra de examinados que se determina que pertenecen a cada categoría. Por ejemplo, se pueden tomar muestras de varios cientos de "maestros" y varios cientos de "no maestros" para determinar la dificultad y la discriminación de cada uno, pero hacerlo requiere que sea capaz de identificar fácilmente un conjunto distinto de personas que están en cada grupo. La TRI, por otra parte, supone un modelo de rasgos; el conocimiento o habilidad medido por la prueba es un continuo. Los grupos de clasificación deberán definirse más o menos arbitrariamente a lo largo del continuo, como el uso de una puntuación de corte para demarcar los maestros y los no maestros, pero la especificación de los parámetros de los ítems supone un modelo de rasgos.

Hay ventajas y desventajas para cada uno. CTT ofrece una mayor simplicidad conceptual. Más importante aún, el CTT requiere menos examinados en la muestra para la calibración de los parámetros de los ítems que eventualmente se utilizarán en el diseño del CCT, lo que lo hace útil para programas de prueba más pequeños. Véase Frick (1992) ^[3] para una descripción de una TMC basada en CTT. Sin embargo, la mayoría de las TMC utilizan TRI. La TRI ofrece una mayor especificidad, pero la razón más importante puede ser que el diseño de una CCT (y una CAT) es costoso y, por lo tanto, es más probable que se realice mediante un gran programa de pruebas con amplios recursos. Un programa de este tipo probablemente utilizaría TRI.

Punto de partida

Un CCT debe tener un punto de partida específico para habilitar ciertos algoritmos. Si se utiliza la prueba de razón de probabilidad secuencial como criterio de terminación, implícitamente se supone una razón inicial de 1,0 (igual probabilidad de que el examinado sea un maestro o no maestro). Si el criterio de terminación es un enfoque de intervalo de confianza , se debe especificar un punto de partida específico en theta. Por lo general, es 0,0, el centro de la distribución , pero también podría extraerse aleatoriamente de una determinada distribución si se conocen los parámetros de la distribución del examinado. Además, se puede utilizar información previa sobre un examinado individual, como su puntuación la última vez que tomó el examen (si lo vuelve a tomar).

Selección de artículos

En un CCT, los ítems se seleccionan para su administración a lo largo de la prueba, a diferencia del método tradicional de administrar un conjunto fijo de ítems a todos los examinados. Si bien esto generalmente se hace por ítem individual, también se puede hacer en grupos de ítems conocidos como testlets (Leucht & Nungester, 1996; ^[4] Vos & Glas, 2000 ^[5] ).

Los métodos de selección de elementos se dividen en dos categorías: basados en puntuaciones de corte y basados en estimaciones. Los métodos basados en puntuaciones de corte (también conocidos como selección secuencial) maximizan la información proporcionada por el ítem en la puntuación de corte, o puntuaciones de corte si hay más de una, independientemente de la capacidad del examinado. Los métodos basados en estimaciones (también conocidos como selección adaptativa) maximizan la información en la estimación actual de la capacidad del examinado, independientemente de la ubicación de la puntuación de corte. Ambos funcionan eficientemente, pero la eficiencia depende en parte del criterio de terminación empleado. Debido a que la prueba de razón de probabilidad secuencial solo evalúa probabilidades cercanas al puntaje de corte, la selección de elementos basada en el puntaje de corte es más apropiada. Debido a que el criterio de terminación del intervalo de confianza se centra en la estimación de la capacidad del examinado, la selección de ítems basada en estimaciones es más apropiada. Esto se debe a que la prueba realizará una clasificación cuando el intervalo de confianza sea lo suficientemente pequeño como para estar completamente por encima o por debajo de la puntuación de corte (ver más abajo). El intervalo de confianza será menor cuando el error estándar de medición sea menor, y el error estándar de medición será menor cuando haya más información en el nivel theta del examinado.

Criterio de rescisión

Hay tres criterios de terminación comúnmente utilizados para las TMC. Los métodos de la teoría de la decisión bayesiana ofrecen una gran flexibilidad al presentar una elección infinita de estructuras de pérdida/utilidad y consideraciones de evaluación, pero también introducen una mayor arbitrariedad. Un enfoque de intervalo de confianza calcula un intervalo de confianza alrededor de la estimación theta actual del examinado en cada punto de la prueba y clasifica al examinado cuando el intervalo cae completamente dentro de una región de theta que define una clasificación. Esto se conoció originalmente como prueba de dominio adaptativo (Kingsbury y Weiss, 1983), pero no requiere necesariamente una selección adaptativa de ítems, ni se limita a la situación de prueba de dominio de dos clasificaciones. La prueba de razón de probabilidad secuencial (Reckase, 1983) define el problema de clasificación como una prueba de hipótesis de que la theta del examinado es igual a un punto específico por encima de la puntuación de corte o un punto específico por debajo de la puntuación de corte.

Referencias

^ Thompson, NA (2007). Guía del profesional para pruebas de clasificación computarizadas de longitud variable. Investigación y evaluación de evaluación práctica, 12 (1). [1]
^ Parshall, CG, Spray, JA, Kalohn, JC y Davey, T. (2006). Consideraciones prácticas en pruebas por computadora. Nueva York: Springer.
^ Frick, T. (1992). Pruebas computarizadas de dominio adaptativo como sistemas expertos. Revista de investigación en informática educativa, 8(2), 187-213.
^ Luecht, RM y Nungester, RJ (1998). Algunos ejemplos prácticos de pruebas secuenciales adaptativas por ordenador. Revista de Medición Educativa, 35, 229-249.
^ Vos, HJ y Glas, CAW (2000). Pruebas de dominio adaptativo basadas en testlets. En van der Linden, WJ y Glas, CAW (Eds.) Pruebas adaptativas computarizadas: teoría y práctica.

Bibliografía de la investigación en TMC

Armitage, P. (1950). Análisis secuencial con más de dos hipótesis alternativas y su relación con el análisis de funciones discriminantes. Revista de la Royal Statistical Society , 12, 137-144.
Braun, H., Béjar, II y Williamson, DM (2006). Métodos basados en reglas para puntuación automatizada: aplicación en un contexto de licencia. En Williamson, DM, Mislevy, RJ y Bejar, II (Eds.) Puntuación automatizada de tareas complejas en pruebas por computadora. Mahwah, Nueva Jersey: Erlbaum.
Dodd, BG, De Ayala, RJ y Koch, WR (1995). Pruebas adaptativas computarizadas con ítems politómicos. Medición Psicológica Aplicada, 19, 5-22.
Eggen, TJHM (1999). Selección de ítems en pruebas adaptativas con la prueba de razón de probabilidad secuencial. Medición psicológica aplicada, 23, 249–261.
Eggen, TJH M y Straetmans, GJJM (2000). Pruebas adaptativas computarizadas para clasificar a los examinados en tres categorías. Medición educativa y psicológica, 60, 713–734.
Epstein, KI y Knerr, CS (1977). Aplicaciones de procedimientos de prueba secuenciales a las pruebas de desempeño. Trabajo presentado en la Conferencia de Pruebas Adaptativas Computarizadas de 1977, Minneapolis, MN.
Ferguson, RL (1969). El desarrollo, implementación y evaluación de una prueba ramificada asistida por computadora para un programa de instrucción prescrito individualmente. Tesis doctoral inédita, Universidad de Pittsburgh.
Frick, TW (1989). Adaptación bayesiana durante pruebas por ordenador y ejercicios guiados por ordenador. Revista de investigación en informática educativa, 5, 89–114.
Frick, TW (1990). Una comparación de tres modelos de decisión para adaptar la duración de las pruebas de dominio por computadora. Revista de investigación en informática educativa, 6, 479–513.
Frick, TW (1992). Pruebas computarizadas de dominio adaptativo como sistemas expertos. Revista de investigación en informática educativa, 8, 187–213.
Huang, C.-Y., Kalohn, JC, Lin, C.-J. y Spray, J. (2000). Estimación de parámetros de artículos a partir de índices clásicos para el desarrollo de conjuntos de artículos con una prueba de clasificación computarizada. (Informe de investigación 2000–4). Iowa City, IA: ACT, Inc.
Jacobs-Cassuto, MS (2005). Una comparación de las pruebas de dominio adaptativo mediante testlets

Con el Modelo Logístico de 3 Parámetros. Tesis doctoral no publicada, Universidad de Minnesota, Minneapolis, MN.

Jiao, H. y Lau, AC (2003). Los efectos del desajuste del modelo en la prueba de clasificación computarizada. Documento presentado en la reunión anual del Consejo Nacional de Medición Educativa, Chicago, IL, abril de 2003.
Jiao, H., Wang, S. y Lau, CA (2004). Una investigación de dos procedimientos combinados de SPRT para decisiones de clasificación de tres categorías en una prueba de clasificación computarizada. Trabajo presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, San Antonio, abril de 2004.
Kalohn, JC y Spray, JA (1999). El efecto de la especificación errónea del modelo en las decisiones de clasificación tomadas mediante una prueba computarizada. Revista de medición educativa, 36, 47–59.
Kingsbury, GG y Weiss, DJ (1979). Una estrategia de prueba adaptativa para decisiones de dominio. Informe de investigación 79–05. Minneapolis: Universidad de Minnesota, Laboratorio de Métodos Psicométricos.
Kingsbury, GG y Weiss, DJ (1983). Una comparación de las pruebas de dominio adaptativas basadas en IRT y un procedimiento de prueba de dominio secuencial. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría del rasgo latente y pruebas adaptativas computarizadas (págs. 237-254). Nueva York: Academic Press.
Lau, California (1996). Robustez de un procedimiento de dominio de pruebas computarizadas unidimensionales con datos de pruebas multidimensionales. Tesis doctoral inédita, Universidad de Iowa, Iowa City IA.
Lau, CA y Wang, T. (1998). Comparar y combinar elementos dicotómicos y politómicos con el procedimiento SPRT en pruebas de clasificación computarizadas. Trabajo presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, San Diego.
Lau, CA y Wang, T. (1999). Pruebas de clasificación computarizadas bajo restricciones prácticas con un modelo politómico. Trabajo presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, Montreal, Canadá.
Lau, CA y Wang, T. (2000). Un nuevo procedimiento de selección de ítems para tipos de ítems mixtos en pruebas de clasificación computarizadas. Trabajo presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, Nueva Orleans, Luisiana.
Lewis, C. y Sheehan, K. (1990). Uso de la teoría de la decisión bayesiana para diseñar una prueba de dominio computarizada. Medición psicológica aplicada, 14, 367–386.
Lin, C.-J. y Spray, JA (2000). Efectos de los criterios de selección de ítems en las pruebas de clasificación con la prueba de razón de probabilidad secuencial. (Informe de investigación 2000–8). Iowa City, IA: ACT, Inc.
Linn, RL, Rock, DA y Cleary, TA (1972). Pruebas secuenciales para decisiones dicotómicas. Medición educativa y psicológica, 32, 85–95.
Luecht, RM (1996). Pruebas adaptativas computarizadas multidimensionales en un contexto de certificación o licencia. Medición psicológica aplicada, 20, 389–404.
Reckase, MD (1983). Un procedimiento para la toma de decisiones mediante pruebas personalizadas. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría del rasgo latente y pruebas adaptativas computarizadas (págs. 237-254). Nueva York: Academic Press.
Rudner, LM (2002). Un examen de los procedimientos de prueba adaptativos de la teoría de la decisión. Documento presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, del 1 al 5 de abril de 2002, Nueva Orleans, LA.
Sheehan, K. y Lewis, C. (1992). Pruebas de dominio computarizadas con testlets no equivalentes. Medición psicológica aplicada, 16, 65–76.
Pulverizar, JA (1993). Clasificación de categorías múltiples mediante una prueba de razón de probabilidad secuencial (Informe de investigación 93-7). Ciudad de Iowa, Iowa: ACT, Inc.
Spray, JA, Abdel-fattah, AA, Huang, C. y Lau, CA (1997). Aproximaciones unidimensionales para una prueba computarizada cuando el conjunto de elementos y el espacio latente son multidimensionales (Informe de investigación 97-5). Ciudad de Iowa, Iowa: ACT, Inc.
Spray, JA y Reckase, MD (1987). El efecto del error de estimación de los parámetros del ítem en las decisiones tomadas mediante la prueba de razón de probabilidad secuencial (Informe de investigación 87-17). Iowa City, IA: ACT, Inc.
Spray, JA y Reckase, MD (1994). La selección de ítems de prueba para la toma de decisiones con una prueba adaptativa computarizada. Documento presentado en la Reunión Anual del Consejo Nacional para la Medición en Educación (Nueva Orleans, LA, 5 al 7 de abril de 1994).
Spray, JA y Reckase, MD (1996). Comparación de SPRT y procedimientos secuenciales de Bayes para clasificar a los examinados en dos categorías mediante una prueba computarizada. Revista de estadísticas educativas y conductuales, 21, 405–414.
Thompson, NA (2006). Pruebas de clasificación computarizadas de longitud variable con teoría de respuesta al ítem. Revisión del examen CLEAR, 17 (2).
Vos, HJ (1998). Reglas secuenciales óptimas para la instrucción basada en computadora. Revista de investigación en informática educativa, 19, 133–154.
Vos, HJ (1999). Aplicaciones de la teoría de la decisión bayesiana a las pruebas de dominio secuencial. Revista de estadísticas educativas y de comportamiento, 24, 271–292.
Wald, A. (1947). Análisis secuencial. Nueva York: Wiley.
Weiss, DJ y Kingsbury, GG (1984). Aplicación de pruebas adaptativas computarizadas a problemas educativos. Revista de medición educativa, 21, 361–375.
Weissman, A. (2004). Selección mutua de elementos de información en clasificación CAT de múltiples categorías. Trabajo presentado en la Reunión Anual del Consejo Nacional para la Medición en Educación, San Diego, CA.
Weitzman, RA (1982a). Pruebas secuenciales para la selección. Medición psicológica aplicada, 6, 337–351.
Weitzman, RA (1982b). Uso de pruebas secuenciales para preseleccionar a los posibles entrantes al servicio militar. En DJ Weiss (Ed.), Actas de la Conferencia sobre pruebas adaptativas computarizadas de 1982. Minneapolis, MN: Universidad de Minnesota, Departamento de Psicología, Programa de Métodos Psicométricos, 1982.

enlaces externos

Teoría de la decisión de medición de Lawrence Rudner
CAT Central por David J. Weiss