Prueba de clasificación informatizada

Una prueba de clasificación computarizada ( CCT ) se refiere, como su nombre lo sugiere, a un sistema de evaluación del desempeño que se administra por computadora con el propósito de clasificar a los examinados. La CCT más común es una prueba de dominio en la que la prueba clasifica a los examinados como "aprobado" o "reprobado", pero el término también incluye pruebas que clasifican a los examinados en más de dos categorías. Si bien el término generalmente se puede considerar que se refiere a todas las pruebas administradas por computadora para la clasificación, generalmente se usa para referirse a pruebas que se administran de manera interactiva o de duración variable, similar a las pruebas adaptativas computarizadas (CAT). Al igual que CAT, las CCT de duración variable pueden lograr el objetivo de la prueba (clasificación precisa) con una fracción de la cantidad de elementos utilizados en una prueba convencional de formato fijo.

Un CCT requiere varios componentes:

Un banco de ítems calibrado con un modelo psicométrico seleccionado por el diseñador de la prueba
Un punto de partida
Un algoritmo de selección de elementos
Un criterio de terminación y un procedimiento de puntuación

El punto de partida no es un tema de controversia; la investigación sobre la CCT investiga principalmente la aplicación de diferentes métodos para los otros tres componentes. Nota: El criterio de terminación y el procedimiento de puntuación son independientes en la CAT, pero son los mismos en la CCT porque la prueba finaliza cuando se realiza una clasificación. Por lo tanto, hay cinco componentes que deben especificarse para diseñar una CAT.

Se puede encontrar una introducción al CCT en Thompson (2007) ^[1] y en un libro de Parshall, Spray, Kalohn y Davey (2006). ^[2] A continuación se incluye una bibliografía de investigaciones publicadas sobre CCT.

Cómo funciona

Un CCT es muy similar a un CAT. Los ítems se administran de uno en uno al examinado. Después de que el examinado responde al ítem, la computadora lo califica y determina si el examinado ya puede ser clasificado. Si es así, la prueba finaliza y el examinado es clasificado. Si no, se administra otro ítem. Este proceso se repite hasta que el examinado es clasificado o se cumple otro punto final (se han administrado todos los ítems del banco o se alcanza una duración máxima de la prueba).

Modelo psicométrico

Existen dos enfoques para el modelo psicométrico de un CCT: la teoría clásica de los tests (CTT) y la teoría de respuesta al ítem (TRI). La teoría clásica de los tests supone un modelo de estado porque se aplica determinando los parámetros de los ítems para una muestra de sujetos que se determina que pertenecen a cada categoría. Por ejemplo, se pueden tomar muestras de varios cientos de "expertos" y varios cientos de "no expertos" para determinar la dificultad y la discriminación de cada uno, pero para ello es necesario poder identificar fácilmente un conjunto distinto de personas que se encuentran en cada grupo. La TRI, por otro lado, supone un modelo de rasgos; el conocimiento o la capacidad medidos por el test es un continuo. Los grupos de clasificación deberán definirse de forma más o menos arbitraria a lo largo del continuo, como el uso de una puntuación de corte para demarcar a los expertos y los no expertos, pero la especificación de los parámetros de los ítems supone un modelo de rasgos.

Cada una de ellas tiene sus ventajas y desventajas. La CTT ofrece una mayor simplicidad conceptual. Más importante aún, la CTT requiere menos sujetos en la muestra para la calibración de los parámetros de los ítems que se utilizarán en el diseño de la CCT, lo que la hace útil para programas de evaluación más pequeños. Véase Frick (1992) ^[3] para una descripción de una CCT basada en la CTT. Sin embargo, la mayoría de las CCT utilizan la IRT. La IRT ofrece una mayor especificidad, pero la razón más importante puede ser que el diseño de una CCT (y una CAT) es costoso y, por lo tanto, es más probable que lo realice un programa de evaluación grande con amplios recursos. Un programa de este tipo probablemente utilizaría la IRT.

Punto de partida

Un CCT debe tener un punto de inicio específico para permitir ciertos algoritmos. Si se utiliza la prueba de razón de probabilidad secuencial como criterio de terminación, se supone implícitamente una razón de inicio de 1,0 (igual probabilidad de que el examinado sea experto o no experto). Si el criterio de terminación es un enfoque de intervalo de confianza , se debe especificar un punto de inicio específico en theta. Por lo general, este es 0,0, el centro de la distribución , pero también podría extraerse aleatoriamente de una distribución determinada si se conocen los parámetros de la distribución del examinado. Además, se puede utilizar información previa sobre un examinado individual, como su puntuación la última vez que realizó la prueba (si se vuelve a realizar).

Selección de artículos

En una prueba de control de la conducta, los ítems se seleccionan para su administración a lo largo de la prueba, a diferencia del método tradicional de administrar un conjunto fijo de ítems a todos los examinados. Si bien esto se hace generalmente por ítem individual, también se puede hacer en grupos de ítems conocidos como testlets (Leucht y Nungester, 1996; ^[4] Vos y Glas, 2000 ^[5] ).

Los métodos de selección de ítems se dividen en dos categorías: basados en puntajes de corte y basados en estimaciones. Los métodos basados en puntajes de corte (también conocidos como selección secuencial) maximizan la información proporcionada por el ítem en el puntaje de corte, o los puntajes de corte si hay más de uno, independientemente de la capacidad del examinado. Los métodos basados en estimaciones (también conocidos como selección adaptativa) maximizan la información en la estimación actual de la capacidad del examinado, independientemente de la ubicación del puntaje de corte. Ambos funcionan de manera eficiente, pero la eficiencia depende en parte del criterio de terminación empleado. Debido a que la prueba de razón de probabilidad secuencial solo evalúa probabilidades cercanas al puntaje de corte, la selección de ítems basada en puntajes de corte es más apropiada. Debido a que el criterio de terminación del intervalo de confianza se centra en la estimación de la capacidad del examinado, la selección de ítems basada en estimaciones es más apropiada. Esto se debe a que la prueba realizará una clasificación cuando el intervalo de confianza sea lo suficientemente pequeño como para estar completamente por encima o por debajo del puntaje de corte (ver a continuación). El intervalo de confianza será menor cuando el error estándar de medición sea menor, y el error estándar de medición será menor cuando haya más información en el nivel theta del sujeto examinado.

Criterio de terminación

Existen tres criterios de terminación que se utilizan comúnmente para las CCT. Los métodos de la teoría de decisión bayesiana ofrecen una gran flexibilidad al presentar una elección infinita de estructuras de pérdida/utilidad y consideraciones de evaluación, pero también introducen una mayor arbitrariedad. Un enfoque de intervalo de confianza calcula un intervalo de confianza alrededor de la estimación theta actual del examinado en cada punto de la prueba y clasifica al examinado cuando el intervalo cae completamente dentro de una región de theta que define una clasificación. Esto se conocía originalmente como prueba de dominio adaptativa (Kingsbury y Weiss, 1983), pero no requiere necesariamente una selección de ítems adaptativa, ni se limita a la situación de prueba de dominio de dos clasificaciones. La prueba de razón de probabilidad secuencial (Reckase, 1983) define el problema de clasificación como una prueba de hipótesis de que la theta del examinado es igual a un punto específico por encima de la puntuación de corte o un punto específico por debajo de la puntuación de corte.

Referencias

^ Thompson, NA (2007). Guía para profesionales de pruebas de clasificación computarizada de longitud variable. Practical Assessment Research & Evaluation, 12(1). [1]
^ Parshall, CG, Spray, JA, Kalohn, JC y Davey, T. (2006). Consideraciones prácticas en pruebas basadas en computadora. Nueva York: Springer.
^ Frick, T. (1992). Pruebas de dominio adaptativas informatizadas como sistemas expertos. Journal of Educational Computing Research, 8(2), 187-213.
^ Luecht, RM y Nungester, RJ (1998). Algunos ejemplos prácticos de pruebas secuenciales adaptativas por computadora. Journal of Educational Measurement, 35, 229-249.
^ Vos, HJ y Glas, CAW (2000). Pruebas adaptativas de dominio basadas en testlets. En van der Linden, WJ y Glas, CAW (Eds.) Pruebas adaptativas computarizadas: teoría y práctica.

Bibliografía de la investigación sobre el CCT

Armitage, P. (1950). Análisis secuencial con más de dos hipótesis alternativas y su relación con el análisis de funciones discriminantes. Journal of the Royal Statistical Society , 12, 137–144.
Braun, H., Bejar, II y Williamson, DM (2006). Métodos basados en reglas para la puntuación automatizada: aplicación en un contexto de licencias. En Williamson, DM, Mislevy, RJ y Bejar, II (Eds.) Puntuación automatizada de tareas complejas en pruebas basadas en computadora. Mahwah, NJ: Erlbaum.
Dodd, BG, De Ayala, RJ y Koch, WR (1995). Pruebas adaptativas informatizadas con ítems politómicos. Applied Psychological Measurement, 19, 5-22.
Eggen, TJHM (1999). Selección de ítems en pruebas adaptativas con la prueba de razón de probabilidad secuencial. Applied Psychological Measurement, 23, 249–261.
Eggen, TJH M, y Straetmans, GJJM (2000). Pruebas adaptativas informatizadas para clasificar a los sujetos en tres categorías. Educational and Psychological Measurement, 60, 713–734.
Epstein, KI y Knerr, CS (1977). Aplicaciones de los procedimientos de prueba secuencial a las pruebas de rendimiento. Documento presentado en la Conferencia sobre pruebas adaptativas informatizadas de 1977, Minneapolis, MN.
Ferguson, RL (1969). El desarrollo, la implementación y la evaluación de una prueba ramificada asistida por computadora para un programa de instrucción prescrita individualmente. Tesis doctoral inédita, Universidad de Pittsburgh.
Frick, TW (1989). Adaptación bayesiana durante pruebas basadas en computadora y ejercicios guiados por computadora. Journal of Educational Computing Research, 5, 89–114.
Frick, TW (1990). Una comparación de tres modelos de decisión para adaptar la duración de las pruebas de dominio basadas en computadora. Journal of Educational Computing Research, 6, 479–513.
Frick, TW (1992). Pruebas de dominio adaptativas informatizadas como sistemas expertos. Journal of Educational Computing Research, 8, 187–213.
Huang, C.-Y., Kalohn, JC, Lin, C.-J. y Spray, J. (2000). Estimación de parámetros de ítems a partir de índices clásicos para el desarrollo de conjuntos de ítems con una prueba de clasificación computarizada. (Informe de investigación 2000–4). Iowa City, IA: ACT, Inc.
Jacobs-Cassuto, MS (2005). Una comparación de las pruebas de dominio adaptativas mediante testlets

Con el modelo logístico de 3 parámetros. Tesis doctoral inédita, Universidad de Minnesota, Minneapolis, MN.

Jiao, H., y Lau, AC (2003). The Effects of Model Misfit in Computerized Classification Test. Documento presentado en la reunión anual del Consejo Nacional de Medición Educativa, Chicago, Illinois, abril de 2003.
Jiao, H., Wang, S. y Lau, CA (2004). Una investigación de dos procedimientos de combinación de SPRT para decisiones de clasificación de tres categorías en pruebas de clasificación computarizadas. Documento presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, San Antonio, abril de 2004.
Kalohn, JC, y Spray, JA (1999). El efecto de la especificación incorrecta del modelo en las decisiones de clasificación tomadas mediante una prueba computarizada. Journal of Educational Measurement, 36, 47–59.
Kingsbury, GG y Weiss, DJ (1979). Una estrategia de evaluación adaptativa para decisiones de dominio. Informe de investigación 79–05. Minneapolis: Universidad de Minnesota, Laboratorio de métodos psicométricos.
Kingsbury, GG y Weiss, DJ (1983). Una comparación entre las pruebas de dominio adaptativas basadas en la IRT y un procedimiento de prueba de dominio secuencial. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría de rasgos latentes y pruebas adaptativas computarizadas (pp. 237–254). Nueva York: Academic Press.
Lau, CA (1996). Robustez de un procedimiento de evaluación computarizada unidimensional con datos de evaluación multidimensionales. Tesis doctoral inédita, Universidad de Iowa, Iowa City IA.
Lau, CA, y Wang, T. (1998). Comparación y combinación de ítems dicotómicos y politómicos con el procedimiento SPRT en pruebas de clasificación computarizadas. Documento presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, San Diego.
Lau, CA, y Wang, T. (1999). Pruebas de clasificación computarizadas bajo restricciones prácticas con un modelo politómico. Documento presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, Montreal, Canadá.
Lau, CA y Wang, T. (2000). Un nuevo procedimiento de selección de ítems para tipos de ítems mixtos en pruebas de clasificación computarizadas. Documento presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, Nueva Orleans, Luisiana.
Lewis, C. y Sheehan, K. (1990). Uso de la teoría de la decisión bayesiana para diseñar una prueba de dominio computarizada. Applied Psychological Measurement, 14, 367–386.
Lin, C.-J. y Spray, JA (2000). Efectos de los criterios de selección de ítems en las pruebas de clasificación con la prueba de razón de probabilidad secuencial. (Informe de investigación 2000-2008). Iowa City, IA: ACT, Inc.
Linn, RL, Rock, DA y Cleary, TA (1972). Pruebas secuenciales para decisiones dicotómicas. Educational & Psychological Measurement, 32, 85–95.
Luecht, RM (1996). Pruebas adaptativas computarizadas multidimensionales en un contexto de certificación o licencia. Medición psicológica aplicada, 20, 389–404.
Reckase, MD (1983). Un procedimiento para la toma de decisiones utilizando pruebas personalizadas. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría de rasgos latentes y pruebas adaptativas computarizadas (pp. 237–254). Nueva York: Academic Press.
Rudner, LM (2002). Un examen de los procedimientos de evaluación adaptativa de la teoría de la decisión. Documento presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, 1 al 5 de abril de 2002, Nueva Orleans, LA.
Sheehan, K. y Lewis, C. (1992). Pruebas de dominio informatizadas con testlets no equivalentes. Applied Psychological Measurement, 16, 65–76.
Spray, JA (1993). Clasificación de categorías múltiples mediante una prueba de razón de probabilidad secuencial (Informe de investigación 93–7). Iowa City, Iowa: ACT, Inc.
Spray, JA, Abdel-fattah, AA, Huang, C. y Lau, CA (1997). Aproximaciones unidimensionales para una prueba computarizada cuando el conjunto de ítems y el espacio latente son multidimensionales (Informe de investigación 97-5). Iowa City, Iowa: ACT, Inc.
Spray, JA y Reckase, MD (1987). El efecto del error de estimación de los parámetros de los ítems en las decisiones tomadas utilizando la prueba de razón de probabilidad secuencial (Informe de investigación 87-17). Iowa City, IA: ACT, Inc.
Spray, JA y Reckase, MD (1994). La selección de ítems de prueba para la toma de decisiones con una prueba adaptativa computarizada. Documento presentado en la Reunión Anual del Consejo Nacional para la Medición en Educación (Nueva Orleans, LA, 5-7 de abril de 1994).
Spray, JA y Reckase, MD (1996). Comparación de los procedimientos SPRT y Bayes secuencial para clasificar a los sujetos en dos categorías utilizando una prueba computarizada. Journal of Educational & Behavioral Statistics, 21, 405–414.
Thompson, NA (2006). Pruebas de clasificación computarizada de longitud variable con teoría de respuesta al ítem. CLEAR Exam Review, 17(2).
Vos, HJ (1998). Reglas secuenciales óptimas para la instrucción basada en computadora. Journal of Educational Computing Research, 19, 133–154.
Vos, HJ (1999). Aplicaciones de la teoría de la decisión bayesiana a las pruebas de dominio secuencial. Journal of Educational and Behavioral Statistics, 24, 271–292.
Wald, A. (1947). Análisis secuencial. Nueva York: Wiley.
Weiss, DJ y Kingsbury, GG (1984). Aplicación de pruebas adaptativas computarizadas a problemas educativos. Journal of Educational Measurement, 21, 361–375.
Weissman, A. (2004). Selección de ítems de información mutua en la clasificación de categorías múltiples CAT. Documento presentado en la Reunión Anual del Consejo Nacional para la Medición en Educación, San Diego, CA.
Weitzman, RA (1982a). Pruebas secuenciales para selección. Applied Psychological Measurement, 6, 337–351.
Weitzman, RA (1982b). Uso de pruebas secuenciales para preseleccionar a los candidatos potenciales al servicio militar. En DJ Weiss (Ed.), Actas de la Conferencia sobre Pruebas Adaptativas Computarizadas de 1982. Minneapolis, MN: Universidad de Minnesota, Departamento de Psicología, Programa de Métodos Psicométricos, 1982.

Enlaces externos

Teoría de la decisión de medición de Lawrence Rudner
CAT Central por David J. Weiss