stringtranslate.com

Pruebas adaptativas computarizadas

La prueba adaptativa computarizada ( CAT ) es una forma de prueba basada en computadora que se adapta al nivel de habilidad del examinado. Por este motivo, también se le ha llamado prueba a medida . En otras palabras, es una forma de prueba administrada por computadora en la que el siguiente ítem o conjunto de ítems seleccionados para ser administrados depende de la exactitud de las respuestas del examinado a los ítems administrados más recientemente. [1]

Descripción

CAT selecciona sucesivamente preguntas con el fin de maximizar la precisión del examen en función de lo que se sabe sobre el examinado a partir de preguntas anteriores. [2] Desde la perspectiva del examinado, la dificultad del examen parece adaptarse a su nivel de habilidad. Por ejemplo, si un examinado obtiene buenos resultados en un ítem de dificultad intermedia, se le presentará una pregunta más difícil. O, si obtuvieron malos resultados, se les presentaría una pregunta más sencilla. En comparación con las pruebas estáticas que casi todo el mundo ha experimentado, con un conjunto fijo de ítems administrados a todos los examinados, las pruebas adaptativas por computadora requieren menos ítems para llegar a puntuaciones igualmente precisas. [2]

El método básico de prueba adaptativa por computadora es un algoritmo iterativo con los siguientes pasos: [3]

  1. Se busca el elemento óptimo en el conjunto de elementos disponibles, según la estimación actual de la capacidad del examinado.
  2. El ítem elegido se presenta al examinado, quien luego lo responde correcta o incorrectamente.
  3. La estimación de capacidad se actualiza en función de todas las respuestas anteriores.
  4. Los pasos 1 a 3 se repiten hasta que se cumpla un criterio de terminación

No se sabe nada sobre el examinado antes de la administración del primer ítem, por lo que el algoritmo generalmente comienza seleccionando un ítem de dificultad media o media-fácil como primer ítem. [ cita necesaria ]

Como resultado de la administración adaptativa, diferentes examinados reciben pruebas bastante diferentes. [4] Aunque a los examinados normalmente se les administran pruebas diferentes, sus puntuaciones de capacidad son comparables entre sí (es decir, como si hubieran recibido la misma prueba, como es común en las pruebas diseñadas utilizando la teoría de pruebas clásica). La tecnología psicométrica que permite calcular puntuaciones equitativas entre diferentes conjuntos de ítems es la teoría de respuesta al ítem (TRI). La TRI es también la metodología preferida para seleccionar elementos óptimos que normalmente se seleccionan en función de la información más que de la dificultad per se. [3]

En el Examen Uniforme de Contador Público Certificado se utiliza una metodología relacionada llamada prueba multietapa (MST) o CAST . MST evita o reduce algunas de las desventajas de CAT como se describe a continuación. [5]

Ejemplos

CAT existe desde la década de 1970 y ahora hay muchas evaluaciones que lo utilizan.

Además, se encuentra una lista de exámenes CAT activos en la Asociación Internacional de Pruebas Adaptativas Computarizadas, [7] junto con una lista de programas de investigación CAT actuales y una bibliografía casi exhaustiva de todas las investigaciones CAT publicadas.

Ventajas

Las pruebas adaptativas pueden proporcionar puntuaciones uniformemente precisas para la mayoría de los examinados. [3] Por el contrario, las pruebas fijas estándar casi siempre proporcionan la mejor precisión para los examinados de capacidad media y una precisión cada vez más pobre para los examinados con puntuaciones más extremas. [ cita necesaria ]

Por lo general, una prueba adaptativa se puede acortar en un 50% y aun así mantener un mayor nivel de precisión que una versión fija. [2] Esto se traduce en un ahorro de tiempo para el examinado. Los examinados no pierden el tiempo intentando elementos que son demasiado difíciles o trivialmente fáciles. Además, la organización de pruebas se beneficia del ahorro de tiempo; el costo del tiempo de asiento del examinado se reduce sustancialmente. Sin embargo, debido a que el desarrollo de un CAT implica mucho más gasto que una prueba estándar de formato fijo, se necesita una gran población para que un programa de pruebas CAT sea financieramente fructífero. [ cita necesaria ]

Por lo general, se pueden exhibir grandes poblaciones objetivo en campos científicos y de investigación. Las pruebas CAT en estos aspectos pueden usarse para detectar la aparición temprana de discapacidades o enfermedades. El crecimiento de las pruebas CAT en estos campos ha aumentado considerablemente en los últimos 10 años. Las pruebas CAT, que antes no eran aceptadas en instalaciones y laboratorios médicos, ahora se recomiendan en el ámbito del diagnóstico. [ cita necesaria ]

Como cualquier prueba basada en computadora , las pruebas adaptativas pueden mostrar resultados inmediatamente después de la prueba. [ cita necesaria ]

Las pruebas adaptativas, dependiendo del algoritmo de selección de ítems , pueden reducir la exposición de algunos ítems porque los examinados generalmente reciben diferentes conjuntos de ítems en lugar de que a toda la población se le administre un solo conjunto. Sin embargo, puede aumentar la exposición de otros (es decir, los elementos medios o medios/fáciles presentados a la mayoría de los examinados al comienzo de la prueba). [3]

Desventajas

El primer problema encontrado en CAT es la calibración del conjunto de elementos. Para modelar las características de los ítems (p. ej., elegir el ítem óptimo), todos los ítems de la prueba deben administrarse previamente a una muestra considerable y luego analizarse. Para lograr esto, se deben mezclar nuevos elementos con los elementos operativos de un examen (las respuestas se registran pero no contribuyen a las puntuaciones de los examinados), lo que se denomina "prueba piloto", "prueba previa" o "siembra". . [3] Esto presenta problemas logísticos, éticos y de seguridad. Por ejemplo, es imposible realizar una prueba adaptativa operativa con elementos nuevos e invisibles; [8] todos los elementos deben probarse previamente con una muestra lo suficientemente grande para obtener estadísticas de elementos estables. Es posible que se requiera que esta muestra sea tan grande como 1000 examinados. [8] Cada programa debe decidir qué porcentaje de la prueba puede estar compuesto razonablemente por elementos de la prueba piloto sin puntuación. [ cita necesaria ]

Aunque las pruebas adaptativas tienen algoritmos de control de exposición para evitar el uso excesivo de algunos elementos, [3] la exposición condicionada a la capacidad a menudo no se controla y puede acercarse fácilmente a 1. Es decir, es común que algunos elementos se vuelvan muy comunes en las pruebas. para personas de la misma capacidad. Este es un problema de seguridad grave porque los grupos que comparten elementos pueden tener un nivel de capacidad funcional similar. De hecho, un examen completamente aleatorio es el más seguro (pero también el menos eficiente). [ cita necesaria ]

Por lo general, no se permite la revisión de elementos anteriores. Las pruebas adaptativas tienden a administrar elementos más fáciles después de que una persona responde incorrectamente. Supuestamente, un examinador astuto podría utilizar esas pistas para detectar respuestas incorrectas y corregirlas. O bien, se podría entrenar a los examinados para que elijan deliberadamente respuestas incorrectas, lo que conduciría a una prueba cada vez más fácil. Después de engañar a la prueba adaptativa para que creara un examen lo más fácil posible, podrían revisar los ítems y responderlos correctamente, posiblemente logrando una puntuación muy alta. Los examinados con frecuencia se quejan de la imposibilidad de revisar. [9]

Debido a su sofisticación, el desarrollo de un CAT tiene una serie de requisitos previos. [10] Deben estar presentes los grandes tamaños de muestra (normalmente cientos de examinados) requeridos por las calibraciones IRT. Los elementos deben poder puntuarse en tiempo real si se desea seleccionar un nuevo elemento instantáneamente. Se necesitan psicometristas con experiencia en calibraciones IRT e investigación de simulación CAT para proporcionar documentación de validez. Finalmente, debe estar disponible un sistema de software capaz de realizar una verdadera CAT basada en IRT. [ cita necesaria ]

En un CAT con límite de tiempo, es imposible para el examinado presupuestar con precisión el tiempo que puede dedicar a cada elemento de la prueba y determinar si está en camino de completar una sección de la prueba cronometrada. Por lo tanto, los examinados pueden ser penalizados por dedicar demasiado tiempo a una pregunta difícil que se presenta al principio de una sección y luego no completar suficientes preguntas para evaluar con precisión su competencia en áreas que quedan sin evaluar cuando se acaba el tiempo. [11] Si bien los CAT no cronometrados son excelentes herramientas para evaluaciones formativas que guían la instrucción posterior, los CAT cronometrados no son adecuados para evaluaciones sumativas de alto riesgo utilizadas para medir la aptitud para trabajos y programas educativos. [ cita necesaria ]

Componentes

Hay cinco componentes técnicos en la construcción de un CAT (lo siguiente es una adaptación de Weiss y Kingsbury, 1984 [2] ). Esta lista no incluye cuestiones prácticas, como pruebas previas de elementos o lanzamiento en campo en vivo.

  1. Conjunto de elementos calibrados
  2. Punto de partida o nivel de entrada
  3. Algoritmo de selección de artículos
  4. Procedimiento de puntuación
  5. Criterio de terminación

Conjunto de elementos calibrados

Debe haber un conjunto de elementos disponibles para que el CAT pueda elegir. [2] Dichos elementos se pueden crear de la manera tradicional (es decir, manualmente) o mediante la generación automática de elementos . El conjunto debe calibrarse con un modelo psicométrico, que se utiliza como base para los cuatro componentes restantes. Normalmente, la teoría de la respuesta al ítem se emplea como modelo psicométrico. [2] Una de las razones por las que la teoría de respuesta al ítem es popular es porque coloca a las personas y a los ítems en la misma métrica (indicada por la letra griega theta), lo cual es útil para problemas en la selección de ítems (ver más abajo). [ cita necesaria ]

Punto de partida

En CAT, los elementos se seleccionan en función del desempeño del examinado hasta un punto determinado de la prueba. Sin embargo, el CAT obviamente no puede hacer ninguna estimación específica de la capacidad del examinado cuando no se han administrado ningún ítem. Por tanto, es necesaria alguna otra estimación inicial de la capacidad del examinado. Si se conoce alguna información previa sobre el examinado, se puede utilizar, [2] pero a menudo el CAT simplemente asume que el examinado tiene una capacidad promedio, de ahí que el primer ítem sea a menudo de un nivel de dificultad medio. [ cita necesaria ]

Algoritmo de selección de artículos

Como se mencionó anteriormente, la teoría de respuesta al ítem coloca a los examinados y a los ítems en la misma métrica. Por lo tanto, si el CAT tiene una estimación de la capacidad del examinado, puede seleccionar el ítem que sea más apropiado para esa estimación. [8] Técnicamente, esto se hace seleccionando el elemento con mayor información en ese momento. [2] La información es una función del parámetro de discriminación del ítem, así como de la varianza condicional y el parámetro de pseudo-adivinación (si se usa). [ cita necesaria ]

Procedimiento de puntuación

Después de administrar un ítem, el CAT actualiza su estimación del nivel de habilidad del examinado. Si el examinado respondió correctamente al ítem, el CAT probablemente estimará que su capacidad es algo mayor, y viceversa. Esto se hace utilizando la función de respuesta al ítem de la teoría de respuesta al ítem para obtener una función de probabilidad de la capacidad del examinado. Dos métodos para esto se denominan estimación de máxima verosimilitud y estimación bayesiana . Este último supone una distribución a priori de la capacidad del examinado y tiene dos estimadores de uso común: expectativa a posteriori y máximo a posteriori . La máxima verosimilitud es equivalente a una estimación máxima a posteriori de Bayes si se supone un a priori uniforme ( f (x) = 1). [8] La probabilidad máxima es asintóticamente imparcial, pero no puede proporcionar una estimación theta para un vector de respuesta no mezclado (todo correcto o incorrecto), en cuyo caso es posible que deba usarse temporalmente un método bayesiano. [2]

Criterio de terminación

El algoritmo CAT está diseñado para administrar elementos repetidamente y actualizar la estimación de la capacidad del examinado. Esto continuará hasta que se agote el conjunto de artículos, a menos que se incorpore un criterio de terminación al CAT. A menudo, la prueba finaliza cuando el error estándar de medición del examinado cae por debajo de un cierto valor especificado por el usuario, de ahí la afirmación anterior de que una ventaja es que las puntuaciones del examinado serán uniformemente precisas o "equiprecisas". [2] Existen otros criterios de terminación para diferentes propósitos de la prueba, como si la prueba está diseñada sólo para determinar si el examinado debe "aprobar" o "reprobar" la prueba, en lugar de obtener una estimación precisa de su capacidad. [2] [12]

Otros asuntos

Contraseña errónea

En muchas situaciones, el propósito de la prueba es clasificar a los examinados en dos o más categorías exhaustivas y mutuamente excluyentes . Esto incluye la "prueba de dominio" común donde las dos clasificaciones son "aprobado" y "reprobado", pero también incluye situaciones en las que hay tres o más clasificaciones, como niveles de conocimiento "insuficiente", "básico" y "avanzado". o competencia. El tipo de CAT "adaptable a nivel de elemento" que se describe en este artículo es más apropiado para pruebas que no son "aprobadas/reprobadas" o para pruebas de aprobación/reprobada donde es extremadamente importante proporcionar una buena retroalimentación. Algunas modificaciones son necesarias para una CAT de aprobado/reprobado, también conocida como prueba de clasificación computarizada (CCT) . [12] Para los examinados con puntuaciones reales muy cercanas a la puntuación aprobatoria, las pruebas de clasificación computarizadas darán lugar a pruebas largas, mientras que aquellos con puntuaciones reales muy por encima o por debajo de la puntuación aprobatoria tendrán exámenes más cortos. [ cita necesaria ]

Por ejemplo, se debe aplicar un nuevo criterio de terminación y un algoritmo de puntuación que clasifique al examinado en una categoría en lugar de proporcionar una estimación puntual de su capacidad. Hay dos metodologías principales disponibles para esto. La más destacada de las dos es la prueba de razón de probabilidad secuencial (SPRT). [13] [14] Esto formula el problema de clasificación del examinado como una prueba de hipótesis de que la capacidad del examinado es igual a algún punto específico por encima de la puntuación de corte u otro punto específico por debajo de la puntuación de corte. Tenga en cuenta que esta es una formulación de hipótesis puntual en lugar de una formulación de hipótesis compuesta [15] que es conceptualmente más apropiada. Una formulación de hipótesis compuesta sería que la capacidad del examinado está en la región por encima de la puntuación de corte o en la región por debajo de la puntuación de corte. [ cita necesaria ]

También se utiliza un enfoque de intervalo de confianza , donde después de administrar cada ítem, el algoritmo determina la probabilidad de que la puntuación real del examinado esté por encima o por debajo de la puntuación aprobatoria. [16] [17] Por ejemplo, el algoritmo puede continuar hasta que el intervalo de confianza del 95% para la puntuación verdadera ya no contenga la puntuación aprobatoria. En ese punto, no se necesitan más elementos porque la decisión de aprobar o reprobar ya tiene una precisión del 95%, suponiendo que los modelos psicométricos subyacentes a las pruebas adaptativas se ajusten al examinado y a la prueba. Este enfoque se denominó originalmente "prueba de dominio adaptativo" [16] , pero se puede aplicar a situaciones de selección y clasificación de elementos no adaptativos de dos o más puntuaciones (la prueba de dominio típica tiene una única puntuación). [17]

Como cuestión práctica, el algoritmo generalmente está programado para tener una duración mínima y máxima de la prueba (o un tiempo mínimo y máximo de administración). De lo contrario, sería posible que un examinado con una capacidad muy cercana a la puntuación de corte pudiera administrar todos los elementos del banco sin que el algoritmo tomara una decisión. [ cita necesaria ]

El algoritmo de selección de artículos utilizado depende del criterio de terminación. Maximizar la información en la puntuación de corte es más apropiado para el SPRT porque maximiza la diferencia en las probabilidades utilizadas en el índice de verosimilitud . [18] Maximizar la información en la estimación de la capacidad es más apropiado para el enfoque del intervalo de confianza porque minimiza el error estándar condicional de medición, lo que disminuye la amplitud del intervalo de confianza necesario para hacer una clasificación. [17]

Restricciones prácticas de la adaptabilidad.

La investigadora de ETS, Martha Stocking, ha bromeado diciendo que la mayoría de las pruebas adaptativas en realidad son pruebas apenas adaptativas (BAT) porque, en la práctica, se imponen muchas restricciones a la elección de ítems. Por ejemplo, los exámenes CAT normalmente deben cumplir con especificaciones de contenido; [3] Es posible que un examen verbal deba estar compuesto por un número igual de analogías, tipos de ítems para completar espacios en blanco y sinónimos. Los CAT suelen tener algún tipo de restricción de exposición de elementos, [3] para evitar que los elementos más informativos queden sobreexpuestos. Además, en algunas pruebas, se intenta equilibrar las características superficiales de los elementos, como el género de las personas en los elementos o las etnias implícitas en sus nombres. Por lo tanto, los exámenes CAT con frecuencia están limitados en cuanto a los elementos que puede elegir y, para algunos exámenes, las restricciones pueden ser sustanciales y requerir estrategias de búsqueda complejas (por ejemplo, programación lineal ) para encontrar elementos adecuados. [ cita necesaria ]

Un método sencillo para controlar la exposición de los artículos es el método "aleatorio" o de estratos. En lugar de seleccionar el elemento más informativo en cada punto de la prueba, el algoritmo selecciona aleatoriamente el siguiente elemento entre los siguientes cinco o diez elementos más informativos. Esto se puede utilizar durante toda la prueba o solo al principio. [3] Otro método es el método Sympson-Hetter, [19] en el que se extrae un número aleatorio de U(0,1) y se compara con un parámetro ki determinado para cada elemento por el usuario de la prueba. Si el número aleatorio es mayor que k i , se considera el siguiente elemento más informativo. [3]

Wim van der Linden y sus colegas [20] han propuesto un enfoque alternativo llamado prueba de sombra que implica la creación de pruebas de sombra completas como parte de la selección de elementos. La selección de elementos de las pruebas paralelas ayuda a las pruebas adaptativas a cumplir con los criterios de selección al centrarse en opciones globalmente óptimas (a diferencia de las opciones que son óptimas para un elemento determinado ). [ cita necesaria ]

Multidimensional

Dado un conjunto de ítems, una prueba adaptativa por computadora multidimensional (MCAT) selecciona esos ítems del banco de acuerdo con las habilidades estimadas del estudiante, lo que da como resultado una prueba individualizada. Los MCAT buscan maximizar la precisión de la prueba, basándose en múltiples habilidades de examen simultáneo (a diferencia de una prueba adaptativa por computadora – CAT – que evalúa una sola habilidad) utilizando la secuencia de ítems previamente respondidos (Piton-Gonçalves & Aluisio, 2012). [ cita necesaria ]

Ver también

Referencias

  1. ^ Consejo Nacional de Medición en Educación http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA Archivado 2017-07 -22 en la Wayback Machine
  2. ^ abcdefghijk Weiss, DJ ; Kingsbury, GG (1984). "Aplicación de pruebas adaptativas informatizadas a problemas educativos". Revista de Medición Educativa . 21 (4): 361–375. doi :10.1111/j.1745-3984.1984.tb01040.x.
  3. ^ abcdefghij Thissen, D. y Mislevy, RJ (2000). Algoritmos de prueba. En Wainer, H. (Ed.) Pruebas adaptativas computarizadas: introducción. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
  4. ^ Verde, BF (2000). Diseño y operación del sistema. En Wainer, H. (Ed.) Pruebas adaptativas computarizadas: introducción. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
  5. ^ Consulte el número especial de 2006 de Medición aplicada en educación o pruebas computarizadas de etapas múltiples para obtener más información sobre MST. [ cita necesaria ]
  6. ^ Knox, Liam (5 de marzo de 2024). "College Board lanza SAT digital". Dentro de la educación superior . Consultado el 10 de marzo de 2024 .
  7. ^ Archivado el 3 de diciembre de 2009 en la Wayback Machine.
  8. ^ abcd Wainer, H.; Mislevy, RJ (2000). Wainer, H. (ed.). Teoría, calibración y estimación de la respuesta al ítem . Mahwah, Nueva Jersey: Lawrence Erlbaum Associates. {{cite book}}: |work=ignorado ( ayuda )
  9. ^ Lawrence M. Rudner. "Un tutorial de pruebas adaptativas por computadora, interactivo y en línea". EdRes.org/scripts/cat .
  10. ^ "Requisitos de las pruebas adaptativas computarizadas" (PDF) . Web de prueba rápida . Archivado desde el original (PDF) el 25 de abril de 2012.
  11. ^ "Consejo del GMAT: adaptación a una prueba adaptativa por computadora". Bloomberg . 3 de abril de 2013. Archivado desde el original el 6 de abril de 2013.
  12. ^ ab Lin, C.-J. y Spray, JA (2000). Efectos de los criterios de selección de ítems en las pruebas de clasificación con la prueba de razón de probabilidad secuencial. (Informe de investigación 2000-8). Iowa City, IA: ACT, Inc.
  13. ^ Wald, A. (1947). Análisis secuencial. Nueva York: Wiley.
  14. ^ Reckase, MD (1983). Un procedimiento para la toma de decisiones mediante pruebas personalizadas. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría del rasgo latente y pruebas adaptativas computarizadas (págs. 237-254). Nueva York: Academic Press.
  15. ^ Weitzman, RA (1982). "Pruebas secuenciales para la selección". Medición Psicológica Aplicada . 6 (3): 337–351. CiteSeerX 10.1.1.1030.6828 . doi :10.1177/014662168200600310. S2CID  122365749. 
  16. ^ ab Kingsbury, GG y Weiss, DJ (1983). Una comparación de las pruebas de dominio adaptativas basadas en IRT y un procedimiento de prueba de dominio secuencial. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría del rasgo latente y pruebas adaptativas computarizadas (págs. 237-254). Nueva York: Academic Press.
  17. ^ abc Eggen, TJH M; Straetmans, GJJM (2000). "Pruebas adaptativas computarizadas para clasificar a los examinados en tres categorías". Medición Educativa y Psicológica . 60 (5): 713–734. doi :10.1177/00131640021970862. S2CID  64632296.
  18. ^ Spray, JA y Reckase, MD (1994). La selección de ítems de prueba para la toma de decisiones con una prueba adaptativa computarizada. Documento presentado en la Reunión Anual del Consejo Nacional para la Medición en Educación (Nueva Orleans, LA, 5 al 7 de abril de 1994).
  19. ^ Sympson, BJ y Hetter, RD (1985). Control de las tasas de exposición de elementos en pruebas adaptativas computarizadas. Trabajo presentado en la conferencia anual de la Military Testing Association, San Diego.
  20. ^ van der Linden, WJ; Veldkamp, ​​BP (2004). "Restringir la exposición de los elementos en pruebas adaptativas computarizadas con pruebas de sombra". Revista de estadísticas educativas y del comportamiento . 29 (3): 273–291. doi :10.3102/10769986029003273. S2CID  381707.

Fuentes adicionales

Otras lecturas

enlaces externos