La prueba adaptativa computarizada ( CAT ) es una forma de prueba basada en computadora que se adapta al nivel de habilidad del examinado. Por esta razón, también se la ha llamado prueba personalizada . En otras palabras, es una forma de prueba administrada por computadora en la que el siguiente elemento o conjunto de elementos seleccionados para ser administrados depende de la exactitud de las respuestas del examinado a los elementos administrados más recientes. [1]
El CAT selecciona sucesivamente preguntas con el fin de maximizar la precisión del examen basándose en lo que se sabe sobre el sujeto a partir de preguntas anteriores. [2] Desde la perspectiva del sujeto, la dificultad del examen parece adaptarse a su nivel de habilidad. Por ejemplo, si un sujeto tiene un buen desempeño en un ítem de dificultad intermedia, se le presentará una pregunta más difícil. O, si su desempeño es deficiente, se le presentará una pregunta más simple. En comparación con las pruebas estáticas que casi todos hemos experimentado, con un conjunto fijo de ítems administrados a todos los sujetos, las pruebas adaptativas por computadora requieren menos ítems de prueba para llegar a puntuaciones igualmente precisas. [2]
El método básico de prueba adaptativa por computadora es un algoritmo iterativo con los siguientes pasos: [3]
No se sabe nada acerca del sujeto examinado antes de la administración del primer ítem, por lo que el algoritmo generalmente comienza seleccionando un ítem de dificultad media o media-fácil como primer ítem. [ cita requerida ]
Como resultado de la administración adaptativa, los distintos sujetos reciben pruebas muy diferentes. [4] Aunque a los sujetos se les administran normalmente pruebas diferentes, sus puntuaciones de capacidad son comparables entre sí (es decir, como si hubieran recibido la misma prueba, como es habitual en las pruebas diseñadas utilizando la teoría clásica de las pruebas). La tecnología psicométrica que permite calcular puntuaciones equitativas en diferentes conjuntos de ítems es la teoría de respuesta al ítem (TRI). La TRI es también la metodología preferida para seleccionar ítems óptimos, que normalmente se seleccionan en función de la información en lugar de la dificultad en sí. [3]
En el Examen Uniforme de Contador Público Certificado se utiliza una metodología relacionada denominada prueba multietapa (MST, por sus siglas en inglés) o CAST . La MST evita o reduce algunas de las desventajas de la CAT, como se describe a continuación. [5]
La CAT existe desde la década de 1970 y actualmente existen muchas evaluaciones que la utilizan.
Además, se puede encontrar una lista de exámenes CAT activos en la Asociación Internacional de Pruebas Adaptativas Computarizadas, [7] junto con una lista de programas de investigación CAT actuales y una bibliografía casi completa de todas las investigaciones CAT publicadas.
Las pruebas adaptativas pueden proporcionar puntuaciones uniformemente precisas para la mayoría de los examinados. [3] En cambio, las pruebas fijas estándar casi siempre proporcionan la mejor precisión para los examinados de capacidad media y una precisión cada vez peor para los examinados con puntuaciones más extremas. [ cita requerida ]
Por lo general, una prueba adaptativa se puede acortar en un 50% y aun así mantener un nivel de precisión más alto que una versión fija. [2] Esto se traduce en un ahorro de tiempo para el examinado, que no pierde el tiempo intentando resolver preguntas que son demasiado difíciles o trivialmente fáciles. Además, la organización examinadora se beneficia del ahorro de tiempo; el costo del tiempo que el examinado pasa sentado se reduce sustancialmente. Sin embargo, debido a que el desarrollo de una prueba CAT implica mucho más gasto que una prueba estándar de formato fijo, se necesita una gran población para que un programa de pruebas CAT sea económicamente fructífero. [ cita requerida ]
En general, se pueden realizar exhibiciones en grandes poblaciones objetivo en campos científicos y de investigación. Las pruebas CAT en estos aspectos se pueden utilizar para detectar la aparición temprana de discapacidades o enfermedades. El crecimiento de las pruebas CAT en estos campos ha aumentado considerablemente en los últimos 10 años. Antes no se aceptaban en los centros médicos y los laboratorios, pero ahora se fomentan en el ámbito del diagnóstico. [ cita requerida ]
Al igual que cualquier prueba basada en computadora , las pruebas adaptativas pueden mostrar resultados inmediatamente después de la prueba. [ cita requerida ]
Las pruebas adaptativas, según el algoritmo de selección de ítems , pueden reducir la exposición a algunos ítems porque los examinados suelen recibir diferentes conjuntos de ítems en lugar de que se le administre un único conjunto a toda la población. Sin embargo, pueden aumentar la exposición a otros (es decir, los ítems de dificultad media o media/fácil que se presentan a la mayoría de los examinados al comienzo de la prueba). [3]
El primer problema que se encuentra en la CAT es la calibración del conjunto de ítems. Para modelar las características de los ítems (por ejemplo, para elegir el ítem óptimo), todos los ítems de la prueba deben administrarse previamente a una muestra considerable y luego analizarse. Para lograr esto, se deben mezclar nuevos ítems en los ítems operativos de un examen (las respuestas se registran pero no contribuyen a las calificaciones de los examinados), lo que se denomina "prueba piloto", "prueba previa" o "siembra". [3] Esto presenta problemas logísticos, éticos y de seguridad. Por ejemplo, es imposible realizar una prueba adaptativa operativa con ítems nuevos e inéditos; [8] todos los ítems deben probarse previamente con una muestra lo suficientemente grande como para obtener estadísticas de ítems estables. Esta muestra puede requerirse que sea tan grande como 1000 examinados. [8] Cada programa debe decidir qué porcentaje de la prueba puede estar razonablemente compuesto de ítems de prueba piloto sin calificación. [ cita requerida ]
Aunque las pruebas adaptativas tienen algoritmos de control de exposición para evitar el uso excesivo de algunos ítems, [3] la exposición condicionada a la capacidad a menudo no está controlada y puede llegar a ser cercana a 1 con facilidad. Es decir, es común que algunos ítems se vuelvan muy comunes en las pruebas para personas con la misma capacidad. Esto es un problema de seguridad serio porque los grupos que comparten ítems pueden tener un nivel de capacidad funcional similar. De hecho, un examen completamente aleatorio es el más seguro (pero también el menos eficiente). [ cita requerida ]
En general, no se permite la revisión de ítems anteriores. Las pruebas adaptativas tienden a administrar ítems más fáciles después de que una persona responde incorrectamente. Supuestamente, un examinado astuto podría usar esas pistas para detectar respuestas incorrectas y corregirlas. O bien, se podría entrenar a los examinados para que elijan deliberadamente respuestas incorrectas, lo que llevaría a un examen cada vez más fácil. Después de engañar al examen adaptativo para que construya un examen lo más fácil posible, podrían revisar los ítems y responderlos correctamente, posiblemente logrando una puntuación muy alta. Los examinados se quejan con frecuencia de la incapacidad de repasar. [9]
Debido a la sofisticación, el desarrollo de una CAT tiene una serie de requisitos previos. [10] Deben estar presentes los grandes tamaños de muestra (normalmente cientos de sujetos) que requieren las calibraciones de IRT. Los ítems deben poder calificarse en tiempo real si se va a seleccionar un nuevo ítem instantáneamente. Se necesitan psicometristas con experiencia en calibraciones de IRT e investigación de simulación de CAT para proporcionar documentación de validez. Por último, debe estar disponible un sistema de software capaz de realizar una CAT basada en IRT real. [ cita requerida ]
En un CAT con un límite de tiempo, es imposible para el examinado calcular con precisión el tiempo que puede dedicar a cada elemento de la prueba y determinar si está en condiciones de completar una sección de prueba cronometrada. Por lo tanto, los examinados pueden ser penalizados por dedicar demasiado tiempo a una pregunta difícil que se presenta al principio de una sección y luego no completar suficientes preguntas para medir con precisión su competencia en áreas que quedan sin evaluar cuando se agota el tiempo. [11] Si bien los CAT sin límite de tiempo son excelentes herramientas para evaluaciones formativas que guían la instrucción posterior, los CAT con límite de tiempo no son adecuados para evaluaciones sumativas de alto riesgo que se utilizan para medir la aptitud para trabajos y programas educativos. [ cita requerida ]
Hay cinco componentes técnicos en la construcción de un CAT (los siguientes son una adaptación de Weiss & Kingsbury, 1984 [2] ). Esta lista no incluye cuestiones prácticas, como la prueba previa de los ítems o la puesta en práctica en campo.
Debe haber un conjunto de ítems disponibles para que el CAT pueda elegir. [2] Dichos ítems pueden crearse de la manera tradicional (es decir, manualmente) o mediante la generación automática de ítems . El conjunto debe calibrarse con un modelo psicométrico, que se utiliza como base para los cuatro componentes restantes. Normalmente, se emplea la teoría de respuesta al ítem como modelo psicométrico. [2] Una de las razones por las que la teoría de respuesta al ítem es popular es porque coloca a las personas y a los ítems en la misma métrica (indicada por la letra griega theta), lo que resulta útil para cuestiones relacionadas con la selección de ítems (véase más adelante). [ cita requerida ]
En el CAT, los ítems se seleccionan en función del desempeño del sujeto hasta un punto determinado de la prueba. Sin embargo, el CAT obviamente no puede hacer ninguna estimación específica de la capacidad del sujeto cuando no se han administrado ítems. Por lo tanto, es necesaria alguna otra estimación inicial de la capacidad del sujeto. Si se conoce alguna información previa sobre el sujeto, se puede utilizar, [2] pero a menudo el CAT simplemente supone que el sujeto tiene una capacidad promedio, por lo que el primer ítem suele ser de nivel de dificultad medio. [ cita requerida ]
Como se mencionó anteriormente, la teoría de respuesta al ítem coloca a los sujetos y a los ítems en la misma métrica. Por lo tanto, si la CAT tiene una estimación de la capacidad del sujeto, puede seleccionar un ítem que sea más apropiado para esa estimación. [8] Técnicamente, esto se hace seleccionando el ítem con la mayor información en ese momento. [2] La información es una función del parámetro de discriminación del ítem, así como de la varianza condicional y el parámetro de pseudo-conjetura (si se utiliza). [ cita requerida ]
Después de administrar un ítem, el CAT actualiza su estimación del nivel de habilidad del examinado. Si el examinado respondió el ítem correctamente, el CAT probablemente estimará que su habilidad es algo mayor, y viceversa. Esto se hace utilizando la función de respuesta al ítem de la teoría de respuesta al ítem para obtener una función de probabilidad de la habilidad del examinado. Dos métodos para esto se denominan estimación de máxima verosimilitud y estimación bayesiana . Esta última supone una distribución a priori de la habilidad del examinado y tiene dos estimadores de uso común: expectativa a posteriori y máxima a posteriori . La máxima verosimilitud es equivalente a una estimación máxima a posteriori de Bayes si se supone una distribución previa uniforme ( f (x) = 1). [8] La máxima verosimilitud es asintóticamente imparcial, pero no puede proporcionar una estimación theta para un vector de respuesta no mixto (todo correcto o incorrecto), en cuyo caso puede que se deba utilizar temporalmente un método bayesiano. [2]
El algoritmo CAT está diseñado para administrar ítems repetidamente y actualizar la estimación de la capacidad del examinado. Esto continuará hasta que se agote el conjunto de ítems a menos que se incorpore un criterio de terminación en el CAT. A menudo, la prueba finaliza cuando el error estándar de medición del examinado cae por debajo de un cierto valor especificado por el usuario, de ahí la afirmación anterior de que una ventaja es que las puntuaciones del examinado serán uniformemente precisas o "equiprecisas". [2] Existen otros criterios de terminación para diferentes propósitos de la prueba, como si la prueba está diseñada solo para determinar si el examinado debe "aprobar" o "reprobar" la prueba, en lugar de obtener una estimación precisa de su capacidad. [2] [12]
En muchas situaciones, el propósito de la prueba es clasificar a los examinados en dos o más categorías mutuamente excluyentes y exhaustivas . Esto incluye la "prueba de dominio" común donde las dos clasificaciones son "aprobado" y "reprobado", pero también incluye situaciones donde hay tres o más clasificaciones, como "Insuficiente", "Básico" y "Avanzado" niveles de conocimiento o competencia. El tipo de CAT "adaptable a nivel de ítem" descrito en este artículo es más apropiado para pruebas que no son "aprobado/reprobado" o para pruebas de aprobado/reprobado donde proporcionar una buena retroalimentación es extremadamente importante. Algunas modificaciones son necesarias para una CAT de aprobado/reprobado, también conocida como prueba de clasificación computarizada (CCT) . [12] Para los examinados con puntajes reales muy cercanos a la puntuación para aprobar, las pruebas de clasificación computarizada darán como resultado exámenes largos, mientras que aquellos con puntajes reales muy por encima o por debajo de la puntuación para aprobar tendrán exámenes más cortos. [ cita requerida ]
Por ejemplo, se debe aplicar un nuevo criterio de terminación y un algoritmo de puntuación que clasifique al sujeto en una categoría en lugar de proporcionar una estimación puntual de la capacidad. Hay dos metodologías principales disponibles para esto. La más destacada de las dos es la prueba de razón de probabilidad secuencial (SPRT). [13] [14] Esta formula el problema de clasificación del sujeto como una prueba de hipótesis de que la capacidad del sujeto es igual a un punto específico por encima de la puntuación de corte o a otro punto específico por debajo de la puntuación de corte. Tenga en cuenta que se trata de una formulación de hipótesis puntual en lugar de una formulación de hipótesis compuesta [15] que es más apropiada conceptualmente. Una formulación de hipótesis compuesta sería que la capacidad del sujeto está en la región por encima de la puntuación de corte o en la región por debajo de la puntuación de corte. [ cita requerida ]
También se utiliza un enfoque de intervalo de confianza , en el que después de administrar cada ítem, el algoritmo determina la probabilidad de que la puntuación real del sujeto sea superior o inferior a la puntuación para aprobar. [16] [17] Por ejemplo, el algoritmo puede continuar hasta que el intervalo de confianza del 95% para la puntuación real ya no contenga la puntuación para aprobar. En ese punto, no se necesitan más ítems porque la decisión de aprobar o reprobar ya es 95% precisa, suponiendo que los modelos psicométricos subyacentes a la prueba adaptativa se ajustan al sujeto y a la prueba. Este enfoque se llamó originalmente "prueba de dominio adaptativa" [16] pero se puede aplicar a situaciones de selección y clasificación de ítems no adaptativos de dos o más puntuaciones de corte (la prueba de dominio típica tiene una sola puntuación de corte). [17]
En la práctica, el algoritmo suele estar programado para tener una duración mínima y máxima de la prueba (o un tiempo mínimo y máximo de administración). De lo contrario, sería posible que a un sujeto con una capacidad muy cercana a la puntuación de corte se le administraran todos los ítems del banco sin que el algoritmo tomara una decisión. [ cita requerida ]
El algoritmo de selección de ítems utilizado depende del criterio de terminación. Maximizar la información en el puntaje de corte es más apropiado para el SPRT porque maximiza la diferencia en las probabilidades utilizadas en la razón de verosimilitud . [18] Maximizar la información en la estimación de la capacidad es más apropiado para el enfoque del intervalo de confianza porque minimiza el error estándar condicional de medición, lo que disminuye la amplitud del intervalo de confianza necesario para realizar una clasificación. [17]
La investigadora de ETS Martha Stocking ha bromeado diciendo que la mayoría de las pruebas adaptativas son en realidad pruebas apenas adaptativas (BATs, por sus siglas en inglés) porque, en la práctica, se imponen muchas restricciones a la elección de ítems. Por ejemplo, los exámenes CAT generalmente deben cumplir con especificaciones de contenido; [3] un examen verbal puede necesitar estar compuesto por un número igual de tipos de ítems de analogías, de completar espacios en blanco y de sinónimos. Los CAT generalmente tienen algún tipo de restricciones de exposición de ítems, [3] para evitar que los ítems más informativos sean sobreexpuestos. Además, en algunas pruebas, se intenta equilibrar las características superficiales de los ítems, como el género de las personas en los ítems o las etnias implicadas por sus nombres. Por lo tanto, los exámenes CAT con frecuencia están restringidos en cuanto a qué ítems pueden elegir y para algunos exámenes las restricciones pueden ser sustanciales y requerir estrategias de búsqueda complejas (por ejemplo, programación lineal ) para encontrar ítems adecuados. [ cita requerida ]
Un método sencillo para controlar la exposición a los ítems es el método "randomístico" o de estratos. En lugar de seleccionar el ítem más informativo en cada punto de la prueba, el algoritmo selecciona aleatoriamente el siguiente ítem de los siguientes cinco o diez ítems más informativos. Esto se puede utilizar durante toda la prueba o solo al principio. [3] Otro método es el método Sympson-Hetter, [19] en el que se extrae un número aleatorio de U(0,1) y se compara con un parámetro k i determinado para cada ítem por el usuario de la prueba. Si el número aleatorio es mayor que k i , se considera el siguiente ítem más informativo. [3]
Wim van der Linden y sus colegas [20] han propuesto un enfoque alternativo denominado prueba de sombras , que implica la creación de pruebas de sombras completas como parte de la selección de elementos. La selección de elementos de las pruebas de sombras ayuda a que las pruebas adaptativas cumplan los criterios de selección al centrarse en opciones globalmente óptimas (en contraposición a las opciones que son óptimas para un elemento determinado ). [ cita requerida ]
Dado un conjunto de ítems, un test adaptativo multidimensional por computadora (MCAT, por sus siglas en inglés) selecciona esos ítems del banco de acuerdo con las habilidades estimadas del estudiante, lo que da como resultado una prueba individualizada. Los MCAT buscan maximizar la precisión de la prueba, basándose en múltiples habilidades de examen simultáneas (a diferencia de un test adaptativo por computadora –CAT– que evalúa una sola habilidad) utilizando la secuencia de ítems respondidos previamente (Piton-Gonçalves & Aluisio, 2012). [ cita requerida ]