stringtranslate.com

Resultado de la prueba

La puntuación de una prueba es una pieza de información, generalmente un número, que transmite el desempeño de un examinado en una prueba . Una definición formal es que es "un resumen de la evidencia contenida en las respuestas de un examinado a los ítems de una prueba que están relacionados con el constructo o constructos que se están midiendo". [1]

Los puntajes de las pruebas se interpretan con una interpretación basada en normas o criterios , o en ocasiones con ambas. Una interpretación referenciada a normas significa que la puntuación transmite significado sobre el examinado con respecto a su posición entre otros examinados. Una interpretación basada en criterios significa que la puntuación transmite información sobre el examinado con respecto a una materia específica, independientemente de las puntuaciones de otros examinados. [2]

Tipos

Hay dos tipos de puntuaciones de exámenes: puntuaciones brutas y puntuaciones escaladas . Una puntuación bruta es una puntuación sin ningún tipo de ajuste o transformación, como el simple número de preguntas respondidas correctamente. Una puntuación escalada es el resultado de algunas transformaciones aplicadas a la puntuación bruta, como en la calificación relativa .

El propósito de las calificaciones escaladas es informar las calificaciones de todos los examinados en una escala consistente. Supongamos que una prueba tiene dos formas y una es más difícil que la otra. Se ha determinado equiparando que una puntuación del 65% en el formulario 1 es equivalente a una puntuación del 68% en el formulario 2. Las puntuaciones de ambos formularios se pueden convertir a una escala de modo que estas dos puntuaciones equivalentes tengan las mismas puntuaciones reportadas. Por ejemplo, ambos podrían tener una puntuación de 350 en una escala de 100 a 500.

Dos pruebas muy conocidas en los Estados Unidos que tienen puntuaciones escaladas son el ACT y el SAT. La escala del ACT va de 0 a 36 y la del SAT de 200 a 800 (por sección). Aparentemente, estas dos escalas fueron seleccionadas para representar una media y una desviación estándar de 18 y 6 (ACT), y 500 y 100. Se seleccionaron los límites superior e inferior porque un intervalo de más o menos tres desviaciones estándar contiene más del 99% de una población. Las puntuaciones fuera de ese rango son difíciles de medir y arrojan poco valor práctico.

Tenga en cuenta que la escala no afecta las propiedades psicométricas de una prueba; es algo que ocurre después de que se completa el proceso de evaluación (y de equiparación, si está presente). Por lo tanto, no es una cuestión de psicometría per se, sino una cuestión de interpretabilidad.

Pérdida de información de puntuación

Una pregunta de examen podría requerir que un estudiante calcule el área de un triángulo . Compare la información proporcionada en estas dos respuestas.
El primero muestra la pérdida de información de puntuación. El profesor sabe si el alumno obtuvo la respuesta correcta, pero no sabe cómo llegó a la respuesta. Si la respuesta es incorrecta, el profesor no sabe si el alumno estaba adivinando, cometió un simple error o si fundamentalmente no comprende el tema.

Cuando las pruebas se califican bien o mal , se ha hecho una suposición importante sobre el aprendizaje. Se supone que el número de respuestas correctas o la suma de las puntuaciones de los ítems (cuando se otorga crédito parcial) es la medida adecuada y suficiente del estado de desempeño actual. Además, se hace una suposición secundaria de que no hay información significativa en las respuestas incorrectas .

En primer lugar, se puede lograr una respuesta correcta mediante la memorización sin una comprensión profunda del contenido subyacente o la estructura conceptual del problema planteado. En segundo lugar, cuando se requiere más de un paso para la solución, a menudo hay una variedad de enfoques para responder que conducirán a un resultado correcto . El hecho de que la respuesta sea correcta no indica cuál de los varios procedimientos posibles se utilizó. Cuando el estudiante proporciona la respuesta (o muestra el trabajo), esta información está disponible fácilmente en los documentos originales.

En segundo lugar, si las respuestas incorrectas fueran conjeturas a ciegas , no se encontraría información entre ellas. Por otro lado, si las respuestas incorrectas reflejan desviaciones en la interpretación de la esperada, estas respuestas deben mostrar una relación ordenada con lo que sea que mida la prueba general. Esta desviación debe depender del nivel de madurez psicolingüística del estudiante que elige o da la respuesta en la lengua vernácula en la que está escrito el examen.

En este segundo caso debería ser posible extraer este orden de las respuestas a los ítems del test. [3] Estos procesos de extracción, el modelo de Rasch , por ejemplo, son una práctica estándar para el desarrollo de ítems entre los profesionales. Sin embargo, debido a que las respuestas incorrectas se descartan durante el proceso de puntuación, rara vez se realiza un análisis de la información que puedan contener.

En tercer lugar, aunque a veces se proporcionan puntuaciones de subpruebas basadas en temas, la práctica más común es informar la puntuación total o una versión reescalada de la misma. Este cambio de escala tiene como objetivo comparar estas puntuaciones con un estándar de algún tipo. Este colapso adicional de los resultados de las pruebas elimina sistemáticamente toda la información sobre qué elementos particulares se omitieron.

Por lo tanto, calificar bien o mal una prueba pierde 1) cómo los estudiantes lograron sus respuestas correctas , 2) qué los llevó por mal camino hacia respuestas inaceptables y 3) en qué parte del cuerpo de la prueba ocurrió esta desviación de las expectativas.

Este comentario sugiere que el procedimiento de calificación actual oculta la dinámica del proceso de realización de exámenes y oscurece las capacidades de los estudiantes evaluados. La práctica actual de puntuación simplifica demasiado estos datos en el paso inicial de puntuación. El resultado de este error de procedimiento es oscurecer la información de diagnóstico que podría ayudar a los profesores a servir mejor a sus estudiantes. Además, impide que quienes preparan diligentemente estas pruebas puedan observar la información que de otro modo les habría alertado de la presencia de este error.

Actualmente se está desarrollando una solución a este problema, conocida como Evaluación del Espectro de Respuesta (RSE), [4] que parece ser capaz de recuperar estas tres formas de pérdida de información, al mismo tiempo que proporciona una escala numérica para establecer el estado de rendimiento actual y para rastrear el cambio de desempeño.

Este enfoque RSE proporciona una interpretación de cada respuesta, ya sea correcta o incorrecta, que indica los procesos de pensamiento probables utilizados por el examinado. [5] Entre otros hallazgos, este capítulo informa que la información recuperable explica entre dos y tres veces más la variabilidad de la prueba que considerar solo las respuestas correctas. Esta pérdida masiva de información puede explicarse por el hecho de que las respuestas "incorrectas" se eliminan de la información que se recopila durante el proceso de puntuación y ya no están disponibles para revelar el error de procedimiento inherente a una puntuación correcta e incorrecta. El procedimiento evita las limitaciones producidas por las dependencias lineales inherentes a los datos de prueba.

Ver también

Referencias

  1. ^ Thissen, D. y Wainer, H. (2001). Puntuación de la prueba. Mahwah, Nueva Jersey: Erlbaum. Página 1, frase 1.
  2. ^ Guía de los programas de pruebas de Iowa para interpretar los resultados de las pruebas Archivado el 12 de febrero de 2008 en Wayback Machine.
  3. ^ Powell, JC y Shklov, N. (1992) The Journal of Educational and Psychological Measurement , 52, 847–865
  4. ^ "Bienvenido a la página principal". Archivado desde el original el 30 de abril de 2015 . Consultado el 2 de mayo de 2015 .
  5. ^ Powell, Jay C. (2010) Las pruebas como retroalimentación para informar la enseñanza. Capítulo 3 en; Aprendizaje e instrucción en la era digital, Parte 1. Enfoques cognitivos para el aprendizaje y la instrucción. ( J. Michael Spector , Dirk Ifenthaler, Pedro Isaias, Kinshuk y Demetrios Sampson, Eds.), Nueva York: Springer. ISBN 978-1-4419-1551-1 , doi :10.1007/978-1-4419-1551-1