Una prueba referenciada a normas ( NRT ) es un tipo de prueba , evaluación o valoración que produce una estimación de la posición del individuo evaluado en una población predefinida, con respecto al rasgo que se está midiendo. La asignación de puntuaciones en dichas pruebas puede describirse como calificación relativa , calificación en una curva ( BrE ) o calificación en una curva ( AmE , CanE ) (también conocida como calificación curva , curva de campana o uso de curvas de calificación ). Es un método de asignación de calificaciones a los estudiantes de una clase de tal manera que se obtenga o se acerque a una distribución preestablecida de estas calificaciones que tenga una media específica y propiedades de derivación, como una distribución normal (también llamada distribución gaussiana ). [1] El término "curva" se refiere a la curva de campana , la representación gráfica de la densidad de probabilidad de la distribución normal, pero este método se puede utilizar para lograr cualquier distribución deseada de las calificaciones, por ejemplo, una distribución uniforme . La estimación se deriva del análisis de las puntuaciones de las pruebas y posiblemente de otros datos relevantes de una muestra extraída de la población. Es decir, este tipo de prueba identifica si el candidato obtuvo un mejor o peor rendimiento que otros candidatos, no si el candidato sabe más o menos material del necesario para un propósito determinado. El término evaluación normativa se utiliza cuando la población de referencia son los pares del candidato.
La evaluación basada en normas puede contrastarse con la evaluación basada en criterios y la evaluación ipsativa . En una evaluación basada en criterios, la puntuación muestra si los examinados se desempeñaron bien o mal en una tarea determinada, no cómo se compara con otros examinados; en un sistema ipsativo, los examinados se comparan con su desempeño anterior. Cada método se puede utilizar para calificar el mismo examen. [2]
Robert Glaser acuñó originalmente los términos prueba referenciada a la norma y prueba referenciada al criterio . [3]
Muchos exámenes de ingreso a la universidad y pruebas escolares de uso nacional utilizan pruebas basadas en normas. El SAT , el Graduate Record Examination (GRE) y la Wechsler Intelligence Scale for Children (WISC) comparan el desempeño individual de los estudiantes con el desempeño de una muestra normativa. Los examinados no pueden "suspender" una prueba basada en normas, ya que cada uno recibe una puntuación que lo compara con otros que han realizado la prueba, generalmente dada por un percentil. Esto es útil cuando hay una amplia gama de puntuaciones aceptables y el objetivo es averiguar quién tiene un mejor desempeño.
Las pruebas de CI son pruebas basadas en normas, ya que su objetivo es clasificar la inteligencia de los participantes. El CI medio se establece en 100 y todos los participantes se clasifican hacia arriba o hacia abajo en comparación con ese nivel.
Como alternativas a las pruebas normativas, las pruebas pueden ser evaluaciones ipsativas o evaluaciones referenciadas a criterios.
En una evaluación ipsativa , el desempeño de los individuos se compara únicamente con su desempeño anterior. [4] [5] Por ejemplo, una persona que sigue una dieta para bajar de peso es juzgada por cómo se compara su peso actual con su peso anterior, en lugar de cómo se compara su peso con un ideal o con el de otra persona.
Una prueba está basada en criterios cuando el desempeño se juzga de acuerdo con el comportamiento esperado o deseado. Las pruebas que juzgan al candidato según un estándar establecido (por ejemplo, todos deberían poder correr un kilómetro en menos de cinco minutos) son pruebas basadas en criterios. El objetivo de una prueba basada en criterios es averiguar si el individuo puede correr tan rápido como el examinador quiere, no averiguar si el individuo es más rápido o más lento que los otros corredores. La reforma educativa basada en estándares se centra en las pruebas basadas en criterios. [6] [7] La mayoría de las pruebas y cuestionarios cotidianos que se toman en la escuela, así como la mayoría de las pruebas de rendimiento estatales y los exámenes de graduación de la escuela secundaria , están basados en criterios. En este modelo, es posible que todos los candidatos aprueben o que todos los candidatos fracasen.
Un método de calificación en una curva utiliza tres pasos:
Por ejemplo, si hay cinco calificaciones en un curso universitario particular, A, B, C, D y F, donde A está reservada para el 20 % superior de estudiantes, B para el siguiente 30 %, C para el siguiente 30-40 %, y D o F para el 10-20 % restante, entonces las puntuaciones en el intervalo de percentiles del 0 % al 10-20 % recibirán una calificación de D o F, las puntuaciones del 11-21 % al 50 % recibirán una calificación de C, las puntuaciones del 51 % al 80 % recibirán una calificación de B, y las puntuaciones del 81 % al 100 % obtendrán una calificación de A.
En consonancia con el ejemplo ilustrado anteriormente, una curva de calificación permite a las instituciones académicas garantizar la distribución de los estudiantes a lo largo de ciertos umbrales de promedio de calificaciones (GPA). Como muchos profesores establecen la curva para apuntar a un promedio de C en el curso, [ aclaración necesaria ] el equivalente de promedio de calificaciones correspondiente sería un 2,0 en una escala estándar de 4,0 empleada en la mayoría de las universidades norteamericanas. [1] De manera similar, un promedio de calificaciones de 3,0 en una escala de 4,0 indicaría que el estudiante está dentro del 20 % superior de la clase. Las curvas de calificación sirven para dar un significado adicional a estas cifras, y la distribución específica empleada puede variar entre instituciones académicas. [8]
La principal ventaja de las pruebas de referencia normativa es que pueden proporcionar información sobre cómo se compara el desempeño de un individuo en la prueba con el de otros en el grupo de referencia.
Una limitación importante de las pruebas de referencia normativa es que el grupo de referencia puede no representar a la población actual de interés. Como se señala en el sitio web del International Personality Item Pool del Oregon Research Institute , "hay que tener mucho cuidado con el uso de 'normas' predefinidas, porque no es obvio que se pueda encontrar una población de la que la muestra actual sea un subconjunto representativo. La mayoría de las 'normas' son engañosas y, por lo tanto, no se deben utilizar. Mucho más defendibles son las normas locales, que uno mismo desarrolla. Por ejemplo, si se quiere dar retroalimentación a los miembros de una clase de estudiantes, se debe relacionar la puntuación de cada individuo con las medias y las desviaciones típicas derivadas de la propia clase. Para maximizar la información, se puede proporcionar a los estudiantes la distribución de frecuencias para cada escala, basándose en estas normas locales, y los individuos pueden entonces encontrar (y marcar con un círculo) sus propias puntuaciones en estas distribuciones relevantes". [9]
La referencia a normas no garantiza que una prueba sea válida (es decir, que mida el constructo que pretende medir).
Otra desventaja de las pruebas basadas en normas es que no pueden medir el progreso de la población en su conjunto, sino sólo la posición de cada individuo dentro del conjunto. En lugar de ello, es necesario medir el progreso en función de un objetivo fijo, por ejemplo, para medir el éxito de un programa de reforma educativa que pretende aumentar el rendimiento de todos los estudiantes.
En una prueba basada en normas, el nivel de grado se fijaba tradicionalmente en el nivel determinado por el 50 por ciento medio de las puntuaciones. [10] Por el contrario, la National Children's Reading Foundation cree que es esencial asegurar que prácticamente todos los niños lean al nivel de grado o por encima de él para el tercer grado, un objetivo que no se puede lograr con una definición de nivel de grado basada en normas. [11]
Las normas no implican automáticamente un estándar. Una prueba basada en normas no busca imponer ninguna expectativa sobre lo que los examinados deberían saber o ser capaces de hacer. Mide el nivel actual de los examinados comparándolos con sus pares. Un sistema basado en rangos produce únicamente datos que indican qué estudiantes tienen un rendimiento promedio, cuáles tienen un mejor rendimiento y cuáles tienen un peor rendimiento. No identifica qué estudiantes son capaces de realizar correctamente las tareas a un nivel que sería aceptable para el empleo o la educación superior.
El objetivo último de las curvas de calificación es minimizar o eliminar la influencia de la variación entre los distintos instructores de un mismo curso, garantizando que los estudiantes de una clase determinada sean evaluados en relación con sus compañeros. Esto también evita los problemas asociados con la utilización de múltiples versiones de un examen en particular, un método que se emplea a menudo cuando las fechas de administración de los exámenes varían entre las distintas secciones de la clase. Independientemente de cualquier diferencia en el nivel de dificultad, real o percibida, la curva de calificación garantiza una distribución equilibrada de los resultados académicos.
Sin embargo, la calificación curva puede aumentar la competitividad entre los estudiantes y afectar su sentido de equidad del profesorado en una clase. Los estudiantes generalmente se enojan más en el caso de que la curva baje su calificación en comparación con lo que habrían recibido si no se hubiera utilizado una curva. Para asegurarse de que esto no suceda, los profesores suelen esforzarse por garantizar que la prueba en sí sea lo suficientemente difícil cuando pretenden utilizar una curva de calificación, de modo que esperen que el estudiante promedio obtenga una puntuación bruta más baja que la puntuación que se pretende utilizar en el promedio de la curva, asegurando así que todos los estudiantes se beneficien de la curva. Por lo tanto, las calificaciones curvas no se pueden utilizar a ciegas y deben considerarse y ponderarse cuidadosamente en comparación con alternativas como la calificación basada en criterios. Además, el mal uso constante de la calificación curva puede ajustar las calificaciones en pruebas mal diseñadas, mientras que las evaluaciones deben diseñarse para reflejar con precisión los objetivos de aprendizaje establecidos por el instructor. [12]
Al igual que la democracia, la calificación en curva puede ser el peor sistema posible, excepto por todas las alternativas.