Prueba referenciada a la norma

Una prueba referenciada a normas ( NRT ) es un tipo de prueba , evaluación o valoración que produce una estimación de la posición del individuo evaluado en una población predefinida, con respecto al rasgo que se está midiendo. La asignación de puntuaciones en dichas pruebas puede describirse como calificación relativa , calificación en una curva ( BrE ) o calificación en una curva ( AmE , CanE ) (también conocida como calificación curva , curva de campana o uso de curvas de calificación ). Es un método de asignación de calificaciones a los estudiantes de una clase de tal manera que se obtenga o se acerque a una distribución preestablecida de estas calificaciones que tenga una media específica y propiedades de derivación, como una distribución normal (también llamada distribución gaussiana ). ^[1] El término "curva" se refiere a la curva de campana , la representación gráfica de la densidad de probabilidad de la distribución normal, pero este método se puede utilizar para lograr cualquier distribución deseada de las calificaciones, por ejemplo, una distribución uniforme . La estimación se deriva del análisis de las puntuaciones de las pruebas y posiblemente de otros datos relevantes de una muestra extraída de la población. Es decir, este tipo de prueba identifica si el candidato obtuvo un mejor o peor rendimiento que otros candidatos, no si el candidato sabe más o menos material del necesario para un propósito determinado. El término evaluación normativa se utiliza cuando la población de referencia son los pares del candidato.

La evaluación basada en normas puede contrastarse con la evaluación basada en criterios y la evaluación ipsativa . En una evaluación basada en criterios, la puntuación muestra si los examinados se desempeñaron bien o mal en una tarea determinada, no cómo se compara con otros examinados; en un sistema ipsativo, los examinados se comparan con su desempeño anterior. Cada método se puede utilizar para calificar el mismo examen. ^[2]

Robert Glaser acuñó originalmente los términos prueba referenciada a la norma y prueba referenciada al criterio . ^[3]

Usos comunes

Muchos exámenes de ingreso a la universidad y pruebas escolares de uso nacional utilizan pruebas basadas en normas. El SAT , el Graduate Record Examination (GRE) y la Wechsler Intelligence Scale for Children (WISC) comparan el desempeño individual de los estudiantes con el desempeño de una muestra normativa. Los examinados no pueden "suspender" una prueba basada en normas, ya que cada uno recibe una puntuación que lo compara con otros que han realizado la prueba, generalmente dada por un percentil. Esto es útil cuando hay una amplia gama de puntuaciones aceptables y el objetivo es averiguar quién tiene un mejor desempeño.

Las pruebas de CI son pruebas basadas en normas, ya que su objetivo es clasificar la inteligencia de los participantes. El CI medio se establece en 100 y todos los participantes se clasifican hacia arriba o hacia abajo en comparación con ese nivel.

Otros tipos

Como alternativa a las pruebas normativas, las pruebas pueden ser evaluaciones ipsativas o evaluaciones referenciadas a criterios.

Ipsativo

En una evaluación ipsativa , el desempeño de los individuos se compara únicamente con su desempeño anterior. ^[4]^[5] Por ejemplo, una persona que sigue una dieta para bajar de peso es juzgada por cómo se compara su peso actual con su peso anterior, en lugar de cómo se compara su peso con un ideal o con el de otra persona.

Referenciado por criterios

Una prueba está basada en criterios cuando el desempeño se juzga de acuerdo con el comportamiento esperado o deseado. Las pruebas que juzgan al candidato según un estándar establecido (por ejemplo, todos deberían poder correr un kilómetro en menos de cinco minutos) son pruebas basadas en criterios. El objetivo de una prueba basada en criterios es averiguar si el individuo puede correr tan rápido como el examinador quiere, no averiguar si el individuo es más rápido o más lento que los otros corredores. La reforma educativa basada en estándares se centra en las pruebas basadas en criterios. ^[6]^[7] La mayoría de las pruebas y cuestionarios cotidianos que se toman en la escuela, así como la mayoría de las pruebas de rendimiento estatales y los exámenes de graduación de la escuela secundaria , están basados en criterios. En este modelo, es posible que todos los candidatos aprueben o que todos los candidatos fracasen.

Métodos

Un método de calificación en una curva utiliza tres pasos:

A los estudiantes se les asignan puntuaciones numéricas (o, en su caso, puntuaciones en una escala ordinal lo suficientemente precisa ). Los valores absolutos son menos relevantes, siempre que el orden de las puntuaciones corresponda al rendimiento relativo de cada estudiante dentro del curso.
Estas puntuaciones se convierten en percentiles (o algún otro sistema de cuantiles ).
Los valores de percentiles se transforman en calificaciones según una división de la escala de percentiles en intervalos, donde el ancho del intervalo de cada calificación indica la frecuencia relativa deseada para esa calificación.

Por ejemplo, si hay cinco calificaciones en un curso universitario particular, A, B, C, D y F, donde A está reservada para el 20 % superior de estudiantes, B para el siguiente 30 %, C para el siguiente 30-40 %, y D o F para el 10-20 % restante, entonces las puntuaciones en el intervalo de percentiles del 0 % al 10-20 % recibirán una calificación de D o F, las puntuaciones del 11-21 % al 50 % recibirán una calificación de C, las puntuaciones del 51 % al 80 % recibirán una calificación de B, y las puntuaciones del 81 % al 100 % obtendrán una calificación de A.

En consonancia con el ejemplo ilustrado anteriormente, una curva de calificación permite a las instituciones académicas garantizar la distribución de los estudiantes a lo largo de ciertos umbrales de promedio de calificaciones (GPA). Como muchos profesores establecen la curva para apuntar a un promedio de C en el curso, ^{[ aclaración necesaria ]} el equivalente de promedio de calificaciones correspondiente sería un 2,0 en una escala estándar de 4,0 empleada en la mayoría de las universidades norteamericanas. ^[1] De manera similar, un promedio de calificaciones de 3,0 en una escala de 4,0 indicaría que el estudiante está dentro del 20 % superior de la clase. Las curvas de calificación sirven para dar un significado adicional a estas cifras, y la distribución específica empleada puede variar entre instituciones académicas. ^[8]

Ventajas y limitaciones

La principal ventaja de las pruebas de referencia normativa es que pueden proporcionar información sobre cómo se compara el desempeño de un individuo en la prueba con el de otros en el grupo de referencia.

Una limitación importante de las pruebas de referencia normativa es que el grupo de referencia puede no representar a la población actual de interés. Como se señala en el sitio web del International Personality Item Pool del Oregon Research Institute , "hay que tener mucho cuidado con el uso de 'normas' predefinidas, porque no es obvio que se pueda encontrar una población de la que la muestra actual sea un subconjunto representativo. La mayoría de las 'normas' son engañosas y, por lo tanto, no se deben utilizar. Mucho más defendibles son las normas locales, que uno mismo desarrolla. Por ejemplo, si se quiere dar retroalimentación a los miembros de una clase de estudiantes, se debe relacionar la puntuación de cada individuo con las medias y las desviaciones típicas derivadas de la propia clase. Para maximizar la información, se puede proporcionar a los estudiantes la distribución de frecuencias para cada escala, basándose en estas normas locales, y los individuos pueden entonces encontrar (y marcar con un círculo) sus propias puntuaciones en estas distribuciones relevantes". ^[9]

La referencia a normas no garantiza que una prueba sea válida (es decir, que mida el constructo que pretende medir).

Otra desventaja de las pruebas basadas en normas es que no pueden medir el progreso de la población en su conjunto, sino sólo la posición de cada individuo dentro del conjunto. En lugar de ello, es necesario medir el progreso en función de un objetivo fijo, por ejemplo, para medir el éxito de un programa de reforma educativa que pretende aumentar el rendimiento de todos los estudiantes.

En una prueba basada en normas, el nivel de grado se fijaba tradicionalmente en el nivel establecido por el 50 por ciento medio de las puntuaciones. ^[10] Por el contrario, la National Children's Reading Foundation cree que es esencial asegurar que prácticamente todos los niños lean al nivel de grado o por encima de él para el tercer grado, un objetivo que no se puede lograr con una definición de nivel de grado basada en normas. ^[11]

Las normas no implican automáticamente un estándar. Una prueba basada en normas no busca imponer ninguna expectativa sobre lo que los examinados deberían saber o ser capaces de hacer. Mide el nivel actual de los examinados comparándolos con sus pares. Un sistema basado en rangos produce únicamente datos que indican qué estudiantes tienen un rendimiento promedio, cuáles tienen un mejor rendimiento y cuáles tienen un peor rendimiento. No identifica qué estudiantes son capaces de realizar correctamente las tareas a un nivel que sería aceptable para el empleo o la educación superior.

El objetivo último de las curvas de calificación es minimizar o eliminar la influencia de la variación entre los distintos instructores de un mismo curso, garantizando que los estudiantes de una clase determinada sean evaluados en relación con sus compañeros. Esto también evita los problemas asociados con la utilización de múltiples versiones de un examen en particular, un método que se emplea a menudo cuando las fechas de administración de los exámenes varían entre las distintas secciones de la clase. Independientemente de cualquier diferencia en el nivel de dificultad, real o percibida, la curva de calificación garantiza una distribución equilibrada de los resultados académicos.

Sin embargo, la calificación curva puede aumentar la competitividad entre los estudiantes y afectar su sentido de equidad del profesorado en una clase. Los estudiantes generalmente se enojan más en el caso de que la curva baje su calificación en comparación con lo que habrían recibido si no se hubiera utilizado una curva. Para asegurarse de que esto no suceda, los profesores suelen esforzarse por garantizar que la prueba en sí sea lo suficientemente difícil cuando pretenden utilizar una curva de calificación, de modo que esperen que el estudiante promedio obtenga una puntuación bruta más baja que la puntuación que se pretende utilizar en el promedio de la curva, asegurando así que todos los estudiantes se beneficien de la curva. Por lo tanto, las calificaciones curvas no se pueden utilizar a ciegas y deben considerarse y ponderarse cuidadosamente en comparación con alternativas como la calificación basada en criterios. Además, el mal uso constante de la calificación curva puede ajustar las calificaciones en pruebas mal diseñadas, mientras que las evaluaciones deben diseñarse para reflejar con precisión los objetivos de aprendizaje establecidos por el instructor. ^[12]

Véase también

Inventario de conceptos
Evaluación educativa
Igualando
Calificación en educación
Lista de curvas de GPA de facultades de derecho
Constante macabra
Psicometría
Prueba estandarizada : a todos los individuos se les da la misma prueba en las mismas condiciones; se utiliza tanto para pruebas referenciadas a normas como para pruebas referenciadas a criterios.

Referencias

^ ab Roell, Kelly. "¿Qué es la calificación en una curva?". About.com . Consultado el 13 de noviembre de 2013 .
^ Cronbach, LJ (1970). Fundamentos de las pruebas psicológicas (3.ª ed.). Nueva York: Harper & Row.
^ Glaser, R. (1963). "Tecnología educativa y medición de los resultados del aprendizaje". American Psychologist . 18 : 510–522. doi :10.1037/h0049294.
^ Evaluación
^ "Presentación en PDF" (PDF) . Archivado desde el original (PDF) el 24 de septiembre de 2015. Consultado el 21 de julio de 2006 .
^ historias 5-01.html ^{[ enlace muerto permanente ]} Fairtest.org: Las pruebas "basadas en criterios" de Times on Testing miden a los estudiantes frente a un criterio fijo, no entre sí.
^ "Consejo de Educación del Estado de Illinois - Estándares de aprendizaje de Illinois". Archivado desde el original el 14 de abril de 2010. Consultado el 14 de abril de 2010 .Estándares de aprendizaje de Illinois
^ Volokh, Eugene (9 de febrero de 2015). "Elogio de la calificación en curva". Washington Post . Consultado el 18 de mayo de 2017. Al igual que la democracia, la calificación en curva puede ser el peor sistema posible, excepto por todas las alternativas.
^ Instituto de Investigación de Oregón, sitio web del IPIP, http://ipip.ori.org/newNorms.htm
^ [1] NCTM: Noticias y medios: Cuestiones de evaluación (Boletín de noticias de abril de 2004) "por definición, la mitad de los estudiantes del país están por debajo del nivel de grado en un momento determinado"
^ [2] Archivado el 11 de marzo de 2007 en el sitio web de la Fundación Nacional de Lectura Infantil Wayback Machine
^ Reese, Michael (13 de mayo de 2013). "Curvar o no curvar". The Innovative Instructor Blog . Johns Hopkins University . Consultado el 13 de mayo de 2013 .

Enlaces externos

Una mirada integral a los tipos de curvas
Una breve nota sobre las estadísticas de calificaciones o cómo se calcula la curva
Cómo crear una curva de campana en Excel