Prueba referenciada a normas

Una prueba referenciada a normas ( NRT ) es un tipo de prueba , valoración o evaluación que produce una estimación de la posición del individuo evaluado en una población predefinida, con respecto al rasgo que se está midiendo. La asignación de puntuaciones en dichas pruebas puede describirse como calificación relativa , calificación en una curva ( BrE ) o calificación en una curva ( Ame , CanE ) (también conocida como calificación curva , curva en campana o uso de curvas de calificación ). Es un método para asignar calificaciones a los estudiantes de una clase de tal manera que se obtenga o se acerque a una distribución preespecificada de estas calificaciones que tiene una media específica y propiedades de derivación, como una distribución normal (también llamada distribución gaussiana ). ^[1] El término "curva" se refiere a la curva de campana , la representación gráfica de la densidad de probabilidad de la distribución normal, pero este método se puede utilizar para lograr cualquier distribución deseada de las calificaciones, por ejemplo, una distribución uniforme . La estimación se deriva del análisis de las puntuaciones de las pruebas y posiblemente de otros datos relevantes de una muestra extraída de la población. Es decir, este tipo de prueba identifica si el examinado se desempeñó mejor o peor que otros examinados, no si el examinado sabe más o menos material del necesario para un propósito determinado. El término evaluación normativa se utiliza cuando la población de referencia son los pares del examinado.

La evaluación basada en normas se puede contrastar con la evaluación basada en criterios y la evaluación ipsativa . En una evaluación basada en criterios, la puntuación muestra si los examinados se desempeñaron bien o mal en una tarea determinada, no cómo se compara con otros examinados; En un sistema ipsativo, los examinados se comparan con su desempeño anterior. Cada método se puede utilizar para calificar el mismo examen. ^[2]

Robert Glaser acuñó originalmente los términos prueba referenciada a normas y prueba referenciada a criterios . ^[3]

Usos comunes

Muchos exámenes de ingreso a la universidad y pruebas escolares utilizadas a nivel nacional utilizan pruebas con referencia a normas. El SAT , el Graduate Record Examination (GRE) y la Wechsler Intelligence Scale for Children (WISC) comparan el desempeño individual de los estudiantes con el desempeño de una muestra normativa. Los examinados no pueden "reprobar" una prueba basada en normas, ya que cada examinado recibe una puntuación que compara al individuo con otros que han realizado el examen, generalmente dada por un percentil. Esto es útil cuando existe una amplia gama de puntuaciones aceptables y el objetivo es descubrir quién se desempeña mejor.

Las pruebas de coeficiente intelectual son pruebas referenciadas a normas, porque su objetivo es clasificar la inteligencia de los examinados. El coeficiente intelectual medio se establece en 100 y todos los examinados se clasifican hacia arriba o hacia abajo en comparación con ese nivel.

Otros tipos

Como alternativas a las pruebas normativas, las pruebas pueden ser evaluaciones ipsativas o evaluaciones referenciadas a criterios.

ipsativo

En una evaluación ipsativa , el desempeño de los individuos se compara sólo con sus desempeños anteriores. ^[4]^[5] Por ejemplo, una persona que sigue una dieta para bajar de peso es juzgada por cómo se compara su peso actual con su peso anterior, en lugar de cómo se compara su peso con un ideal o con el de otra persona.

Referenciado a criterios

Una prueba está basada en criterios cuando el desempeño se juzga de acuerdo con el comportamiento esperado o deseado. Las pruebas que juzgan al examinado basándose en un estándar establecido (por ejemplo, todo el mundo debería poder correr un kilómetro en menos de cinco minutos) son pruebas basadas en criterios. El objetivo de una prueba basada en criterios es descubrir si el individuo puede correr tan rápido como quiere el examinador, no descubrir si el individuo es más rápido o más lento que los otros corredores. La reforma educativa basada en estándares se centra en pruebas basadas en criterios. ^[6]^[7] La mayoría de las pruebas y cuestionarios cotidianos que se realizan en la escuela, así como la mayoría de las pruebas de rendimiento estatales y los exámenes de graduación de la escuela secundaria , se basan en criterios. En este modelo, es posible que todos los examinados aprueben o reprueben.

Métodos

Un método para calificar una curva utiliza tres pasos:

A los estudiantes se les asignan puntuaciones numéricas (o posiblemente puntuaciones en una escala ordinal suficientemente detallada ). Los valores absolutos son menos relevantes, siempre que el orden de las puntuaciones corresponda al desempeño relativo de cada estudiante dentro del curso.
Estas puntuaciones se convierten a percentiles (o algún otro sistema de cuantiles ).
Los valores percentiles se transforman en grados según una división de la escala percentil en intervalos, donde la amplitud del intervalo de cada grado indica la frecuencia relativa deseada para ese grado.

Por ejemplo, si hay cinco grados en un curso universitario en particular, A, B, C, D y F, donde A está reservado para el 20% superior de los estudiantes, B para el 30% siguiente, C para los 30% siguientes. 40 %, y D o F para el 10–20 % restante, luego las puntuaciones en el intervalo percentil del 0 % al 10–20 % recibirán una calificación de D o F, las puntuaciones del 11–21 % al 50 % recibirán una calificación de D o F para el 10–20 % restante. calificación de C, puntuaciones del 51 % al 80 % recibirán una calificación de B, y las puntuaciones del 81 % al 100 % alcanzarán una calificación de A.

De acuerdo con el ejemplo ilustrado anteriormente, una curva de calificaciones permite a las instituciones académicas garantizar la distribución de los estudiantes a través de ciertos umbrales del promedio de calificaciones (GPA). Como muchos profesores establecen la curva para alcanzar un promedio de curso de C, ^{[ se necesita aclaración ]} el promedio de calificaciones equivalente sería un 2,0 en una escala estándar de 4,0 empleada en la mayoría de las universidades de América del Norte. ^[1] De manera similar, un promedio de calificaciones de 3.0 en una escala de 4.0 indicaría que el estudiante se encuentra dentro del 20% superior de la clase. Las curvas de calificación sirven para otorgar importancia adicional a estas cifras, y la distribución específica empleada puede variar entre instituciones académicas. ^[8]

Ventajas y limitaciones

La principal ventaja de las pruebas de referencia de normas es que pueden proporcionar información sobre cómo se compara el desempeño de un individuo en la prueba con el de otros en el grupo de referencia.

Una limitación importante de las pruebas de referencia de normas es que el grupo de referencia puede no representar a la población de interés actual. Como lo señala el sitio web del Grupo Internacional de Elementos de Personalidad del Instituto de Investigación de Oregón , "Uno debe tener mucho cuidado al usar 'normas' enlatadas porque no es obvio que alguna vez se pueda encontrar una población de la cual la muestra actual sea un subconjunto representativo. La mayoría de las "normas" son engañosas y, por lo tanto, no deberían usarse. Mucho más defendibles son las normas locales, que uno mismo desarrolla. Por ejemplo, si uno quiere dar retroalimentación a los miembros de una clase de estudiantes, debe relacionar la puntuación de ellas. cada individuo a las medias y desviaciones estándar derivadas de la clase misma. Para maximizar la información, se puede proporcionar a los estudiantes la distribución de frecuencias para cada escala, con base en estas normas locales, y los individuos pueden entonces encontrar (y rodear) sus propias puntuaciones. sobre estas distribuciones relevantes." ^[9]

La referencia a normas no garantiza que una prueba sea válida (es decir, que mida el constructo que se pretende medir).

Otra desventaja de las pruebas referenciadas a normas es que no pueden medir el progreso de la población en su conjunto, sólo cuando los individuos se encuentran dentro del conjunto. Más bien, se debe medir con respecto a una meta fija, por ejemplo, para medir el éxito de un programa de reforma educativa que busca elevar el rendimiento de todos los estudiantes.

Con una prueba basada en normas, el nivel de grado se fijaba tradicionalmente en el nivel establecido por el 50 por ciento medio de las puntuaciones. ^[10] Por el contrario, la Fundación Nacional de Lectura Infantil cree que es esencial garantizar que prácticamente todos los niños lean al nivel de grado o por encima de él en tercer grado, una meta que no se puede lograr con una definición de nivel de grado basada en normas. ^[11]

Las normas no implican automáticamente un estándar. Una prueba basada en normas no busca imponer ninguna expectativa sobre lo que los examinados deberían saber o poder hacer. Mide el nivel actual de los examinados comparándolos con sus pares. Un sistema basado en rangos produce sólo datos que indican qué estudiantes se desempeñan en un nivel promedio, cuáles obtienen mejores resultados y cuáles peores. No identifica qué examinados son capaces de realizar correctamente las tareas a un nivel que sería aceptable para el empleo o la educación superior.

El objetivo final de las curvas de calificación es minimizar o eliminar la influencia de la variación entre diferentes instructores del mismo curso, asegurando que los estudiantes de una clase determinada sean evaluados en relación con sus compañeros. Esto también evita los problemas asociados con la utilización de múltiples versiones de un examen en particular, un método que a menudo se emplea cuando las fechas de administración del examen varían entre las secciones de la clase. Independientemente de cualquier diferencia en el nivel de dificultad, real o percibido, la curva de calificaciones garantiza una distribución equilibrada de los resultados académicos.

Sin embargo, la calificación curva puede aumentar la competitividad entre los estudiantes y afectar su sentido de equidad docente en una clase. Los estudiantes generalmente se molestan más en el caso de que la curva reduzca su calificación en comparación con la que habrían recibido si no se hubiera utilizado una curva. Para garantizar que esto no suceda, los profesores generalmente se esfuerzan por garantizar que la prueba en sí sea lo suficientemente difícil cuando intentan utilizar una curva de calificaciones, de modo que esperarían que el estudiante promedio obtuviera una puntuación bruta más baja que la puntuación prevista. usarse en el promedio de la curva, asegurando así que todos los estudiantes se beneficien de la curva. Por lo tanto, las calificaciones curvas no pueden usarse a ciegas y deben considerarse y ponderarse cuidadosamente en comparación con alternativas como la calificación basada en criterios. Además, el uso indebido constante de la calificación curva puede ajustar las calificaciones en pruebas mal diseñadas, mientras que las evaluaciones deben diseñarse para reflejar con precisión los objetivos de aprendizaje establecidos por el instructor. ^[12]

Ver también

Inventario de conceptos
Evaluación educativa
equiparando
Calificaciones en educación
Lista de curvas de GPA de la facultad de derecho
constante macabra
Psicometría
Prueba estandarizada : a todos los individuos se les aplica la misma prueba en las mismas condiciones; Se utiliza tanto para pruebas basadas en normas como en pruebas basadas en criterios.

Referencias

^ ab Roell, Kelly. "¿Qué es calificar en una curva?". Acerca de.com . Consultado el 13 de noviembre de 2013 .
^ Cronbach, LJ (1970). Conceptos básicos de las pruebas psicológicas (3ª ed.). Nueva York: Harper & Row.
^ Glaser, R. (1963). "Tecnología de la instrucción y medición de los resultados del aprendizaje". Psicólogo americano . 18 : 510–522. doi :10.1037/h0049294.
^ Evaluación
^ "Presentación en PDF" (PDF) . Archivado desde el original (PDF) el 24 de septiembre de 2015 . Consultado el 21 de julio de 2006 .
^ historias 5-01.html ^{[ enlace muerto permanente ]} Fairtest.org: Times on Testing Las pruebas con "criterios de referencia" miden a los estudiantes con un criterio fijo, no entre sí.
^ "Junta de Educación del Estado de Illinois - Estándares de aprendizaje de Illinois". Archivado desde el original el 14 de abril de 2010 . Consultado el 14 de abril de 2010 .Estándares de aprendizaje de Illinois
^ Volokh, Eugene (9 de febrero de 2015). "Elogio de calificar en una curva". El Correo de Washington . Consultado el 18 de mayo de 2017 . Al igual que la democracia, calificar en una curva puede ser el peor sistema posible, excepto por todas las alternativas.
^ Instituto de Investigación de Oregón, sitio web de IPIP, http://ipip.ori.org/newNorms.htm
^ [1] NCTM: Noticias y medios: cuestiones de evaluación (Boletín de noticias de abril de 2004) "por definición, la mitad de los estudiantes del país están por debajo del nivel de grado en un momento determinado"
^ [2] Archivado el 11 de marzo de 2007 en el sitio web de la Fundación Nacional de Lectura Infantil Wayback Machine.
^ Reese, Michael (13 de mayo de 2013). "Curvarse o no curvarse". El blog de instructores innovadores . Universidad Johns Hopkins . Consultado el 13 de mayo de 2013 .

enlaces externos

Una mirada completa a los tipos de curvas
Una breve nota sobre las estadísticas de calificaciones o cómo se calcula la curva
Cómo crear una curva de campana en Excel