Evaluación educativa

La evaluación educativa o evaluación educativa ^[1] es el proceso sistemático de documentar y utilizar datos empíricos sobre el conocimiento , las habilidades , las actitudes , las aptitudes y las creencias para refinar los programas y mejorar el aprendizaje de los estudiantes. ^[2] Los datos de evaluación se pueden obtener examinando el trabajo de los estudiantes directamente para evaluar el logro de los resultados de aprendizaje o se basan en datos a partir de los cuales se pueden hacer inferencias sobre el aprendizaje. ^[3] La evaluación a menudo se usa indistintamente con la prueba, pero no se limita a las pruebas. ^[4] La evaluación puede centrarse en el alumno individual, la comunidad de aprendizaje (clase, taller u otro grupo organizado de alumnos), un curso, un programa académico, la institución o el sistema educativo en su conjunto (también conocido como granularidad). La palabra "evaluación" comenzó a usarse en un contexto educativo después de la Segunda Guerra Mundial . ^[5]

Como proceso continuo, la evaluación establece resultados mensurables del aprendizaje de los estudiantes, proporciona una cantidad suficiente de oportunidades de aprendizaje para lograr estos resultados, implementa una forma sistemática de reunir, analizar e interpretar evidencia para determinar qué tan bien el aprendizaje de los estudiantes coincide con las expectativas, y utiliza la información recopilada para brindar retroalimentación sobre la mejora del aprendizaje de los estudiantes. ^[6] La evaluación es un aspecto importante del proceso educativo que determina el nivel de logros de los estudiantes. ^[7]

El propósito final de las prácticas de evaluación en educación depende del marco teórico de los profesionales e investigadores, sus supuestos y creencias sobre la naturaleza de la mente humana, el origen del conocimiento y el proceso de aprendizaje.

Tipos

El término evaluación se utiliza generalmente para referirse a todas las actividades que utilizan los docentes para ayudar a los estudiantes a aprender y para medir su progreso. ^[8] La evaluación se puede dividir para mayor comodidad utilizando las siguientes categorizaciones:

Evaluación de ubicación, formativa, sumativa y diagnóstica
Objetivo y subjetivo
Referencia (referenciada a criterios, referenciada a normas e ipsativa (elección forzada) )
Informal y formal
Interno y externo

Colocación, formativa, sumativa y diagnóstica

La evaluación a menudo se divide en categorías inicial, formativa y sumativa con el fin de considerar diferentes objetivos para las prácticas de evaluación.

(1) Evaluación de ubicación: la evaluación de ubicación se puede utilizar para ubicar a los estudiantes de acuerdo con el logro previo o el nivel de conocimiento, o las características personales, en el punto más apropiado en una secuencia de instrucción, en una estrategia de instrucción única o con un maestro adecuado ^[9] realizada a través de pruebas de ubicación , es decir, las pruebas que utilizan los colegios y universidades para evaluar la preparación para la universidad y ubicar a los estudiantes en sus clases iniciales. La evaluación de ubicación, también conocida como evaluación previa, evaluación inicial o prueba de conocimiento umbral (TKT), se realiza antes de la instrucción o intervención para establecer una línea de base a partir de la cual se puede medir el crecimiento individual del estudiante. Este tipo de evaluación se utiliza para saber cuál es el nivel de habilidad del estudiante sobre el tema, también puede ayudar al maestro a explicar el material de manera más eficiente. Estas evaluaciones generalmente no se califican. ^[10]

(2) Evaluación formativa : esta se lleva a cabo generalmente a lo largo de un curso o proyecto. También se la conoce como "evaluación educativa", que se utiliza para ayudar al aprendizaje. En un entorno educativo, una evaluación formativa puede ser realizada por un maestro (o un compañero ) o por el alumno (por ejemplo, a través de una autoevaluación ^[11]^[12] ), que proporciona retroalimentación sobre el trabajo de un estudiante y no se utilizaría necesariamente para fines de calificación. Las evaluaciones formativas pueden adoptar la forma de pruebas diagnósticas, estandarizadas, cuestionarios, preguntas orales o borradores de trabajos. Las evaluaciones formativas se llevan a cabo simultáneamente con las instrucciones y los resultados pueden contar. El objetivo de las evaluaciones formativas es ver si los estudiantes comprenden la instrucción antes de realizar una evaluación sumativa. ^[10]

(3) Evaluación sumativa : se realiza generalmente al final de un curso o proyecto. En un entorno educativo, las evaluaciones sumativas se utilizan normalmente para asignar a los estudiantes una calificación del curso y son evaluativas. Las evaluaciones sumativas se realizan para resumir lo que los estudiantes han aprendido con el fin de saber si comprenden bien el tema. Este tipo de evaluación suele calificarse (por ejemplo, aprobado/reprobado, 0-100) y puede adoptar la forma de pruebas, exámenes o proyectos. Las evaluaciones sumativas se utilizan básicamente para determinar si un estudiante ha aprobado o reprobado una materia. Una crítica a las evaluaciones sumativas es que son reductivas y los estudiantes descubren lo bien que han adquirido el conocimiento demasiado tarde para que les sea de utilidad. ^[10]

(4) Evaluación diagnóstica – Al final, la evaluación diagnóstica se centra en todas las dificultades que ocurrieron durante el proceso de aprendizaje.

Jay McTighe y Ken O'Connor propusieron siete prácticas para un aprendizaje efectivo. ^[10] Una de ellas trata sobre mostrar los criterios de evaluación antes del examen y otra sobre la importancia de la preevaluación para saber cuáles son los niveles de habilidad de un estudiante antes de dar instrucciones. Dar mucho feedback y estímulos son otras prácticas.

El investigador educativo Robert Stake ^[13] explica la diferencia entre evaluación formativa y sumativa con la siguiente analogía:

Cuando el cocinero prueba la sopa, eso es formativo. Cuando los invitados prueban la sopa, eso es sumativo. ^[14]

En un contexto de aprendizaje, la evaluación sumativa y la evaluación formativa suelen denominarse evaluación del aprendizaje y evaluación para el aprendizaje, respectivamente. La evaluación del aprendizaje es generalmente de naturaleza sumativa y tiene como objetivo medir los resultados del aprendizaje e informar sobre ellos a los estudiantes, los padres y los administradores. La evaluación del aprendizaje se realiza principalmente al final de una clase, un curso, un semestre o un año académico, mientras que la evaluación para el aprendizaje es generalmente de naturaleza formativa y la utilizan los profesores para considerar los enfoques de la enseñanza y los próximos pasos para los estudiantes individuales y la clase. ^[15]

Una forma común de evaluación formativa es la evaluación diagnóstica . La evaluación diagnóstica mide los conocimientos y las habilidades actuales de un estudiante con el fin de identificar un programa de aprendizaje adecuado. La autoevaluación es una forma de evaluación diagnóstica que implica que los estudiantes se evalúen a sí mismos.

La evaluación prospectiva pide a los evaluados que se consideren a sí mismos en situaciones futuras hipotéticas. ^[16]

La evaluación basada en el desempeño es similar a la evaluación sumativa, ya que se centra en el logro. A menudo se alinea con la reforma educativa basada en estándares y el movimiento de educación basada en resultados . Aunque idealmente, son significativamente diferentes de una prueba de opción múltiple tradicional, se asocian más comúnmente con la evaluación basada en estándares que utiliza respuestas de formato libre a preguntas estándar calificadas por calificadores humanos en una escala basada en estándares, cumpliendo, quedando por debajo o superando un estándar de desempeño en lugar de clasificarse en una curva. Se identifica una tarea bien definida y se les pide a los estudiantes que creen, produzcan o hagan algo, a menudo en entornos que involucran la aplicación del conocimiento y las habilidades en el mundo real. La competencia se demuestra proporcionando una respuesta extensa. Los formatos de desempeño se clasifican además en productos y actuaciones. El desempeño puede dar como resultado un producto, como una pintura, un portafolio, un artículo o una exhibición, o puede consistir en una actuación, como un discurso, una habilidad atlética, un recital musical o una lectura.

Objetivo y subjetivo

La evaluación (ya sea sumativa o formativa) suele clasificarse como objetiva o subjetiva. La evaluación objetiva es una forma de cuestionamiento que tiene una única respuesta correcta. La evaluación subjetiva es una forma de cuestionamiento que puede tener más de una respuesta correcta (o más de una forma de expresar la respuesta correcta). Existen varios tipos de preguntas objetivas y subjetivas. Los tipos de preguntas objetivas incluyen respuestas de verdadero/falso, opciones múltiples , respuestas múltiples y preguntas de correspondencia, mientras que las preguntas subjetivas incluyen preguntas de respuesta extendida y ensayos. La evaluación objetiva se adapta bien al formato de evaluación computarizado o en línea cada vez más popular.

Algunos han argumentado que la distinción entre evaluaciones objetivas y subjetivas no es útil ni precisa porque, en realidad, no existe una evaluación "objetiva". De hecho, todas las evaluaciones se crean con sesgos inherentes incorporados a las decisiones sobre los temas y contenidos pertinentes, así como sesgos culturales (de clase, étnicos y de género). ^[17]

Base de comparación

Los resultados de las pruebas se pueden comparar con un criterio establecido, con el desempeño de otros estudiantes o con el desempeño anterior:

(5) La evaluación basada en criterios , que normalmente se realiza mediante una prueba basada en criterios , como su nombre lo indica, se lleva a cabo cuando se evalúa a los candidatos en función de criterios definidos (y objetivos). La evaluación basada en criterios se utiliza a menudo, aunque no siempre, para determinar la competencia de una persona (si puede hacer algo). El ejemplo más conocido de evaluación basada en criterios es el examen de conducir, en el que se evalúa a los conductores principiantes en función de una serie de criterios explícitos (como "no poner en peligro a otros usuarios de la vía").

(6) La evaluación basada en normas (conocida coloquialmente como " calificación en la curva "), que normalmente utiliza una prueba basada en normas , no se mide en función de criterios definidos. Este tipo de evaluación es relativa al cuerpo estudiantil que realiza la evaluación y, en efecto, es una forma de comparar a los estudiantes. La prueba de CI es el ejemplo más conocido de evaluación basada en normas. Muchas pruebas de ingreso (a escuelas o universidades prestigiosas) están basadas en normas, lo que permite que una proporción fija de estudiantes apruebe ("aprobar" en este contexto significa ser aceptado en la escuela o universidad en lugar de un nivel explícito de capacidad). Esto significa que los estándares pueden variar de un año a otro dependiendo de la calidad de la cohorte; la evaluación basada en criterios no varía de un año a otro (a menos que cambien los criterios). ^[18]

(7) La evaluación ipsativa es una autocomparación ya sea en el mismo dominio a lo largo del tiempo, o comparativa con otros dominios dentro del mismo estudiante.

Informal y formal

La evaluación puede ser formal o informal . La evaluación formal suele implicar un documento escrito, como una prueba, un cuestionario o un trabajo. A la evaluación formal se le asigna una puntuación numérica o calificación basada en el desempeño del estudiante, mientras que a la evaluación informal no se le asigna una calificación final. La evaluación informal suele realizarse de manera más informal y puede incluir observación, inventarios, listas de verificación, escalas de calificación, rúbricas , evaluaciones de desempeño y de portafolios, participación, autoevaluación y evaluación por pares, y discusión. ^[19]

Interno y externo

La evaluación interna la establece y califica la escuela (es decir, los profesores), los estudiantes obtienen la nota y la retroalimentación sobre la evaluación. La evaluación externa la establece el órgano rector y la califica personal imparcial; algunas evaluaciones externas brindan una retroalimentación mucho más limitada en su calificación. Sin embargo, en pruebas como NAPLAN de Australia, el criterio abordado por los estudiantes recibe una retroalimentación detallada para que sus profesores analicen y comparen los logros de aprendizaje del estudiante y también planifiquen para el futuro.

Estándares de calidad

En general, se consideran evaluaciones de alta calidad aquellas con un alto nivel de confiabilidad y validez . Otros principios generales son la practicidad , la autenticidad y la repercusión. ^[20]^[21]

Fiabilidad

La confiabilidad se relaciona con la consistencia de una evaluación. Una evaluación confiable es aquella que logra consistentemente los mismos resultados con el mismo grupo de estudiantes (o uno similar). Varios factores afectan la confiabilidad, entre ellos, preguntas ambiguas, demasiadas opciones en un cuestionario, instrucciones de calificación vagas y calificadores mal capacitados. Tradicionalmente, la confiabilidad de una evaluación se basa en lo siguiente:

Estabilidad temporal: el rendimiento en una prueba es comparable en dos o más ocasiones distintas.
Equivalencia de forma: el desempeño de los examinados es equivalente en diferentes formas de una prueba basada en el mismo contenido.
Coherencia interna: las respuestas de una prueba son coherentes en todas las preguntas. Por ejemplo: en una encuesta en la que se pide a los encuestados que evalúen sus actitudes hacia la tecnología, se esperaría coherencia en las respuestas a las siguientes preguntas:
- "Tengo una actitud muy negativa hacia las computadoras en general".
- "Me gusta usar computadoras." ^[22]

La confiabilidad de una medición x también se puede definir cuantitativamente como: donde es la confiabilidad en la puntuación observada (de la prueba), x; y son la variabilidad en las puntuaciones de pruebas 'reales' (es decir, el desempeño innato del candidato) y medidas respectivamente. puede variar de 0 (completamente poco confiable) a 1 (completamente confiable). $R_{\text{x}}=V_{\text{t}}/V_{\text{x}}$ $R_{\text{x}}$ $V_{\text{t}}$ $V_{\text{x}}$ $R_{\text{x}}$

Hay cuatro tipos de confiabilidad: relacionada con el estudiante, que puede ser debido a problemas personales, enfermedad o fatiga ; relacionada con el evaluador, que incluye sesgo y subjetividad ; relacionada con la administración de la prueba, que son las condiciones del proceso de realización de la prueba; y relacionada con la prueba, que está básicamente relacionada con la naturaleza de una prueba. ^[23]^[20]^[24]

Validez

Una evaluación válida es aquella que mide lo que se pretende medir. Por ejemplo, no sería válido evaluar las habilidades de conducción únicamente mediante una prueba escrita. Una forma más válida de evaluar las habilidades de conducción sería mediante una combinación de pruebas que ayuden a determinar lo que sabe un conductor, como por ejemplo mediante una prueba escrita de conocimientos de conducción, y lo que un conductor es capaz de hacer, como por ejemplo mediante una evaluación del desempeño de la conducción real. Los profesores se quejan con frecuencia de que algunos exámenes no evalúan adecuadamente el programa de estudios en el que se basa el examen; en realidad, están cuestionando la validez del examen.

La validez de una evaluación generalmente se mide mediante el examen de la evidencia en las siguientes categorías:

Validez de contenido : ¿El contenido de la prueba mide los objetivos establecidos?
Validez de criterio : ¿Los puntajes se correlacionan con una referencia externa? (p. ej.: ¿los puntajes altos en una prueba de lectura de cuarto grado predicen con precisión la habilidad de lectura en los grados futuros?)
Validez de constructo : ¿La evaluación se corresponde con otras variables significativas? (p. ej.: ¿ Los estudiantes de inglés como segundo idioma tienen un desempeño consistentemente diferente en un examen escrito que los hablantes nativos de inglés?) ^[25]

Otros son: ^[20]^[23]

validez consecuente
validez aparente

Una buena evaluación tiene validez y fiabilidad, además de los otros atributos de calidad mencionados anteriormente para un contexto y propósito específicos. En la práctica, una evaluación rara vez es totalmente válida o totalmente fiable. Una regla mal marcada siempre dará las mismas mediciones (erróneas). Es muy fiable, pero no muy válida. Pedir a personas al azar que digan la hora sin mirar un reloj se utiliza a veces como ejemplo de una evaluación que es válida, pero no fiable. Las respuestas variarán entre las personas, pero la respuesta media probablemente se acerque a la hora real. En muchos campos, como la investigación médica, las pruebas educativas y la psicología, a menudo habrá un equilibrio entre fiabilidad y validez. Un examen de historia escrito para una alta validez tendrá muchas preguntas de ensayo y de rellenar espacios en blanco. Será una buena medida del dominio del tema, pero difícil de puntuar con total precisión. Un examen de historia escrito para una alta fiabilidad será totalmente de opción múltiple. No es tan bueno para medir el conocimiento de la historia, pero se puede puntuar fácilmente con gran precisión. Podemos generalizar a partir de esto. Cuanto más fiable sea nuestra estimación de lo que pretendemos medir, menos seguros estaremos de estar realmente midiendo ese aspecto del logro.

Es conveniente distinguir entre validez "temática" y validez "predictiva". La primera, muy utilizada en el ámbito educativo, predice la puntuación que obtendría un alumno en un examen similar, pero con preguntas diferentes. La segunda, muy utilizada en el ámbito laboral, predice el rendimiento. Por tanto, una prueba válida en el ámbito temático sobre el conocimiento de las normas de circulación es adecuada, mientras que una prueba válida desde el punto de vista predictivo evaluaría si el posible conductor podría respetar esas normas.

Sentido práctico

Este principio se refiere a las limitaciones de tiempo y costo durante la construcción y administración de un instrumento de evaluación. ^[20] Esto significa que la prueba debe ser económica de proporcionar. El formato de la prueba debe ser fácil de entender. Además, la resolución de una prueba debe mantenerse dentro de un tiempo adecuado. Por lo general, es fácil de administrar. Su procedimiento de evaluación debe ser particular y eficiente en términos de tiempo. ^[24]

Autenticidad

El instrumento de evaluación es auténtico cuando está contextualizado, contiene lenguaje natural y temas significativos, relevantes e interesantes y replica experiencias del mundo real. ^[20]

Retrolavado

Este principio se refiere a las consecuencias de una evaluación sobre la enseñanza y el aprendizaje en las aulas. ^[20] El efecto de repercusión puede ser positivo o negativo. El efecto de repercusión positivo se refiere a los efectos deseados de una prueba, mientras que el efecto de repercusión negativo se refiere a las consecuencias negativas de una prueba. Para obtener un efecto de repercusión positivo, se puede utilizar la planificación de la enseñanza. ^[26]

Normas de evaluación

En el campo de la evaluación , y en particular de la evaluación educativa en América del Norte, el Comité Conjunto de Normas para la Evaluación Educativa ha publicado tres conjuntos de normas para las evaluaciones. Las Normas de Evaluación del Personal se publicaron en 1988, ^[27] las Normas de Evaluación de Programas (segunda edición) se publicaron en 1994, ^[28] y las Normas de Evaluación de Estudiantes se publicaron en 2003. ^[29]

Cada publicación presenta y elabora un conjunto de estándares para su uso en una variedad de entornos educativos. Los estándares proporcionan pautas para diseñar, implementar, evaluar y mejorar la forma identificada de evaluación. Cada uno de los estándares se ha colocado en una de cuatro categorías fundamentales para promover evaluaciones educativas que sean adecuadas, útiles, factibles y precisas. En estos conjuntos de estándares, las consideraciones de validez y confiabilidad se cubren bajo el tema de precisión. Por ejemplo, los estándares de precisión para estudiantes ayudan a garantizar que las evaluaciones de los estudiantes brinden información sólida, precisa y creíble sobre el aprendizaje y el desempeño de los estudiantes.

En el Reino Unido, existe un premio en Capacitación, Evaluación y Garantía de Calidad (TAQA) para ayudar al personal a aprender y desarrollar buenas prácticas en relación con la evaluación educativa en contextos de educación y capacitación para adultos, educación superior y en el lugar de trabajo. ^[30]

Inflación de calificaciones

La inflación de calificaciones (también conocida como indulgencia en las calificaciones) es la concesión general de calificaciones más altas por la misma calidad de trabajo a lo largo del tiempo, lo que devalúa las calificaciones. ^[31] Sin embargo, las calificaciones promedio más altas en sí mismas no prueban que haya inflación de calificaciones. Para que esto sea inflación de calificaciones, es necesario demostrar que la calidad del trabajo no merece la calificación alta. ^[31]

Debido a la inflación de las calificaciones , las pruebas estandarizadas pueden tener mayor validez que las puntuaciones de los exámenes no estandarizados. ^[32] El aumento reciente de las tasas de graduación se puede atribuir parcialmente a la inflación de las calificaciones . ^[33]

Cuadro resumen de los principales marcos teóricos

En la siguiente tabla se resumen los principales marcos teóricos que sustentan casi todo el trabajo teórico y de investigación, así como las prácticas de enseñanza en educación (una de ellas es, por supuesto, la práctica de la evaluación). Estos diferentes marcos han dado lugar a interesantes debates entre los académicos.

Controversia

Las preocupaciones sobre cuál es la mejor manera de aplicar las prácticas de evaluación en los sistemas escolares públicos se han centrado en gran medida en preguntas sobre el uso de pruebas de alto riesgo y exámenes estandarizados, a menudo utilizados para medir el progreso de los estudiantes, la calidad de los docentes y el éxito educativo a nivel de la escuela, el distrito o el estado.

Ningún niño se queda atrás

Para la mayoría de los investigadores y profesionales, la cuestión no es si se deben realizar pruebas o no; existe un consenso general en que, cuando se administran de manera útil, las pruebas pueden ofrecer información útil sobre el progreso de los estudiantes y la implementación del currículo, además de ofrecer usos formativos para los estudiantes. ^[34] La cuestión real, entonces, es si las prácticas de evaluación tal como se implementan actualmente pueden proporcionar estos servicios a los educadores y estudiantes.

El presidente Bush firmó la Ley Que Ningún Niño Se Quede Atrás (NCLB, por sus siglas en inglés) el 8 de enero de 2002. La Ley NCLB reautorizó la Ley de Educación Primaria y Secundaria (ESEA, por sus siglas en inglés) de 1965. El presidente Johnson firmó la ESEA para ayudar a combatir la pobreza y ayudó a financiar las escuelas primarias y secundarias. El objetivo del presidente Johnson era enfatizar el acceso igualitario a la educación y establecer altos estándares y rendición de cuentas. La Ley NCLB requería que los estados desarrollaran evaluaciones de habilidades básicas. Para recibir fondos federales para las escuelas, los estados tenían que proporcionar estas evaluaciones a todos los estudiantes en el nivel de grado seleccionado.

En Estados Unidos, la ley No Child Left Behind (Que ningún niño se quede atrás) exige la realización de pruebas estandarizadas en todo el país. Estas pruebas se ajustan al currículo estatal y vinculan a los docentes, los estudiantes, el distrito y el estado con la responsabilidad de los resultados de estas pruebas. Los defensores de la NCLB sostienen que ofrece un método tangible para medir el éxito educativo, responsabilizar a los docentes y las escuelas por las calificaciones reprobatorias y cerrar la brecha de logros entre clases y etnias. ^[35]

Los opositores a las pruebas estandarizadas cuestionan estas afirmaciones, argumentando que hacer responsables a los educadores de los resultados de las pruebas conduce a la práctica de " enseñar para el examen ". Además, muchos sostienen que el enfoque en las pruebas estandarizadas alienta a los maestros a dotar a los estudiantes de un conjunto limitado de habilidades que mejoran el desempeño en las pruebas sin fomentar realmente una comprensión más profunda de la materia o de los principios clave dentro de un dominio de conocimiento. ^[36]

Pruebas de alto riesgo

Las evaluaciones que han causado más controversia en los EE. UU. son el uso de los exámenes de graduación de la escuela secundaria , que se utilizan para negar diplomas a los estudiantes que han asistido a la escuela secundaria durante cuatro años, pero no pueden demostrar que han aprendido el material requerido al escribir los exámenes. Los opositores dicen que a ningún estudiante que haya dedicado cuatro años de tiempo de estudio se le debe negar un diploma de escuela secundaria simplemente por suspender repetidamente un examen, o incluso por no saber el material requerido. ^[37]^[38]^[39]

Se ha culpado a los exámenes de alto riesgo de causar malestar y ansiedad en los estudiantes y los maestros, y de que los maestros opten por limitar el currículo a lo que el maestro cree que se evaluará. En un ejercicio diseñado para que los niños se sientan cómodos con los exámenes, un periódico de Spokane, Washington, publicó una imagen de un monstruo que se alimenta del miedo. ^[40] La imagen publicada es supuestamente la respuesta de una estudiante a la que se le pidió que hiciera un dibujo de lo que pensaba sobre la evaluación estatal.

Otros críticos, como Don Orlich de la Universidad Estatal de Washington , cuestionan el uso de elementos de prueba que van mucho más allá de los niveles cognitivos estándar para la edad de los estudiantes. ^[41]

En comparación con las evaluaciones de portafolios, las pruebas simples de opción múltiple son mucho menos costosas, menos propensas a desacuerdos entre los calificadores y pueden calificarse lo suficientemente rápido como para ser devueltas antes del final del año escolar. Las pruebas estandarizadas (todos los estudiantes toman la misma prueba bajo las mismas condiciones) a menudo usan pruebas de opción múltiple por estas razones. Orlich critica el uso de pruebas costosas y calificadas de manera holística, en lugar de "pruebas de burbuja" de opción múltiple económicas, para medir la calidad tanto del sistema como de los individuos para cantidades muy grandes de estudiantes. ^[41] Otros críticos destacados de las pruebas de alto riesgo incluyen Fairtest y Alfie Kohn .

En algunos estados se ha prohibido el uso de pruebas de coeficiente intelectual para la toma de decisiones educativas, y las pruebas basadas en normas , que clasifican a los estudiantes de "mejor" a "peor", han sido criticadas por su sesgo contra las minorías. La mayoría de los funcionarios educativos apoyan las pruebas basadas en criterios (la puntuación de cada estudiante depende únicamente de si respondió las preguntas correctamente, independientemente de si sus vecinos lo hicieron mejor o peor) para tomar decisiones de alto riesgo.

Evaluación del siglo XXI

Se ha observado ampliamente que con la aparición de las redes sociales y las tecnologías y mentalidades de la Web 2.0 , el aprendizaje es cada vez más colaborativo y el conocimiento se distribuye cada vez más entre muchos miembros de una comunidad de aprendizaje. Sin embargo, las prácticas de evaluación tradicionales se centran en gran medida en el individuo y no tienen en cuenta la construcción de conocimientos y el aprendizaje en contexto. A medida que los investigadores en el campo de la evaluación consideren los cambios culturales que surgen de la aparición de una cultura más participativa , necesitarán encontrar nuevos métodos para aplicar las evaluaciones a los estudiantes. ^[42]

Evaluación del aprendizaje a gran escala

Las evaluaciones de aprendizaje a gran escala (LSLA, por sus siglas en inglés) son evaluaciones a nivel de sistema que brindan una visión general de los logros de aprendizaje de un grupo de estudiantes en un año determinado y en un número limitado de dominios. A menudo se las clasifica como evaluaciones nacionales o transnacionales y se centran en cuestiones relacionadas con los niveles de aprendizaje y los determinantes del aprendizaje, como la calificación de los docentes , la calidad de los entornos escolares , el apoyo y la orientación de los padres y la salud social y emocional dentro y fuera de las escuelas. ^[43]

La evaluación en una escuela democrática

Las escuelas del modelo Sudbury de educación democrática no realizan evaluaciones, ni ofrecen exámenes, transcripciones ni recomendaciones. Afirman que no califican a las personas y que la escuela no es un juez; comparar a los estudiantes entre sí o con algún estándar que se haya establecido es para ellos una violación del derecho del estudiante a la privacidad y a la autodeterminación . Los estudiantes deciden por sí mismos cómo medir su progreso como aprendices autónomos como un proceso de autoevaluación: un verdadero aprendizaje permanente y la evaluación educativa adecuada para el siglo XXI, alegan. ^[44]

Según las escuelas de Sudbury, esta política no perjudica a sus alumnos en su transición a la vida fuera de la escuela. Sin embargo, admiten que dificulta el proceso, pero que esas dificultades forman parte del proceso de aprendizaje de los alumnos para abrirse camino, establecer sus propios estándares y alcanzar sus propias metas.

La política de no calificar ni valorar contribuye a crear una atmósfera libre de competencia entre estudiantes o de batallas por la aprobación de los adultos, y fomenta un entorno cooperativo positivo entre el cuerpo estudiantil. ^[45]

La etapa final de la educación en Sudbury, si el estudiante decide cursarla, es la tesis de graduación. Cada estudiante escribe sobre el tema de cómo se ha preparado para la vida adulta y para ingresar a la comunidad en general. Esta tesis se presenta a la Asamblea, que la revisa. La etapa final del proceso de tesis es una defensa oral que realiza el estudiante, en la que se abre el espacio para preguntas, cuestionamientos y comentarios de todos los miembros de la Asamblea. Al final, la Asamblea vota en votación secreta si otorga o no un diploma. ^[46]

Evaluación de estudiantes ELL

Una de las principales preocupaciones con respecto al uso de evaluaciones educativas es la validez, precisión e imparcialidad generales cuando se trata de evaluar a los estudiantes de inglés (ELL). La mayoría de las evaluaciones en los Estados Unidos tienen estándares normativos basados en la cultura de habla inglesa, que no representa adecuadamente a las poblaciones de ELL. ^{[ cita requerida ]} En consecuencia, en muchos casos sería inexacto e inapropiado sacar conclusiones de las puntuaciones normativas de los estudiantes ELL. Las investigaciones muestran que la mayoría de las escuelas no modifican adecuadamente las evaluaciones para acomodar a los estudiantes de orígenes culturales únicos. ^{[ cita requerida ]} Esto ha resultado en la derivación excesiva de estudiantes ELL a educación especial, lo que hace que estén desproporcionadamente representados en los programas de educación especial. Aunque algunas personas pueden ver esta ubicación inapropiada en la educación especial como un apoyo y una ayuda, las investigaciones han demostrado que los estudiantes ubicados de manera inapropiada en realidad retrocedieron en el progreso. ^{[ cita requerida ]}

A menudo es necesario utilizar los servicios de un traductor para administrar la evaluación en el idioma nativo de un estudiante ELL; sin embargo, existen varios problemas al traducir los elementos de evaluación. Un problema es que las traducciones pueden sugerir con frecuencia una respuesta correcta o esperada, cambiando la dificultad del elemento de evaluación. ^[47] Además, la traducción de los elementos de evaluación a veces puede distorsionar el significado original del elemento. ^[47] Finalmente, muchos traductores no están calificados o capacitados adecuadamente para trabajar con estudiantes ELL en una situación de evaluación. ^{[ cita requerida ]} Todos estos factores comprometen la validez y la imparcialidad de las evaluaciones, lo que hace que los resultados no sean confiables. Las evaluaciones no verbales han demostrado ser menos discriminatorias para los estudiantes ELL, sin embargo, algunas aún presentan sesgos culturales dentro de los elementos de evaluación. ^[47]

Al considerar a un estudiante ELL para educación especial, el equipo de evaluación debe integrar e interpretar toda la información recopilada para garantizar una conclusión imparcial. ^[47] La decisión debe basarse en fuentes de datos multidimensionales que incluyan entrevistas a maestros y padres, así como observaciones en el aula. ^[47] Las decisiones deben tener en cuenta los antecedentes culturales, lingüísticos y experienciales únicos de los estudiantes, y no deben basarse estrictamente en los resultados de la evaluación.

Detección universal

La evaluación puede estar asociada con la disparidad cuando los estudiantes de grupos tradicionalmente subrepresentados son excluidos de las pruebas necesarias para el acceso a ciertos programas u oportunidades, como es el caso de los programas para superdotados . Una forma de combatir esta disparidad es la detección universal, que implica realizar pruebas a todos los estudiantes (por ejemplo, para determinar si son superdotados) en lugar de realizar pruebas solo a algunos estudiantes según las recomendaciones de los maestros o los padres. La detección universal da como resultado grandes aumentos en los grupos tradicionalmente desatendidos (como los negros, los hispanos, los pobres, las mujeres y los estudiantes de inglés como segundo idioma) identificados para los programas para superdotados, sin que los estándares de identificación se modifiquen de ninguna manera. ^[48]

Véase también

Evaluación de equivalencia académica
Evaluación asistida por computadora
Inventario de conceptos
El aprendizaje basado en la confianza mide con precisión la calidad del conocimiento de un alumno midiendo tanto la exactitud de su conocimiento como la confianza de la persona en ese conocimiento.
E-scape , una tecnología y enfoque que se centra específicamente en la evaluación de la creatividad y la colaboración.
Metas y objetivos educativos
La evaluación educativa se ocupa específicamente de la evaluación tal como se aplica a un entorno educativo. Como ejemplo, se puede utilizar en el programa gubernamental No Child Left Behind (NCLB) instituido por el gobierno de los EE. UU.
Un portafolio electrónico es un registro digital personal que contiene información como una colección de artefactos o evidencia que demuestra lo que uno sabe y puede hacer.
La evaluación es el proceso de analizar lo que se está evaluando para asegurarse de que se estén considerando las áreas correctas.
La calificación es el proceso de asignar una clasificación (posiblemente mutuamente excluyente) a los estudiantes.
La evaluación del impacto en la salud analiza los posibles impactos de las políticas, programas y proyectos en la salud.
La constante macabra es un sesgo teórico en la evaluación educativa
La medición educativa es un proceso de evaluación cuyo objetivo es cuantificar el nivel de logro o competencia dentro de un dominio específico. Véase el modelo de medición de Rasch para obtener más información sobre los requisitos conceptuales de dichos procesos, incluidos los relacionados con la calificación y el uso de las puntuaciones brutas de las evaluaciones.
La evaluación de un programa es esencialmente un conjunto de filosofías y técnicas para determinar si un programa "funciona".
Prueba de progreso
Psicometría , la ciencia de medir las características psicológicas.
Pruebas psicológicas
Rúbricas para evaluación
Educación en ciencia, tecnología, sociedad y medio ambiente
La evaluación del impacto social analiza los posibles impactos sociales de nuevos proyectos de infraestructura, proyectos de recursos naturales o actividades de desarrollo propuestos.
Las pruebas estandarizadas son cualquier prueba que se utiliza en una variedad de escuelas u otras situaciones.
Evaluación basada en estándares
Robert E. Stake es un investigador educativo en el campo de las evaluaciones curriculares.
Evaluación de escritura
Fijación métrica

Referencias

^ Algunos educadores y teóricos de la educación utilizan los términos evaluación y valoración para referirse a los diferentes conceptos de evaluación durante un proceso de aprendizaje para mejorarlo (para lo cual son preferibles los términos igualmente inequívocos evaluación formativa o evaluación formativa ) y de evaluación después de la finalización de un proceso de aprendizaje (para lo cual son preferibles los términos igualmente inequívocos evaluación sumativa o evaluación sumativa ), pero de hecho son sinónimos y no significan cosas intrínsecamente diferentes. La mayoría de los diccionarios no solo dicen que estos términos son sinónimos, sino que también los usan para definirse entre sí. Si los términos se usan para conceptos diferentes, una edición cuidadosa requiere tanto la explicación de que normalmente son sinónimos como la aclaración de que se usan para referirse a conceptos diferentes en el texto actual.
^ Allen, MJ (2004). Evaluación de programas académicos en educación superior . San Francisco: Jossey-Bass.
^ Kuh, GD; Jankowski, N.; Ikenberry, SO (2014). Saber lo que los estudiantes saben y pueden hacer: el estado actual de la evaluación de los resultados del aprendizaje en las universidades y colegios de Estados Unidos (PDF) . Urbana: Universidad de Illinois y Universidad de Indiana, Instituto Nacional para la Evaluación de los Resultados del Aprendizaje.
^ Consejo Nacional de Medición en Educación http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA Archivado el 22 de julio de 2017 en Wayback Machine.
^ Nelson, Robert; Dawson, Phillip (2014). "Una contribución a la historia de la evaluación: cómo un simulador de conversación redime el método socrático". Assessment & Evaluation in Higher Education . 39 (2): 195–204. doi :10.1080/02602938.2013.798394. S2CID 56445840.
^ Suskie, Linda (2004). Evaluación del aprendizaje de los estudiantes . Bolton, MA: Anker.
^ Oxford Brookes University. «Propósitos y principios de la evaluación». www.brookes.ac.uk . Archivado desde el original el 2018-10-09 . Consultado el 2018-10-09 .
^ Black, Paul y William, Dylan (octubre de 1998). "Inside the Black Box: Raising Standards Through Classroom Assessment" (Dentro de la caja negra: elevar los estándares mediante la evaluación en el aula). Phi Beta Kappan. Disponible en http://www.pdkmembers.org/members_online/members/orders.asp?action=results&t=A&desc=Inside+the+Black+Box%3A+Raising+Standards+Through+Classroom+Assessment&text=&lname_1=&fname_1=&lname_2=&fname_2=&kw_1=&kw_2=&kw_3=&kw_4=&mn1=&yr1=&mn2=&yr2=&c1= ^{[ enlace muerto permanente ]} PDKintl.org]. Consultado el 28 de enero de 2009.
^ Madaus, George F.; Airasian, Peter W. (30 de noviembre de 1969). "Evaluación de nivelación, formativa, diagnóstica y sumativa del aprendizaje en el aula". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ abcd Mctighe, Jay; O'Connor, Ken (noviembre de 2005). «Siete prácticas para un aprendizaje eficaz». Liderazgo educativo . 63 (3): 10–17. Archivado desde el original el 6 de octubre de 2019. Consultado el 3 de marzo de 2017 .
^ Hartelt, T. y Martens, H. (2024). Influencia de la autoevaluación y el conocimiento metaconceptual condicional en la autorregulación de los estudiantes de las concepciones intuitivas y científicas de la evolución. Journal of Research in Science Teaching, 61(5), 1134–1180. https://doi.org/10.1002/tea.21938
^ Andrade, HL (2019). Una revisión crítica de la investigación sobre la autoevaluación estudiantil. Frontiers in Education, 4, Artículo 87. https://doi.org/10.3389/feduc.2019.00087
^ "Robert e. Stake, Director". Archivado desde el original el 8 de febrero de 2009. Consultado el 29 de enero de 2009 .
^ Scriven, M. (1991). Tesauro de evaluación. 4.ª ed. Newbury Park, CA: SAGE Publications . ISBN 0-8039-4364-4 .
^ Earl, Lorna (2003). La evaluación como aprendizaje: uso de la evaluación en el aula para maximizar el aprendizaje de los estudiantes. Thousand Oaks, CA, Corwin Press. ISBN 0-7619-4626-8
^ Reed, Daniel. "Evaluación diagnóstica en la enseñanza y el aprendizaje de idiomas". Centro de investigación y educación lingüística, disponible en Google.com. Archivado el 14 de septiembre de 2011 en Wayback Machine . Consultado el 28 de enero de 2009.
^ Comité Conjunto de Sistemas de Información (JISC). "¿Qué queremos decir con evaluación electrónica?", JISC InfoNet. Recuperado el 29 de enero de 2009 de http://tools.jiscinfonet.ac.uk/downloads/vle/eassessment-printable.pdf. Archivado el 16 de enero de 2017 en Wayback Machine .
^ Tecnologías educativas en Virginia Tech. "Propósitos de la evaluación". VirginiaTech DesignShop: Lecciones de enseñanza eficaz, disponible en Edtech.vt.edu Archivado el 26 de febrero de 2009 en Wayback Machine . Consultado el 29 de enero de 2009.
^ Valencia, Sheila W. "¿Cuáles son las diferentes formas de evaluación auténtica?", Understanding Authentic Classroom-Based Literacy Assessment (1997), disponible en Eduplace.com. Archivado el 28 de octubre de 2019 en Wayback Machine . Consultado el 29 de enero de 2009.
^ abcdef Brown, Douglas; Abeywickrama, Priyanvada (2010). Evaluación del lenguaje, principios y prácticas en el aula . Estados Unidos de América: Pearson Longman. ISBN 978-0-13-814931-4.
^ Oxford Brookes University. «Principios de evaluación». www.brookes.ac.uk . Consultado el 9 de octubre de 2018 .
^ Yu, Chong Ho (2005). "Reliability and Validity" (Fiabilidad y validez). Educational Assessment. Disponible en Creative-wisdom.com. Consultado el 29 de enero de 2009.
^ ab Fawcett, Alison (2013). Principios de evaluación y medición de resultados para terapeutas ocupacionales y fisioterapeutas: teoría, habilidades y aplicación . John Wiley & Sons. ISBN 9781118709696.
^ ab "Confiabilidad, validez y practicidad | Enseñar inglés | Englishpost.org". Englishpost.org . 2012-06-26 . Consultado el 2018-10-30 .
^ Moskal, Barbara; Leydens, Jon (23 de noviembre de 2019). "Desarrollo de rúbricas de calificación: validez y confiabilidad". Evaluación práctica, investigación y evaluación . 7 (1). doi :10.7275/q7rm-gg74.
^ "Entender la evaluación: repercusión y planificación educativa". www.cal.org . Consultado el 29 de octubre de 2018 .
^ Comité Conjunto de Normas para la Evaluación Educativa (1988). "Las Normas de Evaluación del Personal: Cómo evaluar los sistemas de evaluación de los educadores". Newbury Park, CA: SAGE Publications
^ Comité Conjunto de Estándares para la Evaluación Educativa. (1994). Estándares de evaluación de programas , 2.ª edición. Newbury Park, CA: SAGE Publications
^ Comité de Normas para la Evaluación Educativa. (2003). Normas de evaluación de los estudiantes: cómo mejorar las evaluaciones de los estudiantes . Newbury Park, CA: Corwin Press
^ City & Guilds, Entender los principios y la práctica de la evaluación: Hoja informativa sobre cualificaciones, consultado el 26 de febrero de 2020
^ ab Arenson, Karen W. (18 de abril de 2004). "¿Se trata de inflación de calificaciones o simplemente de que los estudiantes son más inteligentes?". The New York Times . Consultado el 6 de diciembre de 2015 .
^ Hurwitz, Michael y Jason Lee. "Inflación de calificaciones y el papel de las pruebas estandarizadas". Medición del éxito: pruebas, calificaciones y el futuro de las admisiones universitarias (2018): 64-93.
^ Denning, Jeffrey T., et al. ¿Por qué han aumentado las tasas de finalización de estudios universitarios? Un análisis de las calificaciones en aumento. N.º w28710. Oficina Nacional de Investigación Económica, 2021.
^ Asociación Estadounidense de Psicología. "Uso apropiado de pruebas de alto riesgo en las escuelas de nuestro país". APA Online, disponible en APA.org, consultado el 24 de enero de 2010
^ (nd) Reautorización de la NCLB. Departamento de Educación. Consultado el 29/1/09.
^ (nd) ¿Qué hay de malo en las pruebas estandarizadas? FairTest.org. Consultado el 29 de enero de 2009.
^ Dang, Nick (18 de marzo de 2003). "Reformar la educación, no los exámenes de egreso". Daily Bruin . Una queja común de quienes no aprueban los exámenes es que no les enseñaron el material que se examina en la escuela. En este caso, la culpa es de una educación inadecuada, no del examen. Culpar al examen por el fracaso es como culpar a la estación de servicio por un control de emisiones fallido; ignora los problemas subyacentes dentro del "vehículo de la enseñanza".^{[ enlace muerto permanente ]}
^ Weinkopf, Chris (2002). "La culpa es de los exámenes: el LAUSD niega la responsabilidad por las bajas calificaciones". Daily News . Archivado desde el original el 2017-02-02 . Consultado el 2010-05-04 . La culpa es de los "exámenes de alto riesgo" como el Stanford 9 y el Examen de Egreso de la Escuela Secundaria de California. La dependencia de tales exámenes, se queja la junta, "penaliza injustamente a los estudiantes a los que no se les han proporcionado las herramientas académicas para desempeñarse al máximo de su potencial en estos exámenes".
^ "La culpa la tiene el examen". Investor's Business Daily . 11 de mayo de 2006. Un juez de California está dispuesto a anular el examen de egreso de la escuela secundaria de ese estado. ¿Por qué? Porque está funcionando. Les dice a los estudiantes que necesitan aprender más. Nosotros llamamos a eso información útil. Para los demandantes que están demandando para detener el uso del examen como requisito de graduación, es algo más: evidencia de un trato desigual... el examen de egreso fue considerado injusto porque demasiados estudiantes que reprobaron el examen tenían muy pocos profesores acreditados. Bueno, tal vez los tenían, pero otorgarles un diploma cuando carecen del conocimiento requerido solo agrava la injusticia al dejarlos con un pedazo de papel sin valor". ^{[ enlace muerto permanente ]}
^ "ASD.wednet.edu". Archivado desde el original el 25 de febrero de 2007. Consultado el 22 de septiembre de 2006 .
^ ab Bach, Deborah y Blanchard, Jessica (19 de abril de 2005). "Las preocupaciones por WASL estresan a los niños y a las escuelas". Seattle Post-Intelligencer. Recuperado el 30 de enero de 2009 de Seattlepi.nwsource.com.
^ Fadel, Charles, Honey, Margaret y Pasnik, Shelley (18 de mayo de 2007). "Evaluación en la era de la innovación". Education Week. Recuperado el 29 de enero de 2009 de http://www.edweek.org/ew/articles/2007/05/23/38fadel.h26.html
^ UNESCO (2019). La promesa de las evaluaciones de aprendizaje a gran escala: reconocer los límites para aprovechar las oportunidades. UNESCO. ISBN 978-92-3-100333-2.
^ Greenberg, D. (2000). Escuelas del siglo XXI, transcripción editada de una charla pronunciada en la Conferencia Internacional sobre el Aprendizaje en el Siglo XXI de abril de 2000.
^ Greenberg, D. (1987). Capítulo 20, Evaluación, Libre al fin: La Escuela del Valle de Sudbury.
^ Procedimiento de tesis de graduación, Mountain Laurel Sudbury School.
^ abcde "Copia archivada" (PDF) . Archivado desde el original (PDF) el 29 de mayo de 2012 . Consultado el 11 de abril de 2012 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )
^ Card, D. y Giuliano, L. (2015). ¿Puede la evaluación universal aumentar la representación de estudiantes de bajos ingresos y pertenecientes a minorías en la educación para superdotados? (Documento de trabajo n.º 21519). Cambridge, MA: Oficina Nacional de Investigación Económica. Recuperado de www.nber.org/papers/w21519

Fuentes

Este artículo incorpora texto de una obra de contenido libre . Licencia CC BY-SA 3.0 IGO. Texto extraído de La promesa de las evaluaciones de aprendizaje a gran escala: reconocer los límites para desbloquear oportunidades, UNESCO, UNESCO. UNESCO.

Lectura adicional

Asociación Estadounidense de Investigación Educativa, Asociación Estadounidense de Psicología y Consejo Nacional para la Medición en Educación (2014). Estándares para las pruebas educativas y psicológicas. Washington, DC: Asociación Estadounidense de Investigación Educativa.
Bennett, Randy Elliot (marzo de 2015). "La naturaleza cambiante de la evaluación educativa". Revista de investigación en educación . 39 (1): 370–407. doi :10.3102/0091732x14554179. S2CID 145592665.
Brown, GTL (2018). Evaluación del rendimiento estudiantil. Nueva York: Routledge.
Carless, David. Excelencia en la evaluación universitaria: aprendizaje a partir de prácticas premiadas . Londres: Routledge, 2015.
Klinger, D., McDivitt, P., Howard, B., Rogers, T., Munoz, M., y Wylie, C. (2015). Estándares de evaluación en el aula para maestros de preescolar a 12.º grado: Comité conjunto sobre estándares para la evaluación educativa.
Kubiszyn, T., y Borich, GD (2012). Pruebas y mediciones educativas: aplicación y práctica en el aula (10.ª ed.). Nueva York: John Wiley & Sons.
Miller, DM, Linn, RL y Gronlund, NE (2013). Medición y evaluación en la enseñanza (11.ª ed.). Boston, MA: Pearson.
Consejo Nacional de Investigación (2001). Saber lo que saben los estudiantes: la ciencia y el diseño de la evaluación educativa. Washington, DC: National Academy Press.
Nitko, AJ (2001). Evaluación educativa de estudiantes (3.ª ed.). Upper Saddle River, NJ: Merrill.
Phelps, Richard P., Ed. Corrección de falacias sobre pruebas educativas y psicológicas . Washington, DC: Asociación Estadounidense de Psicología, 2008.
Phelps, Richard P., Manual de pruebas estandarizadas . Nueva York: Peter Lang, 2007.
Russell, MK y Airasian, PW (2012). Evaluación en el aula: conceptos y aplicaciones (7.ª ed.). Nueva York: McGraw Hill.
Shepard, LA (2006). Evaluación en el aula. En RL Brennan (Ed.), Educational Measurement (4.ª ed., págs. 623–646). Westport, CT: Praeger.