Evaluación educativa

Evaluación educativa o evaluación educativa ^[1] es el proceso sistemático de documentar y utilizar datos empíricos sobre los conocimientos , habilidades , actitudes , aptitudes y creencias para perfeccionar los programas y mejorar el aprendizaje de los estudiantes. ^[2] Los datos de evaluación pueden obtenerse examinando directamente el trabajo de los estudiantes para evaluar el logro de los resultados del aprendizaje o pueden basarse en datos a partir de los cuales se pueden hacer inferencias sobre el aprendizaje. ^[3] La evaluación se usa a menudo indistintamente con la prueba, pero no se limita a las pruebas. ^[4] La evaluación puede centrarse en el alumno individual, la comunidad de aprendizaje (clase, taller u otro grupo organizado de alumnos), un curso, un programa académico, la institución o el sistema educativo en su conjunto (también conocido como granularidad). . La palabra "evaluación" entró en uso en un contexto educativo posterior a la Segunda Guerra Mundial . ^[5]

Como proceso continuo, la evaluación establece resultados de aprendizaje claros y mensurables para el aprendizaje de los estudiantes, brindando una cantidad suficiente de oportunidades de aprendizaje para lograr estos resultados, implementando una forma sistemática de recopilar, analizar e interpretar evidencia para determinar qué tan bien el aprendizaje de los estudiantes coincide con las expectativas y utilizando la información recopilada para informar la mejora en el aprendizaje de los estudiantes. ^[6] La evaluación es un aspecto importante del proceso educativo que determina el nivel de logros de los estudiantes. ^[7]

El propósito final de las prácticas de evaluación en educación depende del marco teórico de los profesionales e investigadores, sus suposiciones y creencias sobre la naturaleza de la mente humana, el origen del conocimiento y el proceso de aprendizaje.

Tipos

El término evaluación se utiliza generalmente para referirse a todas las actividades que utilizan los profesores para ayudar a los estudiantes a aprender y medir su progreso. ^[8] La evaluación se puede dividir por conveniencia utilizando las siguientes categorizaciones:

Evaluación de colocación, formativa, sumativa y diagnóstica.
Objetivo y subjetivo
Referenciación (referenciada por criterios, referenciada por normas e ipsativa (elección forzada) )
Informales y formales
Interno y externo

Colocación, formativa, sumativa y diagnóstica.

La evaluación a menudo se divide en categorías inicial, formativa y sumativa con el fin de considerar diferentes objetivos para las prácticas de evaluación.

(1) Evaluación de ubicación: la evaluación de ubicación se puede utilizar para ubicar a los estudiantes de acuerdo con logros previos o nivel de conocimiento, o características personales, en el punto más apropiado de una secuencia de instrucción, en una estrategia de instrucción única o con un maestro adecuado ^{[9 ]} realizado a través de pruebas de ubicación , es decir, las pruebas que los colegios y universidades utilizan para evaluar la preparación universitaria y colocar a los estudiantes en sus clases iniciales. La evaluación de ubicación, también conocida como evaluación previa, evaluación inicial o prueba de conocimiento umbral (TKT), se lleva a cabo antes de la instrucción o intervención para establecer una base a partir de la cual se puede medir el crecimiento individual de los estudiantes. Este tipo de evaluación se utiliza para saber cuál es el nivel de habilidad del estudiante sobre el tema. Puede ayudar al profesor a explicar el material de forma más eficiente. Estas evaluaciones generalmente no se califican. ^[10]

(2) Evaluación formativa : la evaluación formativa generalmente se lleva a cabo a lo largo de un curso o proyecto. La evaluación formativa, también conocida como "evaluación educativa", se utiliza para ayudar en el aprendizaje. En un entorno educativo, una evaluación formativa podría ser un maestro (o un compañero ) o el alumno, proporcionando retroalimentación sobre el trabajo de un estudiante y no necesariamente se usaría con fines de calificación. Las evaluaciones formativas pueden tomar la forma de diagnóstico, pruebas estandarizadas, cuestionarios, preguntas orales o borradores de trabajos. Las evaluaciones formativas se llevan a cabo simultáneamente con las instrucciones. El resultado puede contar. Las evaluaciones formativas tienen como objetivo ver si los estudiantes comprenden la instrucción antes de realizar una evaluación sumativa. ^[10]

(3) Evaluación sumativa : la evaluación sumativa generalmente se lleva a cabo al final de un curso o proyecto. En un entorno educativo, las evaluaciones sumativas generalmente se utilizan para asignar a los estudiantes una calificación del curso. Las evaluaciones sumativas son evaluativas. Las evaluaciones sumativas se realizan para resumir lo que los estudiantes han aprendido y determinar si comprenden bien el tema. Este tipo de evaluación suele calificarse (por ejemplo, aprobado/reprobado, 0 a 100) y puede adoptar la forma de pruebas, exámenes o proyectos. Las evaluaciones sumativas se utilizan a menudo para determinar si un estudiante aprobó o reprobó una clase. Una crítica a las evaluaciones sumativas es que son reductivas y los alumnos descubren qué tan bien han adquirido conocimientos demasiado tarde para que sean útiles. ^[10]

(4) Evaluación diagnóstica: la evaluación diagnóstica se ocupa de todas las dificultades finales que ocurren durante el proceso de aprendizaje.

Jay McTighe y Ken O'Connor propusieron siete prácticas para un aprendizaje eficaz. ^[10] Uno de ellos trata de mostrar los criterios de evaluación antes de la prueba. Otro es sobre la importancia de la evaluación previa para saber cuáles son los niveles de habilidad de un estudiante antes de dar instrucciones. Dar mucha retroalimentación y alentar son otras prácticas.

El investigador educativo Robert Stake ^[11] explica la diferencia entre evaluación formativa y sumativa con la siguiente analogía:

Cuando el cocinero prueba la sopa, eso es formativo. Cuando los invitados prueban la sopa, eso es sumativo. ^[12]

En un contexto de aprendizaje, a menudo se hace referencia a la evaluación sumativa y formativa como evaluación del aprendizaje y evaluación para el aprendizaje , respectivamente. La evaluación del aprendizaje es generalmente de naturaleza sumativa y tiene como objetivo medir los resultados del aprendizaje e informar esos resultados a los estudiantes, padres y administradores. La evaluación del aprendizaje generalmente ocurre al finalizar una clase, curso, semestre o año académico. La evaluación para el aprendizaje es generalmente de naturaleza formativa y los profesores la utilizan para considerar enfoques de enseñanza y los próximos pasos para los alumnos individuales y la clase. ^[13]

Una forma común de evaluación formativa es la evaluación diagnóstica . La evaluación diagnóstica mide los conocimientos y habilidades actuales de un estudiante con el fin de identificar un programa de aprendizaje adecuado. La autoevaluación es una forma de evaluación diagnóstica en la que los estudiantes se evalúan a sí mismos. La evaluación prospectiva pide a quienes están siendo evaluados que se consideren a sí mismos en situaciones hipotéticas futuras. ^[14]

La evaluación basada en el desempeño es similar a la evaluación sumativa, ya que se centra en los logros. A menudo está alineado con la reforma educativa basada en estándares y el movimiento educativo basado en resultados . Aunque idealmente son significativamente diferentes de una prueba tradicional de opción múltiple, se asocian más comúnmente con evaluaciones basadas en estándares que utilizan respuestas de forma libre a preguntas estándar calificadas por evaluadores humanos en una escala basada en estándares, alcanzando, cayendo por debajo o superando. un estándar de desempeño en lugar de ser clasificados en una curva. Se identifica una tarea bien definida y se pide a los estudiantes que creen, produzcan o hagan algo, a menudo en entornos que implican la aplicación de conocimientos y habilidades en el mundo real. La competencia se demuestra proporcionando una respuesta extendida. Los formatos de actuación se diferencian aún más en productos y actuaciones. La actuación puede resultar en un producto, como una pintura, un portafolio, un artículo o una exposición, o puede consistir en una actuación, como un discurso, una habilidad atlética, un recital musical o una lectura.

Objetivo y subjetivo

La evaluación (ya sea sumativa o formativa) a menudo se clasifica como objetiva o subjetiva. La evaluación objetiva es una forma de cuestionar que tiene una única respuesta correcta. La evaluación subjetiva es una forma de cuestionamiento que puede tener más de una respuesta correcta (o más de una forma de expresar la respuesta correcta). Hay varios tipos de preguntas objetivas y subjetivas. Los tipos de preguntas objetivas incluyen respuestas de verdadero/falso, preguntas de opción múltiple , de respuesta múltiple y de correspondencia. Las preguntas subjetivas incluyen preguntas de respuesta extendida y ensayos. La evaluación objetiva se adapta bien al cada vez más popular formato de evaluación computarizado o en línea .

Algunos han argumentado que la distinción entre evaluaciones objetivas y subjetivas no es útil ni precisa porque, en realidad, no existe una evaluación "objetiva". De hecho, todas las evaluaciones se crean con sesgos inherentes incorporados en las decisiones sobre temas y contenidos relevantes, así como sesgos culturales (de clase, étnicos y de género). ^[15]

Base de comparación

Los resultados de las pruebas se pueden comparar con un criterio establecido, con el desempeño de otros estudiantes o con el desempeño anterior:

(5) La evaluación basada en criterios , que normalmente utiliza una prueba basada en criterios , como su nombre lo indica, ocurre cuando se mide a los candidatos según criterios definidos (y objetivos). La evaluación basada en criterios se utiliza a menudo, pero no siempre, para establecer la competencia de una persona (si puede hacer algo). El ejemplo más conocido de evaluación basada en criterios es el examen de conducción, en el que se evalúa a los conductores principiantes según una serie de criterios explícitos (como "no poner en peligro a otros usuarios de la vía").

(6) La evaluación basada en normas (conocida coloquialmente como " calificación en la curva "), que generalmente utiliza una prueba basada en normas , no se mide según criterios definidos. Este tipo de evaluación es relativa al alumnado que realiza la evaluación. Es efectivamente una forma de comparar estudiantes. La prueba de coeficiente intelectual es el ejemplo más conocido de evaluación basada en normas. Muchas pruebas de ingreso (a escuelas o universidades prestigiosas) están basadas en normas, lo que permite aprobar una proporción fija de estudiantes ("aprobar" en este contexto significa ser aceptado en la escuela o universidad en lugar de un nivel explícito de capacidad). Esto significa que los estándares pueden variar de un año a otro, dependiendo de la calidad de la cohorte; La evaluación basada en criterios no varía de un año a otro (a menos que los criterios cambien). ^[dieciséis]

(7) La evaluación ipsativa es la autocomparación, ya sea en el mismo dominio a lo largo del tiempo, o con otros dominios dentro del mismo estudiante.

Informales y formales

La evaluación puede ser formal o informal . La evaluación formal generalmente implica un documento escrito, como una prueba, un cuestionario o un ensayo. Una evaluación formal recibe una puntuación o calificación numérica basada en el desempeño del estudiante, mientras que una evaluación informal no contribuye a la calificación final del estudiante. Una evaluación informal generalmente ocurre de una manera más informal y puede incluir observación, inventarios, listas de verificación, escalas de calificación, rúbricas , evaluaciones de desempeño y portafolio, participación, autoevaluación y autoevaluación, y discusión. ^[17]

Interno y externo

La evaluación interna la establece y califica el colegio (es decir, los profesores). Los estudiantes obtienen la calificación y comentarios sobre la evaluación. La evaluación externa la fija el órgano de gobierno, y es calificada por personal imparcial. Algunas evaluaciones externas dan una respuesta mucho más limitada en su calificación. Sin embargo, en pruebas como la NAPLAN de Australia, el criterio abordado por los estudiantes recibe información detallada para que sus profesores aborden y comparen los logros de aprendizaje de los estudiantes y también planifiquen para el futuro.

Estándares de calidad

En general, se consideran evaluaciones de alta calidad aquellas que presentan un alto nivel de confiabilidad y validez . Otros principios generales son la practicidad , la autenticidad y el washback. ^[18]^[19]

Fiabilidad

La confiabilidad se relaciona con la consistencia de una evaluación. Una evaluación confiable es aquella que logra consistentemente los mismos resultados con el mismo (o similar) grupo de estudiantes. Varios factores afectan la confiabilidad, incluidas preguntas ambiguas, demasiadas opciones dentro de un cuestionario, instrucciones de calificación vagas y marcadores mal capacitados. Tradicionalmente, la confiabilidad de una evaluación se basa en lo siguiente:

Estabilidad temporal: el desempeño en una prueba es comparable en dos o más ocasiones distintas.
Equivalencia de forma: el desempeño entre los examinados es equivalente en diferentes formas de una prueba basada en el mismo contenido.
Coherencia interna: las respuestas de una prueba son consistentes en todas las preguntas. Por ejemplo: en una encuesta que pide a los encuestados que califiquen sus actitudes hacia la tecnología, se esperaría coherencia en las respuestas a las siguientes preguntas:
- "Me siento muy negativo acerca de las computadoras en general".
- "Disfruto usando las computadoras". ^[20]

La confiabilidad de una medición x también se puede definir cuantitativamente como: donde está la confiabilidad en la puntuación observada (de la prueba), x; y son la variabilidad en las puntuaciones de las pruebas 'verdaderas' (es decir, el desempeño innato del candidato) y medidas, respectivamente. puede variar de 0 (completamente poco confiable) a 1 (completamente confiable). $R_{\text{x}}=V_{\text{t}}/V_{\text{x}}$ $R_{\text{x}}$ $V_{\text{t}}$ $V_{\text{x}}$ $R_{\text{x}}$

Hay cuatro tipos de confiabilidad: relacionada con el estudiante, que puede ser problemas personales, enfermedad o fatiga , relacionada con el evaluador, que incluye sesgo y subjetividad , relacionada con la administración de la prueba, que son las condiciones del proceso de toma de la prueba, relacionada con la prueba, que está básicamente relacionada a la naturaleza de una prueba. ^[21]^[18]^[22]

Validez

Una evaluación válida es aquella que mide lo que se pretende medir. Por ejemplo, no sería válido evaluar las habilidades de conducción únicamente mediante una prueba escrita. Una forma más válida de evaluar las habilidades de conducción sería mediante una combinación de pruebas que ayuden a determinar qué sabe un conductor, como mediante una prueba escrita de conocimientos de conducción, y qué es capaz de hacer, como mediante una evaluación del desempeño de personas reales. conduciendo. Los profesores se quejan con frecuencia de que algunos exámenes no evalúan adecuadamente el programa de estudios en el que se basa el examen; efectivamente, están cuestionando la validez del examen.

La validez de una evaluación generalmente se mide mediante el examen de evidencia en las siguientes categorías:

Validez de contenido : ¿el contenido de la prueba mide los objetivos establecidos?
Validez de criterio : ¿Se correlacionan las puntuaciones con una referencia externa? (por ejemplo: ¿Las puntuaciones altas en una prueba de lectura de cuarto grado predicen con precisión la habilidad de lectura en grados futuros?)
Validez de constructo – ¿La evaluación corresponde a otras variables significativas? (por ejemplo: ¿ los estudiantes de ESL obtienen resultados consistentemente diferentes en un examen escrito que los hablantes nativos de inglés?) ^[23]

Otros son: ^[18]^[21]

validez consecuencial
validez aparente

Una buena evaluación tiene validez y confiabilidad, además de los otros atributos de calidad mencionados anteriormente para un contexto y propósito específicos. En la práctica, una evaluación rara vez es totalmente válida o totalmente confiable. Una regla mal marcada siempre dará las mismas medidas (incorrectas). Es muy confiable, pero no muy válido. Pedir a personas al azar que digan la hora sin mirar un reloj se utiliza a veces como ejemplo de evaluación válida, pero no confiable. Las respuestas variarán entre individuos, pero la respuesta promedio probablemente se acerque al tiempo real. En muchos campos, como la investigación médica, las pruebas educativas y la psicología, a menudo habrá un equilibrio entre confiabilidad y validez. Un examen de historia escrito para una alta validez tendrá muchas preguntas de ensayo y para completar espacios en blanco. Será una buena medida del dominio de la materia, pero difícil de calificar con total precisión. Una prueba de historia escrita para una alta confiabilidad será completamente de opción múltiple. No es tan bueno para medir el conocimiento de la historia, pero se puede calificar fácilmente con gran precisión. Podemos generalizar a partir de esto. Cuanto más confiable sea nuestra estimación de lo que pretendemos medir, menos seguros estaremos de que en realidad estemos midiendo ese aspecto del logro.

Conviene distinguir entre validez "temática" y validez "predictiva". El primero, ampliamente utilizado en educación, predice la puntuación que obtendría un estudiante en una prueba similar pero con preguntas diferentes. Este último, ampliamente utilizado en el lugar de trabajo, predice el desempeño. Por lo tanto, una prueba de conocimiento de las reglas de conducción válida para el tema es apropiada, mientras que una prueba predictivamente válida evaluaría si el conductor potencial podría seguir esas reglas.

Sentido práctico

Este principio se refiere a las limitaciones de tiempo y costo durante la construcción y administración de un instrumento de evaluación. ^[18] Lo que significa que la prueba debería ser económica de realizar. El formato de la prueba debe ser sencillo de entender. Además, la resolución de una prueba debe realizarse en el plazo adecuado. Generalmente es sencillo de administrar. Su procedimiento de evaluación debe ser particular y eficiente en el tiempo. ^[22]

Autenticidad

El instrumento de evaluación es auténtico cuando está contextualizado, contiene lenguaje natural y un tema significativo, relevante e interesante, y replica experiencias del mundo real. ^[18]

lavado

Este principio se refiere a la consecuencia de una evaluación sobre la enseñanza y el aprendizaje dentro de las aulas. ^[18] El lavado puede ser positivo y negativo. El lavado positivo se refiere a los efectos deseados de una prueba, mientras que el lavado negativo se refiere a las consecuencias negativas de una prueba. Para tener un retorno positivo, se puede utilizar la planificación de la instrucción. ^[24]

Estándares de evaluación

En el campo de la evaluación , y en particular de la evaluación educativa en América del Norte, el Comité Conjunto de Estándares para la Evaluación Educativa ha publicado tres conjuntos de estándares para evaluaciones. Los Estándares de Evaluación de Personal se publicaron en 1988, ^[25] Los Estándares de Evaluación de Programas (segunda edición) se publicaron en 1994, ^[26] y los Estándares de Evaluación de Estudiantes se publicaron en 2003. ^[27]

Cada publicación presenta y elabora un conjunto de estándares para su uso en una variedad de entornos educativos. Los estándares proporcionan pautas para diseñar, implementar, evaluar y mejorar la forma de evaluación identificada. Cada uno de los estándares ha sido colocado en una de cuatro categorías fundamentales para promover evaluaciones educativas que sean adecuadas, útiles, factibles y precisas. En estos conjuntos de estándares, las consideraciones de validez y confiabilidad se tratan en el tema de precisión. Por ejemplo, los estándares de precisión de los estudiantes ayudan a garantizar que las evaluaciones de los estudiantes proporcionen información sólida, precisa y creíble sobre el aprendizaje y el desempeño de los estudiantes.

En el Reino Unido, está disponible un premio en Capacitación, Evaluación y Garantía de Calidad (TAQA) para ayudar al personal a aprender y desarrollar buenas prácticas en relación con la evaluación educativa en contextos de educación y capacitación para adultos, continua y basada en el trabajo. ^[28]

Cuadro resumen de los principales marcos teóricos

La siguiente tabla resume los principales marcos teóricos detrás de casi todo el trabajo teórico y de investigación, y las prácticas instruccionales en educación (una de ellas es, por supuesto, la práctica de la evaluación). Estos diferentes marcos han dado lugar a interesantes debates entre los académicos.

Controversia

Las preocupaciones sobre cuál es la mejor manera de aplicar las prácticas de evaluación en los sistemas de escuelas públicas se han centrado en gran medida en cuestiones sobre el uso de pruebas de alto riesgo y pruebas estandarizadas, que a menudo se utilizan para medir el progreso de los estudiantes, la calidad de los docentes y el éxito educativo en la escuela, el distrito o el estado. .

Ningún niño dejado atrás

Para la mayoría de los investigadores y profesionales, la pregunta no es si las pruebas deberían administrarse en absoluto; existe un consenso general de que, cuando se administran de manera útil, las pruebas pueden ofrecer información útil sobre el progreso de los estudiantes y la implementación del plan de estudios, además de ofrecer usos formativos para estudiantes. ^[29] La verdadera cuestión, entonces, es si las prácticas de evaluación, tal como se implementan actualmente, pueden proporcionar estos servicios a educadores y estudiantes.

El presidente Bush firmó la Ley Que Ningún Niño Se Quede Atrás (NCLB) el 8 de enero de 2002. La Ley NCLB reautorizó la Ley de Educación Primaria y Secundaria (ESEA) de 1965. El presidente Johnson firmó la ESEA para ayudar a luchar en la Guerra contra la Pobreza y ayudó a financiar las escuelas primarias. y escuelas secundarias. El objetivo del presidente Johnson era enfatizar el acceso igualitario a la educación y establecer altos estándares y responsabilidad. La Ley NCLB exigía que los estados desarrollaran evaluaciones de habilidades básicas. Para recibir financiación escolar federal, los estados tenían que realizar estas evaluaciones a todos los estudiantes en un nivel de grado seleccionado.

En Estados Unidos, la Ley Que Ningún Niño Se Quede Atrás exige pruebas estandarizadas en todo el país. Estas pruebas se alinean con el plan de estudios estatal y vinculan la responsabilidad de los maestros, estudiantes, distrito y estado con los resultados de estas pruebas. Los defensores de la NCLB argumentan que ofrece un método tangible para medir el éxito educativo, responsabilizar a los maestros y las escuelas por las calificaciones deficientes y cerrar la brecha de rendimiento entre clases y etnias. ^[30]

Quienes se oponen a las pruebas estandarizadas cuestionan estas afirmaciones, argumentando que responsabilizar a los educadores por los resultados de las pruebas conduce a la práctica de " enseñar para la prueba ". Además, muchos argumentan que el enfoque en las pruebas estandarizadas alienta a los docentes a dotar a los estudiantes de un conjunto limitado de habilidades que mejoran el desempeño en las pruebas sin fomentar realmente una comprensión más profunda de la materia o de los principios clave dentro de un dominio de conocimiento. ^[31]

Pruebas de alto riesgo

Las evaluaciones que han causado más controversia en EE.UU. son el uso de exámenes de graduación de la escuela secundaria , que se utilizan para negar diplomas a estudiantes que han asistido a la escuela secundaria durante cuatro años, pero no pueden demostrar que han aprendido el material requerido al escribir los exámenes. . Los opositores dicen que a ningún estudiante que haya trabajado cuatro años en una clase se le debería negar un diploma de escuela secundaria simplemente por reprobar repetidamente un examen, o incluso por no conocer el material requerido. ^[32]^[33]^[34]

Se ha culpado a las pruebas de alto riesgo de causar enfermedades y ansiedad ante los exámenes en estudiantes y profesores, y de que los profesores opten por limitar el plan de estudios a lo que el profesor cree que se evaluará. En un ejercicio diseñado para que los niños se sientan cómodos con las pruebas, un periódico de Spokane, Washington, publicó una imagen de un monstruo que se alimenta del miedo. ^[35] La imagen publicada es supuestamente la respuesta de una estudiante a la que se le pidió que hiciera un dibujo de lo que pensaba de la evaluación estatal.

Otros críticos, como Don Orlich de la Universidad Estatal de Washington , cuestionan el uso de elementos de prueba que van mucho más allá de los niveles cognitivos estándar para la edad de los estudiantes. ^[36]

En comparación con las evaluaciones de portafolios, las pruebas simples de opción múltiple son mucho menos costosas, menos propensas a desacuerdos entre los evaluadores y pueden calificarse lo suficientemente rápido como para devolverlas antes de que finalice el año escolar. Las pruebas estandarizadas (todos los estudiantes toman la misma prueba en las mismas condiciones) suelen utilizar pruebas de opción múltiple por estos motivos. Orlich critica el uso de pruebas costosas y con calificación integral, en lugar de "pruebas de burbuja" económicas de opción múltiple, para medir la calidad tanto del sistema como de los individuos para un gran número de estudiantes. ^[36] Otros críticos destacados de las pruebas de alto riesgo incluyen a Fairtest y Alfie Kohn .

El uso de pruebas de coeficiente intelectual ha sido prohibido en algunos estados para tomar decisiones educativas, y las pruebas basadas en normas , que clasifican a los estudiantes de "mejores" a "peores", han sido criticadas por su sesgo contra las minorías. La mayoría de los funcionarios de educación apoyan las pruebas basadas en criterios (la puntuación de cada estudiante depende únicamente de si respondió correctamente las preguntas, independientemente de si a sus vecinos les fue mejor o peor) para tomar decisiones de alto riesgo.

Evaluación del siglo XXI

Se ha observado ampliamente que con el surgimiento de las redes sociales y las tecnologías y mentalidades Web 2.0 , el aprendizaje es cada vez más colaborativo y el conocimiento se distribuye cada vez más entre muchos miembros de una comunidad de aprendizaje. Sin embargo, las prácticas tradicionales de evaluación se centran en gran medida en el individuo y no tienen en cuenta la construcción de conocimientos y el aprendizaje en contexto. A medida que los investigadores en el campo de la evaluación consideren los cambios culturales que surgen del surgimiento de una cultura más participativa , necesitarán encontrar nuevos métodos para aplicar las evaluaciones a los estudiantes. ^[37]

Evaluación del aprendizaje a gran escala

Las evaluaciones de aprendizaje a gran escala (LSLA) son evaluaciones a nivel de sistema que brindan una instantánea de los logros de aprendizaje de un grupo de estudiantes en un año determinado y en un número limitado de dominios. A menudo se clasifican como evaluaciones nacionales o transnacionales y llaman la atención sobre cuestiones relacionadas con los niveles de aprendizaje y los determinantes del aprendizaje, incluida la calificación de los docentes ; la calidad de los entornos escolares ; apoyo y orientación de los padres ; y salud social y emocional dentro y fuera de las escuelas. ^[38]

Evaluación en una escuela democrática

El modelo Sudbury de escuelas de educación democrática no realiza ni ofrece evaluaciones, expedientes académicos ni recomendaciones. Afirman que no califican a las personas y que la escuela no es un juez; Comparar a los estudiantes entre sí, o con algún estándar establecido es para ellos una violación del derecho del estudiante a la privacidad y a la autodeterminación . Los estudiantes deciden por sí mismos cómo medir su progreso como estudiantes emprendedores como un proceso de autoevaluación: un verdadero aprendizaje permanente y la evaluación educativa adecuada para el siglo XXI, alegan. ^[39]

Según las escuelas de Sudbury, esta política no causa daño a sus estudiantes a medida que avanzan hacia la vida fuera de la escuela. Sin embargo, admiten que esto hace que el proceso sea más difícil, pero que esas dificultades son parte de que los estudiantes aprendan a hacer su propio camino, establecer sus propios estándares y alcanzar sus propias metas.

La política de no calificar ni calificar ayuda a crear una atmósfera libre de competencia entre los estudiantes o de batallas por la aprobación de los adultos, y fomenta un ambiente cooperativo positivo entre el alumnado. ^[40]

La etapa final de la educación en Sudbury, si el estudiante decide cursarla, es la tesis de graduación. Cada estudiante escribe sobre el tema de cómo se han preparado para la edad adulta y para ingresar a la comunidad en general. Esta tesis se presenta a la Asamblea, quien la revisa. La etapa final del proceso de tesis es una defensa oral dada por el estudiante en la que abre el piso para preguntas, impugnaciones y comentarios de todos los asambleístas. Al final, la Asamblea vota secretamente sobre la concesión o no del diploma. ^[41]

Evaluación de estudiantes ELL

Una preocupación importante con el uso de evaluaciones educativas es la validez, precisión y equidad generales cuando se trata de evaluar a los estudiantes del idioma inglés (ELL). La mayoría de las evaluaciones dentro de los Estados Unidos tienen estándares normativos basados en la cultura de habla inglesa, que no representa adecuadamente a las poblaciones de ELL. ^{[ cita necesaria ]} En consecuencia, en muchos casos sería inexacto e inapropiado sacar conclusiones de las puntuaciones normativas de los estudiantes ELL. Las investigaciones muestran que la mayoría de las escuelas no modifican adecuadamente las evaluaciones para acomodar a estudiantes de orígenes culturales únicos. ^{[ cita necesaria ]} Esto ha resultado en una derivación excesiva de estudiantes ELL a educación especial, lo que hace que estén representados de manera desproporcionada en los programas de educación especial. Aunque algunos pueden ver esta ubicación inapropiada en educación especial como un apoyo y una ayuda, las investigaciones han demostrado que los estudiantes ubicados de manera inapropiada en realidad retrocedieron en su progreso. ^{[ cita necesaria ]}

A menudo es necesario utilizar los servicios de un traductor para administrar la evaluación en el idioma nativo de un estudiante ELL; sin embargo, existen varios problemas al traducir los elementos de evaluación. Un problema es que las traducciones frecuentemente pueden sugerir una respuesta correcta o esperada, cambiando la dificultad del ítem de evaluación. ^[42] Además, la traducción de los ítems de evaluación a veces puede distorsionar el significado original del ítem. ^[42] Finalmente, muchos traductores no están calificados ni capacitados adecuadamente para trabajar con estudiantes ELL en una situación de evaluación. ^{[ cita necesaria ]} Todos estos factores comprometen la validez y la equidad de las evaluaciones, lo que hace que los resultados no sean confiables. Las evaluaciones no verbales han demostrado ser menos discriminatorias para los estudiantes ELL; sin embargo, algunas todavía presentan sesgos culturales dentro de los ítems de evaluación. ^[42]

Al considerar a un estudiante ELL para educación especial, el equipo de evaluación debe integrar e interpretar toda la información recopilada para garantizar una conclusión no sesgada. ^[42] La decisión debe basarse en fuentes multidimensionales de datos, incluidas entrevistas a maestros y padres, así como observaciones en el aula. ^[42] Las decisiones deben tener en cuenta los antecedentes culturales, lingüísticos y experienciales únicos de los estudiantes y no deben basarse estrictamente en los resultados de la evaluación.

Cribado universal

La evaluación puede estar asociada con la disparidad cuando los estudiantes de grupos tradicionalmente subrepresentados son excluidos de las pruebas necesarias para acceder a ciertos programas u oportunidades, como es el caso de los programas para superdotados . Una forma de combatir esta disparidad es la evaluación universal, que implica evaluar a todos los estudiantes (por ejemplo, para detectar superdotación) en lugar de evaluar solo a algunos estudiantes según las recomendaciones de los maestros o los padres. La evaluación universal da como resultado grandes aumentos en grupos tradicionalmente desatendidos (como negros, hispanos, pobres, mujeres y estudiantes ELL) identificados para programas para superdotados, sin que los estándares de identificación se modifiquen de ninguna manera. ^[43]

Ver también

Evaluación de equivalencia académica
Evaluación asistida por computadora
Inventario de conceptos
El aprendizaje basado en la confianza mide con precisión la calidad del conocimiento de un alumno midiendo tanto la exactitud de su conocimiento como la confianza de la persona en ese conocimiento.
E-scape , una tecnología y un enfoque que analiza específicamente la evaluación de la creatividad y la colaboración.
Fines y objetivos educativos.
La evaluación educativa se ocupa específicamente de la evaluación tal como se aplica a un entorno educativo. Como ejemplo, se puede utilizar en el programa gubernamental Que Ningún Niño Se Quede Atrás (NCLB) instituido por el gobierno de los EE. UU.
Un portafolio electrónico es un registro digital personal que contiene información como una colección de artefactos o evidencia que demuestra lo que uno sabe y puede hacer.
La evaluación es el proceso de observar lo que se está evaluando para asegurarse de que se estén considerando las áreas correctas.
Calificar es el proceso de asignar una clasificación (posiblemente mutuamente excluyente) a los alumnos.
La evaluación del impacto en la salud analiza los posibles impactos en la salud de las políticas, programas y proyectos.
La constante macabra es un sesgo teórico en la evaluación educativa
La medición educativa es un proceso de valoración o evaluación en el que el objetivo es cuantificar el nivel de logro o competencia dentro de un dominio específico. Consulte el modelo de medición de Rasch para obtener más información sobre los requisitos conceptuales de dichos procesos, incluidos los relacionados con la calificación y el uso de puntuaciones brutas de las evaluaciones.
La evaluación de un programa es esencialmente un conjunto de filosofías y técnicas para determinar si un programa "funciona".
Pruebas de progreso
Psicometría , la ciencia de medir las características psicológicas.
Pruebas psicológicas
Rúbricas para la evaluación
Educación en ciencia, tecnología, sociedad y medio ambiente.
La evaluación del impacto social analiza los posibles impactos sociales de nuevos proyectos de infraestructura propuestos, proyectos de recursos naturales o actividades de desarrollo.
Las pruebas estandarizadas son cualquier prueba que se utiliza en una variedad de escuelas u otras situaciones.
Evaluación basada en estándares
Robert E. Stake es un investigador educativo en el campo de las evaluaciones curriculares.
Evaluación de escritura
Fijación métrica

Referencias

^ Algunos educadores y teóricos de la educación utilizan los términos valoración y evaluación para referirse a los diferentes conceptos de prueba durante un proceso de aprendizaje para mejorarlo (para lo cual son preferibles los términos igualmente inequívocos evaluación formativa o evaluación formativa ) y de prueba después de la finalización de un aprendizaje. proceso (para el cual son preferibles los términos igualmente inequívocos evaluación sumativa o evaluación sumativa ), pero en realidad son sinónimos y no significan intrínsecamente cosas diferentes. La mayoría de los diccionarios no sólo dicen que estos términos son sinónimos sino que también los utilizan para definirse entre sí. Si los términos se utilizan para conceptos diferentes, una edición cuidadosa requiere tanto la explicación de que normalmente son sinónimos como la aclaración de que se utilizan para referirse a conceptos diferentes en el texto actual.
^ Allen, MJ (2004). Evaluación de programas académicos en educación superior . San Francisco: Jossey-Bass.
^ Kuh, GD; Jankowski, N.; Ikenberry, SO (2014). Saber lo que los estudiantes saben y pueden hacer: el estado actual de la evaluación de los resultados del aprendizaje en los colegios y universidades de EE. UU. (PDF) . Urbana: Universidad de Illinois y Universidad de Indiana, Instituto Nacional para la Evaluación de los Resultados del Aprendizaje.
^ Consejo Nacional de Medición en Educación http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA Archivado 2017-07 -22 en la Wayback Machine
^ Nelson, Robert; Dawson, Phillip (2014). "Una contribución a la historia de la evaluación: cómo un simulador de conversación rescata el método socrático". Valoración y evaluación en la educación superior . 39 (2): 195–204. doi :10.1080/02602938.2013.798394. S2CID 56445840.
^ Suskie, Linda (2004). Evaluación del aprendizaje de los estudiantes . Bolton, MA: Anker.
^ Universidad de Oxford Brookes. "Finalidades y principios de la evaluación". www.brookes.ac.uk . Archivado desde el original el 9 de octubre de 2018 . Consultado el 9 de octubre de 2018 .
^ Black, Paul y William, Dylan (octubre de 1998). "Dentro de la caja negra: elevar los estándares mediante la evaluación en el aula". Phi Beta Kappan. Disponible en http://www.pdkmembers.org/members_online/members/orders.asp?action=results&t=A&desc=Inside+the+Black+Box%3A+Raising+Standards+Through+Classroom+Essessment&text=&lname_1=&fname_1= &lname_2=&fname_2=&kw_1=&kw_2=&kw_3=&kw_4=&mn1=&yr1=&mn2=&yr2=&c1= ^{[ enlace muerto permanente ]} PDKintl.org]. Consultado el 28 de enero de 2009.
^ Madaus, George F.; Airasian, Peter W. (30 de noviembre de 1969). "Evaluación de ubicación, formativa, diagnóstica y sumativa del aprendizaje en el aula". {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ abcd Mctighe, Jay; O'Connor, Ken (noviembre de 2005). "Siete prácticas para un aprendizaje eficaz". Liderazgo educacional . 63 (3): 10-17. Archivado desde el original el 6 de octubre de 2019 . Consultado el 3 de marzo de 2017 .
^ "Robert e. Stake, Director". Archivado desde el original el 8 de febrero de 2009 . Consultado el 29 de enero de 2009 .
^ Scriven, M. (1991). Tesauro de evaluación. 4ª edición. Newbury Park, CA: Publicaciones SAGE . ISBN 0-8039-4364-4 .
^ Conde, Lorna (2003). Evaluación como aprendizaje: uso de la evaluación en el aula para maximizar el aprendizaje de los estudiantes. Thousand Oaks, California, Corwin Press. ISBN 0-7619-4626-8
^ Caña, Daniel. "Evaluación Diagnóstica en la Enseñanza y Aprendizaje de Lenguas". Centro para la Educación e Investigación de Idiomas, disponible en Google.com Archivado el 14 de septiembre de 2011 en Wayback Machine . Consultado el 28 de enero de 2009.
^ Comité Conjunto de Sistemas de Información (JISC). "¿Qué queremos decir con evaluación electrónica?" InfoNet JISC. Obtenido el 29 de enero de 2009 de http://tools.jiscinfonet.ac.uk/downloads/vle/eassessment-printable.pdf Archivado el 16 de enero de 2017 en Wayback Machine.
^ Tecnologías educativas en Virginia Tech. "Fines de la Evaluación". VirginiaTech DesignShop: Lecciones sobre enseñanza eficaz, disponible en Edtech.vt.edu Archivado el 26 de febrero de 2009 en Wayback Machine . Consultado el 29 de enero de 2009.
^ Valencia, Sheila W. "¿Cuáles son las diferentes formas de evaluación auténtica?" Comprender la auténtica evaluación de la alfabetización basada en el aula (1997), disponible en Eduplace.com Archivado el 28 de octubre de 2019 en Wayback Machine . Consultado el 29 de enero de 2009.
^ abcdef Marrón, Douglas; Abeywickrama, Priyanvada (2010). Evaluación del lenguaje, principios y prácticas en el aula . Estados Unidos de América: Pearson Longman. ISBN 978-0-13-814931-4.
^ Universidad de Oxford Brookes. "Principios de evaluación". www.brookes.ac.uk . Consultado el 9 de octubre de 2018 .
^ Yu, Chong Ho (2005). "Fiabilidad y Validez." Evaluación Educativa. Disponible en Creative-wisdom.com. Consultado el 29 de enero de 2009.
^ ab Fawcett, Alison (2013). Principios de evaluación y medición de resultados para fisioterapeutas y terapeutas ocupacionales: teoría, habilidades y aplicación . John Wiley e hijos. ISBN 9781118709696.
^ ab "Confiabilidad, validez y practicidad | Enseñar inglés | Englishpost.org". Englishpost.org . 26 de junio de 2012 . Consultado el 30 de octubre de 2018 .
^ Moskal, Bárbara; Leydens, Jon (23 de noviembre de 2019). "Desarrollo de rúbricas de puntuación: validez y confiabilidad". Valoración, investigación y evaluación prácticas . 7 (1). doi :10.7275/q7rm-gg74.
^ "Comprensión de la evaluación: lavado y planificación de la instrucción". www.cal.org . Consultado el 29 de octubre de 2018 .
^ Comité Conjunto de Estándares para la Evaluación Educativa. (1988). "Los estándares de evaluación del personal: cómo evaluar los sistemas de evaluación de educadores". Newbury Park, CA: Publicaciones SAGE
^ Comité Conjunto de Estándares para la Evaluación Educativa. (1994). Los Estándares de Evaluación de Programas , 2da Edición. Newbury Park, CA: Publicaciones SAGE
^ Comité de Estándares para la Evaluación Educativa. (2003). Los estándares de evaluación de estudiantes: cómo mejorar las evaluaciones de los estudiantes . Newbury Park, California: Corwin Press
^ City & Guilds, Comprensión de los principios y la práctica de la evaluación: hoja informativa sobre calificación, consultado el 26 de febrero de 2020
^ Asociación Estadounidense de Psicología. "Uso apropiado de pruebas de alto riesgo en las escuelas de nuestra nación". APA Online, disponible en APA.org, obtenido el 24 de enero de 2010
^ (nd) Reautorización de NCLB. Departamento de Educación. Consultado el 29/01/09.
^ (nd) ¿Qué hay de malo en las pruebas estandarizadas? FairTest.org. Consultado el 29 de enero de 2009.
^ Maldita sea, Nick (18 de marzo de 2003). "Reformar la educación, no los exámenes de salida". Bruin diario . Una queja común de quienes no aprobaron el examen es que no les enseñaron el material examinado en la escuela. En este caso, la culpa la tiene la escolarización inadecuada, no los exámenes. Culpar a la prueba por el fracaso es como culpar a la estación de servicio por un control fallido de smog; ignora los problemas subyacentes dentro del 'vehículo escolar'.^{[ enlace muerto permanente ]}
^ Weinkopf, Chris (2002). "Culpe a la prueba: LAUSD niega responsabilidad por puntuaciones bajas". Noticias diarias . Archivado desde el original el 2 de febrero de 2017 . Consultado el 4 de mayo de 2010 . La culpa la tienen las 'pruebas de alto riesgo' como el Stanford 9 y el Examen de Egreso de la Escuela Secundaria de California. La dependencia de tales pruebas, se queja la junta, "penaliza injustamente a los estudiantes que no han recibido las herramientas académicas para desempeñarse a su máximo potencial en estas pruebas".
^ "Culpar a la prueba". Diario de negocios del inversor . 11 de mayo de 2006. Un juez de California se dispone a anular el examen de egreso de la escuela secundaria de ese estado. ¿Por qué? Porque está funcionando. Les está diciendo a los estudiantes que necesitan aprender más. A eso lo llamamos información útil. Para los demandantes que demandan para detener el uso del examen como requisito de graduación, es otra cosa: evidencia de trato desigual... el examen de salida se consideró injusto porque muchos estudiantes que no aprobaron el examen tenían muy pocos maestros acreditados. Bueno, tal vez lo hicieron, pero otorgarles un diploma cuando carecen de los conocimientos necesarios sólo agrava la injusticia al dejarles con un trozo de papel sin valor".^{[ enlace muerto permanente ]}
^ "ASD.wednet.edu". Archivado desde el original el 25 de febrero de 2007 . Consultado el 22 de septiembre de 2006 .
^ ab Bach, Deborah y Blanchard, Jessica (19 de abril de 2005). "WASL preocupa el estrés de los niños y las escuelas". Seattle Post-Intelligencer. Obtenido el 30 de enero de 2009 de Seattlepi.nwsource.com.
^ Fadel, Charles, Honey, Margaret y Pasnik, Shelley (18 de mayo de 2007). "Evaluación en la era de la innovación". Semana de la Educación. Obtenido el 29 de enero de 2009 de http://www.edweek.org/ew/articles/2007/05/23/38fadel.h26.html
^ UNESCO (2019). La promesa de las evaluaciones del aprendizaje a gran escala: reconocer los límites para desbloquear oportunidades. UNESCO. ISBN 978-92-3-100333-2.
^ Greenberg, D. (2000). Escuelas del siglo XXI, transcripción editada de una charla pronunciada en la Conferencia Internacional sobre el Aprendizaje en el Siglo XXI de abril de 2000.
^ Greenberg, D. (1987). Capítulo 20, Evaluación, por fin libre: la escuela del Valle de Sudbury.
^ Procedimiento de tesis de graduación, Escuela Mountain Laurel Sudbury.
^ abcde "Copia archivada" (PDF) . Archivado desde el original (PDF) el 29 de mayo de 2012 . Consultado el 11 de abril de 2012 .{{cite web}}: Mantenimiento CS1: copia archivada como título ( enlace )
^ Tarjeta, D. y Giuliano, L. (2015). ¿Puede la evaluación universal aumentar la representación de estudiantes de minorías y de bajos ingresos en la educación para superdotados? (Documento de Trabajo No. 21519). Cambridge, MA: Oficina Nacional de Investigaciones Económicas. Obtenido de www.nber.org/papers/w21519

Fuentes

Este artículo incorpora texto de un trabajo de contenido gratuito . Licenciado bajo CC BY-SA 3.0 IGO. Texto tomado de La promesa de las evaluaciones de aprendizaje a gran escala: reconocer los límites para desbloquear oportunidades, UNESCO, UNESCO. UNESCO.

Otras lecturas

Asociación Estadounidense de Investigación Educativa, Asociación Estadounidense de Psicología y Consejo Nacional para la Medición en Educación. (2014). Normas para las pruebas educativas y psicológicas. Washington, DC: Asociación Estadounidense de Investigación Educativa.
Bennett, Randy Elliot (marzo de 2015). "La naturaleza cambiante de la evaluación educativa". Revista de Investigación en Educación . 39 (1): 370–407. doi :10.3102/0091732x14554179. S2CID 145592665.
Marrón, GTL (2018). Evaluación del rendimiento estudiantil. Nueva York: Routledge.
Sin coche, David. Excelencia en evaluación universitaria: aprender de prácticas premiadas . Londres: Routledge, 2015.
Klinger, D., McDivitt, P., Howard, B., Rogers, T., Muñoz, M. y Wylie, C. (2015). Estándares de evaluación en el aula para maestros de PreK-12: Comité Conjunto de Estándares para la Evaluación Educativa.
Kubiszyn, T. y Borich, GD (2012). Pruebas y medidas educativas: aplicación y práctica en el aula (10ª ed.). Nueva York: John Wiley & Sons.
Miller, DM, Linn, RL y Gronlund, NE (2013). Medición y Evaluación en la Docencia (11ª ed.). Boston, MA: Pearson.
Consejo nacional de investigación. (2001). Saber lo que saben los estudiantes: la ciencia y el diseño de la evaluación educativa. Washington, DC: Prensa de la Academia Nacional.
Nitko, AJ (2001). Evaluación educativa de los estudiantes (3ª ed.). Upper Saddle River, Nueva Jersey: Merrill.
Phelps, Richard P., Ed. Corrección de falacias sobre pruebas educativas y psicológicas . Washington, DC: Asociación Estadounidense de Psicología, 2008.
Phelps, Richard P., Manual de pruebas estandarizadas . Nueva York: Peter Lang, 2007.
Russell, MK y Airasian, PW (2012). Evaluación en el aula: conceptos y aplicaciones (7ª ed.). Nueva York: McGraw Hill.
Shepard, Luisiana (2006). Evaluación en el aula. En RL Brennan (Ed.), Medición educativa (4ª ed., págs. 623–646). Westport, CT: Praeger.