Prueba estandarizada

Una prueba estandarizada es una prueba que se administra y califica de manera consistente o "estándar". Las pruebas estandarizadas están diseñadas de tal manera que las preguntas y las interpretaciones sean consistentes y se administren y califiquen de una manera estándar predeterminada. ^[1]

Cualquier prueba en la que se da la misma prueba de la misma manera a todos los examinados, y se califica de la misma manera para todos, es una prueba estandarizada. Las pruebas estandarizadas no necesitan ser pruebas de alto riesgo , pruebas de tiempo limitado, pruebas de opción múltiple , pruebas académicas o pruebas administradas a un gran número de examinados. Una prueba estandarizada puede ser cualquier tipo de prueba: una prueba escrita, una prueba oral o una prueba de desempeño de habilidades prácticas . Las preguntas pueden ser simples o complejas. El tema entre los estudiantes en edad escolar es con frecuencia las habilidades académicas, pero una prueba estandarizada se puede administrar sobre casi cualquier tema, incluyendo pruebas de manejo , creatividad , atletismo , personalidad , ética profesional u otros atributos.

Lo opuesto a las pruebas estandarizadas son las pruebas no estandarizadas , en las que se dan pruebas significativamente diferentes a diferentes examinados, o se asigna la misma prueba en condiciones significativamente diferentes (por ejemplo, a un grupo se le permite mucho menos tiempo para completar la prueba que al siguiente grupo) o se evalúa de manera diferente (por ejemplo, la misma respuesta se considera correcta para un estudiante, pero incorrecta para otro).

La mayoría de los exámenes y pruebas que los estudiantes realizan a diario en la escuela cumplen con la definición de prueba estandarizada: todos los miembros de la clase realizan la misma prueba, al mismo tiempo, en las mismas circunstancias, y todos los estudiantes reciben la misma calificación por parte de su maestro. Sin embargo, el término prueba estandarizada se utiliza más comúnmente para referirse a las pruebas que se realizan a grupos más grandes, como una prueba que realizan todos los adultos que desean obtener una licencia para tener un tipo particular de trabajo, o todos los estudiantes de una determinada edad. La mayoría de las pruebas estandarizadas son formas de evaluaciones sumativas (evaluaciones que miden el aprendizaje de los participantes al final de una unidad didáctica).

Como todos reciben el mismo examen y el mismo sistema de calificación, las pruebas estandarizadas suelen ser percibidas como más justas que las pruebas no estandarizadas. Estas pruebas suelen considerarse más justas y objetivas que un sistema en el que algunos estudiantes reciben un examen más fácil y otros reciben un examen más difícil. Las pruebas estandarizadas están diseñadas para permitir una comparación confiable de los resultados de todos los examinados, porque todos están haciendo el mismo examen. ^[2]

Definición

La definición de una prueba estandarizada ha cambiado un poco con el tiempo. ^[3] En 1960, las pruebas estandarizadas se definieron como aquellas en las que las condiciones y el contenido eran iguales para todos los que realizaban la prueba, independientemente de cuándo, dónde o por quién se administraba o calificaba la prueba. Las pruebas estandarizadas tienen un método consistente y uniforme para calificar. ^[4] Esto significa que todos los estudiantes que responden una pregunta de la prueba de la misma manera obtendrán la misma puntuación para esa pregunta. El propósito de esta estandarización es asegurarse de que las puntuaciones indiquen de manera confiable las habilidades o destrezas que se están midiendo, y no otras cosas, como diferentes instrucciones sobre qué hacer si el examinado no sabe la respuesta a una pregunta. ^[3]

A principios del siglo XXI, el enfoque se alejó de una estricta igualdad de condiciones hacia una equidad igualitaria de las condiciones de prueba. ^[3] Por ejemplo, un examinado con una muñeca rota podría escribir más lentamente debido a la lesión, y sería más equitativo y produciría una comprensión más confiable del conocimiento real del examinado, si a esa persona se le dieran unos minutos más para escribir las respuestas a una prueba con límite de tiempo. Cambiar las condiciones de la prueba de una manera que mejore la equidad con respecto a una discapacidad permanente o temporal, pero sin socavar el punto principal de la evaluación, se llama adaptación . Sin embargo, si el propósito de la prueba fuera ver qué tan rápido podía escribir el estudiante, entonces darle al examinado tiempo adicional se convertiría en una modificación del contenido y ya no en una prueba estandarizada.

Historia

Porcelana

La evidencia más temprana de pruebas estandarizadas se encontró en China , durante la dinastía Han , ^[5] donde los exámenes imperiales cubrían las Seis Artes , que incluían música, tiro con arco, equitación, aritmética, escritura y conocimiento de los rituales y ceremonias de los sectores público y privado. Estos exámenes se utilizaban para seleccionar empleados para la burocracia estatal.

Más tarde, se añadieron a las pruebas secciones sobre estrategias militares, derecho civil, ingresos e impuestos, agricultura y geografía. De esta forma, los exámenes se institucionalizaron durante más de un milenio.

Hoy en día, las pruebas estandarizadas siguen siendo ampliamente utilizadas, la más famosa de las cuales es el sistema Gaokao .

Reino Unido

Las pruebas estandarizadas se introdujeron en Europa a principios del siglo XIX, siguiendo el modelo de los exámenes del mandarín chino , ^[6] gracias a la defensa de los administradores coloniales británicos, el más "persistente" de los cuales fue el cónsul británico en Guangzhou, China , Thomas Taylor Meadows . ^[6] Meadows advirtió sobre el colapso del Imperio Británico si las pruebas estandarizadas no se implementaban en todo el imperio de inmediato. ^[6]

Antes de su adopción, las pruebas estandarizadas no formaban parte de la pedagogía occidental. Basándose en la tradición escéptica y abierta del debate heredada de la Antigua Grecia, la academia occidental favorecía las evaluaciones no estandarizadas mediante ensayos escritos por los estudiantes. Es por ello que la primera implementación europea de las pruebas estandarizadas no se produjo en Europa propiamente dicha, sino en la India británica . ^[7] Inspirados por el uso chino de las pruebas estandarizadas, a principios del siglo XIX, los "directores de las empresas británicas contrataban y ascendían a los empleados basándose en exámenes competitivos para evitar la corrupción y el favoritismo". ^[7] Esta práctica de las pruebas estandarizadas fue adoptada posteriormente a finales del siglo XIX por el continente británico. Los debates parlamentarios que siguieron hicieron muchas referencias al "sistema chino mandarín". ^[6]

Fue desde Gran Bretaña que las pruebas estandarizadas se extendieron, no solo por toda la Mancomunidad Británica , sino también a Europa y luego a los Estados Unidos. ^[6] Su difusión fue impulsada por la Revolución Industrial . El aumento en el número de estudiantes escolares durante y después de la Revolución Industrial, como resultado de las leyes de educación obligatoria , disminuyó el uso de la evaluación abierta, que era más difícil de producir en masa y evaluar objetivamente debido a su naturaleza intrínsecamente subjetiva.

Durante la Segunda Guerra Mundial, se desarrollaron pruebas estandarizadas, como las Juntas de Selección del Ministerio de Guerra , para el Ejército británico con el fin de elegir a los candidatos para el entrenamiento de oficiales y otras tareas. ^[8] Las pruebas examinaban las capacidades mentales de los soldados, sus habilidades mecánicas, su capacidad para trabajar con otros y otras cualidades. Los métodos anteriores habían estado sesgados y habían dado como resultado la elección de los soldados equivocados para el entrenamiento de oficiales. ^[8]

Estados Unidos

Las pruebas estandarizadas han sido parte de la educación en los Estados Unidos desde el siglo XIX, pero la dependencia generalizada de las pruebas estandarizadas en las escuelas de ese país es en gran medida un fenómeno del siglo XX.

La inmigración a mediados del siglo XIX contribuyó al crecimiento de las pruebas estandarizadas en los Estados Unidos. ^[9] Las pruebas estandarizadas se utilizaron cuando las personas ingresaron por primera vez a los EE. UU. para evaluar los roles sociales y determinar el poder y el estatus social. ^[10]

La Junta de Exámenes de Ingreso a la Universidad comenzó a ofrecer pruebas estandarizadas para la admisión a universidades y colegios en 1901, cubriendo nueve materias. Esta prueba se implementó con la idea de crear admisiones estandarizadas para los Estados Unidos en las universidades de élite del noreste. Originalmente, la prueba también estaba destinada a los mejores internados , con el fin de alinear el plan de estudios entre escuelas. ^[11] Originalmente, la prueba estandarizada estaba compuesta por ensayos y no estaba destinada a una evaluación generalizada. ^[11]

Durante la Primera Guerra Mundial , se desarrollaron las pruebas Alpha y Beta del Ejército para ayudar a colocar a los nuevos reclutas en tareas apropiadas según sus niveles de inteligencia evaluados. ^[12] La primera edición de una prueba estandarizada moderna para el coeficiente intelectual , la Prueba de Inteligencia Stanford-Binet , apareció en 1916. Luego, el College Board diseñó el SAT (Prueba de Aptitud Académica) en 1926. La primera prueba SAT se basó en las pruebas de coeficiente intelectual del Ejército, con el objetivo de determinar la inteligencia, las habilidades de resolución de problemas y el pensamiento crítico del examinado . ^[13] En 1959, Everett Lindquist ofreció el ACT (American College Testing) por primera vez. ^[14] A partir de 2020, el ACT incluye cuatro secciones principales con preguntas de opción múltiple para evaluar inglés, matemáticas, lectura y ciencias, además de una sección de escritura opcional. ^[15]

En la década de 1970, los estados individuales comenzaron a realizar pruebas a un gran número de niños y adolescentes a través de los sistemas de escuelas públicas. En la década de 1980, las escuelas estadounidenses ya realizaban evaluaciones a nivel nacional. ^[16] En 2012, 45 estados pagaron un promedio de 27 dólares por estudiante, y 669 millones de dólares en total, en pruebas académicas anuales a gran escala. ^[17] Sin embargo, los costos indirectos , como el pago a los maestros para preparar a los estudiantes para las pruebas y el tiempo de clase dedicado a administrar las pruebas, superan significativamente el costo directo de la prueba en sí. ^[17]

La necesidad de que el gobierno federal hiciera comparaciones significativas en un sistema de educación pública altamente descentralizado (controlado localmente) alentó el uso de pruebas estandarizadas a gran escala. La Ley de Educación Primaria y Secundaria de 1965 requirió que se realizaran algunas pruebas estandarizadas en las escuelas públicas. La Ley No Child Left Behind de 2001 vinculó aún más algunos tipos de financiamiento de las escuelas públicas a los resultados de las pruebas estandarizadas. Bajo estas leyes federales, el currículo escolar todavía lo establecía cada estado, pero el gobierno federal requería que los estados evaluaran qué tan bien las escuelas y los maestros enseñaban el material elegido por el estado con pruebas estandarizadas. ^[18] Los resultados de los estudiantes en las pruebas estandarizadas a gran escala se utilizaron para asignar fondos y otros recursos a las escuelas y para cerrar las escuelas con un desempeño deficiente. La Ley Cada Estudiante Triunfa reemplazó a la NCLB a fines de 2015. ^[19] En ese momento, estas pruebas estandarizadas a gran escala se habían vuelto controvertidas en los Estados Unidos, no necesariamente porque todos los estudiantes estuvieran tomando las mismas pruebas y obteniendo la misma calificación, sino porque se habían convertido en pruebas de alto riesgo para los sistemas escolares y los maestros. ^[20]

En los últimos años, muchas universidades y colegios estadounidenses han abandonado el requisito de que los solicitantes presenten resultados de exámenes estandarizados. ^[21]

Australia

El Programa Nacional de Evaluación de Australia – Pruebas estandarizadas de alfabetización y aritmética (NAPLAN) fue iniciado en 2008 por la Autoridad Australiana de Currículo, Evaluación e Informes, una autoridad independiente "responsable del desarrollo de un currículo nacional, un programa nacional de evaluación y un programa nacional de recopilación y presentación de datos que respalde el aprendizaje del siglo XXI para todos los estudiantes australianos". ^[22]

Las pruebas incluyen a todos los estudiantes de los años 3, 5, 7 y 9 en las escuelas australianas, que serán evaluados mediante pruebas nacionales. Las materias que se cubren en estas pruebas incluyen lectura, escritura, convenciones lingüísticas (ortografía, gramática y puntuación) y aritmética.

El programa presenta informes de nivel de los estudiantes diseñados para permitir que los padres vean el progreso de sus hijos a lo largo de su vida escolar y ayudar a los maestros a mejorar las oportunidades de aprendizaje individuales para sus estudiantes. Los datos de los estudiantes y del nivel de la escuela también se proporcionan al sistema escolar correspondiente con el entendimiento de que se pueden utilizar para asignar apoyos y recursos específicos a las escuelas que más los necesitan. Los maestros y las escuelas utilizan esta información, junto con otra información, para determinar el rendimiento de sus estudiantes y para identificar las áreas de necesidad que requieren asistencia.

El concepto de evaluar el rendimiento de los estudiantes no es nuevo, aunque se puede decir que el enfoque australiano actual tiene su origen en las estructuras de política educativa vigentes tanto en los Estados Unidos como en el Reino Unido. Existen varias diferencias clave entre el NAPLAN australiano y las estrategias del Reino Unido y los Estados Unidos. A las escuelas que se determine que tienen un rendimiento inferior al esperado en el contexto australiano se les ofrecerá asistencia financiera en virtud de la política actual del gobierno federal.

Colombia

En 1968 nació el Instituto Colombiano para la Evaluación de la Educación (ICFES) con el objetivo de regular la educación superior. Se implementó el anterior sistema público de evaluación para la autorización de funcionamiento y reconocimiento legal de instituciones y programas universitarios.

Colombia cuenta con diversas pruebas estandarizadas que evalúan el nivel de educación en el país. Estos exámenes son realizados por el ICFES.

Los alumnos de tercero, quinto y noveno grado rinden el examen “Saber 3°5°9°”. Esta prueba actualmente se presenta en computadora en muestras controladas y censales.

Al salir del bachillerato los estudiantes presentan el “Saber 11” que les permite ingresar a diferentes universidades del país. Los estudiantes que estudian en casa pueden tomar este examen para graduarse del bachillerato y obtener su certificado de grado y diploma.

Los estudiantes que egresan de la universidad deben realizar el examen “Saber Pro”.

Canadá

Canadá deja la educación y, en consecuencia, las pruebas estandarizadas bajo la jurisdicción de las provincias. Cada provincia tiene su propio régimen de pruebas estandarizadas, que abarca desde la ausencia de pruebas estandarizadas obligatorias para los estudiantes en Saskatchewan hasta exámenes que valen el 40% de las calificaciones finales de la escuela secundaria en Terranova y Labrador. ^[23]

Diseño y puntuación

Diseño

Lo más común es que una prueba académica importante incluya secciones calificadas por humanos y por computadora.

Una prueba estandarizada puede estar compuesta por preguntas de opción múltiple, preguntas de verdadero o falso, preguntas de ensayo, evaluaciones auténticas o casi cualquier otra forma de evaluación. Las preguntas de opción múltiple y de verdadero o falso se eligen a menudo para las pruebas que toman miles de personas porque se pueden administrar y calificar de manera económica, rápida y confiable mediante el uso de hojas de respuestas especiales que se pueden leer con una computadora o mediante pruebas adaptativas por computadora . Algunas pruebas estandarizadas tienen componentes de redacción de respuestas cortas o de ensayo a los que se les asigna una puntuación por parte de evaluadores independientes que utilizan rúbricas (reglas o pautas) y documentos de referencia (ejemplos de documentos para cada puntuación posible) para determinar la calificación que se le dará a una respuesta.

Cualquier tema

No todas las pruebas estandarizadas implican responder preguntas. Una evaluación auténtica de las habilidades atléticas podría consistir en correr durante un tiempo determinado o en driblar una pelota durante una cierta distancia. Los profesionales de la salud deben aprobar pruebas que demuestren que pueden realizar procedimientos médicos. Los candidatos a obtener una licencia de conducir deben aprobar una prueba estandarizada que demuestre que pueden conducir un automóvil. La Prueba estandarizada canadiense de aptitud física se ha utilizado en la investigación médica para determinar la aptitud física de los candidatos. ^[24]^[25]

Puntuación por máquina y por humanos

Desde finales del siglo XX, la evaluación estandarizada a gran escala se ha visto condicionada en parte por la facilidad y el bajo costo de la calificación de las pruebas de opción múltiple por computadora. La mayoría de las evaluaciones nacionales e internacionales no son evaluadas íntegramente por personas.

Las personas están acostumbradas a calificar elementos que no se pueden calificar fácilmente con una computadora (como los ensayos). Por ejemplo, el Graduate Record Exam es una evaluación adaptativa por computadora que no requiere calificación por parte de personas, excepto la parte escrita. ^[26]

La calificación humana es relativamente cara y a menudo variable, por lo que se prefiere la calificación por computadora cuando es posible. Por ejemplo, algunos críticos dicen que los empleados mal pagados calificarán mal los exámenes. ^[27] La concordancia entre los calificadores puede variar entre el 60 y el 85 por ciento, dependiendo del examen y la sesión de calificación. Para los exámenes a gran escala en las escuelas, algunos examinadores pagan para que dos o más calificadores lean cada prueba; si sus calificaciones no concuerdan, entonces la prueba se pasa a otros calificadores. ^[27]

Aunque el proceso es más difícil que calificar exámenes de opción múltiple electrónicamente, los ensayos también pueden calificarse por computadora. En otros casos, los ensayos y otras respuestas abiertas son calificados de acuerdo con una rúbrica de evaluación predeterminada por calificadores capacitados. Por ejemplo, en Pearson, todos los calificadores de ensayos tienen títulos universitarios de cuatro años y la mayoría son maestros de aula actuales o anteriores. ^[28]

Uso de rúbricas para la equidad

El uso de una rúbrica tiene como objetivo aumentar la imparcialidad a la hora de evaluar el desempeño del estudiante. En las pruebas estandarizadas, el error de medición (un patrón constante de errores y sesgos en la calificación de la prueba) es fácil de determinar. Cuando la calificación depende de las preferencias individuales de los calificadores, las calificaciones de los estudiantes dependen de quién califica la prueba.

Las pruebas estandarizadas también eliminan el sesgo de los calificadores en la evaluación. Las investigaciones muestran que los docentes crean una especie de profecía autocumplida en su evaluación de los estudiantes, otorgando a aquellos que anticipan que lograrán buenos resultados calificaciones más altas y otorgando calificaciones más bajas a aquellos que esperan que fracasen. ^[29] En la evaluación no estandarizada, los calificadores tienen más discreción individual y, por lo tanto, es más probable que produzcan resultados injustos a través de sesgos inconscientes .

Uso de puntuaciones para comparaciones

Hay dos tipos de interpretación de las puntuaciones de las pruebas : una interpretación de las puntuaciones referenciada a la norma o una interpretación de las puntuaciones referenciada a un criterio . ^[4]

Las interpretaciones de las puntuaciones basadas en normas comparan a los participantes con una muestra de compañeros . ^[4] El objetivo es clasificar a los estudiantes como mejores o peores que otros estudiantes. Las interpretaciones de las puntuaciones de las pruebas basadas en normas están asociadas con la educación tradicional . Los estudiantes que obtienen mejores resultados que otros aprueban la prueba, y los estudiantes que obtienen peores resultados que otros no la superan.
Las interpretaciones de las puntuaciones basadas en criterios comparan a los examinados con un criterio (una definición formal de contenido), independientemente de las puntuaciones de los demás examinados. ^[4] Estas también pueden describirse como evaluaciones basadas en estándares , ya que están alineadas con el movimiento de reforma educativa basada en estándares . ^[30] Las interpretaciones de las puntuaciones basadas en criterios se ocupan únicamente de si la respuesta de este estudiante en particular es correcta y completa o no. En los sistemas basados en criterios, es posible que todos los estudiantes aprueben la prueba o que todos los estudiantes la suspendan.

Cualquiera de estos sistemas puede utilizarse en las pruebas estandarizadas. Lo importante para las pruebas estandarizadas es que a todos los estudiantes se les formulen preguntas equivalentes, en circunstancias razonablemente iguales, y se les califique de acuerdo con los mismos estándares.

Una evaluación normativa compara a cada candidato con otros candidatos. Una prueba referenciada a normas (NRT) es un tipo de prueba, evaluación o valoración que arroja una estimación de la posición del individuo evaluado en una población predefinida. La estimación se deriva del análisis de las puntuaciones de la prueba y otros datos relevantes de una muestra extraída de la población. Este tipo de prueba identifica si el candidato obtuvo un mejor o peor desempeño que otros estudiantes que realizaron esta prueba.

La comparación con otros hace que las pruebas estandarizadas con referencia a normas sean útiles para fines de admisión en la educación superior, donde una escuela está tratando de comparar a estudiantes de todo el país o de todo el mundo. La estandarización garantiza que todos los estudiantes sean evaluados por igual, y la referencia a normas identifica quiénes son mejores o peores. Algunos ejemplos de tales pruebas de referencia internacionales incluyen el Estudio Internacional de Tendencias en Matemáticas y Ciencias ( TIMMS ) y el Estudio Internacional de Progreso en Competencia Lectora ( PIRLS ).

Una prueba basada en criterios (CRT, por sus siglas en inglés) es un tipo de prueba que utiliza las puntuaciones de las pruebas para mostrar qué tan bien se desempeñaron los examinados en una tarea determinada, no qué tan bien se desempeñaron en comparación con otros examinados. La mayoría de las pruebas y cuestionarios que escriben los maestros de escuela son pruebas basadas en criterios. En este caso, el objetivo es simplemente ver si el estudiante puede responder las preguntas correctamente. El maestro no suele intentar comparar el resultado de cada estudiante con el de otros estudiantes.

Normas

Las consideraciones de validez y confiabilidad suelen considerarse elementos esenciales para determinar la calidad de cualquier prueba estandarizada. Sin embargo, las asociaciones profesionales y de profesionales con frecuencia han situado estas preocupaciones dentro de contextos más amplios al desarrollar estándares y emitir juicios generales sobre la calidad de cualquier prueba estandarizada en su conjunto dentro de un contexto determinado.

Normas de evaluación

En el campo de la evaluación , y en particular de la evaluación educativa , el Comité Conjunto de Normas para la Evaluación Educativa ^[31] ha publicado tres conjuntos de normas para las evaluaciones: las Normas de Evaluación del Personal ^[32] , publicadas en 1988; las Normas de Evaluación de Programas (segunda edición) ^[33] , publicadas en 1994; y las Normas de Evaluación de Estudiantes ^[34], publicadas en 2003.

Cada publicación presenta y elabora un conjunto de estándares para su uso en una variedad de entornos educativos. Los estándares proporcionan pautas para diseñar, implementar, evaluar y mejorar la forma identificada de evaluación. Cada uno de los estándares se ha colocado en una de cuatro categorías fundamentales para promover evaluaciones educativas que sean adecuadas, útiles, factibles y precisas. En estos conjuntos de estándares, las consideraciones de validez y confiabilidad se cubren bajo el tema de precisión. Las pruebas tienen como objetivo garantizar que las evaluaciones de los estudiantes brinden información sólida, precisa y creíble sobre el aprendizaje y el desempeño de los estudiantes; sin embargo, las pruebas estandarizadas ofrecen información limitada sobre muchas formas de inteligencia y confiar en ellas perjudica a los estudiantes porque miden de manera inexacta el potencial de un estudiante para el éxito. ^[35]

Normas de prueba

En el campo de la psicometría , los Estándares para las pruebas educativas y psicológicas^[36] establecen estándares sobre validez y confiabilidad, junto con errores de medición y cuestiones relacionadas con la adaptación de personas con discapacidades . El tercer y último tema principal cubre los estándares relacionados con las solicitudes de pruebas, la acreditación , además de las pruebas en la evaluación de programas y las políticas públicas .

Validez estadística

Una de las principales ventajas de las pruebas estandarizadas a gran escala es que los resultados se pueden documentar empíricamente; por lo tanto, se puede demostrar que las puntuaciones de las pruebas tienen un grado relativo de validez y confiabilidad , así como resultados que son generalizables y replicables. ^[37] Esto a menudo se contrasta con las calificaciones en un expediente académico escolar, que son asignadas por maestros individuales. Al observar las calificaciones asignadas individualmente, puede ser difícil tener en cuenta las diferencias en la cultura educativa entre las escuelas, la dificultad de las tareas de un maestro determinado, las diferencias en el estilo de enseñanza, la presión por la inflación de las calificaciones y otras técnicas y sesgos que afectan la calificación.

Otra ventaja es la agregación. Una prueba estandarizada bien diseñada permite evaluar el dominio de un individuo en un dominio de conocimientos o habilidades que, en cierto nivel de agregación, proporcionará información útil. Es decir, si bien las evaluaciones individuales pueden no ser lo suficientemente precisas para fines prácticos, las puntuaciones medias de las clases, escuelas, sucursales de una empresa u otros grupos pueden proporcionar información útil debido a la reducción de errores que se logra al aumentar el tamaño de la muestra.

Pruebas estandarizadas anuales en la escuela

Las pruebas estandarizadas son una forma muy común de determinar el rendimiento académico pasado y el potencial futuro de un estudiante.

La validez, la calidad o el uso de las pruebas, en particular las pruebas estandarizadas anuales que se utilizan habitualmente en el ámbito educativo, han seguido recibiendo apoyos o críticas. Al igual que las pruebas en sí, los apoyos y las críticas a las pruebas suelen ser variados y pueden provenir de diversas fuentes, como padres, personas que se someten a ellas, profesores, grupos empresariales, universidades o organismos de control gubernamentales.

Los partidarios de las pruebas estandarizadas a gran escala en educación suelen aportar las siguientes razones para promover las pruebas en educación:

Retroalimentación o diagnóstico del desempeño de los examinados: ^[38] Las pruebas estandarizadas permiten a los maestros ver cómo se desempeñan sus estudiantes en comparación con otros en el país. Esto los ayudará a revisar sus métodos de enseñanza si es necesario para ayudar a sus estudiantes a cumplir con los estándares. ^[39] Los estudiantes tienen la oportunidad de reflexionar sobre sus puntajes y ver dónde están sus fortalezas y debilidades. ^[39] Los puntajes pueden permitir que los padres se hagan una idea sobre cómo le está yendo académicamente a su hijo. ^[40]
Justo y eficiente ^[41]
Promueve la rendición de cuentas: ^[38]^[41] Las pruebas estandarizadas se utilizan como una estrategia de política pública para establecer medidas de rendición de cuentas más sólidas para la educación pública . La idea detrás del movimiento de políticas de pruebas estandarizadas es que las pruebas son el primer paso para mejorar las escuelas, la práctica docente y los métodos educativos a través de la recopilación de datos. Los defensores argumentan que los datos generados por las pruebas estandarizadas actúan como una tarjeta de calificaciones para la comunidad, que demuestra qué tan bien se están desempeñando las escuelas locales. Los críticos del movimiento, sin embargo, señalan varias discrepancias que resultan de las prácticas actuales de pruebas estandarizadas estatales, incluidos problemas con la validez y confiabilidad de las pruebas y correlaciones falsas (ver la paradoja de Simpson ).
Predicción y selección ^[38]
Mejora el rendimiento ^[38]

Los críticos de las pruebas estandarizadas en educación a menudo brindan las siguientes razones para revisar o eliminar las pruebas estandarizadas en educación:

Mala calidad predictiva. ^[42]^[43]
Inflación de calificaciones o puntuaciones de exámenes. ^[44]^[45]^[46]
Sesgo cultural o socioeconómico. ^[47]^[48]
Psicológicamente perjudicial. ^[49]
Mal indicador de inteligencia o habilidad. ^[50]^[51]^[52]^[53]

Además, el éxito de los estudiantes se mide en función del desempeño relativo del docente, lo que hace que el avance del docente dependa del éxito del docente en relación con el desempeño académico del estudiante. Los docentes se enfrentan a cuestiones éticas y económicas cuando se enfrentan a estudiantes claramente de bajo rendimiento o con escasas habilidades y a una prueba estandarizada.

En su libro Now You See It , Cathy Davidson critica los exámenes estandarizados. Describe a los jóvenes como "niños de una cadena de montaje", lo que significa que el uso de los exámenes estandarizados forma parte de un modelo educativo de talla única. También critica la estrechez de miras en cuanto a las habilidades que se evalúan y la clasificación de los niños que carecen de ellas como fracasados o como estudiantes con discapacidades. ^[54] El fraude generalizado y organizado se ha convertido en una cultura en crecimiento. ^[55]

Hay tres métricas con las que se mide a los países con mejor desempeño en el TIMMS (los "países A+"): enfoque, coherencia y rigor. El enfoque se define como el número de temas cubiertos en cada grado; la idea es que cuantos menos temas se cubran en cada grado, más enfoque se puede dar a cada tema. La definición de coherencia es adherirse a una secuencia de temas cubiertos que sigue la progresión natural o la estructura lógica de las matemáticas. El CCSSM se comparó tanto con los estándares estatales actuales como con los estándares de los países A+. Con la mayor cantidad de temas cubiertos en promedio, los estándares estatales actuales tuvieron el enfoque más bajo. ^[56] Los Estándares Básicos Comunes tienen como objetivo corregir esta discrepancia ayudando a los educadores a centrarse en lo que los estudiantes necesitan aprender en lugar de distraerse con temas superfluos. Fomentan que los materiales educativos pasen de cubrir una amplia gama de temas de manera superficial a unos pocos temas con mucha más profundidad. ^[57]

Tiempo y dinero

Las pruebas estandarizadas son una forma de medir el nivel educativo de los estudiantes y las escuelas a gran escala. Desde el jardín de infantes hasta el 12.º grado, la mayoría de los estudiantes estadounidenses participan en pruebas estandarizadas anuales. El estudiante promedio realiza alrededor de 10 de estas pruebas por año (por ejemplo, una o dos pruebas de comprensión lectora, una o dos pruebas de matemáticas, una prueba de redacción, una prueba de ciencias, etc.). ^[58] La cantidad promedio de pruebas toma alrededor del 2,3% del tiempo total de clase (equivalente a aproximadamente cuatro días escolares por año). ^[59]

Las pruebas estandarizadas son caras de administrar. Se ha informado que Estados Unidos gasta alrededor de 1.700 millones de dólares anuales en estas pruebas. ^[60] En 2001, también se informó que sólo tres empresas (Harcourt Educational Measurement, CTB McGraw-Hill y Riverside Publishing) diseñan el 96% de las pruebas que se realizan a nivel estatal. ^[61]

Decisiones educativas

La Academia Nacional de Ciencias recomienda que las decisiones educativas importantes no se basen únicamente en una única puntuación de prueba. ^[62] El uso de puntuaciones mínimas de corte para el ingreso o la graduación no implica un estándar único, ya que las puntuaciones de las pruebas casi siempre se combinan con otros criterios mínimos como el número de créditos, los cursos prerrequisitos, la asistencia, etc. Las puntuaciones de las pruebas a menudo se perciben como el "único criterio" simplemente porque son las más difíciles o se asume automáticamente el cumplimiento de otros criterios. Una excepción a esta regla es el GED , que ha permitido que muchas personas obtengan el reconocimiento de sus habilidades aunque no cumplieran con los criterios tradicionales. ^{[ cita requerida ]}

Algunos profesores argumentan que una sola prueba estandarizada sólo mide el conocimiento actual de un estudiante y no refleja el progreso del estudiante desde el comienzo del año. ^[63] Un resultado creado por individuos que no son parte de la instrucción regular del estudiante, sino por profesionales que determinan lo que los estudiantes deben saber a diferentes edades. Además, los profesores coinciden en que los mejores creadores y facilitadores de pruebas son ellos mismos. Argumentan que son los más conscientes de las habilidades, capacidades y necesidades de los estudiantes, lo que les permitiría tomarse más tiempo en las materias o continuar con el currículo regular.

Efectos sobre los estudiantes desfavorecidos

Monty Neill, director del Centro Nacional para la Evaluación Justa y Abierta, afirma que a los estudiantes que hablan inglés como segunda lengua, que tienen una discapacidad o que provienen de familias de bajos ingresos se les niega desproporcionadamente un diploma debido a la puntuación de un examen, lo cual es injusto y perjudicial. A fines de la década de 1970, cuando comenzó el examen de graduación en los Estados Unidos, por ejemplo, una demanda afirmó que muchos estudiantes negros no habían tenido una oportunidad justa en el material que se les examinó en el examen de graduación porque habían asistido a escuelas segregadas por ley. "La interacción entre las escuelas con pocos recursos y las pruebas afecta más fuertemente a los estudiantes de color", como sostiene Neill, "se les niegan desproporcionadamente los diplomas o la promoción de grado, y las escuelas a las que asisten son las que tienen más probabilidades de obtener malos resultados en los exámenes y enfrentar sanciones como la reestructuración". ^[64]

En la revista The Progressive, Barbara Miner explica los inconvenientes de las pruebas estandarizadas analizando tres libros diferentes. Como escribe Linda M. McNeil, codirectora del Centro de Educación de la Universidad Rice y profesora de educación, en su libro Contradictions of School Reform: Educational Costs of Standardized Testing : "La estandarización educativa perjudica la enseñanza y el aprendizaje y, a largo plazo, reestratifica la educación por raza y clase". McNeil cree que la reforma educativa basada en pruebas establece estándares más altos para los estudiantes de color. Según Miner, McNeil "muestra cómo la reforma basada en pruebas centraliza el poder en manos de la élite corporativa y política, un desarrollo particularmente aterrador durante esta época de creciente influencia corporativa y conservadora sobre la reforma educativa". Esa reforma basada en pruebas ha empobrecido el aprendizaje, especialmente para los estudiantes de color. ^[65]

FairTest afirma que las consecuencias negativas del mal uso de las pruebas incluyen expulsar a los estudiantes de la escuela, expulsar a los maestros de la profesión y socavar la participación de los estudiantes y el clima escolar. ^[66]

Uso de pruebas estandarizadas en el proceso de admisión a la universidad

Las universidades revisan las pruebas estandarizadas como parte de la solicitud, junto con otra evidencia de respaldo, como declaraciones personales , calificaciones de la escuela secundaria , cursos anteriores y cartas de recomendación . ^[67] Diferentes países tienen diferentes pruebas, como el SAT en los EE. UU., el Gaokao en China y el Examen de ingreso conjunto en la India.

Nathan Kuncel, un experto en educación superior, dice que las pruebas de admisión a la universidad y otras pruebas estandarizadas "ayudan a los abrumados funcionarios de admisión a dividir enormes cantidades de solicitantes en grupos para una evaluación posterior. Las puntuaciones altas no garantizan la admisión en ninguna parte, y las puntuaciones bajas no la descartan, pero las escuelas se toman las pruebas en serio". ^[68]

Las investigaciones muestran que los exámenes predicen más que las calificaciones del primer año y el nivel de los cursos que probablemente tomará un estudiante. La investigación longitudinal realizada por científicos muestra que los estudiantes con puntajes altos en los exámenes tienen más probabilidades de tomar el camino más difícil hacia la universidad. ^[69] Los exámenes también pueden indicar los resultados de los estudiantes más allá de la universidad, incluidas las evaluaciones del profesorado, los logros de investigación, la obtención de títulos, el desempeño en los exámenes integrales y la licencia profesional. ^[70]

Dado que las calificaciones varían según las escuelas, e incluso para dos estudiantes de la misma escuela, la medida común proporcionada por el puntaje de la prueba es más útil como forma de comparar a los estudiantes.

Sin embargo, en un "metaanálisis" de abril de 1995 publicado en el Journal of Educational and Psychological Measurement , Todd Morrison y Melanie Morrison examinaron dos docenas de estudios de validez del examen requerido para ingresar a casi cualquier programa de maestría o doctorado en Estados Unidos: el Graduate Record Examinations (GRE). Este estudio abarcó a más de 5.000 examinados en los últimos 30 años. Los autores descubrieron que las puntuaciones del GRE representaban solo el 6 por ciento de la variación en las calificaciones en la escuela de posgrado. El GRE parece ser "prácticamente inútil desde el punto de vista de la predicción", escribieron los autores. Estudios repetidos del Law School Admissions Test (LSAT) encuentran lo mismo.

Existe un debate sobre si la prueba indicará el éxito a largo plazo en el trabajo y en la vida, ya que hay muchos otros factores, pero habilidades fundamentales como la lectura, la escritura y las matemáticas están relacionadas con el desempeño laboral.

Una investigación longitudinal realizada en 2007 ha demostrado que los logros importantes en la vida, como publicar una novela o patentar una tecnología, también están asociados con las puntuaciones en los exámenes, incluso después de tener en cuenta las oportunidades educativas. Incluso hay un conjunto considerable de pruebas de que estas habilidades están relacionadas con el liderazgo eficaz y los logros creativos en el trabajo. Ser capaz de leer textos y darles sentido y tener un razonamiento cuantitativo sólido son cruciales en la economía de la información moderna . ^[70]

Muchos argumentos sugieren que las habilidades adquiridas en las pruebas son útiles, pero sólo hasta cierto punto.

Sin embargo, un notable estudio longitudinal publicado en 2008 en la revista Psychological Science examinó a estudiantes que a los 13 años estaban en el 1% superior de la clasificación. Veinte años después, en promedio, tenían un rendimiento muy alto, ingresos altos, premios importantes y logros profesionales que enorgullecerían a cualquier padre. ^[71]

Existe una correlación entre los resultados de los exámenes y la clase social, pero el éxito en los exámenes estandarizados y en la universidad no depende simplemente de la clase. Los estudios muestran que "los exámenes fueron válidos incluso cuando se controló la clase socioeconómica. Independientemente de su origen familiar, los estudiantes con buenos resultados en los exámenes y buenas notas en la escuela secundaria obtienen mejores resultados en la universidad que los estudiantes con calificaciones más bajas y peores expedientes académicos". ^[72]

Otra crítica relacionada con la clase social y las pruebas estandarizadas es que sólo las personas ricas reciben preparación y asesoramiento para las pruebas. Sin embargo, "los investigadores han llevado a cabo una combinación de estudios experimentales y estudios de campo controlados para poner a prueba esta cuestión. En general, han llegado a la conclusión de que las ganancias debidas a la preparación para las pruebas son más bien del orden de 5 a 20 puntos y no de los 100 a 200 puntos que afirman algunas empresas de preparación para las pruebas". ^[73]

Más importante aún, muchas personas sostienen la opinión de que las pruebas impiden la diversidad en las admisiones, ya que las minorías obtienen puntuaciones más bajas en las pruebas en comparación con otros grupos representados. ^[74] Un estudio de 2012 analizó las escuelas donde las pruebas de admisión son opcionales para los solicitantes y las comparó con las escuelas que utilizan las pruebas, y el resultado muestra que "investigaciones recientes demuestran que las escuelas donde las pruebas son opcionales han estado inscribiendo cuerpos estudiantiles cada vez más diversos. Pero lo mismo es cierto para las escuelas que requieren pruebas". ^[75]

Los opositores sostienen que las pruebas estandarizadas son un mal uso y que emiten juicios acríticos sobre la inteligencia y el rendimiento, pero los partidarios sostienen que no se trata de aspectos negativos de las pruebas estandarizadas, sino de críticas a los sistemas de evaluación mal diseñados. Argumentan que las pruebas deberían centrar, y de hecho lo hacen, los recursos educativos en los aspectos más importantes de la educación (impartir un conjunto predefinido de conocimientos y habilidades) y que otros aspectos son menos importantes o deberían añadirse al sistema de evaluación.

La evidencia muestra que los estudiantes negros e hispanos obtienen, en promedio, puntuaciones más bajas que los blancos y asiáticos. Por lo tanto, las pruebas estándar de matemáticas y lectura, como el SAT, han enfrentado ataques cada vez mayores por parte de los progresistas. Sin embargo, un informe exhaustivo del senado de la facultad de la UC, encargado por Janet Napolitano y publicado en 2020, concluyó que las pruebas no son discriminatorias y desempeñan un papel importante en la protección de la calidad educativa. ^[76]

El informe sugirió que el empeoramiento de la inflación de las calificaciones , especialmente en las escuelas secundarias ricas, hace que una evaluación estándar sea especialmente importante. ^[76]

En cuanto a la intención de las escuelas de la UC de abandonar las pruebas estándar como el SAT y el ACT en las admisiones universitarias, las pruebas subjetivas y personalizadas como los ensayos y las actividades extracurriculares pueden ser fácilmente adaptadas y perjudiciales para los estudiantes que no están familiarizados con el proceso. Las admisiones sin pruebas pueden ser incluso más favorables a los que tienen buenos contactos. ^[77]

En enero de 2020, el senado de la facultad de la Universidad de California recomendó que el sistema de la UC mantuviera las pruebas estandarizadas como requisitos de admisión. ^[76] El informe dice que las pruebas estandarizadas de matemáticas y lectura son útiles para predecir el desempeño universitario. Basándose en datos de los estudiantes del sistema de la UC, el informe concluye que "las puntuaciones de las pruebas son actualmente mejores predictores del GPA del primer año que el promedio de calificaciones de la escuela secundaria". ^[76] El informe continúa: las puntuaciones también son buenas para predecir el GPA total de la universidad y la posibilidad de que un estudiante se gradúe. Si bien el "poder predictivo de las puntuaciones de las pruebas ha aumentado", agrega el informe, "el poder predictivo de las calificaciones de la escuela secundaria ha disminuido". ^[76]

Los resultados de los exámenes permiten a las escuelas de la UC "seleccionar a aquellos estudiantes de grupos subrepresentados que tienen más probabilidades de obtener calificaciones más altas y graduarse a tiempo". ^[76] "La intención original del SAT era identificar a los estudiantes que provenían de fuera de los círculos relativamente privilegiados y que podrían tener el potencial de tener éxito en la universidad", dice el informe. ^[76] El creador del SAT, el Educational Testing Service (ETS), ahora afirma que el SAT no es una prueba de "aptitud", sino más bien una evaluación de "habilidades desarrolladas". ^[78]

Cuestiones de prueba no específicas de la estandarización

La mayoría de los exámenes pueden clasificarse en múltiples categorías. Por ejemplo, un examen puede ser estandarizado y también un examen de alto riesgo, o estandarizado y también un examen de opción múltiple. Las quejas sobre los "exámenes estandarizados" (todos los examinados realizan el mismo examen, en condiciones razonablemente similares, con la misma calificación) a menudo se centran en cuestiones no relacionadas con la estandarización y se aplican por igual a los exámenes no estandarizados. Por ejemplo, un crítico puede quejarse de que "los exámenes estandarizados son todos exámenes con límite de tiempo", pero el foco de la crítica está en el límite de tiempo, y no en que todos realicen el mismo examen y que sus respuestas sean calificadas de la misma manera.

Pruebas de alto riesgo

Una prueba de alto riesgo es una prueba en la que se otorga una recompensa por un buen desempeño. ^[4] Algunas pruebas estandarizadas, incluidas muchas de las pruebas que se utilizan para la admisión a universidades en todo el mundo, son pruebas de alto riesgo. La mayoría de las pruebas estandarizadas, como los exámenes ordinarios que se realizan en el aula, son pruebas de bajo riesgo. ^[4]

La excesiva dependencia de pruebas estandarizadas de alto nivel para la toma de decisiones suele ser motivo de controversia. Una preocupación común con las pruebas de alto nivel es que miden el desempeño durante un único evento, cuando los críticos creen que sería adecuada una evaluación más holística. Los críticos a menudo proponen enfatizar medidas acumulativas o incluso no numéricas, como las calificaciones en el aula o breves evaluaciones individuales (escritas en prosa) de los profesores. Los partidarios argumentan que las puntuaciones de las pruebas proporcionan un estándar claro y objetivo que sirve como un control valioso sobre la inflación de las calificaciones . ^[79]

Pruebas referenciadas a normas

Una prueba basada en normas es una que está diseñada y calificada de manera que algunos examinados obtengan una mejor o peor puntuación que otros. ^[4] La clasificación proporciona información sobre la clasificación relativa, lo que resulta útil cuando el objetivo es determinar quién es el mejor (por ejemplo, en las admisiones a universidades de élite). ^[4]

Desacuerdo con los estándares educativos

Una prueba basada en criterios es más común y más práctica cuando el objetivo es saber si los examinados han aprendido el material requerido. ^[4]

Sin embargo, algunos críticos se oponen a las "pruebas estandarizadas" no porque se opongan a dar a los estudiantes la misma prueba en condiciones razonablemente similares y calificar las respuestas de la misma manera, sino porque se oponen al tipo de material que normalmente se evalúa en las escuelas. Aunque existen pruebas estandarizadas para atributos no académicos como las Pruebas Torrance de Pensamiento Creativo , las escuelas rara vez realizan pruebas estandarizadas para medir "iniciativa, creatividad, imaginación... curiosidad... buena voluntad, reflexión ética o una serie de otras disposiciones y atributos valiosos". ^[80]^[81] En cambio, las pruebas que realizan las escuelas tienden a centrarse menos en el desarrollo moral o del carácter, y más en las habilidades académicas individuales identificables, como la comprensión lectora y la aritmética .

En su libro The Shame of the Nation (La vergüenza de la nación) , Jonathan Kozol sostiene que los estudiantes sometidos a pruebas estandarizadas son víctimas de una "decapitación cognitiva". Kozol llega a esta conclusión después de hablar con muchos niños de escuelas del centro de la ciudad que no tienen memoria espacial del tiempo, los períodos de tiempo y los acontecimientos históricos. Esto es especialmente así en las escuelas donde, debido a la escasez de fondos y a las estrictas políticas de rendición de cuentas, las escuelas han eliminado asignaturas como las artes, la historia y la geografía; para centrarse en el contenido de las pruebas obligatorias. ^[82]

Ansiedad ante los exámenes

Algunas personas se ponen ansiosas al realizar un examen. Este fenómeno es más común en los exámenes de alto riesgo que en los de bajo riesgo. Los exámenes de alto riesgo (ya sean estandarizados o no estandarizados) pueden causar ansiedad.

Los propios estudiantes critican que los exámenes, aunque están estandarizados, son injustos con el estudiante en particular. Algunos estudiantes afirman que son "malos para rendir los exámenes", es decir, que se ponen nerviosos y pierden la concentración en los exámenes. Por lo tanto, si bien el examen es estándar y debería brindar resultados justos, los examinados afirman que están en desventaja y no tienen otra forma de demostrar sus conocimientos, ya que no hay otra alternativa de evaluación que permita a los estudiantes demostrar sus conocimientos y habilidades para resolver problemas.

Algunos estudiantes sufren ansiedad ante los exámenes . Entre el diez y el cuarenta por ciento de los estudiantes experimentan este tipo de ansiedad. ^[83] Los niños que viven en la pobreza son los más afectados por la ansiedad ante los exámenes. ^[84] La ansiedad ante los exámenes se aplica tanto a los exámenes estandarizados como a los no estandarizados.

Pruebas de opción múltiple y formatos de prueba

Una prueba de opción múltiple ofrece al candidato preguntas asociadas a una lista predeterminada de posibles respuestas. Es un tipo de pregunta cerrada . El candidato elige la respuesta correcta de la lista.

Muchos críticos de las pruebas estandarizadas se oponen al formato de opción múltiple, que se utiliza habitualmente para pruebas económicas y a gran escala y que no es adecuado para algunos fines, como comprobar si el candidato puede escribir un párrafo. Sin embargo, las pruebas estandarizadas pueden utilizar cualquier formato de prueba, incluidas las preguntas abiertas , siempre que todos los candidatos realicen la misma prueba, en condiciones razonablemente similares, y sean evaluados de la misma manera que en una prueba estandarizada.

Enseñando para la prueba

Enseñar para el examen es un proceso de restringir deliberadamente la instrucción para centrarse únicamente en el material que se medirá en el examen. Por ejemplo, si el profesor sabe que un próximo examen de historia no incluirá ninguna pregunta sobre la historia de la música o el arte, entonces podría "enseñar para el examen" saltándose el material del libro de texto sobre música y arte. Los críticos también sostienen que los exámenes estandarizados fomentan la " enseñanza para el examen " a expensas de la creatividad y la cobertura en profundidad de temas que no están en el examen. Los críticos dicen que enseñar para el examen desfavorece el aprendizaje de orden superior; transforma lo que se permite enseñar a los profesores y limita en gran medida la cantidad de otra información que los estudiantes aprenden a lo largo de los años. ^[85] Si bien es posible utilizar un examen estandarizado sin dejar que su contenido determine el currículo y la instrucción, con frecuencia, lo que no se evalúa no se enseña, y la forma en que se evalúa la materia a menudo se convierte en un modelo de cómo enseñarla.

Las pruebas impuestas externamente, como las creadas por un departamento de educación para los estudiantes de su área, alientan a los docentes a limitar el formato curricular y enseñar para el examen. ^[86]

El pago basado en el desempeño es la idea de que los maestros deberían recibir un mayor salario si los estudiantes obtienen buenos resultados en los exámenes y un menor salario si obtienen malos resultados. ^[85] Cuando se recompensa a los maestros o a las escuelas por un mejor desempeño en los exámenes, esas recompensas alientan a los maestros a " enseñar para el examen " en lugar de proporcionar un currículo rico y amplio. En 2007, un estudio cualitativo realizado por Au Wayne demostró que las pruebas estandarizadas limitan el currículo y fomentan la instrucción centrada en el maestro en lugar del aprendizaje centrado en el estudiante . ^[87] El gobernador de Nueva Jersey, Chris Christie, propuso una reforma educativa en Nueva Jersey que presiona a los maestros no solo para "enseñar para el examen", sino también para que sus estudiantes rindan a costa de su salario y seguridad laboral. La reforma exigía un pago basado en el desempeño que dependa del desempeño de los estudiantes en las pruebas estandarizadas y de sus ganancias educativas. ^[88]

Los críticos sostienen que el uso excesivo y el mal uso de estas pruebas perjudican la enseñanza y el aprendizaje al limitar el currículo. Según el grupo FairTest , cuando las pruebas estandarizadas son el factor principal en la rendición de cuentas, las escuelas las utilizan para definir estrictamente el currículo y centrar la instrucción. La rendición de cuentas crea una inmensa presión para el rendimiento y esto puede conducir al mal uso y la mala interpretación de las pruebas estandarizadas. ^[66]

Véase también

Temas principales

Prueba de rendimiento
Inventario de conceptos : herramienta de evaluación de conocimientos
Evaluación educativa – Método de evaluación educativa
Evaluación – Determinación sistemática del mérito, valor e importancia de un tema.
Lista de exámenes estandarizados en Estados Unidos
Psicometría – Teoría y técnica de la medición psicológica
- Teoría de respuesta al ítem : paradigma para el diseño, análisis y calificación de pruebas
Evaluación basada en estándares : evaluación basada en estándares específicos
Prueba (evaluación) – Evaluación educativa

Otros temas

Evaluación alternativa
Ley de Campbell : adagio sobre los incentivos perversos
Examen de graduación de la escuela secundaria – Examen de fin de la escuela secundaria
Máquina de calificación de pruebas IBM 805 : máquina de calificación de pruebas electromecánica introducida por IBM en 1937
Reforma educativa basada en estándares – Sistema educativo basado en metas deseadas
Efecto Volvo : término que designa una crítica de las pruebas estandarizadas

Referencias

^ Popham, WJ (1999). "Por qué las pruebas estandarizadas no miden la calidad educativa". Liderazgo educativo . 56 (6): 8–15.
^ Phelps, Richard P. "El papel y la importancia de las pruebas". nonpartisaneducation.org . Consultado el 17 de mayo de 2016 .
^ abc Olson, Amy M.; Sabers, Darrell (octubre de 2008). "Standardized Tests". En Good, Thomas L. (ed.). Educación del siglo XXI: un manual de referencia . SAGE Publications. págs. 423–430. doi :10.4135/9781412964012.n46. ISBN 9781452265995. Número de identificación del sujeto 241229809.
^ abcdefghi Allen, G. Donald; Ross, Amanda (10 de noviembre de 2017). "Pruebas y etiquetas de bajo riesgo". Pedagogía y contenido en matemáticas de secundaria y preparatoria . Springer. ISBN 978-94-6351-137-7.
^ "Servicio civil chino". Encyclopædia Britannica . Consultado el 2 de mayo de 2015 .
^ abcde Mark y Boyer (1996), 9–10.
^ desde Kazin, Edwards y Rothman (2010), 142.
^ ab Trahair, Richard (1 de junio de 2015). Comportamiento, tecnología y desarrollo organizacional: Eric Trist y el Instituto Tavistock. Transaction Publishers. ISBN 9781412855495.
^ Johnson, Robert. "Pruebas estandarizadas". Enciclopedia de reforma educativa y disidencia. SAGE Publications, INC. 2010. 853–856.Web.
^ Garrison, Mark J. Una medida del fracaso: los orígenes políticos de las pruebas estandarizadas. Albany: Universidad Estatal de Nueva York, 2009. Versión impresa.
^ ab Moller, Stephanie; Potochnick, Stephanie (2008). "Pruebas estandarizadas". En Darity, William Jr. (ed.). Enciclopedia internacional de las ciencias sociales . Gale Cengage Learning .
^ Gould, SJ, "Una nación de idiotas", New Scientist (6 de mayo de 1982), 349–352.
^ Darity, William Jr. "Enciclopedia internacional de las ciencias sociales". Enciclopedias para obtener información de fondo . Gale Cengage Learning . Consultado el 25 de enero de 2017 .
^ Fletcher, Dan. "Pruebas estandarizadas". Time. Time Inc., 11 de diciembre de 2009. Web. 9 de marzo de 2014.
^ "Qué hay en el ACT". Secciones del examen ACT. Sin fecha, sin fecha. Web. 5 de mayo de 2014
^ Stiggins, Richard (2002). "Crisis de evaluación: la ausencia de evaluación PARA el aprendizaje" (PDF) . Phi Delta Kappan . 83 (10): 758–765. doi :10.1177/003172170208301010. S2CID 145683785.
^ ab Strauss, Valerie (11 de marzo de 2015). "Cinco razones por las que las pruebas estandarizadas no van a ceder". The Washington Post . The Washington Post . Consultado el 26 de enero de 2017 .
^ "Historia y antecedentes de la ley No Child Left Behind". Bright Hub Education, 9 de junio de 2015. Web. 12 de octubre de 2015. http://www.brighthubeducation.com/student-assessment-tools/3140-history-of-the-no-child-left-behind-act/
^ "Ley de Éxito para Cada Estudiante (ESSA) | Departamento de Educación de EE. UU.".
^ Claiborn, Charles. "High Stakes Testing". Enciclopedia de superdotación, creatividad y talento. SAGE Publications, 2009. 9 de abril de 2014.
^ Valerie, Strauss (21 de junio de 2020). "Parece el principio del fin de la obsesión de Estados Unidos con los exámenes estandarizados para los estudiantes". The Washington Post .
^ "Inicio – El currículo australiano v8.1". www.australiancurriculum.edu.au . Consultado el 17 de mayo de 2016 .
^ Cowley, Peter; MacPherson, Paige (2022). PRUEBAS A ESTUDIANTES CANADIENSES DE K-12: Variabilidad regional, margen de mejora (PDF) . Fraser Institute. ISBN 978-0-88975-694-6. Recuperado el 19 de diciembre de 2023 .
^ Horowitz, MR; Montgomery, DL (enero de 1993). "Perfil fisiológico de los bomberos en comparación con las normas de la población canadiense". Revista canadiense de salud pública . 84 (1): 50–52. ISSN 0008-4263. PMID 8500058.
^ Asociación Canadiense de Ciencias del Deporte; Programa de Certificación y Acreditación de Evaluación de la Aptitud Física; Sociedad Canadiense de Fisiología del Ejercicio; Fitness Canada (1987). Prueba estandarizada canadiense de aptitud física (CSTF): para personas de 15 a 69 años: manual de interpretación y asesoramiento . Gloucester, Ontario: Sociedad Canadiense de Fisiología del Ejercicio. ISBN 0-662-15736-2.OCLC 16048356 .
^ Página web de ETS Archivado el 18 de junio de 2009 en Wayback Machine sobre cómo calificar el examen GRE.
^ ab Houtz, Jolayne (27 de agosto de 2000) "Los trabajadores temporales dedican sólo unos minutos a puntuar un examen estatal. Un problema de matemáticas de WASL puede llevar 20 segundos; un ensayo, 2.mw-parser-output .frac{white-space:nowrap}.mw-parser-output .frac .num,.mw-parser-output .frac .den{font-size:80%;line-height:0;vertical-align:super}.mw-parser-output .frac .den{vertical-align:sub}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);clip-path:polygon(0px 0px,0px 0px,0px 0px);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}1⁄2 minutos" Archivado el 10 de marzo de 2007 en Wayback Machine . Seattle Times "En cuestión de minutos, un empleado temporal que cobra 10 dólares la hora asigna una puntuación a la prueba de su hijo"
^ Rich, Motoko (22 de junio de 2015). "Calificación del Common Core: no se requiere experiencia docente". The New York Times . ISSN 0362-4331 . Consultado el 6 de octubre de 2015 .
^ Lee, Jussim (1989). "Expectativas de los docentes: profecías autocumplidas, sesgo perceptivo y precisión". Revista de personalidad y psicología social . 57 (3): 469–480. doi :10.1037/0022-3514.57.3.469.
^ Dónde estamos: evaluación basada en estándares y rendición de cuentas (Federación Estadounidense de Maestros) [1] Archivado el 24 de agosto de 2006 en Wayback Machine .
^ "Comité conjunto sobre normas para la evaluación educativa". Archivado desde el original el 15 de octubre de 2009. Consultado el 2 de mayo de 2015 .
^ Comité Conjunto de Normas para la Evaluación Educativa. (1988). Normas de evaluación del personal: cómo evaluar los sistemas de evaluación de los educadores. Archivado el 12 de diciembre de 2005 en Wayback Machine . Newbury Park, CA: Sage Publications.
^ Comité Conjunto de Normas para la Evaluación Educativa. (1994). Normas de evaluación de programas, 2.ª edición. Archivado el 22 de febrero de 2006 en Wayback Machine . Newbury Park, CA: Sage Publications.
^ Comité de Normas para la Evaluación Educativa. (2003). Normas de evaluación de los estudiantes: cómo mejorar las evaluaciones de los estudiantes. Archivado el 24 de mayo de 2006 en Wayback Machine. Newbury Park, CA: Corwin Press.
^ Morgan, Hani (2016). "Confiar en pruebas estandarizadas de alto riesgo para evaluar escuelas y docentes: una mala idea". The Clearing House: una revista de estrategias, problemas e ideas educativas . 89 (2): 67–72. doi :10.1080/00098655.2016.1156628. S2CID 148015644.
^ "Estándares para pruebas educativas y psicológicas". www.apa.org . Consultado el 2 de mayo de 2015 .
^ Kuncel, NR; Hezlett, SA (2007). "EVALUACIÓN: Las pruebas estandarizadas predicen el éxito de los estudiantes de posgrado". Science . 315 (5815): 1080–81. doi :10.1126/science.1136618. PMID 17322046. S2CID 143260128.
^ abcd Phelps, Richard (2005). En defensa de las pruebas estandarizadas . Londres: Psychology Press. ISBN 978-0-8058-4912-7.
^ ab "Pros y contras de las pruebas estandarizadas". Oxford Learning . 2014-10-29 . Consultado el 2018-02-19 .
^ "Pros and Cons of Standardized Testing" (PDF) . Universidad de Columbia . Primavera de 2013. Archivado desde el original (PDF) el 27 de enero de 2018 . Consultado el 19 de febrero de 2018 .
^ ab Hirsch, Eric Jr. (1999). Las escuelas que necesitamos: y por qué no las tenemos . Nueva York: Anchor. ISBN 978-0-385-49524-0.
^ "Crítica de FairTest al SAT". fairtest.org. 20 de agosto de 2007.
^ "Las pruebas estandarizadas no siempre son el mejor indicador de éxito". 20 de agosto de 2007.
^ Paton, Graeme (6 de julio de 2010). "Las universidades critican la 'inflación de notas' en los exámenes" . The Daily Telegraph . Londres. Archivado desde el original el 12 de enero de 2022.
^ Vasagar, Jeevan (2 de agosto de 2010). "Temores por los alumnos estatales mientras las mejores universidades insisten en la obtención de una A* en el nivel A". The Guardian . Londres.
^ Finch, Julia (10 de marzo de 2010). "No saben leer, no saben escribir, no saben controlar el tiempo ni ser ordenados: el veredicto del director de Tesco sobre los que abandonan la escuela". The Guardian . Londres.
^ Hedges, Larry V.; Laine, Richard D.; Greenwald, Rob (1994). "Hedges LV (1994) Un intercambio: Parte I*: ¿Importa el dinero? Un metaanálisis de estudios sobre los efectos de los insumos escolares diferenciales en los resultados de los estudiantes". Educational Researcher . 23 (3): 5–14. doi :10.3102/0013189X023003005. S2CID 36771659.
^ Coughlan, Sean. Bright poor 'held back for periods', BBC , 16 de octubre de 2013. Recuperado el 17 de octubre de 2013.
^ "La neurociencia de la realización de exámenes estandarizados".
^ "Las pruebas estandarizadas no muestran lo que saben los niños". 10 de julio de 2017.
^ "Las pruebas estandarizadas no son un buen indicador de inteligencia fluida según una nueva investigación". 11 de enero de 2014.
^ "Las pruebas estandarizadas no miden la inteligencia ni la capacidad". 27 de septiembre de 2016.
^ "Observaciones: Los puntajes de las pruebas estandarizadas no reflejan las capacidades de los estudiantes".
^ Davidson, Cathy (2011). Ahora lo ves: cómo la ciencia cerebral de la atención transformará la forma en que vivimos, trabajamos y aprendemos . Nueva York: Viking.
^ US News (2 de mayo de 2015). "Escándalo de trampas: los federales dicen que los maestros contrataron a un sustituto para que tomara sus exámenes de certificación". NBC News . Consultado el 2 de mayo de 2015 .
^ Schmidt, William H.; Houang, Richard T. (2012). "Coherencia curricular y estándares básicos comunes para matemáticas". Investigador educativo . 41 (8): 294–308. doi :10.3102/0013189x12464517. S2CID 121779439.
^ Porter, A.; McMaken, J.; Hwang, J.; Yang, R. (2011). "Estándares básicos comunes: el nuevo currículo previsto en Estados Unidos". Educational Researcher . 40 (7): 103–116. doi :10.3102/0013189x11405038. S2CID 51453603.
^ Layton, Lyndsey (24 de octubre de 2015). "Un estudio dice que las pruebas estandarizadas están abrumando a las escuelas públicas del país". The Washington Post . Consultado el 26 de julio de 2015 .
^ Doering, Christopher (25 de octubre de 2015). «El plan de Obama limita las pruebas estandarizadas a no más del 2% del tiempo de clase». USA Today . Consultado el 26 de julio de 2016 .
^ Kuczynski-Brown, Alex. "Estudio revela que las pruebas estandarizadas cuestan a los estados 1.700 millones de dólares al año". The Huffington Post. TheHuffingtonPost.com, 29 de noviembre de 2012. Web. 7 de abril de 2014.
^ "Los cuatro grandes de la industria de las pruebas". PBS Frontline . PBS. 2001 . Consultado el 21 de enero de 2015 .
^ "Buscar todos los temas – The National Academies Press". Archivado desde el original el 18 de abril de 2008. Consultado el 2 de mayo de 2015 .
^ "Pros y contras de las pruebas estandarizadas" (PDF) . Universidad de Columbia. 21 de noviembre de 2017.
^ Neill, Monty (otoño de 2009). Las pruebas estandarizadas son injustas y perjudiciales. Detroit: Farmington Hills, MI: Greenhaven Press. pp. 28–35. ISBN 9780737747812. Recuperado el 4 de diciembre de 2016 .
^ Miner, Barbara (agosto de 2000). "Mentes estandarizadas: el alto precio de la cultura de las pruebas en Estados Unidos y lo que podemos hacer para cambiarla / Contradicciones de la reforma escolar: costos educativos de las pruebas estandarizadas". The Progressive . 64 : 40–43. ProQuest 231959849.
^ ab Holloway, JH (2001). "El uso y mal uso de las pruebas estandarizadas". Liderazgo educativo . 59 (1): 77.
^ Murphy, Sara C; Klieger, David M; Borneman, Matthew J; Kuncel, Nathan R. (2009). "El poder predictivo de las declaraciones personales en las admisiones: un metaanálisis y una advertencia". College and University . 84 : 83–86, 88.
^ Kuncel, Nathan; Sackett, Paul (8 de marzo de 2018). "La verdad sobre el SAT y el ACT". The Wall Street Journal .
^ Kuncel, Nathan; Hezlett, Sarah A. (2007). "Las pruebas estandarizadas predicen el éxito de los estudiantes de posgrado". Science . 315 (5815): 1080–1. doi :10.1126/science.1136618. PMID 17322046. S2CID 143260128.
^ ab Kuncel, Nathan; Hezlett, Sarah A. (2007). "Las pruebas estandarizadas predicen el éxito de los estudiantes de posgrado". Science . 315 (5815): 1080–1081. doi :10.1126/science.1136618. PMID 17322046. S2CID 143260128.
^ Park, Gregory; Lubinski, David; Benbow, Camilla P. (1 de octubre de 2008). "Las diferencias de capacidad entre personas con títulos académicos acordes son importantes para la creatividad científica". Psychological Science . 19 (10): 957–961. doi :10.1111/j.1467-9280.2008.02182.x. PMID 19000201. S2CID 6443429.
^ Kuncel, Nathan; Arneson (2009). "¿El estatus socioeconómico explica la relación entre las pruebas de admisión y el desempeño académico postsecundario?". Psychological Bulletin : 1–22.
^ Connelly, Brian S.; Kuncel, Nathan (3 de noviembre de 2012). "Equilibrio entre grupos de tratamiento y control en cuasi-experimentos: una introducción a la puntuación de propensión". Personnel Psychology . 66 (2): 407–442. doi :10.1111/peps.12020.
^ Couch, Michael; Frost, Marquisha; Santiago, J.; Hilton, Adriel (9 de septiembre de 2021). "Replanteamiento de las pruebas estandarizadas desde una perspectiva de acceso, equidad y logros: ¿ha cambiado algo para los estudiantes afroamericanos?". Revista de iniciativas de investigación . 5 (3). ISSN 2168-9083.
^ Kuncel, Nathan; Sackett, Paul; Beatty, Adam S. (2 de agosto de 2012). "El papel del estatus socioeconómico en las relaciones entre las calificaciones del SAT y en las decisiones de admisión a la universidad". Psychological Science . 23 (9): 1000–7. doi :10.1177/0956797612438732. PMID 22858524. S2CID 22703783.
^ abcdefg UNIVERSIDAD DE CALIFORNIA, SENADO ACADÉMICO (enero de 2020). "Informe del Grupo de trabajo sobre pruebas estandarizadas del Consejo académico de la UC" (PDF) .
^ El Consejo Editorial (17 de mayo de 2020). "California define las pruebas a la baja". The Wall Street Journal .
^ Todd Morrison y Melanie Morrison. "Una evaluación metaanalítica de la validez predictiva..." Journal of Educational and Psychological Measurement. 1995. Componenteshttp://epm.sagepub.com/content/55/2/309.abstract.
^ Buckley, Jack; Letukas, Lynn; Wildavsky, Ben (2017), Medición del éxito: pruebas, calificaciones y el futuro de las admisiones universitarias, Baltimore: Johns Hopkins University Press, pág. 344, ISBN 9781421424965
^ Kohn, Alfie (2000). El caso contra las pruebas estandarizadas: aumentar las calificaciones, arruinar las escuelas . Portsmouth, NH: Heinemann. ISBN 978-0325003252.
^ Enseñar: el viaje de un maestro, por William Ayers, Teachers College Press, 1993, ISBN 0-8077-3985-5 , ISBN 978-0-8077-3985-3 , pág. 116
^ Kozol, Jonathan (2005). La vergüenza de la nación: la restauración de la educación del apartheid en Estados Unidos . Impreso: Random House. pp. 118-119. ISBN 9781415924167.
^ Madera; Hart; Little; Phillips (2016). "Ansiedad ante los exámenes y una prueba estandarizada de comprensión lectora de alto riesgo: una perspectiva de genética conductual". Merrill-Palmer Quarterly . 62 (3): 233–251. doi :10.13110/merrpalmquar1982.62.3.0233. ISSN 0272-930X. PMC 5487000 . PMID 28674461.
^ "Pruebas y sesgo de estrés". Harvard Graduate School of Education . 12 de febrero de 2019 . Consultado el 27 de octubre de 2022 .
^ ab Williams, Mary (2015). "Las pruebas estandarizadas están perjudicando el aprendizaje de los estudiantes". go.galegroup.com . Consultado el 28 de marzo de 2018 .
^ "Goswami U (1991) Puesta a prueba: los efectos de las pruebas externas en los docentes. Educational Researcher 20: 8-11". Archivado desde el original el 2 de febrero de 2013.
^ Au, Wayne (1 de junio de 2007). "Pruebas de alto riesgo y control curricular: una metasíntesis cualitativa". Educational Researcher . 36 (5): 258–267. doi :10.3102/0013189X07306523. ISSN 0013-189X. S2CID 507582.
^ Arco, Matt (12 de junio de 2015). "Discurso de Christie sobre educación en Iowa". NJ.com . Consultado el 25 de julio de 2016 .

95.) Participantes de la prueba 1

96.) Participantes de la prueba 2

Lectura adicional

FairTest, "What's Wrong With Standardized Tests", Archivado el 18 de octubre de 2019 en Wayback Machine . Hoja informativa. (Nueva York: Basic Books, 1985), págs. 172-181.
Harris, Smith y Harris Los mitos de las pruebas estandarizadas: por qué no te dicen lo que crees que te dicen, Rowman & Littlefield 2011* Huddleston, Mark W. Boyer, William W. La administración pública superior en los Estados Unidos: en busca de reformas . (University of Pittsburgh Press, 1996)
Phelps, Richard P. El efecto de las pruebas en el rendimiento estudiantil, 1910-2010, International Journal of Testing, 10(1), 2012.
Phelps, Richard P., Ed. Corrección de falacias sobre las pruebas educativas y psicológicas. (Washington, DC: Asociación Estadounidense de Psicología, 2008)
Phelps, Richard P., Manual de evaluación estandarizada. (Nueva York, NY: Peter Lang, 2007)
Phelps, Richard P. El papel y la importancia de las pruebas estandarizadas en el mundo de la enseñanza y la formación
Ravitch, Diane , "Los usos y abusos de las pruebas" Archivado el 18 de octubre de 2017 en Wayback Machine , en Las escuelas que merecemos * Strauss, Valerie. Confirmado: las pruebas estandarizadas se han apoderado de nuestras escuelas. Pero ¿quién es el culpable?

Enlaces externos

Comité Conjunto sobre Normas de Evaluación Educativa
Pruebas estandarizadas en la escuela
Normas para las pruebas educativas y psicológicas
Definición de prueba estandarizada del Consejo Nacional de Medición en Educación