Una prueba estandarizada es una prueba que se administra y califica de manera consistente o "estándar". Las pruebas estandarizadas están diseñadas de tal manera que las preguntas y las interpretaciones sean consistentes y se administren y califiquen de una manera estándar predeterminada. [1]
Cualquier prueba en la que se da la misma prueba de la misma manera a todos los examinados, y se califica de la misma manera para todos, es una prueba estandarizada. Las pruebas estandarizadas no necesitan ser pruebas de alto riesgo , pruebas de tiempo limitado, pruebas de opción múltiple , pruebas académicas o pruebas administradas a un gran número de examinados. Una prueba estandarizada puede ser cualquier tipo de prueba: una prueba escrita, una prueba oral o una prueba de desempeño de habilidades prácticas . Las preguntas pueden ser simples o complejas. El tema entre los estudiantes en edad escolar es con frecuencia las habilidades académicas, pero una prueba estandarizada se puede administrar sobre casi cualquier tema, incluyendo pruebas de manejo , creatividad , atletismo , personalidad , ética profesional u otros atributos.
Lo opuesto a las pruebas estandarizadas son las pruebas no estandarizadas , en las que se dan pruebas significativamente diferentes a diferentes examinados, o se asigna la misma prueba en condiciones significativamente diferentes (por ejemplo, a un grupo se le permite mucho menos tiempo para completar la prueba que al siguiente grupo) o se evalúa de manera diferente (por ejemplo, la misma respuesta se considera correcta para un estudiante, pero incorrecta para otro).
La mayoría de los exámenes y pruebas que los estudiantes realizan a diario en la escuela cumplen con la definición de prueba estandarizada: todos los miembros de la clase realizan la misma prueba, al mismo tiempo, en las mismas circunstancias, y todos los estudiantes reciben la misma calificación por parte de su maestro. Sin embargo, el término prueba estandarizada se utiliza más comúnmente para referirse a las pruebas que se realizan a grupos más grandes, como una prueba que realizan todos los adultos que desean obtener una licencia para tener un tipo particular de trabajo, o todos los estudiantes de una determinada edad. La mayoría de las pruebas estandarizadas son formas de evaluaciones sumativas (evaluaciones que miden el aprendizaje de los participantes al final de una unidad didáctica).
Como todos reciben el mismo examen y el mismo sistema de calificación, las pruebas estandarizadas suelen ser percibidas como más justas que las pruebas no estandarizadas. Estas pruebas suelen considerarse más justas y objetivas que un sistema en el que algunos estudiantes reciben un examen más fácil y otros reciben un examen más difícil. Las pruebas estandarizadas están diseñadas para permitir una comparación confiable de los resultados de todos los examinados, porque todos están haciendo el mismo examen. [2]
La definición de una prueba estandarizada ha cambiado un poco con el tiempo. [3] En 1960, las pruebas estandarizadas se definieron como aquellas en las que las condiciones y el contenido eran iguales para todos los que realizaban la prueba, independientemente de cuándo, dónde o por quién se administraba o calificaba la prueba. Las pruebas estandarizadas tienen un método consistente y uniforme para calificar. [4] Esto significa que todos los estudiantes que responden una pregunta de la prueba de la misma manera obtendrán la misma puntuación para esa pregunta. El propósito de esta estandarización es asegurarse de que las puntuaciones indiquen de manera confiable las habilidades o destrezas que se están midiendo, y no otras cosas, como diferentes instrucciones sobre qué hacer si el examinado no sabe la respuesta a una pregunta. [3]
A principios del siglo XXI, el enfoque se alejó de una estricta igualdad de condiciones hacia una equidad igualitaria de las condiciones de prueba. [3] Por ejemplo, un examinado con una muñeca rota podría escribir más lentamente debido a la lesión, y sería más equitativo y produciría una comprensión más confiable del conocimiento real del examinado, si a esa persona se le dieran unos minutos más para escribir las respuestas a una prueba con límite de tiempo. Cambiar las condiciones de la prueba de una manera que mejore la equidad con respecto a una discapacidad permanente o temporal, pero sin socavar el punto principal de la evaluación, se llama adaptación . Sin embargo, si el propósito de la prueba fuera ver qué tan rápido podía escribir el estudiante, entonces darle al examinado tiempo adicional se convertiría en una modificación del contenido y ya no en una prueba estandarizada.
La evidencia más temprana de pruebas estandarizadas se encontró en China , durante la dinastía Han , [5] donde los exámenes imperiales cubrían las Seis Artes , que incluían música, tiro con arco, equitación, aritmética, escritura y conocimiento de los rituales y ceremonias de los sectores público y privado. Estos exámenes se utilizaban para seleccionar empleados para la burocracia estatal.
Más tarde, se añadieron a las pruebas secciones sobre estrategias militares, derecho civil, ingresos e impuestos, agricultura y geografía. De esta forma, los exámenes se institucionalizaron durante más de un milenio.
Hoy en día, las pruebas estandarizadas siguen siendo ampliamente utilizadas, la más famosa de las cuales es el sistema Gaokao .
Las pruebas estandarizadas se introdujeron en Europa a principios del siglo XIX, siguiendo el modelo de los exámenes del mandarín chino , [6] gracias a la defensa de los administradores coloniales británicos, el más "persistente" de los cuales fue el cónsul británico en Guangzhou, China , Thomas Taylor Meadows . [6] Meadows advirtió sobre el colapso del Imperio Británico si las pruebas estandarizadas no se implementaban en todo el imperio de inmediato. [6]
Antes de su adopción, las pruebas estandarizadas no formaban parte de la pedagogía occidental. Basándose en la tradición escéptica y abierta del debate heredada de la Antigua Grecia, la academia occidental favorecía las evaluaciones no estandarizadas mediante ensayos escritos por los estudiantes. Es por ello que la primera implementación europea de las pruebas estandarizadas no se produjo en Europa propiamente dicha, sino en la India británica . [7] Inspirados por el uso chino de las pruebas estandarizadas, a principios del siglo XIX, los "directores de las empresas británicas contrataban y ascendían a los empleados basándose en exámenes competitivos para evitar la corrupción y el favoritismo". [7] Esta práctica de las pruebas estandarizadas fue adoptada posteriormente a finales del siglo XIX por el continente británico. Los debates parlamentarios que siguieron hicieron muchas referencias al "sistema chino mandarín". [6]
Fue desde Gran Bretaña que las pruebas estandarizadas se extendieron, no solo por toda la Mancomunidad Británica , sino también a Europa y luego a los Estados Unidos. [6] Su difusión fue impulsada por la Revolución Industrial . El aumento en el número de estudiantes escolares durante y después de la Revolución Industrial, como resultado de las leyes de educación obligatoria , disminuyó el uso de la evaluación abierta, que era más difícil de producir en masa y evaluar objetivamente debido a su naturaleza intrínsecamente subjetiva.
Durante la Segunda Guerra Mundial, se desarrollaron pruebas estandarizadas, como las Juntas de Selección del Ministerio de Guerra , para el Ejército británico con el fin de elegir a los candidatos para el entrenamiento de oficiales y otras tareas. [8] Las pruebas examinaban las capacidades mentales de los soldados, sus habilidades mecánicas, su capacidad para trabajar con otros y otras cualidades. Los métodos anteriores habían estado sesgados y habían dado como resultado la elección de los soldados equivocados para el entrenamiento de oficiales. [8]
Las pruebas estandarizadas han sido parte de la educación en los Estados Unidos desde el siglo XIX, pero la dependencia generalizada de las pruebas estandarizadas en las escuelas de ese país es en gran medida un fenómeno del siglo XX.
La inmigración a mediados del siglo XIX contribuyó al crecimiento de las pruebas estandarizadas en los Estados Unidos. [9] Las pruebas estandarizadas se utilizaron cuando las personas ingresaron por primera vez a los EE. UU. para evaluar los roles sociales y determinar el poder y el estatus social. [10]
La Junta de Exámenes de Ingreso a la Universidad comenzó a ofrecer pruebas estandarizadas para la admisión a universidades y colegios en 1901, cubriendo nueve materias. Esta prueba se implementó con la idea de crear admisiones estandarizadas para los Estados Unidos en las universidades de élite del noreste. Originalmente, la prueba también estaba destinada a los mejores internados , con el fin de alinear el plan de estudios entre escuelas. [11] Originalmente, la prueba estandarizada estaba compuesta por ensayos y no estaba destinada a una evaluación generalizada. [11]
Durante la Primera Guerra Mundial , se desarrollaron las pruebas Alpha y Beta del Ejército para ayudar a colocar a los nuevos reclutas en tareas apropiadas según sus niveles de inteligencia evaluados. [12] La primera edición de una prueba estandarizada moderna para el coeficiente intelectual , la Prueba de Inteligencia Stanford-Binet , apareció en 1916. Luego, el College Board diseñó el SAT (Prueba de Aptitud Académica) en 1926. La primera prueba SAT se basó en las pruebas de coeficiente intelectual del Ejército, con el objetivo de determinar la inteligencia, las habilidades de resolución de problemas y el pensamiento crítico del examinado . [13] En 1959, Everett Lindquist ofreció el ACT (American College Testing) por primera vez. [14] A partir de 2020, el ACT incluye cuatro secciones principales con preguntas de opción múltiple para evaluar inglés, matemáticas, lectura y ciencias, además de una sección de escritura opcional. [15]
En la década de 1970, los estados individuales comenzaron a realizar pruebas a un gran número de niños y adolescentes a través de los sistemas de escuelas públicas. En la década de 1980, las escuelas estadounidenses ya realizaban evaluaciones a nivel nacional. [16] En 2012, 45 estados pagaron un promedio de 27 dólares por estudiante, y 669 millones de dólares en total, en pruebas académicas anuales a gran escala. [17] Sin embargo, los costos indirectos , como el pago a los maestros para preparar a los estudiantes para las pruebas y el tiempo de clase dedicado a administrar las pruebas, superan significativamente el costo directo de la prueba en sí. [17]
La necesidad de que el gobierno federal hiciera comparaciones significativas en un sistema de educación pública altamente descentralizado (controlado localmente) alentó el uso de pruebas estandarizadas a gran escala. La Ley de Educación Primaria y Secundaria de 1965 requirió que se realizaran algunas pruebas estandarizadas en las escuelas públicas. La Ley No Child Left Behind de 2001 vinculó aún más algunos tipos de financiamiento de las escuelas públicas a los resultados de las pruebas estandarizadas. Bajo estas leyes federales, el currículo escolar todavía lo establecía cada estado, pero el gobierno federal requería que los estados evaluaran qué tan bien las escuelas y los maestros enseñaban el material elegido por el estado con pruebas estandarizadas. [18] Los resultados de los estudiantes en las pruebas estandarizadas a gran escala se utilizaron para asignar fondos y otros recursos a las escuelas y para cerrar las escuelas con un desempeño deficiente. La Ley Cada Estudiante Triunfa reemplazó a la NCLB a fines de 2015. [19] En ese momento, estas pruebas estandarizadas a gran escala se habían vuelto controvertidas en los Estados Unidos, no necesariamente porque todos los estudiantes estuvieran tomando las mismas pruebas y obteniendo la misma calificación, sino porque se habían convertido en pruebas de alto riesgo para los sistemas escolares y los maestros. [20]
En los últimos años, muchas universidades y colegios estadounidenses han abandonado el requisito de que los solicitantes presenten resultados de exámenes estandarizados. [21]
El Programa Nacional de Evaluación de Australia – Pruebas estandarizadas de alfabetización y aritmética (NAPLAN) fue iniciado en 2008 por la Autoridad Australiana de Currículo, Evaluación e Informes, una autoridad independiente "responsable del desarrollo de un currículo nacional, un programa nacional de evaluación y un programa nacional de recopilación y presentación de datos que respalde el aprendizaje del siglo XXI para todos los estudiantes australianos". [22]
Las pruebas incluyen a todos los estudiantes de los años 3, 5, 7 y 9 en las escuelas australianas, que serán evaluados mediante pruebas nacionales. Las materias que se cubren en estas pruebas incluyen lectura, escritura, convenciones lingüísticas (ortografía, gramática y puntuación) y aritmética.
El programa presenta informes de nivel de los estudiantes diseñados para permitir que los padres vean el progreso de sus hijos a lo largo de su vida escolar y ayudar a los maestros a mejorar las oportunidades de aprendizaje individuales para sus estudiantes. Los datos de los estudiantes y del nivel de la escuela también se proporcionan al sistema escolar correspondiente con el entendimiento de que se pueden utilizar para asignar apoyos y recursos específicos a las escuelas que más los necesitan. Los maestros y las escuelas utilizan esta información, junto con otra información, para determinar el rendimiento de sus estudiantes y para identificar las áreas de necesidad que requieren asistencia.
El concepto de evaluar el rendimiento de los estudiantes no es nuevo, aunque se puede decir que el enfoque australiano actual tiene su origen en las estructuras de política educativa vigentes tanto en los Estados Unidos como en el Reino Unido. Existen varias diferencias clave entre el NAPLAN australiano y las estrategias del Reino Unido y los Estados Unidos. A las escuelas que se determine que tienen un rendimiento inferior al esperado en el contexto australiano se les ofrecerá asistencia financiera en virtud de la política actual del gobierno federal.
En 1968 nació el Instituto Colombiano para la Evaluación de la Educación (ICFES) con el objetivo de regular la educación superior. Se implementó el anterior sistema público de evaluación para la autorización de funcionamiento y reconocimiento legal de instituciones y programas universitarios.
Colombia cuenta con diversas pruebas estandarizadas que evalúan el nivel de educación en el país. Estos exámenes son realizados por el ICFES.
Los alumnos de tercero, quinto y noveno grado rinden el examen “Saber 3°5°9°”. Esta prueba actualmente se presenta en computadora en muestras controladas y censales.
Al salir del bachillerato los estudiantes presentan el “Saber 11” que les permite ingresar a diferentes universidades del país. Los estudiantes que estudian en casa pueden tomar este examen para graduarse del bachillerato y obtener su certificado de grado y diploma.
Los estudiantes que egresan de la universidad deben realizar el examen “Saber Pro”.
Canadá deja la educación y, en consecuencia, las pruebas estandarizadas bajo la jurisdicción de las provincias. Cada provincia tiene su propio régimen de pruebas estandarizadas, que abarca desde la ausencia de pruebas estandarizadas obligatorias para los estudiantes en Saskatchewan hasta exámenes que valen el 40% de las calificaciones finales de la escuela secundaria en Terranova y Labrador. [23]
Lo más común es que una prueba académica importante incluya secciones calificadas por humanos y por computadora.
Una prueba estandarizada puede estar compuesta por preguntas de opción múltiple, preguntas de verdadero o falso, preguntas de ensayo, evaluaciones auténticas o casi cualquier otra forma de evaluación. Las preguntas de opción múltiple y de verdadero o falso se eligen a menudo para las pruebas que toman miles de personas porque se pueden administrar y calificar de manera económica, rápida y confiable mediante el uso de hojas de respuestas especiales que se pueden leer con una computadora o mediante pruebas adaptativas por computadora . Algunas pruebas estandarizadas tienen componentes de redacción de respuestas cortas o de ensayo a los que se les asigna una puntuación por parte de evaluadores independientes que utilizan rúbricas (reglas o pautas) y documentos de referencia (ejemplos de documentos para cada puntuación posible) para determinar la calificación que se le dará a una respuesta.
No todas las pruebas estandarizadas implican responder preguntas. Una evaluación auténtica de las habilidades atléticas podría consistir en correr durante un tiempo determinado o en driblar una pelota durante una cierta distancia. Los profesionales de la salud deben aprobar pruebas que demuestren que pueden realizar procedimientos médicos. Los candidatos a obtener una licencia de conducir deben aprobar una prueba estandarizada que demuestre que pueden conducir un automóvil. La Prueba estandarizada canadiense de aptitud física se ha utilizado en la investigación médica para determinar la aptitud física de los candidatos. [24] [25]
Desde finales del siglo XX, la evaluación estandarizada a gran escala se ha visto condicionada en parte por la facilidad y el bajo costo de la calificación de las pruebas de opción múltiple por computadora. La mayoría de las evaluaciones nacionales e internacionales no son evaluadas íntegramente por personas.
Las personas están acostumbradas a calificar elementos que no se pueden calificar fácilmente con una computadora (como los ensayos). Por ejemplo, el Graduate Record Exam es una evaluación adaptativa por computadora que no requiere calificación por parte de personas, excepto la parte escrita. [26]
La calificación humana es relativamente cara y a menudo variable, por lo que se prefiere la calificación por computadora cuando es posible. Por ejemplo, algunos críticos dicen que los empleados mal pagados calificarán mal los exámenes. [27] La concordancia entre los calificadores puede variar entre el 60 y el 85 por ciento, dependiendo del examen y la sesión de calificación. Para los exámenes a gran escala en las escuelas, algunos examinadores pagan para que dos o más calificadores lean cada prueba; si sus calificaciones no concuerdan, entonces la prueba se pasa a otros calificadores. [27]
Aunque el proceso es más difícil que calificar exámenes de opción múltiple electrónicamente, los ensayos también pueden calificarse por computadora. En otros casos, los ensayos y otras respuestas abiertas son calificados de acuerdo con una rúbrica de evaluación predeterminada por calificadores capacitados. Por ejemplo, en Pearson, todos los calificadores de ensayos tienen títulos universitarios de cuatro años y la mayoría son maestros de aula actuales o anteriores. [28]
El uso de una rúbrica tiene como objetivo aumentar la imparcialidad a la hora de evaluar el desempeño del estudiante. En las pruebas estandarizadas, el error de medición (un patrón constante de errores y sesgos en la calificación de la prueba) es fácil de determinar. Cuando la calificación depende de las preferencias individuales de los calificadores, las calificaciones de los estudiantes dependen de quién califica la prueba.
Las pruebas estandarizadas también eliminan el sesgo de los calificadores en la evaluación. Las investigaciones muestran que los docentes crean una especie de profecía autocumplida en su evaluación de los estudiantes, otorgando a aquellos que anticipan que lograrán buenos resultados calificaciones más altas y otorgando calificaciones más bajas a aquellos que esperan que fracasen. [29] En la evaluación no estandarizada, los calificadores tienen más discreción individual y, por lo tanto, es más probable que produzcan resultados injustos a través de sesgos inconscientes .
Hay dos tipos de interpretación de las puntuaciones de las pruebas : una interpretación de las puntuaciones referenciada a la norma o una interpretación de las puntuaciones referenciada a un criterio . [4]
Cualquiera de estos sistemas puede utilizarse en las pruebas estandarizadas. Lo importante para las pruebas estandarizadas es que a todos los estudiantes se les formulen preguntas equivalentes, en circunstancias razonablemente iguales, y se les califique de acuerdo con los mismos estándares.
Una evaluación normativa compara a cada candidato con otros candidatos. Una prueba referenciada a normas (NRT) es un tipo de prueba, evaluación o valoración que arroja una estimación de la posición del individuo evaluado en una población predefinida. La estimación se deriva del análisis de las puntuaciones de la prueba y otros datos relevantes de una muestra extraída de la población. Este tipo de prueba identifica si el candidato obtuvo un mejor o peor desempeño que otros estudiantes que realizaron esta prueba.
La comparación con otros hace que las pruebas estandarizadas con referencia a normas sean útiles para fines de admisión en la educación superior, donde una escuela está tratando de comparar a estudiantes de todo el país o de todo el mundo. La estandarización garantiza que todos los estudiantes sean evaluados por igual, y la referencia a normas identifica quiénes son mejores o peores. Algunos ejemplos de tales pruebas de referencia internacionales incluyen el Estudio Internacional de Tendencias en Matemáticas y Ciencias ( TIMMS ) y el Estudio Internacional de Progreso en Competencia Lectora ( PIRLS ).
Una prueba basada en criterios (CRT, por sus siglas en inglés) es un tipo de prueba que utiliza las puntuaciones de las pruebas para mostrar qué tan bien se desempeñaron los examinados en una tarea determinada, no qué tan bien se desempeñaron en comparación con otros examinados. La mayoría de las pruebas y cuestionarios que escriben los maestros de escuela son pruebas basadas en criterios. En este caso, el objetivo es simplemente ver si el estudiante puede responder las preguntas correctamente. El maestro no suele intentar comparar el resultado de cada estudiante con el de otros estudiantes.
Las consideraciones de validez y confiabilidad suelen considerarse elementos esenciales para determinar la calidad de cualquier prueba estandarizada. Sin embargo, las asociaciones profesionales y de profesionales con frecuencia han situado estas preocupaciones dentro de contextos más amplios al desarrollar estándares y emitir juicios generales sobre la calidad de cualquier prueba estandarizada en su conjunto dentro de un contexto determinado.
En el campo de la evaluación , y en particular de la evaluación educativa , el Comité Conjunto de Normas para la Evaluación Educativa [31] ha publicado tres conjuntos de normas para las evaluaciones: las Normas de Evaluación del Personal [32] , publicadas en 1988; las Normas de Evaluación de Programas (segunda edición) [33] , publicadas en 1994; y las Normas de Evaluación de Estudiantes [34], publicadas en 2003.
Cada publicación presenta y elabora un conjunto de estándares para su uso en una variedad de entornos educativos. Los estándares proporcionan pautas para diseñar, implementar, evaluar y mejorar la forma identificada de evaluación. Cada uno de los estándares se ha colocado en una de cuatro categorías fundamentales para promover evaluaciones educativas que sean adecuadas, útiles, factibles y precisas. En estos conjuntos de estándares, las consideraciones de validez y confiabilidad se cubren bajo el tema de precisión. Las pruebas tienen como objetivo garantizar que las evaluaciones de los estudiantes brinden información sólida, precisa y creíble sobre el aprendizaje y el desempeño de los estudiantes; sin embargo, las pruebas estandarizadas ofrecen información limitada sobre muchas formas de inteligencia y confiar en ellas perjudica a los estudiantes porque miden de manera inexacta el potencial de un estudiante para el éxito. [35]
En el campo de la psicometría , los Estándares para las pruebas educativas y psicológicas [36] establecen estándares sobre validez y confiabilidad, junto con errores de medición y cuestiones relacionadas con la adaptación de personas con discapacidades . El tercer y último tema principal cubre los estándares relacionados con las solicitudes de pruebas, la acreditación , además de las pruebas en la evaluación de programas y las políticas públicas .
Una de las principales ventajas de las pruebas estandarizadas a gran escala es que los resultados se pueden documentar empíricamente; por lo tanto, se puede demostrar que las puntuaciones de las pruebas tienen un grado relativo de validez y confiabilidad , así como resultados que son generalizables y replicables. [37] Esto a menudo se contrasta con las calificaciones en un expediente académico escolar, que son asignadas por maestros individuales. Al observar las calificaciones asignadas individualmente, puede ser difícil tener en cuenta las diferencias en la cultura educativa entre las escuelas, la dificultad de las tareas de un maestro determinado, las diferencias en el estilo de enseñanza, la presión por la inflación de las calificaciones y otras técnicas y sesgos que afectan la calificación.
Otra ventaja es la agregación. Una prueba estandarizada bien diseñada permite evaluar el dominio de un individuo en un dominio de conocimientos o habilidades que, en cierto nivel de agregación, proporcionará información útil. Es decir, si bien las evaluaciones individuales pueden no ser lo suficientemente precisas para fines prácticos, las puntuaciones medias de las clases, escuelas, sucursales de una empresa u otros grupos pueden proporcionar información útil debido a la reducción de errores que se logra al aumentar el tamaño de la muestra.
Las pruebas estandarizadas son una forma muy común de determinar el rendimiento académico pasado y el potencial futuro de un estudiante.
La validez, la calidad o el uso de las pruebas, en particular las pruebas estandarizadas anuales que se utilizan habitualmente en el ámbito educativo, han seguido recibiendo apoyos o críticas. Al igual que las pruebas en sí, los apoyos y las críticas a las pruebas suelen ser variados y pueden provenir de diversas fuentes, como padres, personas que se someten a ellas, profesores, grupos empresariales, universidades o organismos de control gubernamentales.
Los partidarios de las pruebas estandarizadas a gran escala en educación suelen aportar las siguientes razones para promover las pruebas en educación:
Los críticos de las pruebas estandarizadas en educación a menudo brindan las siguientes razones para revisar o eliminar las pruebas estandarizadas en educación:
Además, el éxito de los estudiantes se mide en función del desempeño relativo del docente, lo que hace que el avance del docente dependa del éxito del docente en relación con el desempeño académico del estudiante. Los docentes se enfrentan a cuestiones éticas y económicas cuando se enfrentan a estudiantes claramente de bajo rendimiento o con escasas habilidades y a una prueba estandarizada.
En su libro Now You See It , Cathy Davidson critica los exámenes estandarizados. Describe a los jóvenes como "niños de una cadena de montaje", lo que significa que el uso de los exámenes estandarizados forma parte de un modelo educativo de talla única. También critica la estrechez de miras en cuanto a las habilidades que se evalúan y la clasificación de los niños que carecen de ellas como fracasados o como estudiantes con discapacidades. [54] El fraude generalizado y organizado se ha convertido en una cultura en crecimiento. [55]
Hay tres métricas con las que se mide a los países con mejor desempeño en el TIMMS (los "países A+"): enfoque, coherencia y rigor. El enfoque se define como el número de temas cubiertos en cada grado; la idea es que cuantos menos temas se cubran en cada grado, más enfoque se puede dar a cada tema. La definición de coherencia es adherirse a una secuencia de temas cubiertos que sigue la progresión natural o la estructura lógica de las matemáticas. El CCSSM se comparó tanto con los estándares estatales actuales como con los estándares de los países A+. Con la mayor cantidad de temas cubiertos en promedio, los estándares estatales actuales tuvieron el enfoque más bajo. [56] Los Estándares Básicos Comunes tienen como objetivo corregir esta discrepancia ayudando a los educadores a centrarse en lo que los estudiantes necesitan aprender en lugar de distraerse con temas superfluos. Fomentan que los materiales educativos pasen de cubrir una amplia gama de temas de manera superficial a unos pocos temas con mucha más profundidad. [57]
Las pruebas estandarizadas son una forma de medir el nivel educativo de los estudiantes y las escuelas a gran escala. Desde el jardín de infantes hasta el 12.º grado, la mayoría de los estudiantes estadounidenses participan en pruebas estandarizadas anuales. El estudiante promedio realiza alrededor de 10 de estas pruebas por año (por ejemplo, una o dos pruebas de comprensión lectora, una o dos pruebas de matemáticas, una prueba de redacción, una prueba de ciencias, etc.). [58] La cantidad promedio de pruebas toma alrededor del 2,3% del tiempo total de clase (equivalente a aproximadamente cuatro días escolares por año). [59]
Las pruebas estandarizadas son caras de administrar. Se ha informado que Estados Unidos gasta alrededor de 1.700 millones de dólares anuales en estas pruebas. [60] En 2001, también se informó que sólo tres empresas (Harcourt Educational Measurement, CTB McGraw-Hill y Riverside Publishing) diseñan el 96% de las pruebas que se realizan a nivel estatal. [61]
La Academia Nacional de Ciencias recomienda que las decisiones educativas importantes no se basen únicamente en una única puntuación de prueba. [62] El uso de puntuaciones mínimas de corte para el ingreso o la graduación no implica un estándar único, ya que las puntuaciones de las pruebas casi siempre se combinan con otros criterios mínimos como el número de créditos, los cursos prerrequisitos, la asistencia, etc. Las puntuaciones de las pruebas a menudo se perciben como el "único criterio" simplemente porque son las más difíciles o se asume automáticamente el cumplimiento de otros criterios. Una excepción a esta regla es el GED , que ha permitido que muchas personas obtengan el reconocimiento de sus habilidades aunque no cumplieran con los criterios tradicionales. [ cita requerida ]
Algunos profesores argumentan que una sola prueba estandarizada sólo mide el conocimiento actual de un estudiante y no refleja el progreso del estudiante desde el comienzo del año. [63] Un resultado creado por individuos que no son parte de la instrucción regular del estudiante, sino por profesionales que determinan lo que los estudiantes deben saber a diferentes edades. Además, los profesores coinciden en que los mejores creadores y facilitadores de pruebas son ellos mismos. Argumentan que son los más conscientes de las habilidades, capacidades y necesidades de los estudiantes, lo que les permitiría tomarse más tiempo en las materias o continuar con el currículo regular.
Monty Neill, director del Centro Nacional para la Evaluación Justa y Abierta, afirma que a los estudiantes que hablan inglés como segunda lengua, que tienen una discapacidad o que provienen de familias de bajos ingresos se les niega desproporcionadamente un diploma debido a la puntuación de un examen, lo cual es injusto y perjudicial. A fines de la década de 1970, cuando comenzó el examen de graduación en los Estados Unidos, por ejemplo, una demanda afirmó que muchos estudiantes negros no habían tenido una oportunidad justa en el material que se les examinó en el examen de graduación porque habían asistido a escuelas segregadas por ley. "La interacción entre las escuelas con pocos recursos y las pruebas afecta más fuertemente a los estudiantes de color", como sostiene Neill, "se les niegan desproporcionadamente los diplomas o la promoción de grado, y las escuelas a las que asisten son las que tienen más probabilidades de obtener malos resultados en los exámenes y enfrentar sanciones como la reestructuración". [64]
En la revista The Progressive, Barbara Miner explica los inconvenientes de las pruebas estandarizadas analizando tres libros diferentes. Como escribe Linda M. McNeil, codirectora del Centro de Educación de la Universidad Rice y profesora de educación, en su libro Contradictions of School Reform: Educational Costs of Standardized Testing : "La estandarización educativa perjudica la enseñanza y el aprendizaje y, a largo plazo, reestratifica la educación por raza y clase". McNeil cree que la reforma educativa basada en pruebas establece estándares más altos para los estudiantes de color. Según Miner, McNeil "muestra cómo la reforma basada en pruebas centraliza el poder en manos de la élite corporativa y política, un desarrollo particularmente aterrador durante esta época de creciente influencia corporativa y conservadora sobre la reforma educativa". Esa reforma basada en pruebas ha empobrecido el aprendizaje, especialmente para los estudiantes de color. [65]
FairTest afirma que las consecuencias negativas del mal uso de las pruebas incluyen expulsar a los estudiantes de la escuela, expulsar a los maestros de la profesión y socavar la participación de los estudiantes y el clima escolar. [66]
Las universidades revisan las pruebas estandarizadas como parte de la solicitud, junto con otra evidencia de respaldo, como declaraciones personales , calificaciones de la escuela secundaria , cursos anteriores y cartas de recomendación . [67] Diferentes países tienen diferentes pruebas, como el SAT en los EE. UU., el Gaokao en China y el Examen de ingreso conjunto en la India.
Nathan Kuncel, un experto en educación superior, dice que las pruebas de admisión a la universidad y otras pruebas estandarizadas "ayudan a los abrumados funcionarios de admisión a dividir enormes cantidades de solicitantes en grupos para una evaluación posterior. Las puntuaciones altas no garantizan la admisión en ninguna parte, y las puntuaciones bajas no la descartan, pero las escuelas se toman las pruebas en serio". [68]
Las investigaciones muestran que los exámenes predicen más que las calificaciones del primer año y el nivel de los cursos que probablemente tomará un estudiante. La investigación longitudinal realizada por científicos muestra que los estudiantes con puntajes altos en los exámenes tienen más probabilidades de tomar el camino más difícil hacia la universidad. [69] Los exámenes también pueden indicar los resultados de los estudiantes más allá de la universidad, incluidas las evaluaciones del profesorado, los logros de investigación, la obtención de títulos, el desempeño en los exámenes integrales y la licencia profesional. [70]
Dado que las calificaciones varían según las escuelas, e incluso para dos estudiantes de la misma escuela, la medida común proporcionada por el puntaje de la prueba es más útil como forma de comparar a los estudiantes.
Sin embargo, en un "metaanálisis" de abril de 1995 publicado en el Journal of Educational and Psychological Measurement , Todd Morrison y Melanie Morrison examinaron dos docenas de estudios de validez del examen requerido para ingresar a casi cualquier programa de maestría o doctorado en Estados Unidos: el Graduate Record Examinations (GRE). Este estudio abarcó a más de 5.000 examinados en los últimos 30 años. Los autores descubrieron que las puntuaciones del GRE representaban solo el 6 por ciento de la variación en las calificaciones en la escuela de posgrado. El GRE parece ser "prácticamente inútil desde el punto de vista de la predicción", escribieron los autores. Estudios repetidos del Law School Admissions Test (LSAT) encuentran lo mismo.
Existe un debate sobre si la prueba indicará el éxito a largo plazo en el trabajo y en la vida, ya que hay muchos otros factores, pero habilidades fundamentales como la lectura, la escritura y las matemáticas están relacionadas con el desempeño laboral.
Una investigación longitudinal realizada en 2007 ha demostrado que los logros importantes en la vida, como publicar una novela o patentar una tecnología, también están asociados con las puntuaciones en los exámenes, incluso después de tener en cuenta las oportunidades educativas. Incluso hay un conjunto considerable de pruebas de que estas habilidades están relacionadas con el liderazgo eficaz y los logros creativos en el trabajo. Ser capaz de leer textos y darles sentido y tener un razonamiento cuantitativo sólido son cruciales en la economía de la información moderna . [70]
Muchos argumentos sugieren que las habilidades adquiridas en las pruebas son útiles, pero sólo hasta cierto punto.
Sin embargo, un notable estudio longitudinal publicado en 2008 en la revista Psychological Science examinó a estudiantes que a los 13 años estaban en el 1% superior de la clasificación. Veinte años después, en promedio, tenían un rendimiento muy alto, ingresos altos, premios importantes y logros profesionales que enorgullecerían a cualquier padre. [71]
Existe una correlación entre los resultados de los exámenes y la clase social, pero el éxito en los exámenes estandarizados y en la universidad no depende simplemente de la clase. Los estudios muestran que "los exámenes fueron válidos incluso cuando se controló la clase socioeconómica. Independientemente de su origen familiar, los estudiantes con buenos resultados en los exámenes y buenas notas en la escuela secundaria obtienen mejores resultados en la universidad que los estudiantes con calificaciones más bajas y peores expedientes académicos". [72]
Otra crítica relacionada con la clase social y las pruebas estandarizadas es que sólo las personas ricas reciben preparación y asesoramiento para las pruebas. Sin embargo, "los investigadores han llevado a cabo una combinación de estudios experimentales y estudios de campo controlados para poner a prueba esta cuestión. En general, han llegado a la conclusión de que las ganancias debidas a la preparación para las pruebas son más bien del orden de 5 a 20 puntos y no de los 100 a 200 puntos que afirman algunas empresas de preparación para las pruebas". [73]
Más importante aún, muchas personas sostienen la opinión de que las pruebas impiden la diversidad en las admisiones, ya que las minorías obtienen puntuaciones más bajas en las pruebas en comparación con otros grupos representados. [74] Un estudio de 2012 analizó las escuelas donde las pruebas de admisión son opcionales para los solicitantes y las comparó con las escuelas que utilizan las pruebas, y el resultado muestra que "investigaciones recientes demuestran que las escuelas donde las pruebas son opcionales han estado inscribiendo cuerpos estudiantiles cada vez más diversos. Pero lo mismo es cierto para las escuelas que requieren pruebas". [75]
Los opositores sostienen que las pruebas estandarizadas son un mal uso y que emiten juicios acríticos sobre la inteligencia y el rendimiento, pero los partidarios sostienen que no se trata de aspectos negativos de las pruebas estandarizadas, sino de críticas a los sistemas de evaluación mal diseñados. Argumentan que las pruebas deberían centrar, y de hecho lo hacen, los recursos educativos en los aspectos más importantes de la educación (impartir un conjunto predefinido de conocimientos y habilidades) y que otros aspectos son menos importantes o deberían añadirse al sistema de evaluación.
La evidencia muestra que los estudiantes negros e hispanos obtienen, en promedio, puntuaciones más bajas que los blancos y asiáticos. Por lo tanto, las pruebas estándar de matemáticas y lectura, como el SAT, han enfrentado ataques cada vez mayores por parte de los progresistas. Sin embargo, un informe exhaustivo del senado de la facultad de la UC, encargado por Janet Napolitano y publicado en 2020, concluyó que las pruebas no son discriminatorias y desempeñan un papel importante en la protección de la calidad educativa. [76]
El informe sugirió que el empeoramiento de la inflación de las calificaciones , especialmente en las escuelas secundarias ricas, hace que una evaluación estándar sea especialmente importante. [76]
En cuanto a la intención de las escuelas de la UC de abandonar las pruebas estándar como el SAT y el ACT en las admisiones universitarias, las pruebas subjetivas y personalizadas como los ensayos y las actividades extracurriculares pueden ser fácilmente adaptadas y perjudiciales para los estudiantes que no están familiarizados con el proceso. Las admisiones sin pruebas pueden ser incluso más favorables a los que tienen buenos contactos. [77]
En enero de 2020, el senado de la facultad de la Universidad de California recomendó que el sistema de la UC mantuviera las pruebas estandarizadas como requisitos de admisión. [76] El informe dice que las pruebas estandarizadas de matemáticas y lectura son útiles para predecir el desempeño universitario. Basándose en datos de los estudiantes del sistema de la UC, el informe concluye que "las puntuaciones de las pruebas son actualmente mejores predictores del GPA del primer año que el promedio de calificaciones de la escuela secundaria". [76] El informe continúa: las puntuaciones también son buenas para predecir el GPA total de la universidad y la posibilidad de que un estudiante se gradúe. Si bien el "poder predictivo de las puntuaciones de las pruebas ha aumentado", agrega el informe, "el poder predictivo de las calificaciones de la escuela secundaria ha disminuido". [76]
Los resultados de los exámenes permiten a las escuelas de la UC "seleccionar a aquellos estudiantes de grupos subrepresentados que tienen más probabilidades de obtener calificaciones más altas y graduarse a tiempo". [76] "La intención original del SAT era identificar a los estudiantes que provenían de fuera de los círculos relativamente privilegiados y que podrían tener el potencial de tener éxito en la universidad", dice el informe. [76] El creador del SAT, el Educational Testing Service (ETS), ahora afirma que el SAT no es una prueba de "aptitud", sino más bien una evaluación de "habilidades desarrolladas". [78]
La mayoría de los exámenes pueden clasificarse en múltiples categorías. Por ejemplo, un examen puede ser estandarizado y también un examen de alto riesgo, o estandarizado y también un examen de opción múltiple. Las quejas sobre los "exámenes estandarizados" (todos los examinados realizan el mismo examen, en condiciones razonablemente similares, con la misma calificación) a menudo se centran en cuestiones no relacionadas con la estandarización y se aplican por igual a los exámenes no estandarizados. Por ejemplo, un crítico puede quejarse de que "los exámenes estandarizados son todos exámenes con límite de tiempo", pero el foco de la crítica está en el límite de tiempo, y no en que todos realicen el mismo examen y que sus respuestas sean calificadas de la misma manera.
Una prueba de alto riesgo es una prueba en la que se otorga una recompensa por un buen desempeño. [4] Algunas pruebas estandarizadas, incluidas muchas de las pruebas que se utilizan para la admisión a universidades en todo el mundo, son pruebas de alto riesgo. La mayoría de las pruebas estandarizadas, como los exámenes ordinarios que se realizan en el aula, son pruebas de bajo riesgo. [4]
La excesiva dependencia de pruebas estandarizadas de alto nivel para la toma de decisiones suele ser motivo de controversia. Una preocupación común con las pruebas de alto nivel es que miden el desempeño durante un único evento, cuando los críticos creen que sería adecuada una evaluación más holística. Los críticos a menudo proponen enfatizar medidas acumulativas o incluso no numéricas, como las calificaciones en el aula o breves evaluaciones individuales (escritas en prosa) de los profesores. Los partidarios argumentan que las puntuaciones de las pruebas proporcionan un estándar claro y objetivo que sirve como un control valioso sobre la inflación de las calificaciones . [79]
Una prueba basada en normas es una que está diseñada y calificada de manera que algunos examinados obtengan una mejor o peor puntuación que otros. [4] La clasificación proporciona información sobre la clasificación relativa, lo que resulta útil cuando el objetivo es determinar quién es el mejor (por ejemplo, en las admisiones a universidades de élite). [4]
Una prueba basada en criterios es más común y más práctica cuando el objetivo es saber si los examinados han aprendido el material requerido. [4]
Sin embargo, algunos críticos se oponen a las "pruebas estandarizadas" no porque se opongan a dar a los estudiantes la misma prueba en condiciones razonablemente similares y calificar las respuestas de la misma manera, sino porque se oponen al tipo de material que normalmente se evalúa en las escuelas. Aunque existen pruebas estandarizadas para atributos no académicos como las Pruebas Torrance de Pensamiento Creativo , las escuelas rara vez realizan pruebas estandarizadas para medir "iniciativa, creatividad, imaginación... curiosidad... buena voluntad, reflexión ética o una serie de otras disposiciones y atributos valiosos". [80] [81] En cambio, las pruebas que realizan las escuelas tienden a centrarse menos en el desarrollo moral o del carácter, y más en las habilidades académicas individuales identificables, como la comprensión lectora y la aritmética .
En su libro The Shame of the Nation (La vergüenza de la nación) , Jonathan Kozol sostiene que los estudiantes sometidos a pruebas estandarizadas son víctimas de una "decapitación cognitiva". Kozol llega a esta conclusión después de hablar con muchos niños de escuelas del centro de la ciudad que no tienen memoria espacial del tiempo, los períodos de tiempo y los acontecimientos históricos. Esto es especialmente así en las escuelas donde, debido a la escasez de fondos y a las estrictas políticas de rendición de cuentas, las escuelas han eliminado asignaturas como las artes, la historia y la geografía; para centrarse en el contenido de las pruebas obligatorias. [82]
Algunas personas se ponen ansiosas al realizar un examen. Este fenómeno es más común en los exámenes de alto riesgo que en los de bajo riesgo. Los exámenes de alto riesgo (ya sean estandarizados o no estandarizados) pueden causar ansiedad.
Los propios estudiantes critican que los exámenes, aunque están estandarizados, son injustos con el estudiante en particular. Algunos estudiantes afirman que son "malos para rendir los exámenes", es decir, que se ponen nerviosos y pierden la concentración en los exámenes. Por lo tanto, si bien el examen es estándar y debería brindar resultados justos, los examinados afirman que están en desventaja y no tienen otra forma de demostrar sus conocimientos, ya que no hay otra alternativa de evaluación que permita a los estudiantes demostrar sus conocimientos y habilidades para resolver problemas.
Algunos estudiantes sufren ansiedad ante los exámenes . Entre el diez y el cuarenta por ciento de los estudiantes experimentan este tipo de ansiedad. [83] Los niños que viven en la pobreza son los más afectados por la ansiedad ante los exámenes. [84] La ansiedad ante los exámenes se aplica tanto a los exámenes estandarizados como a los no estandarizados.
Una prueba de opción múltiple ofrece al candidato preguntas asociadas a una lista predeterminada de posibles respuestas. Es un tipo de pregunta cerrada . El candidato elige la respuesta correcta de la lista.
Muchos críticos de las pruebas estandarizadas se oponen al formato de opción múltiple, que se utiliza habitualmente para pruebas económicas y a gran escala y que no es adecuado para algunos fines, como comprobar si el candidato puede escribir un párrafo. Sin embargo, las pruebas estandarizadas pueden utilizar cualquier formato de prueba, incluidas las preguntas abiertas , siempre que todos los candidatos realicen la misma prueba, en condiciones razonablemente similares, y sean evaluados de la misma manera.
Enseñar para el examen es un proceso de restringir deliberadamente la instrucción para centrarse únicamente en el material que se medirá en el examen. Por ejemplo, si el profesor sabe que un próximo examen de historia no incluirá ninguna pregunta sobre la historia de la música o el arte, entonces podría "enseñar para el examen" saltándose el material del libro de texto sobre música y arte. Los críticos también sostienen que los exámenes estandarizados fomentan la " enseñanza para el examen " a expensas de la creatividad y la cobertura en profundidad de temas que no están en el examen. Los críticos dicen que enseñar para el examen desfavorece el aprendizaje de orden superior; transforma lo que se permite enseñar a los profesores y limita en gran medida la cantidad de otra información que los estudiantes aprenden a lo largo de los años. [85] Si bien es posible utilizar un examen estandarizado sin dejar que su contenido determine el currículo y la instrucción, con frecuencia, lo que no se evalúa no se enseña, y la forma en que se evalúa la materia a menudo se convierte en un modelo de cómo enseñarla.
Las pruebas impuestas externamente, como las creadas por un departamento de educación para los estudiantes de su área, alientan a los docentes a limitar el formato curricular y enseñar para el examen. [86]
El pago basado en el desempeño es la idea de que los maestros deberían recibir un mayor salario si los estudiantes obtienen buenos resultados en los exámenes y un menor salario si obtienen malos resultados. [85] Cuando se recompensa a los maestros o a las escuelas por un mejor desempeño en los exámenes, esas recompensas alientan a los maestros a " enseñar para el examen " en lugar de proporcionar un currículo rico y amplio. En 2007, un estudio cualitativo realizado por Au Wayne demostró que las pruebas estandarizadas limitan el currículo y fomentan la instrucción centrada en el maestro en lugar del aprendizaje centrado en el estudiante . [87] El gobernador de Nueva Jersey, Chris Christie, propuso una reforma educativa en Nueva Jersey que presiona a los maestros no solo para "enseñar para el examen", sino también para que sus estudiantes rindan a costa de su salario y seguridad laboral. La reforma exigía un pago basado en el desempeño que dependa del desempeño de los estudiantes en las pruebas estandarizadas y de sus ganancias educativas. [88]
Los críticos sostienen que el uso excesivo y el mal uso de estas pruebas perjudican la enseñanza y el aprendizaje al limitar el currículo. Según el grupo FairTest , cuando las pruebas estandarizadas son el factor principal en la rendición de cuentas, las escuelas las utilizan para definir estrictamente el currículo y centrar la instrucción. La rendición de cuentas crea una inmensa presión para el rendimiento y esto puede conducir al mal uso y la mala interpretación de las pruebas estandarizadas. [66]
95.) Participantes de la prueba 1
96.) Participantes de la prueba 2