La puntuación de ensayos automatizada ( AES ) es el uso de programas informáticos especializados para asignar calificaciones a ensayos escritos en un entorno educativo. Es una forma de evaluación educativa y una aplicación del procesamiento del lenguaje natural . Su objetivo es clasificar un gran conjunto de entidades textuales en un pequeño número de categorías discretas, correspondientes a las calificaciones posibles, por ejemplo, los números del 1 al 6. Por tanto, puede considerarse un problema de clasificación estadística .
Varios factores han contribuido a un creciente interés en AES. Entre ellos se encuentran el costo, la responsabilidad, los estándares y la tecnología. Los crecientes costos de la educación han generado presión para responsabilizar al sistema educativo por los resultados mediante la imposición de estándares. El avance de la tecnología de la información promete medir los logros educativos a un costo reducido.
El uso de AES para pruebas de alto riesgo en educación ha generado una reacción significativa, con opositores señalando investigaciones que indican que las computadoras aún no pueden calificar la escritura con precisión y argumentando que su uso para tales propósitos promueve la enseñanza de la escritura de maneras reductivas (es decir, enseñar para la prueba ).
La mayoría de los resúmenes históricos de AES remontan los orígenes del campo al trabajo de Ellis Batten Page . [1] En 1966, defendió [2] la posibilidad de calificar ensayos por computadora, y en 1968 publicó [3] su exitoso trabajo con un programa llamado Project Essay Grade (PEG). Usando la tecnología de esa época, la puntuación de ensayos computarizada no habría sido rentable, [4] por lo que Page disminuyó sus esfuerzos durante aproximadamente dos décadas. Finalmente, Page vendió PEG a Measurement Incorporated
En 1990, las computadoras de escritorio se habían vuelto tan poderosas y tan extendidas que AES era una posibilidad práctica. Ya en 1982, un programa UNIX llamado Writer's Workbench podía ofrecer consejos de puntuación, ortografía y gramática. [5] En colaboración con varias empresas (en particular, Educational Testing Service), Page actualizó PEG y realizó algunas pruebas exitosas a principios de la década de 1990. [6]
Peter Foltz y Thomas Landauer desarrollaron un sistema utilizando un motor de puntuación llamado Intelligent Essay Assessor (IEA). La IEA se utilizó por primera vez para calificar ensayos en 1997 para sus cursos de pregrado. [7] Ahora es un producto de Pearson Educational Technologies y se utiliza para calificar dentro de una serie de productos comerciales y exámenes estatales y nacionales.
IntelliMetric es el motor AES de Vantage Learning. Su desarrollo comenzó en 1996. [8] Se utilizó comercialmente por primera vez para calificar ensayos en 1998. [9]
El Servicio de Pruebas Educativas ofrece "e-rater", un programa automatizado de puntuación de ensayos. Se utilizó comercialmente por primera vez en febrero de 1999. [10] Jill Burstein fue la líder del equipo en su desarrollo. El servicio de evaluación de redacción en línea Criterion de ETS utiliza el motor e-rater para proporcionar puntuaciones y comentarios específicos.
Lawrence Rudner ha trabajado un poco con la puntuación bayesiana y ha desarrollado un sistema llamado BETSY (sistema de puntuación de pruebas de ensayo bayesiano). [11] Algunos de sus resultados se han publicado en forma impresa o en línea, pero ningún sistema comercial incorpora BETSY todavía.
Bajo el liderazgo de Howard Mitzel y Sue Lottridge, Pacific Metrics desarrolló un motor de puntuación automatizado de respuesta construida, CRASE. Actualmente utilizada por varios departamentos de educación estatales y en una subvención de evaluación mejorada financiada por el Departamento de Educación de EE. UU., la tecnología de Pacific Metrics se ha utilizado en entornos de evaluación formativa y sumativa a gran escala desde 2007.
Measurement Inc. adquirió los derechos de PEG en 2002 y ha seguido desarrollándolo. [12]
En 2012, la Fundación Hewlett patrocinó un concurso en Kaggle llamado Premio de Evaluación Automatizada de Estudiantes (ASAP). [13] 201 participantes del desafío intentaron predecir, utilizando AES, las puntuaciones que los evaluadores humanos darían a miles de ensayos escritos según ocho indicaciones diferentes. La intención era demostrar que AES puede ser tan confiable como los evaluadores humanos, o más. La competencia también organizó una demostración separada entre nueve proveedores de AES sobre un subconjunto de datos de ASAP. Aunque los investigadores informaron que la calificación automatizada de los ensayos era tan confiable como la calificación humana, [14] esta afirmación no fue respaldada por ninguna prueba estadística porque algunos de los proveedores exigieron que no se realizaran tales pruebas como condición previa para su participación. [15] Además, la afirmación de que el Estudio Hewlett demostró que AES puede ser tan confiable como los evaluadores humanos ha sido fuertemente cuestionada desde entonces, [16] [17] incluso por Randy E. Bennett , Presidente Norman O. Frederiksen de Innovación en Evaluación en el Servicio de Pruebas Educativas . [18] Algunas de las principales críticas al estudio han sido que cinco de los ocho conjuntos de datos consistían en párrafos en lugar de ensayos, cuatro de los ocho conjuntos de datos fueron calificados por lectores humanos únicamente por el contenido en lugar de por la capacidad de escritura, y que en lugar de Al medir a los lectores humanos y las máquinas AES con respecto a la "puntuación verdadera", el promedio de las puntuaciones de los dos lectores, el estudio empleó una construcción artificial, la "puntuación resuelta", que en cuatro conjuntos de datos consistía en la mayor de las dos puntuaciones humanas si hubo un desacuerdo. Esta última práctica, en particular, dio a las máquinas una ventaja injusta al permitirles redondear estos conjuntos de datos. [dieciséis]
En 1966, Page planteó la hipótesis de que, en el futuro, el juez informático estará mejor correlacionado con cada juez humano que los demás jueces humanos. [2] A pesar de criticar la aplicabilidad de este enfoque a la corrección de ensayos en general, esta hipótesis fue apoyada para corregir respuestas de texto libre a preguntas breves, como las típicas del sistema GCSE británico . [19] Los resultados del aprendizaje supervisado demuestran que los sistemas automáticos funcionan bien cuando la calificación realizada por diferentes profesores humanos coincide. La agrupación no supervisada de respuestas demostró que los trabajos excelentes y los débiles formaban grupos bien definidos, y la regla de calificación automatizada para estos grupos funcionó bien, mientras que las calificaciones otorgadas por profesores humanos para el tercer grupo ("mixto") pueden ser controvertidas y la confiabilidad A menudo se puede cuestionar cualquier evaluación de obras del grupo 'mixto' (tanto humana como informática). [19]
Según una encuesta reciente, [20] los sistemas AES modernos intentan calificar diferentes dimensiones de la calidad de un ensayo para brindar retroalimentación a los usuarios. Estas dimensiones incluyen los siguientes elementos:
Desde el principio, el procedimiento básico de AES ha sido comenzar con un conjunto de ensayos de capacitación que han sido cuidadosamente calificados a mano. [21] El programa evalúa características superficiales del texto de cada ensayo, como el número total de palabras, el número de cláusulas subordinadas o la proporción de letras mayúsculas y minúsculas, cantidades que se pueden medir sin ningún conocimiento humano. Luego construye un modelo matemático que relaciona estas cantidades con las puntuaciones que recibieron los ensayos. Luego se aplica el mismo modelo para calcular las puntuaciones de los ensayos nuevos.
Recientemente, Isaac Persing y Vincent Ng crearon uno de esos modelos matemáticos. [22] que no sólo evalúa los ensayos según las características anteriores, sino también según la solidez de sus argumentos. Evalúa varias características del ensayo, como el nivel de acuerdo del autor y las razones del mismo, la adherencia al tema del tema, la ubicación de los componentes del argumento (afirmación principal, afirmación, premisa), errores en los argumentos, cohesión en los argumentos. entre varias otras características. A diferencia de los otros modelos mencionados anteriormente, este modelo duplica más estrechamente el conocimiento humano al calificar ensayos. Debido a la creciente popularidad de las redes neuronales profundas, se han adoptado enfoques de aprendizaje profundo para la puntuación automatizada de ensayos, obteniendo generalmente resultados superiores, que a menudo superan los niveles de acuerdo entre humanos. [23]
Los distintos programas AES difieren en las características específicas de la superficie que miden, cuántos ensayos se requieren en el conjunto de entrenamiento y, lo más importante, en la técnica de modelado matemático. Los primeros intentos utilizaron regresión lineal . Los sistemas modernos pueden utilizar regresión lineal u otras técnicas de aprendizaje automático, a menudo en combinación con otras técnicas estadísticas como el análisis semántico latente [24] y la inferencia bayesiana . [11]
La tarea automatizada de puntuación de ensayos también se ha estudiado en el entorno de dominios cruzados utilizando modelos de aprendizaje automático, donde los modelos se entrenan en ensayos escritos para un tema (tema) y se prueban en ensayos escritos para otro tema. Los enfoques exitosos en el escenario entre dominios se basan en redes neuronales profundas [25] o modelos que combinan características profundas y superficiales. [26]
Cualquier método de evaluación debe juzgarse según su validez, equidad y confiabilidad. [27] Un instrumento es válido si realmente mide el rasgo que pretende medir. Es justo si, de hecho, no penaliza o privilegia a ninguna clase de personas. Es confiable si su resultado es repetible, incluso cuando se alteran factores externos irrelevantes.
Antes de que las computadoras entraran en escena, los ensayos de alto riesgo generalmente recibían calificaciones de dos evaluadores humanos capacitados. Si las puntuaciones diferían en más de un punto, un tercer evaluador con más experiencia resolvería el desacuerdo. En este sistema, existe una manera fácil de medir la confiabilidad: mediante el acuerdo entre evaluadores . Si los evaluadores no coinciden consistentemente en un punto, su capacitación puede ser la culpable. Si un evaluador no está de acuerdo constantemente con la forma en que otros evaluadores ven los mismos ensayos, ese evaluador probablemente necesite capacitación adicional.
Se han propuesto varias estadísticas para medir el acuerdo entre evaluadores. Entre ellos se encuentran el porcentaje de acuerdo, π de Scott , κ de Cohen , α de Krippendorf , coeficiente de correlación de Pearson r , coeficiente de correlación de rangos de Spearman ρ y coeficiente de correlación de concordancia de Lin .
El porcentaje de acuerdo es una estadística simple aplicable a escalas de calificación con puntuaciones de 1 a n, donde generalmente 4 ≤ n ≤ 6. Se informa como tres cifras, cada una de las cuales representa un porcentaje del número total de ensayos calificados: acuerdo exacto (los dos evaluadores dieron el ensayo la misma puntuación), acuerdo adyacente (los evaluadores diferían en como máximo un punto; esto incluye el acuerdo exacto) y desacuerdo extremo (los evaluadores diferían en más de dos puntos). Se encontró que los calificadores humanos expertos lograron un acuerdo exacto entre el 53% y el 81% de todos los ensayos, y un acuerdo adyacente entre el 97% y el 100%. [28]
Ahora se puede aplicar el acuerdo entre evaluadores para medir el rendimiento de la computadora. Se entrega un conjunto de ensayos a dos evaluadores humanos y un programa AES. Si las puntuaciones asignadas por computadora coinciden con las de uno de los evaluadores humanos y los evaluadores coinciden entre sí, el programa AES se considera confiable. Alternativamente, a cada ensayo se le asigna una "puntuación verdadera" tomando el promedio de las puntuaciones de los dos evaluadores humanos, y los dos humanos y la computadora se comparan sobre la base de su acuerdo con la puntuación real.
Algunos investigadores han informado que sus sistemas AES, de hecho, pueden funcionar mejor que un humano. Page hizo esta afirmación para PEG en 1994. [6] Scott Elliot dijo en 2003 que IntelliMetric normalmente superaba a los evaluadores humanos. [8] Las máquinas AES, sin embargo, parecen ser menos confiables que los lectores humanos para cualquier tipo de prueba de escritura compleja. [29]
En la práctica actual, las evaluaciones de alto riesgo, como el GMAT, siempre son calificadas por al menos una persona. AES se utiliza en lugar de un segundo evaluador. Un evaluador humano resuelve cualquier desacuerdo de más de un punto. [30]
AES ha sido criticada por diversos motivos. Yang y cols . mencionan "la excesiva dependencia de las características superficiales de las respuestas, la insensibilidad al contenido de las respuestas y a la creatividad, y la vulnerabilidad a nuevos tipos de trampas y estrategias para tomar exámenes". [30] A varios críticos les preocupa que la motivación de los estudiantes disminuya si saben que ningún ser humano leerá sus escritos. [31] Entre las críticas más reveladoras se encuentran los informes de ensayos intencionalmente absurdos que recibieron altas puntuaciones. [32]
El 12 de marzo de 2013, HumanReaders.Org lanzó una petición en línea, "Profesionales contra la puntuación automática de ensayos de estudiantes en evaluaciones de alto riesgo". En cuestión de semanas, la petición obtuvo miles de firmas, incluido Noam Chomsky , [33] y fue citada en varios periódicos, incluido The New York Times , [34] y en varios blogs de educación y tecnología. [35]
La petición describe el uso de AES para pruebas de alto riesgo como "trivial", "reduccionista", "inexacto", "no diagnóstico", "injusto" y "secreto". [36]
En un resumen detallado de la investigación sobre AES, el sitio de la petición señala: "LOS RESULTADOS DE LA INVESTIGACIÓN MUESTRAN QUE nadie (estudiantes, padres, maestros, empleadores, administradores, legisladores) puede confiar en la calificación automática de ensayos... Y QUE la calificación automática no mide, y por lo tanto no promueve, actos escritos auténticos." [37]
La petición aborda específicamente el uso de AES para pruebas de alto riesgo y no dice nada sobre otros posibles usos.
La mayoría de los recursos para la puntuación automatizada de ensayos son propietarios.