Puntuación de ensayos automatizada

La puntuación de ensayos automatizada ( AES ) es el uso de programas informáticos especializados para asignar calificaciones a ensayos escritos en un entorno educativo. Es una forma de evaluación educativa y una aplicación del procesamiento del lenguaje natural . Su objetivo es clasificar un gran conjunto de entidades textuales en un pequeño número de categorías discretas, correspondientes a las calificaciones posibles, por ejemplo, los números del 1 al 6. Por tanto, puede considerarse un problema de clasificación estadística .

Varios factores han contribuido a un creciente interés en AES. Entre ellos se encuentran el costo, la responsabilidad, los estándares y la tecnología. Los crecientes costos de la educación han generado presión para responsabilizar al sistema educativo por los resultados mediante la imposición de estándares. El avance de la tecnología de la información promete medir los logros educativos a un costo reducido.

El uso de AES para pruebas de alto riesgo en educación ha generado una reacción significativa, con opositores señalando investigaciones que indican que las computadoras aún no pueden calificar la escritura con precisión y argumentando que su uso para tales propósitos promueve la enseñanza de la escritura de maneras reductivas (es decir, enseñar para la prueba ).

Historia

La mayoría de los resúmenes históricos de AES remontan los orígenes del campo al trabajo de Ellis Batten Page . ^[1] En 1966, defendió ^[2] la posibilidad de calificar ensayos por computadora, y en 1968 publicó ^[3] su exitoso trabajo con un programa llamado Project Essay Grade (PEG). Usando la tecnología de esa época, la puntuación de ensayos computarizada no habría sido rentable, ^[4] por lo que Page disminuyó sus esfuerzos durante aproximadamente dos décadas. Finalmente, Page vendió PEG a Measurement Incorporated

En 1990, las computadoras de escritorio se habían vuelto tan poderosas y tan extendidas que AES era una posibilidad práctica. Ya en 1982, un programa UNIX llamado Writer's Workbench podía ofrecer consejos de puntuación, ortografía y gramática. ^[5] En colaboración con varias empresas (en particular, Educational Testing Service), Page actualizó PEG y realizó algunas pruebas exitosas a principios de la década de 1990. ^[6]

Peter Foltz y Thomas Landauer desarrollaron un sistema utilizando un motor de puntuación llamado Intelligent Essay Assessor (IEA). La IEA se utilizó por primera vez para calificar ensayos en 1997 para sus cursos de pregrado. ^[7] Ahora es un producto de Pearson Educational Technologies y se utiliza para calificar dentro de una serie de productos comerciales y exámenes estatales y nacionales.

IntelliMetric es el motor AES de Vantage Learning. Su desarrollo comenzó en 1996. ^[8] Se utilizó comercialmente por primera vez para calificar ensayos en 1998. ^[9]

El Servicio de Pruebas Educativas ofrece "e-rater", un programa automatizado de puntuación de ensayos. Se utilizó comercialmente por primera vez en febrero de 1999. ^[10] Jill Burstein fue la líder del equipo en su desarrollo. El servicio de evaluación de redacción en línea Criterion de ETS utiliza el motor e-rater para proporcionar puntuaciones y comentarios específicos.

Lawrence Rudner ha trabajado un poco con la puntuación bayesiana y ha desarrollado un sistema llamado BETSY (sistema de puntuación de pruebas de ensayo bayesiano). ^[11] Algunos de sus resultados se han publicado en forma impresa o en línea, pero ningún sistema comercial incorpora BETSY todavía.

Bajo el liderazgo de Howard Mitzel y Sue Lottridge, Pacific Metrics desarrolló un motor de puntuación automatizado de respuesta construida, CRASE. Actualmente utilizada por varios departamentos de educación estatales y en una subvención de evaluación mejorada financiada por el Departamento de Educación de EE. UU., la tecnología de Pacific Metrics se ha utilizado en entornos de evaluación formativa y sumativa a gran escala desde 2007.

Measurement Inc. adquirió los derechos de PEG en 2002 y ha seguido desarrollándolo. ^[12]

En 2012, la Fundación Hewlett patrocinó un concurso en Kaggle llamado Premio de Evaluación Automatizada de Estudiantes (ASAP). ^[13] 201 participantes del desafío intentaron predecir, utilizando AES, las puntuaciones que los evaluadores humanos darían a miles de ensayos escritos según ocho indicaciones diferentes. La intención era demostrar que AES puede ser tan confiable como los evaluadores humanos, o más. La competencia también organizó una demostración separada entre nueve proveedores de AES sobre un subconjunto de datos de ASAP. Aunque los investigadores informaron que la calificación automatizada de los ensayos era tan confiable como la calificación humana, ^[14] esta afirmación no fue respaldada por ninguna prueba estadística porque algunos de los proveedores exigieron que no se realizaran tales pruebas como condición previa para su participación. ^[15] Además, la afirmación de que el Estudio Hewlett demostró que AES puede ser tan confiable como los evaluadores humanos ha sido fuertemente cuestionada desde entonces, ^[16]^[17] incluso por Randy E. Bennett , Presidente Norman O. Frederiksen de Innovación en Evaluación en el Servicio de Pruebas Educativas . ^[18] Algunas de las principales críticas al estudio han sido que cinco de los ocho conjuntos de datos consistían en párrafos en lugar de ensayos, cuatro de los ocho conjuntos de datos fueron calificados por lectores humanos únicamente por el contenido en lugar de por la capacidad de escritura, y que en lugar de Al medir a los lectores humanos y las máquinas AES con respecto a la "puntuación verdadera", el promedio de las puntuaciones de los dos lectores, el estudio empleó una construcción artificial, la "puntuación resuelta", que en cuatro conjuntos de datos consistía en la mayor de las dos puntuaciones humanas si hubo un desacuerdo. Esta última práctica, en particular, dio a las máquinas una ventaja injusta al permitirles redondear estos conjuntos de datos. ^[dieciséis]

En 1966, Page planteó la hipótesis de que, en el futuro, el juez informático estará mejor correlacionado con cada juez humano que los demás jueces humanos. ^[2] A pesar de criticar la aplicabilidad de este enfoque a la corrección de ensayos en general, esta hipótesis fue apoyada para corregir respuestas de texto libre a preguntas breves, como las típicas del sistema GCSE británico . ^[19] Los resultados del aprendizaje supervisado demuestran que los sistemas automáticos funcionan bien cuando la calificación realizada por diferentes profesores humanos coincide. La agrupación no supervisada de respuestas demostró que los trabajos excelentes y los débiles formaban grupos bien definidos, y la regla de calificación automatizada para estos grupos funcionó bien, mientras que las calificaciones otorgadas por profesores humanos para el tercer grupo ("mixto") pueden ser controvertidas y la confiabilidad A menudo se puede cuestionar cualquier evaluación de obras del grupo 'mixto' (tanto humana como informática). ^[19]

Diferentes dimensiones de la calidad del ensayo.

Según una encuesta reciente, ^[20] los sistemas AES modernos intentan calificar diferentes dimensiones de la calidad de un ensayo para brindar retroalimentación a los usuarios. Estas dimensiones incluyen los siguientes elementos:

Gramaticalidad: seguir reglas gramaticales.
Uso: uso de preposiciones, uso de palabras.
Mecánica: seguir reglas de ortografía, puntuación, uso de mayúsculas.
Estilo: elección de palabras, variedad de estructuras de oraciones.
Relevancia: qué tan relevante es el contenido para el mensaje.
Organización: qué tan bien está estructurado el ensayo.
Desarrollo: desarrollo de ideas con ejemplos.
Cohesión: uso adecuado de frases de transición
Coherencia: transiciones apropiadas entre ideas.
Claridad de Tesis: claridad de la tesis
Persuasividad: persuasión del argumento principal.

Procedimiento

Desde el principio, el procedimiento básico de AES ha sido comenzar con un conjunto de ensayos de capacitación que han sido cuidadosamente calificados a mano. ^[21] El programa evalúa características superficiales del texto de cada ensayo, como el número total de palabras, el número de cláusulas subordinadas o la proporción de letras mayúsculas y minúsculas, cantidades que se pueden medir sin ningún conocimiento humano. Luego construye un modelo matemático que relaciona estas cantidades con las puntuaciones que recibieron los ensayos. Luego se aplica el mismo modelo para calcular las puntuaciones de los ensayos nuevos.

Recientemente, Isaac Persing y Vincent Ng crearon uno de esos modelos matemáticos. ^[22] que no sólo evalúa los ensayos según las características anteriores, sino también según la solidez de sus argumentos. Evalúa varias características del ensayo, como el nivel de acuerdo del autor y las razones del mismo, la adherencia al tema del tema, la ubicación de los componentes del argumento (afirmación principal, afirmación, premisa), errores en los argumentos, cohesión en los argumentos. entre varias otras características. A diferencia de los otros modelos mencionados anteriormente, este modelo duplica más estrechamente el conocimiento humano al calificar ensayos. Debido a la creciente popularidad de las redes neuronales profundas, se han adoptado enfoques de aprendizaje profundo para la puntuación automatizada de ensayos, obteniendo generalmente resultados superiores, que a menudo superan los niveles de acuerdo entre humanos. ^[23]

Los distintos programas AES difieren en las características específicas de la superficie que miden, cuántos ensayos se requieren en el conjunto de entrenamiento y, lo más importante, en la técnica de modelado matemático. Los primeros intentos utilizaron regresión lineal . Los sistemas modernos pueden utilizar regresión lineal u otras técnicas de aprendizaje automático, a menudo en combinación con otras técnicas estadísticas como el análisis semántico latente ^[24] y la inferencia bayesiana . ^[11]

La tarea automatizada de puntuación de ensayos también se ha estudiado en el entorno de dominios cruzados utilizando modelos de aprendizaje automático, donde los modelos se entrenan en ensayos escritos para un tema (tema) y se prueban en ensayos escritos para otro tema. Los enfoques exitosos en el escenario entre dominios se basan en redes neuronales profundas ^[25] o modelos que combinan características profundas y superficiales. ^[26]

Criterios para el éxito

Cualquier método de evaluación debe juzgarse según su validez, equidad y confiabilidad. ^[27] Un instrumento es válido si realmente mide el rasgo que pretende medir. Es justo si, de hecho, no penaliza o privilegia a ninguna clase de personas. Es confiable si su resultado es repetible, incluso cuando se alteran factores externos irrelevantes.

Antes de que las computadoras entraran en escena, los ensayos de alto riesgo generalmente recibían calificaciones de dos evaluadores humanos capacitados. Si las puntuaciones diferían en más de un punto, un tercer evaluador con más experiencia resolvería el desacuerdo. En este sistema, existe una manera fácil de medir la confiabilidad: mediante el acuerdo entre evaluadores . Si los evaluadores no coinciden consistentemente en un punto, su capacitación puede ser la culpable. Si un evaluador no está de acuerdo constantemente con la forma en que otros evaluadores ven los mismos ensayos, ese evaluador probablemente necesite capacitación adicional.

Se han propuesto varias estadísticas para medir el acuerdo entre evaluadores. Entre ellos se encuentran el porcentaje de acuerdo, π de Scott , κ de Cohen , α de Krippendorf , coeficiente de correlación de Pearson r , coeficiente de correlación de rangos de Spearman ρ y coeficiente de correlación de concordancia de Lin .

El porcentaje de acuerdo es una estadística simple aplicable a escalas de calificación con puntuaciones de 1 a n, donde generalmente 4 ≤ n ≤ 6. Se informa como tres cifras, cada una de las cuales representa un porcentaje del número total de ensayos calificados: acuerdo exacto (los dos evaluadores dieron el ensayo la misma puntuación), acuerdo adyacente (los evaluadores diferían en como máximo un punto; esto incluye el acuerdo exacto) y desacuerdo extremo (los evaluadores diferían en más de dos puntos). Se encontró que los calificadores humanos expertos lograron un acuerdo exacto entre el 53% y el 81% de todos los ensayos, y un acuerdo adyacente entre el 97% y el 100%. ^[28]

Ahora se puede aplicar el acuerdo entre evaluadores para medir el rendimiento de la computadora. Se entrega un conjunto de ensayos a dos evaluadores humanos y un programa AES. Si las puntuaciones asignadas por computadora coinciden con las de uno de los evaluadores humanos y los evaluadores coinciden entre sí, el programa AES se considera confiable. Alternativamente, a cada ensayo se le asigna una "puntuación verdadera" tomando el promedio de las puntuaciones de los dos evaluadores humanos, y los dos humanos y la computadora se comparan sobre la base de su acuerdo con la puntuación real.

Algunos investigadores han informado que sus sistemas AES, de hecho, pueden funcionar mejor que un humano. Page hizo esta afirmación para PEG en 1994. ^[6] Scott Elliot dijo en 2003 que IntelliMetric normalmente superaba a los evaluadores humanos. ^[8] Las máquinas AES, sin embargo, parecen ser menos confiables que los lectores humanos para cualquier tipo de prueba de escritura compleja. ^[29]

En la práctica actual, las evaluaciones de alto riesgo, como el GMAT, siempre son calificadas por al menos una persona. AES se utiliza en lugar de un segundo evaluador. Un evaluador humano resuelve cualquier desacuerdo de más de un punto. ^[30]

Crítica

AES ha sido criticada por diversos motivos. Yang y cols . mencionan "la excesiva dependencia de las características superficiales de las respuestas, la insensibilidad al contenido de las respuestas y a la creatividad, y la vulnerabilidad a nuevos tipos de trampas y estrategias para tomar exámenes". ^[30] A varios críticos les preocupa que la motivación de los estudiantes disminuya si saben que ningún ser humano leerá sus escritos. ^[31] Entre las críticas más reveladoras se encuentran los informes de ensayos intencionalmente absurdos que recibieron altas puntuaciones. ^[32]

Petición de HumanReaders.Org

El 12 de marzo de 2013, HumanReaders.Org lanzó una petición en línea, "Profesionales contra la puntuación automática de ensayos de estudiantes en evaluaciones de alto riesgo". En cuestión de semanas, la petición obtuvo miles de firmas, incluido Noam Chomsky , ^[33] y fue citada en varios periódicos, incluido The New York Times , ^[34] y en varios blogs de educación y tecnología. ^[35]

La petición describe el uso de AES para pruebas de alto riesgo como "trivial", "reduccionista", "inexacto", "no diagnóstico", "injusto" y "secreto". ^[36]

En un resumen detallado de la investigación sobre AES, el sitio de la petición señala: "LOS RESULTADOS DE LA INVESTIGACIÓN MUESTRAN QUE nadie (estudiantes, padres, maestros, empleadores, administradores, legisladores) puede confiar en la calificación automática de ensayos... Y QUE la calificación automática no mide, y por lo tanto no promueve, actos escritos auténticos." ^[37]

La petición aborda específicamente el uso de AES para pruebas de alto riesgo y no dice nada sobre otros posibles usos.

Software

La mayoría de los recursos para la puntuación automatizada de ensayos son propietarios.

eRater – publicado por el Servicio de Pruebas Educativas
Intellimetric – por Vantage Learning
Calificación del ensayo del proyecto ^[38] - por Measurement, Inc.

Referencias

^ Página, EB (2003). "Calificación del ensayo del proyecto: PEG", pág. 43. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automatizada de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
- Larkey, Leah S. y W. Bruce Croft (2003). "Un enfoque de categorización de textos para la calificación automatizada de ensayos", p. 55. En Shermis, Mark D. y Jill Burstein, eds. Puntuación de ensayos automatizada: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739 - Keith, Timothy Z. (2003). "Validez de los sistemas automatizados de puntuación de ensayos", p. 153. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automatizada de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739 - Shermis, Mark D., Jill Burstein y Claudia Leacock (2006). "Aplicaciones de la informática en la evaluación y análisis de la escritura", p. 403. En MacArthur, Charles A., Steve Graham y Jill Fitzgerald, eds., Handbook of Writing Research . Guilford Press, Nueva York, ISBN 1-59385-190-1 - Attali, Yigal, Brent Bridgeman y Catherine Trapani (2010). "Rendimiento de un enfoque genérico en la puntuación de ensayos automatizada", p. 4. Revista de tecnología, aprendizaje y evaluación , 10 (3) - Wang, Jinhao y Michelle Stallone Brown (2007). "Puntuación de ensayos automatizada versus puntuación humana: un estudio comparativo", p. 6. Revista de tecnología, aprendizaje y evaluación , 6 (2) - Bennett, Randy Elliot y Anat Ben-Simon (2005). "Hacia una puntuación de ensayos automatizada teóricamente significativa" Archivado el 7 de octubre de 2007 en Wayback Machine , p. 6. Consultado el 19 de marzo de 2012-.
^ ab Página, EB (1966). "La inminencia de... calificar ensayos por computadora". El Delta Phi Kappan . 47 (5): 238–243. JSTOR 20371545.
^ Página, EB (1968). "El uso de la computadora para analizar ensayos de estudiantes", Revista Internacional de Educación , 14 (3), 253-263.
^ Página, EB (2003), págs. 44-45.
^ MacDonald, NH, LT Frase, PS Gingrich y SA Keenan (1982). "The Writers Workbench: ayudas informáticas para el análisis de texto", IEEE Transactions on Communications , 3 (1), 105-110.
^ ab Página, EB (1994). "Nueva calificación informática de la prosa de los estudiantes, utilizando conceptos y software modernos", Revista de educación experimental , 62 (2), 127-142.
^ Rudner, Lorenzo. "Tres destacados programas de evaluación de la escritura" Archivado el 9 de marzo de 2012 en Wayback Machine . Consultado el 6 de marzo de 2012.
^ ab Elliot, Scott (2003). "Intellimetric TM: de aquí a la validez", p. 75. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automatizada de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
^ "IntelliMetric®: cómo funciona", Vantage Learning. Consultado el 28 de febrero de 2012.
^ Burstein, Jill (2003). "El motor de puntuación E-rater(R): puntuación de ensayos automatizada con procesamiento del lenguaje natural", pág. 113. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automatizada de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
^ ab Rudner, Lawrence (hacia 2002). "Descripción general de calificación por computadora mediante redes bayesianas" Archivado el 8 de marzo de 2012 en Wayback Machine . Consultado el 7 de marzo de 2012.
^ "Tecnologías de evaluación" Archivado el 29 de diciembre de 2011 en Wayback Machine , Measurement Incorporated. Consultado el 9 de marzo de 2012.
^ Premio Hewlett" Archivado el 30 de marzo de 2012 en Wayback Machine . Consultado el 5 de marzo de 2012.
^ "Hombre y máquina: mejores escritores, mejores notas". Universidad de Akron. 12 de abril de 2012 . Consultado el 4 de julio de 2015 .
- Shermis, Mark D. y Jill Burstein, eds. Manual de evaluación automatizada de ensayos: aplicaciones actuales y nuevas direcciones . Routledge, 2013.
^ Rivard, Ry (15 de marzo de 2013). "Los humanos luchan por los robots lectores". Dentro de la educación superior . Consultado el 14 de junio de 2015 .
^ ab Perelman, Les (agosto de 2013). "Crítica de Mark D. Shermis y Ben Hamner", puntuación contrastante de ensayos automatizada de última generación: análisis"". Revista de evaluación de la escritura . 6 (1) . Consultado el 13 de junio de 2015 .
^ Perelman, L. (2014). "Cuando 'el estado del arte es contar palabras'", Assessing Writing , 21 , 104-111.
^ Bennett, Randy E. (marzo de 2015). "La naturaleza cambiante de la evaluación educativa". Revista de Investigación en Educación . 39 (1): 370–407. doi :10.3102/0091732X14554179. S2CID 145592665.
^ ab Süzen, N.; Mirkes, EM; Levesley, J; Gorban, AN (2020). "Calificación y comentarios automáticos de respuestas cortas mediante métodos de minería de texto". Procedia Ciencias de la Computación . 169 : 726–743. arXiv : 1807.10543 . doi : 10.1016/j.procs.2020.02.171 .
^ Ke, Zixuan (9 de agosto de 2019). "Puntuación automatizada de ensayos: un estudio del estado de la cuestión" (PDF) . Actas de la Vigésima Octava Conferencia Internacional Conjunta sobre Inteligencia Artificial . págs. 6300–6308. doi : 10.24963/ijcai.2019/879 . ISBN 978-0-9992411-4-1. Consultado el 11 de abril de 2020 .
^ Keith, Timothy Z. (2003), pág. 149.
^ Persing, Isaac y Vincent Ng (2015). "Modelado de la solidez de los argumentos en ensayos de estudiantes", págs. En actas de la 53.ª reunión anual de la Asociación de Lingüística Computacional y la 7.ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (Volumen 1: Artículos extensos) . Consultado el 22 de octubre de 2015.
^ Yang, Ruosong; Cao, Jiannong; Wen, Zhiyuan; Wu, Youzheng; Él, Xiaodong (2020). "Mejora del rendimiento de la puntuación de ensayos automatizados mediante el ajuste de modelos de lenguaje previamente entrenados con una combinación de regresión y clasificación". Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2020 . En línea: Asociación de Lingüística Computacional: 1560–1569. doi : 10.18653/v1/2020.findings-emnlp.141 . S2CID 226299478.
^ Bennett, Randy Elliot y Anat Ben-Simon (2005), pág. 7.
^ Cao, Yue; Jin, Hanqi; Wan, Xiaojun; Yu, Zhiwei (25 de julio de 2020). "Puntuación de ensayos automatizada neuronal adaptable al dominio". Actas de la 43ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . SIGIR '20. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación. págs. 1011-1020. doi :10.1145/3397271.3401037. ISBN 978-1-4503-8016-4. S2CID 220730151.
^ Cozma, Mădălina; Butnaru, Andrei; Ionescu, Radu Tudor (2018). "Puntuación automatizada de ensayos con núcleos de cadenas e incrustaciones de palabras". Actas de la 56ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 2: Artículos breves) . Melbourne, Australia: Asociación de Lingüística Computacional: 503–509. arXiv : 1804.07954 . doi :10.18653/v1/P18-2080. S2CID 5070986.
^ Chung, Gregory KWK y Eva L. Baker (2003). "Problemas relacionados con la confiabilidad y validez de la puntuación automatizada de respuestas construidas", p. 23. En: Puntuación de ensayos automatizada: una perspectiva interdisciplinaria . Shermis, Mark D. y Jill Burstein, eds. Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
^ Elliot, Scott (2003), pág. 77.
- Burstein, Jill (2003), pág. 114.
^ Bennett, Randy E. (mayo de 2006). "Evaluación de tecnología y escritura: lecciones aprendidas de la evaluación nacional del progreso educativo de EE. UU." (PDF) . Asociación Internacional para la Evaluación Educativa . Archivado desde el original (PDF) el 24 de septiembre de 2015 . Consultado el 5 de julio de 2015 .
- McCurry, D. (2010). "¿Puede la puntuación automática abordar pruebas de escritura amplias y abiertas, así como lectores humanos?". Evaluación de la escritura . 15 (2): 118-129. doi : 10.1016/j.asw.2010.04.002.
- R. Bridgeman (2013). Shermis, Mark D.; Burstein, Jill (eds.). Manual de evaluación automatizada de ensayos . Nueva York: Routledge. págs. 221-232.
^ ab Yang, Yongwei, Chad W. Buckendahl, Piotr J. Juszkiewicz y Dennison S. Bhola (2002). "Una revisión de estrategias para validar la puntuación automatizada por computadora" Archivado el 13 de enero de 2016 en Wayback Machine , Medición aplicada en educación , 15 (4). Consultado el 8 de marzo de 2012.
^ Wang, Jinhao y Michelle Stallone Brown (2007), págs. 4-5.
- Dikli, Semire (2006). "Una descripción general de la puntuación automatizada de ensayos" Archivado el 8 de abril de 2013 en Wayback Machine , Journal of Technology, Learning, and Assessment , 5 (1)
- Ben-Simon, Anat (2007). "Introducción a la puntuación automatizada de ensayos (AES)", presentación de PowerPoint, Tbilisi, Georgia, septiembre de 2007.
^ Winerip, Michael (22 de abril de 2012). "¿Enfrentarse a un Robo-Grader? Sigue ofuscándote melifluamente". Los New York Times . Consultado el 5 de abril de 2013 .
^ "Firmas >> Profesionales contra la puntuación automática de ensayos de estudiantes en evaluaciones de alto riesgo". HumanReaders.Org . Archivado desde el original el 18 de noviembre de 2019 . Consultado el 5 de abril de 2013 .
^ Markoff, John (4 de abril de 2013). "El software de calificación de ensayos ofrece un descanso a los profesores". Los New York Times . Consultado el 5 de abril de 2013 .
- Garner, Richard (5 de abril de 2013). "Profesores enojados por los ensayos marcados por computadora". El independiente . Consultado el 5 de abril de 2013 .
^ Corrigan, Paul T. (25 de marzo de 2013). "Petición contra ensayos de puntuación automática, HumanReaders.Org". Enseñanza y aprendizaje en educación superior . Consultado el 5 de abril de 2013 .
- Jaffee, Robert David (5 de abril de 2013). "Las computadoras no pueden leer, escribir ni calificar trabajos". Correo Huffington . Consultado el 5 de abril de 2013 .
^ "Profesionales contra la puntuación automática de ensayos de estudiantes en evaluaciones de alto riesgo". HumanReaders.Org . Consultado el 5 de abril de 2013 .
^ "Hallazgos de la investigación >> Profesionales contra la puntuación automática de ensayos de estudiantes en evaluaciones de alto riesgo". HumanReaders.Org . Consultado el 5 de abril de 2013 .
- "Trabajos citados >> Profesionales contra la puntuación automática de ensayos de estudiantes en evaluaciones de alto riesgo". HumanReaders.Org . Consultado el 5 de abril de 2013 .
^ "Tecnologías de evaluación" Archivado el 24 de febrero de 2019 en Wayback Machine , Measurement, Inc.