stringtranslate.com

Calificación automatizada de ensayos

La calificación automatizada de ensayos ( AES , por sus siglas en inglés) es el uso de programas informáticos especializados para asignar calificaciones a ensayos escritos en un entorno educativo. Se trata de una forma de evaluación educativa y una aplicación del procesamiento del lenguaje natural . Su objetivo es clasificar un gran conjunto de entidades textuales en un pequeño número de categorías discretas, correspondientes a las posibles calificaciones, por ejemplo, los números del 1 al 6. Por lo tanto, puede considerarse un problema de clasificación estadística .

Varios factores han contribuido al creciente interés en los sistemas educativos académicos, entre ellos el costo, la rendición de cuentas, los estándares y la tecnología. El aumento de los costos de la educación ha generado presión para exigir que el sistema educativo rinda cuentas de los resultados mediante la imposición de estándares. El avance de la tecnología de la información promete medir los logros educativos a un costo reducido.

El uso de AES para pruebas de alto riesgo en educación ha generado una reacción negativa significativa, con opositores que señalan investigaciones que indican que las computadoras aún no pueden calificar la escritura con precisión y argumentan que su uso para tales fines promueve la enseñanza de la escritura de manera reductiva (es decir, enseñar para el examen ).

Historia

La mayoría de los resúmenes históricos de AES rastrean los orígenes del campo hasta el trabajo de Ellis Batten Page . [1] En 1966, defendió [2] la posibilidad de calificar ensayos por computadora, y en 1968 publicó [3] su exitoso trabajo con un programa llamado Project Essay Grade (PEG). Con la tecnología de esa época, la calificación de ensayos por computadora no habría sido rentable, [4] por lo que Page abandonó sus esfuerzos durante aproximadamente dos décadas. Finalmente, Page vendió PEG a Measurement Incorporated .

En 1990, las computadoras de escritorio se habían vuelto tan poderosas y tan extendidas que el AES era una posibilidad práctica. Ya en 1982, un programa UNIX llamado Writer's Workbench podía ofrecer consejos sobre puntuación, ortografía y gramática. [5] En colaboración con varias empresas (en particular Educational Testing Service), Page actualizó PEG y realizó algunas pruebas exitosas a principios de los años 1990. [6]

Peter Foltz y Thomas Landauer desarrollaron un sistema que utiliza un motor de puntuación llamado Intelligent Essay Assessor (IEA). El IEA se utilizó por primera vez para calificar ensayos en 1997 para sus cursos de pregrado. [7] Ahora es un producto de Pearson Educational Technologies y se utiliza para calificar en una serie de productos comerciales y exámenes estatales y nacionales.

IntelliMetric es el motor AES de Vantage Learning. Su desarrollo comenzó en 1996. [8] Se utilizó por primera vez con fines comerciales para calificar ensayos en 1998. [9]

Educational Testing Service ofrece "e-rater", un programa de calificación automática de ensayos. Se utilizó por primera vez con fines comerciales en febrero de 1999. [10] Jill Burstein fue la líder del equipo en su desarrollo. El servicio de evaluación de redacción en línea Criterion de ETS utiliza el motor e-rater para proporcionar tanto calificaciones como comentarios específicos.

Lawrence Rudner ha trabajado con la puntuación bayesiana y ha desarrollado un sistema llamado BETSY (Bayesian Essay Test Scoring System). [11] Algunos de sus resultados se han publicado en forma impresa o en línea, pero todavía ningún sistema comercial incorpora BETSY.

Bajo la dirección de Howard Mitzel y Sue Lottridge, Pacific Metrics desarrolló un motor de puntuación automática de respuesta construida, CRASE. La tecnología de Pacific Metrics, que actualmente utilizan varios departamentos de educación estatales y una subvención de evaluación mejorada financiada por el Departamento de Educación de los EE. UU., se ha utilizado en entornos de evaluación formativa y sumativa a gran escala desde 2007.

Measurement Inc. adquirió los derechos de PEG en 2002 y ha continuado desarrollándolo. [12]

En 2012, la Fundación Hewlett patrocinó una competencia en Kaggle llamada Premio de Evaluación Automatizada de Estudiantes (ASAP). [13] 201 participantes del desafío intentaron predecir, utilizando AES, las puntuaciones que los evaluadores humanos darían a miles de ensayos escritos en ocho indicaciones diferentes. La intención era demostrar que AES puede ser tan confiable como los evaluadores humanos, o más. La competencia también organizó una demostración separada entre nueve proveedores de AES en un subconjunto de los datos de ASAP. Aunque los investigadores informaron que la puntuación automatizada de ensayos era tan confiable como la puntuación humana, [14] esta afirmación no fue corroborada por ninguna prueba estadística porque algunos de los proveedores exigieron que no se realizaran tales pruebas como condición previa para su participación. [15] Además, la afirmación de que el Estudio Hewlett demostró que AES puede ser tan confiable como los evaluadores humanos ha sido fuertemente cuestionada desde entonces, [16] [17] incluso por Randy E. Bennett , presidente de la Cátedra Norman O. Frederiksen en Innovación en Evaluación en el Servicio de Evaluación Educativa . [18] Algunas de las principales críticas al estudio han sido que cinco de los ocho conjuntos de datos consistían en párrafos en lugar de ensayos, cuatro de los ocho conjuntos de datos fueron calificados por lectores humanos solo por el contenido en lugar de por la capacidad de escritura, y que en lugar de medir a los lectores humanos y las máquinas AES contra la "puntuación real", el promedio de las puntuaciones de los dos lectores, el estudio empleó un constructo artificial, la "puntuación resuelta", que en cuatro conjuntos de datos consistía en la más alta de las dos puntuaciones humanas si había un desacuerdo. Esta última práctica, en particular, dio a las máquinas una ventaja injusta al permitirles redondear hacia arriba para estos conjuntos de datos. [16]

En 1966, Page planteó la hipótesis de que, en el futuro, el juez basado en computadora estaría mejor correlacionado con cada juez humano que los otros jueces humanos. [2] A pesar de criticar la aplicabilidad de este enfoque a la calificación de ensayos en general, esta hipótesis fue apoyada para calificar respuestas de texto libre a preguntas cortas, como las típicas del sistema GCSE británico. [19] Los resultados del aprendizaje supervisado demuestran que los sistemas automáticos funcionan bien cuando la calificación por parte de diferentes profesores humanos coincide. La agrupación no supervisada de respuestas mostró que los trabajos excelentes y los trabajos débiles formaban grupos bien definidos, y la regla de calificación automatizada para estos grupos funcionó bien, mientras que las calificaciones otorgadas por profesores humanos para el tercer grupo ("mixto") pueden ser controvertidas, y la confiabilidad de cualquier evaluación de trabajos del grupo "mixto" a menudo puede ser cuestionada (tanto humana como basada en computadora). [19]

Diferentes dimensiones de la calidad del ensayo

Según una encuesta reciente, [20] los sistemas AES modernos intentan puntuar distintas dimensiones de la calidad de un ensayo para ofrecer retroalimentación a los usuarios. Estas dimensiones incluyen los siguientes elementos:

Procedimiento

Desde el principio, el procedimiento básico de AES ha sido empezar con un conjunto de ensayos de entrenamiento que han sido cuidadosamente calificados a mano. [21] El programa evalúa las características superficiales del texto de cada ensayo, como el número total de palabras, el número de cláusulas subordinadas o la proporción de letras mayúsculas y minúsculas, cantidades que se pueden medir sin necesidad de intervención humana. A continuación, construye un modelo matemático que relaciona estas cantidades con las puntuaciones que recibieron los ensayos. El mismo modelo se aplica después para calcular las puntuaciones de los nuevos ensayos.

Recientemente, Isaac Persing y Vincent Ng crearon un modelo matemático de este tipo [22] que no solo evalúa los ensayos en función de las características mencionadas anteriormente, sino también de la solidez de sus argumentos. Evalúa diversas características del ensayo, como el nivel de acuerdo del autor y las razones para ello, la adherencia al tema del mensaje, la ubicación de los componentes del argumento (afirmación principal, afirmación, premisa), los errores en los argumentos, la cohesión en los argumentos, entre otras características. A diferencia de los otros modelos mencionados anteriormente, este modelo se acerca más a duplicar la percepción humana al calificar los ensayos. Debido a la creciente popularidad de las redes neuronales profundas, se han adoptado enfoques de aprendizaje profundo para la calificación automática de ensayos, obteniendo generalmente resultados superiores, a menudo superando los niveles de acuerdo interhumano. [23]

Los distintos programas AES difieren en las características específicas de la superficie que miden, la cantidad de ensayos necesarios en el conjunto de entrenamiento y, lo que es más importante, en la técnica de modelado matemático. Los primeros intentos utilizaban regresión lineal . Los sistemas modernos pueden utilizar regresión lineal u otras técnicas de aprendizaje automático, a menudo en combinación con otras técnicas estadísticas, como el análisis semántico latente [24] y la inferencia bayesiana [11] .

La tarea de calificación automatizada de ensayos también se ha estudiado en un contexto interdisciplinario utilizando modelos de aprendizaje automático, donde los modelos se entrenan con ensayos escritos para un tema y se prueban con ensayos escritos para otro tema. Los enfoques exitosos en el escenario interdisciplinario se basan en redes neuronales profundas [25] o modelos que combinan características profundas y superficiales. [26]

Criterios de éxito

Todo método de evaluación debe ser juzgado en función de su validez, imparcialidad y fiabilidad. [27] Un instrumento es válido si mide realmente el rasgo que pretende medir. Es justo si, en efecto, no penaliza ni privilegia a ninguna clase de personas. Es fiable si su resultado es repetible, incluso cuando se alteran factores externos irrelevantes.

Antes de que aparecieran las computadoras, los ensayos de alto riesgo solían recibir calificaciones de dos evaluadores humanos capacitados. Si las calificaciones diferían en más de un punto, un tercer evaluador más experimentado resolvería el desacuerdo. En este sistema, hay una manera fácil de medir la confiabilidad: mediante el acuerdo entre evaluadores . Si los evaluadores no coinciden sistemáticamente en un punto, es posible que su capacitación sea deficiente. Si un evaluador discrepa sistemáticamente con la forma en que otros evaluadores analizan los mismos ensayos, es probable que necesite capacitación adicional.

Se han propuesto varias estadísticas para medir el acuerdo entre evaluadores, entre ellas, el porcentaje de acuerdo, el π de Scott , el κ de Cohen , el α de Krippendorf , el coeficiente de correlación de Pearson r , el coeficiente de correlación de rangos de Spearman ρ y el coeficiente de correlación de concordancia de Lin .

El porcentaje de acuerdo es una estadística simple aplicable a escalas de calificación con puntuaciones de 1 a n, donde normalmente 4 ≤ n ≤ 6. Se informa como tres cifras, cada una un porcentaje del número total de ensayos calificados: acuerdo exacto (los dos evaluadores dieron al ensayo la misma puntuación), acuerdo adyacente (los evaluadores difirieron en como máximo un punto; esto incluye el acuerdo exacto) y desacuerdo extremo (los evaluadores difirieron en más de dos puntos). Se descubrió que los calificadores humanos expertos lograron un acuerdo exacto en el 53% al 81% de todos los ensayos, y un acuerdo adyacente en el 97% al 100%. [28]

Ahora es posible aplicar el acuerdo entre evaluadores para medir el rendimiento de la computadora. Se entrega un conjunto de ensayos a dos evaluadores humanos y a un programa AES. Si las puntuaciones asignadas por la computadora coinciden con las de uno de los evaluadores humanos y los evaluadores coinciden entre sí, el programa AES se considera confiable. Como alternativa, a cada ensayo se le asigna una "puntuación verdadera" tomando el promedio de las puntuaciones de los dos evaluadores humanos, y se comparan los dos evaluadores humanos y la computadora en función de su coincidencia con la puntuación verdadera.

Algunos investigadores han informado de que sus sistemas AES pueden, de hecho, obtener mejores resultados que un ser humano. Page hizo esta afirmación en relación con PEG en 1994. [6] Scott Elliot dijo en 2003 que IntelliMetric normalmente superaba a los evaluadores humanos. [8] Sin embargo, las máquinas AES parecen ser menos fiables que los lectores humanos para cualquier tipo de prueba de escritura compleja. [29]

En la práctica actual, las evaluaciones de alto riesgo, como el GMAT, siempre son calificadas por al menos un profesional humano. Se utiliza el sistema AES en lugar de un segundo evaluador. Un evaluador humano resuelve cualquier desacuerdo de más de un punto. [30]

Crítica

El AES ha sido criticado por diversos motivos. Yang et al . mencionan "la excesiva dependencia de las características superficiales de las respuestas, la insensibilidad al contenido de las respuestas y a la creatividad, y la vulnerabilidad a nuevos tipos de trampas y estrategias para realizar exámenes". [30] A varios críticos les preocupa que la motivación de los estudiantes se vea disminuida si saben que ningún ser humano leerá sus escritos. [31] Entre las críticas más reveladoras se encuentran los informes de ensayos intencionalmente incoherentes que reciben altas puntuaciones. [32]

Petición de HumanReaders.Org

El 12 de marzo de 2013, HumanReaders.Org lanzó una petición en línea , "Profesionales contra la calificación automática de ensayos de estudiantes en evaluaciones de alto riesgo". En cuestión de semanas, la petición obtuvo miles de firmas, incluida la de Noam Chomsky , [33] y fue citada en varios periódicos, incluido The New York Times , [34] y en varios blogs sobre educación y tecnología. [35]

La petición describe el uso de AES para pruebas de alto riesgo como "trivial", "reductivo", "inexacto", "no diagnóstico", "injusto" y "secreto". [36]

En un resumen detallado de la investigación sobre AES, el sitio de la petición señala: "LOS RESULTADOS DE LA INVESTIGACIÓN MUESTRAN QUE nadie (estudiantes, padres, maestros, empleadores, administradores, legisladores) puede confiar en la calificación de ensayos por parte de máquinas... Y QUE la calificación por máquina no mide, y por lo tanto no promueve, actos auténticos de escritura". [37]

La petición aborda específicamente el uso de AES para pruebas de alto riesgo y no dice nada sobre otros posibles usos.

Software

La mayoría de los recursos para la calificación automática de ensayos son propietarios.

Referencias

  1. ^ Página, EB (2003). "Calificación de ensayos del proyecto: PEG", pág. 43. En Shermis, Mark D. y Jill Burstein, eds., Calificación automatizada de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN  0805839739
    - Larkey, Leah S. y W. Bruce Croft (2003). "Un enfoque de categorización de textos para la calificación automatizada de ensayos", pág. 55. En Shermis, Mark D. y Jill Burstein, eds. Calificación automatizada de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739 - Keith, Timothy Z. (2003). "Validez de los sistemas de calificación automatizada de ensayos", pág. 153. En Shermis, Mark D., y Jill Burstein, eds., Calificación automatizada de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739 - Shermis, Mark D., Jill Burstein y Claudia Leacock (2006). "Aplicaciones de las computadoras en la evaluación y análisis de la escritura", pág. 403. En MacArthur, Charles A., Steve Graham y Jill Fitzgerald, eds., Manual de investigación en escritura . Guilford Press, Nueva York, ISBN 1-59385-190-1 - Attali, Yigal, Brent Bridgeman y Catherine Trapani (2010). "Rendimiento de un enfoque genérico en la calificación automatizada de ensayos", pág. 4. Journal of Technology, Learning, and Assessment , 10 (3) - Wang, Jinhao y Michelle Stallone Brown (2007). "Calificación automatizada de ensayos frente a calificación humana: un estudio comparativo", pág. 6. Journal of Technology, Learning, and Assessment , 6 (2) - Bennett, Randy Elliot y Anat Ben-Simon (2005). "Hacia una calificación automatizada de ensayos teóricamente significativa" Archivado el 7 de octubre de 2007 en Wayback Machine , pág. 6. Consultado el 19 de marzo de 2012-. 
     
     


  2. ^ ab Page, EB (1966). "La inminencia de... calificar ensayos por computadora". The Phi Delta Kappan . 47 (5): 238–243. JSTOR  20371545.
  3. ^ Page, EB (1968). "El uso de la computadora en el análisis de ensayos de estudiantes", International Review of Education , 14 (3), 253-263.
  4. ^ Página, EB (2003), págs. 44-45.
  5. ^ MacDonald, NH, LT Frase, PS Gingrich y SA Keenan (1982). "The Writers Workbench: Ayudas informáticas para el análisis de textos", IEEE Transactions on Communications , 3 (1), 105-110.
  6. ^ ab Page, EB (1994). "Nueva calificación informática de la prosa de los estudiantes, utilizando conceptos y software modernos", Journal of Experimental Education , 62 (2), 127-142.
  7. ^ Rudner, Lawrence. "Tres programas destacados de evaluación de la escritura". Archivado el 9 de marzo de 2012 en Wayback Machine . Consultado el 6 de marzo de 2012.
  8. ^ ab Elliot, Scott (2003). "Intellimetric TM: From Here to Validity", pág. 75. En Shermis, Mark D. y Jill Burstein, eds., Automated Essay Scoring: A Cross-Disciplinary Perspective . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739 
  9. ^ "IntelliMetric®: How it Works", Vantage Learning. Consultado el 28 de febrero de 2012.
  10. ^ Burstein, Jill (2003). "El motor de puntuación E-rater(R): puntuación automatizada de ensayos con procesamiento del lenguaje natural", pág. 113. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automatizada de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739 
  11. ^ de Rudner, Lawrence (ca. 2002). "Computer Grading using Bayesian Networks-Overview" Archivado el 8 de marzo de 2012 en Wayback Machine . Consultado el 7 de marzo de 2012.
  12. ^ "Tecnologías de evaluación" Archivado el 29 de diciembre de 2011 en Wayback Machine , Measurement Incorporated. Consultado el 9 de marzo de 2012.
  13. ^ Premio Hewlett" Archivado el 30 de marzo de 2012 en Wayback Machine . Consultado el 5 de marzo de 2012.
  14. ^ "El hombre y la máquina: mejores escritores, mejores notas". Universidad de Akron. 12 de abril de 2012. Consultado el 4 de julio de 2015 .
    - Shermis, Mark D. y Jill Burstein, eds. Manual de evaluación automatizada de ensayos: aplicaciones actuales y nuevas direcciones . Routledge, 2013.
  15. ^ Rivard, Ry (15 de marzo de 2013). "Los humanos se pelean por los lectores robóticos". Inside Higher Ed . Consultado el 14 de junio de 2015 .
  16. ^ ab Perelman, Les (agosto de 2013). "Crítica de Mark D. Shermis y Ben Hamner, "Contrastando la puntuación automatizada de ensayos de última generación: análisis"". Journal of Writing Assessment . 6 (1) . Consultado el 13 de junio de 2015 .
  17. ^ Perelman, L. (2014). "Cuando 'el estado del arte es contar palabras'", Assessing Writing , 21 , 104-111.
  18. ^ Bennett, Randy E. (marzo de 2015). "La naturaleza cambiante de la evaluación educativa". Revista de investigación en educación . 39 (1): 370–407. doi :10.3102/0091732X14554179. S2CID  145592665.
  19. ^ ab Süzen, N.; Mirkes, EM; Levesley, J; Gorban, AN (2020). "Calificación automática de respuestas cortas y retroalimentación utilizando métodos de minería de texto". Procedia Computer Science . 169 : 726–743. arXiv : 1807.10543 . doi : 10.1016/j.procs.2020.02.171 .
  20. ^ Ke, Zixuan (9 de agosto de 2019). "Calificación automatizada de ensayos: un estudio del estado del arte" (PDF) . Actas de la vigésimo octava conferencia conjunta internacional sobre inteligencia artificial . págs. 6300–6308. doi : 10.24963/ijcai.2019/879 . ISBN . 978-0-9992411-4-1. Recuperado el 11 de abril de 2020 .
  21. ^ Keith, Timothy Z. (2003), pág. 149.
  22. ^ Persing, Isaac y Vincent Ng (2015). "Modeling Argument Strength in Student Essays", pp. 543-552. En Actas de la 53.ª Reunión Anual de la Asociación de Lingüística Computacional y la 7.ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (Volumen 1: Documentos extensos) . Consultado el 22 de octubre de 2015.
  23. ^ Yang, Ruosong; Cao, Jiannong; Wen, Zhiyuan; Wu, Youzheng; He, Xiaodong (2020). "Mejora del rendimiento de la puntuación automatizada de ensayos mediante el ajuste fino de modelos de lenguaje preentrenados con una combinación de regresión y clasificación". Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2020 . En línea: Asociación de Lingüística Computacional: 1560–1569. doi : 10.18653/v1/2020.findings-emnlp.141 . S2CID  226299478.
  24. ^ Bennett, Randy Elliot y Anat Ben-Simon (2005), pág. 7.
  25. ^ Cao, Yue; Jin, Hanqi; Wan, Xiaojun; Yu, Zhiwei (25 de julio de 2020). "Puntuación de ensayos automatizada neuronal adaptativa al dominio". Actas de la 43.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . SIGIR '20. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 1011–1020. doi :10.1145/3397271.3401037. ISBN 978-1-4503-8016-4. Número de identificación del sujeto  220730151.
  26. ^ Cozma, Mădălina; Butnaru, Andrei; Ionescu, Radu Tudor (2018). "Calificación automatizada de ensayos con núcleos de cadenas e incrustaciones de palabras". Actas de la 56.ª Reunión Anual de la Asociación de Lingüística Computacional (volumen 2: artículos breves) . Melbourne, Australia: Asociación de Lingüística Computacional: 503–509. arXiv : 1804.07954 . doi :10.18653/v1/P18-2080. S2CID  5070986.
  27. ^ Chung, Gregory KWK y Eva L. Baker (2003). "Problemas en la confiabilidad y validez de la puntuación automatizada de respuestas elaboradas", pág. 23. En: Puntuación automatizada de ensayos: una perspectiva interdisciplinaria . Shermis, Mark D. y Jill Burstein, eds. Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739 
  28. ^ Elliot, Scott (2003), pág. 77.
    - Burstein, Jill (2003), pág. 114.
  29. ^ Bennett, Randy E. (mayo de 2006). "Tecnología y evaluación de la escritura: lecciones aprendidas de la Evaluación Nacional de Progreso Educativo de Estados Unidos" (PDF) . Asociación Internacional de Evaluación Educativa . Archivado desde el original (PDF) el 24 de septiembre de 2015 . Consultado el 5 de julio de 2015 .
    - McCurry, D. (2010). "¿Puede la puntuación automática manejar pruebas de escritura amplias y abiertas tan bien como los lectores humanos?". Assessing Writing . 15 (2): 118–129. doi :10.1016/j.asw.2010.04.002.
    - R. Bridgeman (2013). Shermis, Mark D.; Burstein, Jill (eds.). Manual de evaluación automatizada de ensayos . Nueva York: Routledge. págs. 221–232.
  30. ^ ab Yang, Yongwei, Chad W. Buckendahl, Piotr J. Juszkiewicz y Dennison S. Bhola (2002). "A Review of Strategies for Validating Computer-Automated Scoring" Archivado el 13 de enero de 2016 en Wayback Machine , Applied Measurement in Education , 15 (4). Consultado el 8 de marzo de 2012.
  31. ^ Wang, Jinhao y Michelle Stallone Brown (2007), págs. 4-5.
    - Dikli, Semire (2006). "An Overview of Automated Essay Scoring of Essays" Archivado el 8 de abril de 2013 en Wayback Machine , Journal of Technology, Learning, and Assessment , 5 (1)
    - Ben-Simon, Anat (2007). "Introducción a la calificación automatizada de ensayos (AES)", presentación en PowerPoint, Tbilisi, Georgia, septiembre de 2007.
  32. ^ Winerip, Michael (22 de abril de 2012). "¿Enfrentarse a un Robo-Grader? Simplemente seguir ofuscando melifluamente". The New York Times . Consultado el 5 de abril de 2013 .
  33. ^ "Firmas >> Profesionales contra la calificación automática de ensayos de estudiantes en evaluaciones de alto riesgo". HumanReaders.Org . Archivado desde el original el 18 de noviembre de 2019 . Consultado el 5 de abril de 2013 .
  34. ^ Markoff, John (4 de abril de 2013). «El software de calificación de ensayos ofrece un respiro a los profesores». The New York Times . Consultado el 5 de abril de 2013 .
    - Garner, Richard (5 de abril de 2013). "Profesores enojados por ensayos corregidos por computadora". The Independent . Consultado el 5 de abril de 2013 .
  35. ^ Corrigan, Paul T. (25 de marzo de 2013). "Petition Against Machine Scoring Essays, HumanReaders.Org". Enseñanza y aprendizaje en educación superior . Consultado el 5 de abril de 2013 .
    - Jaffee, Robert David (5 de abril de 2013). "Las computadoras no pueden leer, escribir ni calificar trabajos". Huffington Post . Consultado el 5 de abril de 2013 .
  36. ^ "Profesionales contra la calificación automática de ensayos de estudiantes en evaluaciones de alto riesgo". HumanReaders.Org . Consultado el 5 de abril de 2013 .
  37. ^ "Resultados de la investigación >> Profesionales contra la calificación automática de ensayos de estudiantes en evaluaciones de alto riesgo". HumanReaders.Org . Consultado el 5 de abril de 2013 .
    - "Obras citadas >> Profesionales contra la calificación automática de ensayos de estudiantes en evaluaciones de alto riesgo". HumanReaders.Org . Consultado el 5 de abril de 2013 .
  38. ^ "Tecnologías de evaluación" Archivado el 24 de febrero de 2019 en Wayback Machine , Measurement, Inc.