Generación automática de artículos

La generación automática de ítems ( AIG ), o generación automatizada de ítems , es un proceso que vincula la psicometría con la programación informática. Utiliza un algoritmo informático para crear automáticamente elementos de prueba que son los componentes básicos de una prueba psicológica . El método fue descrito por primera vez por John R. Bormuth ^[1] en la década de 1960, pero no se desarrolló hasta hace poco. AIG utiliza un proceso de dos pasos: primero, un especialista en pruebas crea una plantilla llamada modelo de artículo; luego, se desarrolla un algoritmo informático para generar elementos de prueba. ^[2] Entonces, en lugar de que un especialista en pruebas escriba cada ítem individual, los algoritmos informáticos generan familias de ítems a partir de un conjunto más pequeño de modelos de ítems principales. ^[3]^[4]^[5] Más recientemente, las redes neuronales, incluidos los modelos de lenguaje grande, como la familia GPT, se han utilizado con éxito para generar elementos automáticamente. ^[6]^[7]

Contexto

En las pruebas psicológicas , las respuestas del examinado a los elementos de la prueba proporcionan datos de medición objetivos para una variedad de características humanas. ^[8] Algunas características medidas por pruebas psicológicas y educativas incluyen habilidades académicas, rendimiento escolar, inteligencia , motivación , etc. y estas pruebas se utilizan frecuentemente para tomar decisiones que tienen consecuencias significativas en individuos o grupos de individuos. Alcanzar estándares de calidad de las mediciones, como la validez de las pruebas , es uno de los objetivos más importantes para psicólogos y educadores. ^[9] AIG es un enfoque para el desarrollo de pruebas que se puede utilizar para mantener y mejorar la calidad de las pruebas de manera económica en el entorno contemporáneo donde las pruebas computarizadas han aumentado la necesidad de una gran cantidad de elementos de prueba. ^[5]

Beneficios

AIG reduce el costo de producir pruebas estandarizadas , ^[10] ya que los algoritmos pueden generar muchos más elementos en un período de tiempo determinado que un especialista en pruebas humano. Puede crear rápida y fácilmente formularios de prueba paralelos, que permiten que diferentes examinados estén expuestos a diferentes grupos de elementos de prueba con el mismo nivel de complejidad o dificultad, mejorando así la seguridad de la prueba. ^[3] Cuando se combina con pruebas adaptativas computarizadas , AIG puede generar nuevos elementos o seleccionar qué elementos ya generados deben administrarse a continuación en función de la capacidad del examinado durante la administración del examen. También se espera que AIG produzca ítems con una amplia gama de dificultades, menos errores en la construcción y que permita una mayor comparabilidad de los ítems debido a una definición más sistemática del modelo de ítem prototípico. ^[3]^[11]^[12]

Radicales, incidentales e isomorfos.

El desarrollo de pruebas (incluida la AIG) puede enriquecerse si se basa en alguna teoría cognitiva. Los procesos cognitivos tomados de una teoría determinada a menudo se relacionan con las características de los elementos durante su construcción. El propósito de esto es predeterminar un parámetro psicométrico determinado, como la dificultad del ítem (de ahora en adelante: β ). Sean radicales ^[11] aquellos elementos estructurales que afectan significativamente los parámetros del ítem y proporcionan al ítem ciertos requisitos cognitivos. Se pueden manipular uno o más radicales del modelo de ítem para producir modelos de ítems principales con diferentes niveles de parámetros (por ejemplo, β ). Luego, cada padre puede hacer crecer su propia familia manipulando otros elementos que Irvine ^[11] llamó incidentales . Los incidentales son características superficiales que sufren variaciones aleatorias de un elemento a otro dentro de la misma familia. Los elementos que tienen la misma estructura de radicales y solo difieren en aspectos incidentales generalmente se denominan isomorfos ^[13] o clones . ^[14]^[15] Puede haber dos tipos de clonación de elementos: por un lado, el modelo de elemento puede consistir en un elemento con uno o más lugares abiertos, y la clonación se realiza llenando cada lugar con un elemento seleccionado de una lista. de posibilidades. Por otro lado, el modelo del ítem podría ser un ítem intacto que se clona mediante la introducción de transformaciones, por ejemplo cambiando el ángulo de un objeto de las pruebas de habilidad espacial. ^[16] La variación de las características superficiales de estos elementos no debería influir significativamente en las respuestas del examinado. Esta es la razón por la que se cree que los incidentales producen sólo ligeras diferencias entre los parámetros de los elementos de los isomorfos. ^[3]

Desarrollos actuales

Varios generadores de elementos han sido sometidos a pruebas de validación objetiva.

MathGen es un programa que genera elementos para evaluar el rendimiento matemático. En un artículo de 2018 para el Journal of Educational Measurement , los autores Embretson y Kingston realizaron una extensa revisión cualitativa y pruebas empíricas para evaluar las propiedades cualitativas y psicométricas de los ítems generados, concluyendo que los ítems tuvieron éxito y que los ítems generados a partir del mismo ítem La estructura tenía propiedades psicométricas predecibles. ^[17]^[18]

En un ensayo de 2017 se administró a los participantes una prueba de discriminación melódica desarrollada con la ayuda del modelo computacional Rachman-Jun 2015 ^[19] . Según los datos recopilados por PM Harrison et al., los resultados demuestran una gran validez y fiabilidad. ^[20]

Ferreyra y Backhoff-Escudero ^[21] generaron dos versiones paralelas del Examen de Competencias Básicas (Excoba), una prueba general de habilidades educativas, utilizando un programa que desarrollaron llamado GenerEx. Luego estudiaron la estructura interna así como la equivalencia psicométrica de las pruebas creadas. Los resultados empíricos de calidad psicométrica son favorables en general y las pruebas y los ítems son consistentes según se miden mediante múltiples índices psicométricos.

Gierl y sus colegas ^[22]^[23]^[24]^[25] utilizaron un programa AIG llamado Generador de Ítems (IGOR ^[26] ) para crear ítems de opción múltiple que evalúan el conocimiento médico. Los ítems generados por IGOR, incluso en comparación con los ítems diseñados manualmente, mostraron buenas propiedades psicométricas.

Arendasy, Sommer y Mayr ^[27] utilizaron AIG para crear elementos verbales para evaluar la fluidez verbal en alemán e inglés, administrándolos a participantes de habla alemana e inglesa respectivamente. Los ítems generados por computadora mostraron propiedades psicométricas aceptables. Los conjuntos de ítems administrados a estos dos grupos se basaron en un conjunto común de ítems de anclaje interlenguaje, lo que facilitó las comparaciones de desempeño entre idiomas.

Holling, Bertling y Zeuch ^[28] utilizaron la teoría de la probabilidad para generar automáticamente problemas matemáticos escritos con las dificultades esperadas. Lograron un ajuste del modelo de Rasch ^[29] y las dificultades de los ítems podrían explicarse mediante el modelo de prueba logística lineal (LLTM ^[30] ), así como mediante el LLTM de efectos aleatorios. Holling, Blank, Kuchenbäcker y Kuhn ^[31] hicieron un estudio similar con problemas escritos estadísticos pero sin utilizar AIG. Arendasy y sus colegas ^[32]^[33] presentaron estudios sobre problemas escritos de álgebra generados automáticamente y examinaron cómo un marco de control de calidad de AIG puede afectar la calidad de la medición de los ítems.

Generación automática de elementos figurativos.

Item Maker (IMak) es un programa escrito en el lenguaje de programación R para trazar elementos de analogía figurativa. Se encontró que las propiedades psicométricas de 23 ítems generados por IMak eran satisfactorias y la dificultad de los ítems basada en la generación de reglas se pudo predecir mediante el modelo de prueba logística lineal (LLTM). ^[3]

MazeGen es otro programa codificado con R que genera laberintos automáticamente. Se encontró que las propiedades psicométricas de 18 de estos laberintos eran óptimas, incluido el ajuste del modelo de Rasch y la predicción LLTM de la dificultad del laberinto. ^[34]

GeomGen es un programa que genera matrices figurativas. ^[35] Un estudio que identificó fuentes de sesgo de medición relacionadas con las estrategias de eliminación de respuestas para elementos de matrices figurativas concluyó que la prominencia del distractor favorece la búsqueda de estrategias de eliminación de respuestas y que este conocimiento podría incorporarse a AIG para mejorar la validez de constructo de dichos elementos. ^[36] El mismo grupo utilizó AIG para estudiar el funcionamiento diferencial de elementos (DIF) y las diferencias de género asociadas con la rotación mental . Manipularon características de diseño de ítems que habían mostrado DIF de género en estudios anteriores, y demostraron que las estimaciones del tamaño del efecto de las diferencias de género se vieron comprometidas por la presencia de diferentes tipos de DIF de género que podrían estar relacionados con características específicas del diseño de ítems. ^[37]^[38]

Arendasy también estudió posibles violaciones de la calidad psicométrica identificadas utilizando la teoría de respuesta al ítem (TRI) de ítems de razonamiento visuoespacial generados automáticamente. Para ello presentó dos programas, a saber: el ya mencionado GeomGen ^[35] y el Endless Loop Generator (EsGen). Concluyó que GeomGen era más adecuado para AIG porque los principios IRT se pueden incorporar durante la generación de elementos. ^[39] En un proyecto de investigación paralelo utilizando GeomGen, Arendasy y Sommer ^[40] encontraron que la variación de la organización perceptiva de los ítems podría influir en el desempeño de los encuestados dependiendo de sus niveles de habilidad y que tenía un efecto en varios índices de calidad psicométrica. Con estos resultados, cuestionaron el supuesto de unidimensionalidad de los elementos matriciales figurativos en general.

MatrixDeveloper ^[41] se utilizó para generar automáticamente veinticinco elementos de matriz cuadrada de 4x4. Estos artículos fueron administrados a 169 personas. Según los resultados de la investigación, los ítems muestran un buen ajuste del modelo de Rasch y la generación basada en reglas puede explicar la dificultad del ítem. ^[42]

El primer generador de matrices de ítems conocido fue diseñado por Embretson, ^[43]^[14] y sus ítems generados automáticamente demostraron buenas propiedades psicométricas, como lo demuestran Embretson y Reise. ^[44] También propuso un modelo para la generación adecuada de artículos en línea.

Referencias

^ Bormuth, J. (1969). Sobre una teoría de los elementos de la prueba de rendimiento . Chicago, IL: Prensa de la Universidad de Chicago.
^ Gierl, MJ y Haladyna, TM (2012). Generación automática de ítems, teoría y práctica . Nueva York, Nueva York: Routledge Chapman & Hall.
^ abcde Blum, Diego; Holling, Heinz (6 de agosto de 2018). "Generación automática de analogías figurativas con el paquete IMak". Fronteras en Psicología . 9 : 1286. doi : 10.3389/fpsyg.2018.01286 . PMC 6087760 . PMID 30127757. El material fue copiado de esta fuente, que está disponible bajo una licencia internacional Creative Commons Attribution 4.0.
^ Glas, CAW, van der Linden, WJ y Geerlings, H. (2010). Estimación de los parámetros en un modelo de clonación de elementos para pruebas adaptativas. En WJ van der Linden y CAW Glas (Eds.). Elementos de las pruebas adaptativas (págs. 289–314). DOI: 10.1007/978-0-387-85461-8_15.
^ ab Gierl, MJ y Lai, H. (2012). El papel de los modelos de artículos en la generación automática de artículos. Revista internacional de pruebas, 12 (3), 273–298. DOI: 10.1080/15305058.2011.635830.
^ von Davier, M. Generación automatizada de elementos con redes neuronales recurrentes. Psicometrika 83, 847–857 (2018). https://doi.org/10.1007/s11336-018-9608-y
^ Yaneva, V. y von Davier, M. (Eds.). (2023). Avance del procesamiento del lenguaje natural en la evaluación educativa (1ª ed.). Rutledge. https://doi.org/10.4324/9781003278658
^ Van der Linden, WJ y Hambleton, RK (1997). Teoría de la respuesta al ítem: breve historia, modelos comunes y extensiones. En RK Hambleton y WJ van der Linden (Eds.). Manual de teoría moderna de la respuesta al ítem (págs. 1 a 31). Nueva York: Springer.
^ Embretson, SE (1999). Problemas en la medición de las capacidades cognitivas. En SE Embretson y SL Hershberger (Eds.). Las nuevas reglas de medición (págs. 1-15). Mahwah: Asociados de Lawrence Erlbaum.
^ Rudner, L. (2010). Implementación de la prueba adaptativa computarizada de la prueba de admisión en gestión de posgrado. En WJ van der Linden y CAW Glas (Eds.). Elementos de las pruebas adaptativas (págs. 151-165). DOI: 10.1007/978-0-387-85461-8_15.
^ abc Irvine, S. (2002). Los fundamentos de la generación de elementos para pruebas masivas. En SH Irvine y PC Kyllonen (Eds.). Generación de elementos para el desarrollo de pruebas (págs. 3 a 34). Mahwah: Asociados de Lawrence Erlbaum.
^ Lai, H., Alves, C. y Gierl, MJ (2009). Uso de la generación automática de artículos para abordar las demandas de artículos para CAT. En DJ Weiss (Ed.), Actas de la Conferencia GMAC de 2009 sobre pruebas adaptativas computarizadas . Web: www.psych.umn.edu/psylabs/CATCentral.
^ Béjar, II (2002). Pruebas generativas: desde la concepción hasta la implementación en Generación de elementos para el desarrollo de pruebas , eds. SH Irvine y PC Kyllonen (Mahwah, Nueva Jersey: Lawrence Erlbaum Associates), 199–217.
^ ab Embretson, SE (1999). Generación de ítems durante la prueba: cuestiones y modelos psicométricos. Psicometrika, 64 (4), 407–433.
^ Arendasy, ME y Sommer, M. (2012). Utilizar la generación automática de ítems para satisfacer las crecientes demandas de ítems de la evaluación educativa y ocupacional de alto riesgo. Aprendizaje y diferencias individuales, 22 , 112-117. doi: 10.1016/j.lindif.2011.11.005.
^ Glas, CAW y van der Linden, WJ (2003). Pruebas adaptativas computarizadas con clonación de elementos. Medición psicológica aplicada, 27 , 247–261. doi: 10.1177/0146621603027004001.
^ Embretson, SE y Kingston, Nuevo México (2018). Generación automática de ítems: ¿un proceso más eficiente para desarrollar ítems de rendimiento en matemáticas? Revista de medición educativa, 55 (1), 112–131. DOI: 10.1111/jedm.12166
^ Willson, J., Morrison, K. y Embretson, SE (2014). Generador automático de ítems para ítems de logros matemáticos: MathGen3.0 . Informe técnico IES1005A-2014 para el Instituto de Ciencias de la Educación Beca R305A100234. Atlanta, GA: Laboratorio de Medición Cognitiva, Georgia, Instituto de Tecnología.
^ Collins, T., Laney, R., Willis, A. y Garthwaite, PH (2016). Desarrollar y evaluar modelos computacionales de estilo musical. Inteligencia artificial para diseño, análisis y fabricación de ingeniería, 30 , 16–43. DOI: 10.1017/S0890060414000687.
^ Harrison, PM, Collins, T. y Müllensiefen, D. (2017). Aplicación de técnicas psicométricas modernas a las pruebas de discriminación melódica: teoría de respuesta al ítem, pruebas adaptativas computarizadas y generación automática de ítems. Informes científicos, 7 (3618), 1–18.
^ Ferreyra, MF y Backhoff-Escudero, E. (2016). Validez del Generador Automático de Ítems del Examen de Competencias Básicas (Excoba). Relevo, 22 (1), art. 2, 1–16. DOI: 10.7203/relieve.22.1.8048.
^ Gierl, MJ, Lai, H., Pugh, D., Touchie, C., Boulais, AP y De Champlain, A. (2016). Evaluar las características psicométricas de los ítems de pruebas de opción múltiple generados. Medición aplicada en educación, 29 (3), 196–210. DOI: 10.1080/08957347.2016.1171768.
^ Lai, H., Gierl, MJ, Byrne, BE, Spielman, AI y Waldschmidt, DM (2016). Tres aplicaciones de modelado para promover la generación automática de elementos para exámenes en odontología. Revista de educación dental, 80 (3), 339–347.
^ Gierl, MJ y Lai, H. (2013). Evaluar la calidad de artículos médicos de opción múltiple creados con procesos automatizados. Educación médica, 47 , 726–733. DOI: 10.1111/medu.12202.
^ Gierl, MJ, Lai, H. y Turner, SR (2012). Uso de la generación automática de elementos para crear elementos de prueba de opción múltiple. Educación médica, 46 (8), 757–765. DOI: 10.1111/j.1365-2923.2012.04289.x.
^ Gierl, MJ, Zhou, J. y Alves, C. (2008). Desarrollar una taxonomía de tipos de modos de ítems para promover la ingeniería de evaluación. J technol aprender evaluar, 7 (2), 1–51.
^ Arendasy, ME, Sommer, M. y Mayr, F. (2011). Usar la generación automática de elementos para construir simultáneamente versiones en alemán e inglés de una prueba de fluidez de palabras. Revista de psicología transcultural, 43 (3), 464–479. DOI: 10.1177/0022022110397360.
^ Holling, H., Bertling, JP y Zeuch, N. (2009). Generación automática de ítems de problemas verbales de probabilidad. Estudios en evaluación educativa, 35 (2–3), 71–76.
^ Rasch, G. (1960). Modelos probabilísticos para algunas pruebas de inteligencia y de logro . Chicago: Prensa de la Universidad de Chicago.
^ Fischer, GH (1973). El modelo de prueba logística lineal como instrumento de investigación educativa. Acta Psicológica, 37 , 359–374. DOI: 10.1016/0001-6918(73)90003-6.
^ Holling, H., Blank, H., Kuchenbäcker, K. y Kuhn, JT (2008). Diseño de ítems basado en reglas de problemas escritos estadísticos: una revisión y primera implementación. Ciencia de la psicología trimestral, 50 (3), 363–378.
^ Arendasy, ME, Sommer, M., Gittler, G. y Hergovich, A. (2006). Generación automática de ítems de razonamiento cuantitativo. Un estudio piloto. Revista de diferencias individuales, 27 (1), 2–14. DOI: 10.1027/1614-0001.27.1.2.
^ Arendasy, ME y Sommer, M. (2007). Uso de tecnología psicométrica en la evaluación educativa: el caso de un enfoque isomórfico basado en esquemas para la generación automática de ítems de razonamiento cuantitativo. Aprendizaje y diferencias individuales, 17 (4), 366–383. DOI: 10.1016/j.lindif.2007.03.005.
^ Loe, BS y Rust, J. (2017). Revisión de la prueba de percepción del laberinto: evaluación de la dificultad de los laberintos generados automáticamente. Evaluación , 1–16. DOI: 10.1177/1073191117746501.
^ ab Arendasy, M. (2002). Geom-Gen-Ein Itemgenerator para Matrizentestaufgaben . Viena: Eigenverlag.
^ Arendasy, ME y Sommer, M. (2013). La reducción de las estrategias de eliminación de respuestas mejora la validez de constructo de las matrices figurativas. Inteligencia, 41 , 234–243. DOI: 10.1016/j.intell.2013.03.006.
^ Arendasy, ME y Sommer, M. (2010). Evaluación de la contribución de diferentes características de los elementos al tamaño del efecto de la diferencia de género en la rotación mental tridimensional mediante la generación automática de elementos. Inteligencia, 38 (6), 574–581. DOI:10.1016/j.intell.2010.06.004.
^ Arendasy, ME, Sommer, M. y Gittler, G. (2010). Combinando generación automática de ítems y diseños experimentales para investigar la contribución de los componentes cognitivos a la diferencia de género en la rotación mental. Inteligencia, 38 (5), 506–512. DOI:10.1016/j.intell.2010.06.006.
^ Arendasy, M. (2005). Generación automática de ítems calibrados Rasch: prueba de matrices figurativas GEOM y Endless-Loops Test EC. Revista internacional de pruebas, 5 (3), 197–224.
^ Arendasy, ME y Sommer, M. (2005). El efecto de diferentes tipos de manipulaciones perceptivas sobre la dimensionalidad de matrices figurativas generadas automáticamente. Inteligencia, 33 (3), 307–324. DOI: 10.1016/j.intell.2005.02.002.
^ Hofer, S. (2004). Desarrollador Matrix. Münster, Alemania: Instituto Psicológico IV. Westfälische Wilhelms-Universität.
^ Freund, PA, Hofer, S. y Holling, H. (2008). Explicar y controlar las propiedades psicométricas de elementos matriciales figurativos generados por computadora. Medición psicológica aplicada, 32 (3), 195–210. DOI: 10.1177/0146621607306972.
^ Embretson, SE (1998). Un enfoque de sistema de diseño cognitivo para generar pruebas válidas: aplicación al razonamiento abstracto. Métodos psicológicos, 3 (3), 380–396.
^ Embretson, SE y Reise, SP (2000). Teoría de la respuesta al ítem para psicólogos . Mahwah: Asociados de Lawrence Erlbaum.