La generación automática de ítems ( AIG ), o generación automatizada de ítems , es un proceso que vincula la psicometría con la programación informática. Utiliza un algoritmo informático para crear automáticamente elementos de prueba que son los componentes básicos de una prueba psicológica . El método fue descrito por primera vez por John R. Bormuth [1] en la década de 1960, pero no se desarrolló hasta hace poco. AIG utiliza un proceso de dos pasos: primero, un especialista en pruebas crea una plantilla llamada modelo de artículo; luego, se desarrolla un algoritmo informático para generar elementos de prueba. [2] Entonces, en lugar de que un especialista en pruebas escriba cada ítem individual, los algoritmos informáticos generan familias de ítems a partir de un conjunto más pequeño de modelos de ítems principales. [3] [4] [5] Más recientemente, las redes neuronales, incluidos los modelos de lenguaje grande, como la familia GPT, se han utilizado con éxito para generar elementos automáticamente. [6] [7]
En las pruebas psicológicas , las respuestas del examinado a los elementos de la prueba proporcionan datos de medición objetivos para una variedad de características humanas. [8] Algunas características medidas por pruebas psicológicas y educativas incluyen habilidades académicas, rendimiento escolar, inteligencia , motivación , etc. y estas pruebas se utilizan frecuentemente para tomar decisiones que tienen consecuencias significativas en individuos o grupos de individuos. Alcanzar estándares de calidad de las mediciones, como la validez de las pruebas , es uno de los objetivos más importantes para psicólogos y educadores. [9] AIG es un enfoque para el desarrollo de pruebas que se puede utilizar para mantener y mejorar la calidad de las pruebas de manera económica en el entorno contemporáneo donde las pruebas computarizadas han aumentado la necesidad de una gran cantidad de elementos de prueba. [5]
AIG reduce el costo de producir pruebas estandarizadas , [10] ya que los algoritmos pueden generar muchos más elementos en un período de tiempo determinado que un especialista en pruebas humano. Puede crear rápida y fácilmente formularios de prueba paralelos, que permiten que diferentes examinados estén expuestos a diferentes grupos de elementos de prueba con el mismo nivel de complejidad o dificultad, mejorando así la seguridad de la prueba. [3] Cuando se combina con pruebas adaptativas computarizadas , AIG puede generar nuevos elementos o seleccionar qué elementos ya generados deben administrarse a continuación en función de la capacidad del examinado durante la administración del examen. También se espera que AIG produzca ítems con una amplia gama de dificultades, menos errores en la construcción y que permita una mayor comparabilidad de los ítems debido a una definición más sistemática del modelo de ítem prototípico. [3] [11] [12]
El desarrollo de pruebas (incluida la AIG) puede enriquecerse si se basa en alguna teoría cognitiva. Los procesos cognitivos tomados de una teoría determinada a menudo se relacionan con las características de los elementos durante su construcción. El propósito de esto es predeterminar un parámetro psicométrico determinado, como la dificultad del ítem (de ahora en adelante: β ). Sean radicales [11] aquellos elementos estructurales que afectan significativamente los parámetros del ítem y proporcionan al ítem ciertos requisitos cognitivos. Se pueden manipular uno o más radicales del modelo de ítem para producir modelos de ítems principales con diferentes niveles de parámetros (por ejemplo, β ). Luego, cada padre puede hacer crecer su propia familia manipulando otros elementos que Irvine [11] llamó incidentales . Los incidentales son características superficiales que sufren variaciones aleatorias de un elemento a otro dentro de la misma familia. Los elementos que tienen la misma estructura de radicales y solo difieren en aspectos incidentales generalmente se denominan isomorfos [13] o clones . [14] [15] Puede haber dos tipos de clonación de elementos: por un lado, el modelo de elemento puede consistir en un elemento con uno o más lugares abiertos, y la clonación se realiza llenando cada lugar con un elemento seleccionado de una lista. de posibilidades. Por otro lado, el modelo del ítem podría ser un ítem intacto que se clona mediante la introducción de transformaciones, por ejemplo cambiando el ángulo de un objeto de las pruebas de habilidad espacial. [16] La variación de las características superficiales de estos elementos no debería influir significativamente en las respuestas del examinado. Esta es la razón por la que se cree que los incidentales producen sólo ligeras diferencias entre los parámetros de los elementos de los isomorfos. [3]
Varios generadores de elementos han sido sometidos a pruebas de validación objetiva.
MathGen es un programa que genera elementos para evaluar el rendimiento matemático. En un artículo de 2018 para el Journal of Educational Measurement , los autores Embretson y Kingston realizaron una extensa revisión cualitativa y pruebas empíricas para evaluar las propiedades cualitativas y psicométricas de los ítems generados, concluyendo que los ítems tuvieron éxito y que los ítems generados a partir del mismo ítem La estructura tenía propiedades psicométricas predecibles. [17] [18]
En un ensayo de 2017 se administró a los participantes una prueba de discriminación melódica desarrollada con la ayuda del modelo computacional Rachman-Jun 2015 [19] . Según los datos recopilados por PM Harrison et al., los resultados demuestran una gran validez y fiabilidad. [20]
Ferreyra y Backhoff-Escudero [21] generaron dos versiones paralelas del Examen de Competencias Básicas (Excoba), una prueba general de habilidades educativas, utilizando un programa que desarrollaron llamado GenerEx. Luego estudiaron la estructura interna así como la equivalencia psicométrica de las pruebas creadas. Los resultados empíricos de calidad psicométrica son favorables en general y las pruebas y los ítems son consistentes según se miden mediante múltiples índices psicométricos.
Gierl y sus colegas [22] [23] [24] [25] utilizaron un programa AIG llamado Generador de Ítems (IGOR [26] ) para crear ítems de opción múltiple que evalúan el conocimiento médico. Los ítems generados por IGOR, incluso en comparación con los ítems diseñados manualmente, mostraron buenas propiedades psicométricas.
Arendasy, Sommer y Mayr [27] utilizaron AIG para crear elementos verbales para evaluar la fluidez verbal en alemán e inglés, administrándolos a participantes de habla alemana e inglesa respectivamente. Los ítems generados por computadora mostraron propiedades psicométricas aceptables. Los conjuntos de ítems administrados a estos dos grupos se basaron en un conjunto común de ítems de anclaje interlenguaje, lo que facilitó las comparaciones de desempeño entre idiomas.
Holling, Bertling y Zeuch [28] utilizaron la teoría de la probabilidad para generar automáticamente problemas matemáticos escritos con las dificultades esperadas. Lograron un ajuste del modelo de Rasch [29] y las dificultades de los ítems podrían explicarse mediante el modelo de prueba logística lineal (LLTM [30] ), así como mediante el LLTM de efectos aleatorios. Holling, Blank, Kuchenbäcker y Kuhn [31] hicieron un estudio similar con problemas escritos estadísticos pero sin utilizar AIG. Arendasy y sus colegas [32] [33] presentaron estudios sobre problemas escritos de álgebra generados automáticamente y examinaron cómo un marco de control de calidad de AIG puede afectar la calidad de la medición de los ítems.
Item Maker (IMak) es un programa escrito en el lenguaje de programación R para trazar elementos de analogía figurativa. Se encontró que las propiedades psicométricas de 23 ítems generados por IMak eran satisfactorias y la dificultad de los ítems basada en la generación de reglas se pudo predecir mediante el modelo de prueba logística lineal (LLTM). [3]
MazeGen es otro programa codificado con R que genera laberintos automáticamente. Se encontró que las propiedades psicométricas de 18 de estos laberintos eran óptimas, incluido el ajuste del modelo de Rasch y la predicción LLTM de la dificultad del laberinto. [34]
GeomGen es un programa que genera matrices figurativas. [35] Un estudio que identificó fuentes de sesgo de medición relacionadas con las estrategias de eliminación de respuestas para elementos de matrices figurativas concluyó que la prominencia del distractor favorece la búsqueda de estrategias de eliminación de respuestas y que este conocimiento podría incorporarse a AIG para mejorar la validez de constructo de dichos elementos. [36] El mismo grupo utilizó AIG para estudiar el funcionamiento diferencial de elementos (DIF) y las diferencias de género asociadas con la rotación mental . Manipularon características de diseño de ítems que habían mostrado DIF de género en estudios anteriores, y demostraron que las estimaciones del tamaño del efecto de las diferencias de género se vieron comprometidas por la presencia de diferentes tipos de DIF de género que podrían estar relacionados con características específicas del diseño de ítems. [37] [38]
Arendasy también estudió posibles violaciones de la calidad psicométrica identificadas utilizando la teoría de respuesta al ítem (TRI) de ítems de razonamiento visuoespacial generados automáticamente. Para ello presentó dos programas, a saber: el ya mencionado GeomGen [35] y el Endless Loop Generator (EsGen). Concluyó que GeomGen era más adecuado para AIG porque los principios IRT se pueden incorporar durante la generación de elementos. [39] En un proyecto de investigación paralelo utilizando GeomGen, Arendasy y Sommer [40] encontraron que la variación de la organización perceptiva de los ítems podría influir en el desempeño de los encuestados dependiendo de sus niveles de habilidad y que tenía un efecto en varios índices de calidad psicométrica. Con estos resultados, cuestionaron el supuesto de unidimensionalidad de los elementos matriciales figurativos en general.
MatrixDeveloper [41] se utilizó para generar automáticamente veinticinco elementos de matriz cuadrada de 4x4. Estos artículos fueron administrados a 169 personas. Según los resultados de la investigación, los ítems muestran un buen ajuste del modelo de Rasch y la generación basada en reglas puede explicar la dificultad del ítem. [42]
El primer generador de matrices de ítems conocido fue diseñado por Embretson, [43] [14] y sus ítems generados automáticamente demostraron buenas propiedades psicométricas, como lo demuestran Embretson y Reise. [44] También propuso un modelo para la generación adecuada de artículos en línea.