Teoría clásica de pruebas

La teoría clásica de los tests (TCT) es un conjunto de teorías psicométricas relacionadas que predice los resultados de las pruebas psicológicas , como la dificultad de los ítems o la capacidad de los examinados. Es una teoría de las pruebas basada en la idea de que la puntuación observada u obtenida por una persona en una prueba es la suma de una puntuación real (puntuación sin errores) y una puntuación con errores. ^[1] En términos generales, el objetivo de la teoría clásica de los tests es comprender y mejorar la fiabilidad de las pruebas psicológicas.

La teoría clásica de los tests puede considerarse, en líneas generales, un sinónimo de la teoría de las puntuaciones reales . El término "clásica" no sólo hace referencia a la cronología de estos modelos, sino que también contrasta con las teorías psicométricas más recientes, generalmente denominadas colectivamente teoría de la respuesta al ítem , que a veces reciben el apelativo de "modernas", como en "teoría moderna de los rasgos latentes".

La teoría clásica de los tests tal como la conocemos hoy en día fue codificada por Novick (1966) y descrita en textos clásicos como Lord & Novick (1968) y Allen & Yen (1979/2002). La descripción de la teoría clásica de los tests que se presenta a continuación se basa en estas publicaciones fundamentales.

Historia

La teoría clásica de pruebas nació sólo después de que se conceptualizaran los siguientes tres logros o ideas:

1. un reconocimiento de la presencia de errores en las mediciones,

2. una concepción de ese error como una variable aleatoria,

3. Una concepción de la correlación y cómo indexarla.

En 1904, Charles Spearman fue responsable de descubrir cómo corregir un coeficiente de correlación para la atenuación debido al error de medición y cómo obtener el índice de confiabilidad necesario para realizar la corrección. ^[2] Algunos piensan que el hallazgo de Spearman es el comienzo de la teoría clásica de los tests (Traub, 1997). Otros que tuvieron influencia en el marco de la teoría clásica de los tests incluyen: George Udny Yule , Truman Lee Kelley , Fritz Kuder y Marion Richardson involucrados en la elaboración de las fórmulas de Kuder-Richardson , Louis Guttman y, más recientemente, Melvin Novick , sin mencionar a otros durante el siguiente cuarto de siglo después de los hallazgos iniciales de Spearman.

Definiciones

La teoría clásica de las pruebas supone que cada persona tiene una puntuación verdadera , T , que se obtendría si no hubiera errores en la medición. La puntuación verdadera de una persona se define como la puntuación correcta esperada a lo largo de un número infinito de administraciones independientes de la prueba. Desafortunadamente, los usuarios de la prueba nunca observan la puntuación verdadera de una persona, solo una puntuación observada , X. Se supone que la puntuación observada = puntuación verdadera más algún error :

 X = T + E Puntuación observada Puntuación real Error

La teoría clásica de los tests se ocupa de las relaciones entre las tres variables , y en la población. Estas relaciones se utilizan para decir algo sobre la calidad de las puntuaciones de los tests. En este sentido, el concepto más importante es el de fiabilidad . La fiabilidad de las puntuaciones de los tests observados , que se denota como , se define como la relación entre la varianza de la puntuación real y la varianza de la puntuación observada : ${\estilo de visualización X}$ ${\estilo de visualización T}$ ${\estilo de visualización E}$ ${\estilo de visualización X}$ ${\rho_{XT}^{2}}$ $estilo de visualización {\sigma _{T}^{2}}}$ ${\sigma _{X}^{2}}$

\rho_{XT}^{2}={\frac {\sigma_{T}^{2}}{\sigma_{X}^{2}}}

Debido a que se puede demostrar que la varianza de las puntuaciones observadas es igual a la suma de la varianza de las puntuaciones reales y la varianza de las puntuaciones de error, esto es equivalente a

\rho _{XT}^{2}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}={\frac {\sigma _{T}^{2}}{\sigma _{T}^{2}+\sigma _{E}^{2}}}

Esta ecuación, que formula una relación señal-ruido, tiene un atractivo intuitivo: la fiabilidad de las puntuaciones de las pruebas aumenta a medida que la proporción de varianza del error en las puntuaciones de las pruebas disminuye y viceversa. La fiabilidad es igual a la proporción de la varianza en las puntuaciones de las pruebas que podríamos explicar si conociéramos las puntuaciones verdaderas. La raíz cuadrada de la fiabilidad es el valor absoluto de la correlación entre las puntuaciones verdaderas y las observadas.

Evaluación de pruebas y puntuaciones: fiabilidad

La fiabilidad no se puede estimar directamente, ya que para ello sería necesario conocer las puntuaciones reales, lo que, según la teoría clásica de las pruebas, es imposible. Sin embargo, las estimaciones de fiabilidad se pueden obtener por diversos medios. Una forma de estimar la fiabilidad es mediante la construcción de una prueba paralela . La propiedad fundamental de una prueba paralela es que produce la misma puntuación real y la misma varianza de la puntuación observada que la prueba original para cada individuo. Si tenemos pruebas paralelas x y x', esto significa que

\mathbb {E}[X_{i}]=\mathbb {E}[X'_{i}]

\sigma _{E_{i}}^{2}=\sigma _{E'_{i}}^{2}

Bajo estos supuestos, se deduce que la correlación entre puntuaciones de pruebas paralelas es igual a la confiabilidad (véase Lord y Novick, 1968, cap. 2, para una prueba).

\rho_{XX'}={\frac {\sigma_{XX'}}{\sigma_{X}\sigma_{X'}}}={\frac {\sigma_{T}^{2}}{\sigma_{X}^{2}}}=\rho_{XT}^{2}

El uso de pruebas paralelas para estimar la confiabilidad es complicado porque es muy difícil conseguir pruebas paralelas. En la práctica, el método rara vez se utiliza. En su lugar, los investigadores utilizan una medida de consistencia interna conocida como la prueba de Cronbach ${\estilo de visualización {\alfa}}$ . Considere una prueba que consta de ítems , . La puntuación total de la prueba se define como la suma de las puntuaciones de los ítems individuales, de modo que para cada ítem ${\estilo de visualización k}$ $u_{j}$ $j=1,\lpuntos ,k$ ${\estilo de visualización i}$

X_{i}=\sum _{j=1}^{k}U_{ij}

Entonces el alfa de Cronbach es igual a

\alpha ={\frac {k}{k-1}}\left(1-{\frac {\sum _{j=1}^{k}\sigma _{U_{j}}^{2}}{\sigma _{X}^{2}}}\right)

Se puede demostrar que el coeficiente de Cronbach proporciona un límite inferior de fiabilidad bajo supuestos bastante moderados. ^[^{cita requerida}^] Por lo tanto, la fiabilidad de las puntuaciones de las pruebas en una población siempre es mayor que el valor del coeficiente de Cronbach en esa población. Por lo tanto, este método es empíricamente factible y, como resultado, es muy popular entre los investigadores. El cálculo del coeficiente de Cronbach está incluido en muchos paquetes estadísticos estándar como SPSS y SAS . ^[3] ${\alpha }$ ${\alpha }$ ${\alpha }$

Como se ha señalado anteriormente, todo el ejercicio de la teoría clásica de los tests se lleva a cabo para llegar a una definición adecuada de fiabilidad. Se supone que la fiabilidad dice algo sobre la calidad general de las puntuaciones de los tests en cuestión. La idea general es que cuanto mayor sea la fiabilidad, mejor. La teoría clásica de los tests no dice qué tan alta se supone que debe ser la fiabilidad. Un valor demasiado alto para , digamos superior a 0,9, indica redundancia de ítems. Se recomienda alrededor de 0,8 para la investigación de la personalidad, mientras que 0,9+ es deseable para pruebas individuales de alto riesgo. ^[4] Estos "criterios" no se basan en argumentos formales, sino que son el resultado de la convención y la práctica profesional. No está claro hasta qué punto se pueden relacionar con principios formales de inferencia estadística. ${\alpha }$

Evaluación de ítems: P y correlaciones ítem-total

La fiabilidad proporciona un índice conveniente de la calidad de la prueba en un solo número, la fiabilidad. Sin embargo, no proporciona ninguna información para evaluar ítems individuales. El análisis de ítems dentro del enfoque clásico a menudo se basa en dos estadísticas: el valor P (proporción) y la correlación ítem-total ( coeficiente de correlación biserial puntual ). El valor P representa la proporción de examinados que responden en la dirección clave y generalmente se conoce como dificultad del ítem . La correlación ítem-total proporciona un índice de la discriminación o poder diferenciador del ítem y generalmente se conoce como discriminación del ítem . Además, estas estadísticas se calculan para cada respuesta del ítem de opción múltiple de uso frecuente, que se utilizan para evaluar ítems y diagnosticar posibles problemas, como un distractor confuso. Este valioso análisis lo proporciona un software psicométrico especialmente diseñado .

Alternativas

La teoría clásica de los tests es una teoría influyente de las puntuaciones de los tests en las ciencias sociales. En psicometría , la teoría ha sido sustituida por los modelos más sofisticados de la teoría de respuesta al ítem (TRI) y la teoría de la generalización (teoría G). Sin embargo, la TRI no está incluida en los paquetes estadísticos estándar como SPSS , pero SAS puede estimar modelos de TRI a través de PROC IRT y PROC MCMC y existen paquetes de TRI para el lenguaje de programación estadística de código abierto R (por ejemplo, CTT). Aunque los paquetes comerciales proporcionan rutinariamente estimaciones de la TRI de Cronbach , puede preferirse un software psicométrico especializado para la TRI o la teoría G. Sin embargo, los paquetes estadísticos generales a menudo no proporcionan un análisis clásico completo (la TRI de Cronbach es solo una de las muchas estadísticas importantes) y, en muchos casos, también es necesario un software especializado para el análisis clásico. ${\alpha }$ ${\alpha }$

Defectos

Una de las deficiencias más importantes o más conocidas de la teoría clásica de los tests es que las características del sujeto y las características del test no pueden separarse: cada una sólo puede interpretarse en el contexto de la otra. Otra deficiencia reside en la definición de fiabilidad que existe en la teoría clásica de los tests, que establece que la fiabilidad es "la correlación entre las puntuaciones de los tests en formas paralelas de un test". ^[5] El problema con esto es que hay diferentes opiniones sobre lo que son los tests paralelos. Diversos coeficientes de fiabilidad proporcionan estimaciones de la fiabilidad de límite inferior o estimaciones de fiabilidad con sesgos desconocidos. Una tercera deficiencia tiene que ver con el error estándar de medición. El problema aquí es que, según la teoría clásica de los tests, se supone que el error estándar de medición es el mismo para todos los sujetos. Sin embargo, como explica Hambleton en su libro, las puntuaciones en cualquier test son medidas de precisión desigual para sujetos de distintas capacidades, lo que hace que la suposición de errores de medición iguales para todos los sujetos sea inverosímil (Hambleton, Swaminathan, Rogers, 1991, p. 4). Una cuarta y última deficiencia de la teoría clásica de los tests es que está orientada a los tests, en lugar de a los ítems. En otras palabras, la teoría clásica de los tests no nos puede ayudar a hacer predicciones sobre el rendimiento que un individuo o incluso un grupo de sujetos podrían obtener en un ítem de un test. ^[5]

Véase también

Notas

^ Consejo Nacional de Medición en Educación http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorC Archivado el 22 de julio de 2017 en Wayback Machine.
^ Traub, R. (1997). Teoría clásica de los tests en perspectiva histórica. Medición educativa: cuestiones y práctica 16 (4), 8–14. doi:doi:10.1111/j.1745-3992.1997.tb00603.x
^ Pui-Wa Lei y Qiong Wu (2007). "CTTITEM: macro SAS y sintaxis SPSS para el análisis de ítems clásico". Métodos de investigación del comportamiento . 39 (3): 527–530. doi : 10.3758/BF03193021 . PMID 17958163.
^ Streiner, DL (2003). "Empezando por el principio: Una introducción al coeficiente alfa y la consistencia interna". Journal of Personality Assessment . 80 (1): 99–103. doi :10.1207/S15327752JPA8001_18. hdl : 11655/5356 . PMID 12584072. S2CID 3679277.
^ ab Hambleton, R., Swaminathan, H., Rogers, H. (1991). Fundamentos de la teoría de respuesta al ítem . Newbury Park, California: Sage Publications, Inc.

Referencias

Allen, MJ y Yen, WM (2002). Introducción a la teoría de la medición. Long Grove, IL: Waveland Press.
Novick, MR (1966) Los axiomas y resultados principales de la teoría clásica de pruebas Revista de Psicología Matemática Volumen 3, Número 1, febrero de 1966, páginas 1-18
Lord, FM y Novick, MR (1968). Teorías estadísticas de las puntuaciones de las pruebas mentales. Reading, MA: Addison-Welsley Publishing Company

Lectura adicional

Gregory, Robert J. (2011). Pruebas psicológicas: historia, principios y aplicaciones (sexta edición). Boston: Allyn & Bacon. ISBN 978-0-205-78214-7.
Hogan, Thomas P.; Brooke Cannon (2007). Pruebas psicológicas: una introducción práctica (segunda edición). Hoboken (Nueva Jersey): John Wiley & Sons. ISBN 978-0-471-73807-7.

Enlaces externos

Artículo de la Comisión Internacional de Pruebas sobre la teoría clásica de las pruebas
TAP: software libre para la teoría clásica de pruebas
Iteman: software para informes visuales con teoría clásica de pruebas
Lertap: software basado en Excel para la teoría clásica de pruebas
CITAS: Software basado en Excel para la teoría clásica de pruebas
jMetrik: software para la teoría clásica de pruebas