La teoría clásica de los tests (TCT) es un conjunto de teorías psicométricas relacionadas que predice los resultados de las pruebas psicológicas , como la dificultad de los ítems o la capacidad de los examinados. Es una teoría de las pruebas basada en la idea de que la puntuación observada u obtenida por una persona en una prueba es la suma de una puntuación real (puntuación sin errores) y una puntuación con errores. [1] En términos generales, el objetivo de la teoría clásica de los tests es comprender y mejorar la fiabilidad de las pruebas psicológicas.
La teoría clásica de los tests puede considerarse, en líneas generales, un sinónimo de la teoría de las puntuaciones reales . El término "clásica" no sólo hace referencia a la cronología de estos modelos, sino que también contrasta con las teorías psicométricas más recientes, generalmente denominadas colectivamente teoría de la respuesta al ítem , que a veces reciben el apelativo de "modernas", como en "teoría moderna de los rasgos latentes".
La teoría clásica de los tests tal como la conocemos hoy en día fue codificada por Novick (1966) y descrita en textos clásicos como Lord & Novick (1968) y Allen & Yen (1979/2002). La descripción de la teoría clásica de los tests que se presenta a continuación se basa en estas publicaciones fundamentales.
La teoría clásica de pruebas nació sólo después de que se conceptualizaran los siguientes tres logros o ideas:
1. un reconocimiento de la presencia de errores en las mediciones,
2. una concepción de ese error como una variable aleatoria,
3. Una concepción de la correlación y cómo indexarla.
En 1904, Charles Spearman fue responsable de descubrir cómo corregir un coeficiente de correlación para la atenuación debido al error de medición y cómo obtener el índice de confiabilidad necesario para realizar la corrección. [2] Algunos piensan que el hallazgo de Spearman es el comienzo de la teoría clásica de los tests (Traub, 1997). Otros que tuvieron influencia en el marco de la teoría clásica de los tests incluyen: George Udny Yule , Truman Lee Kelley , Fritz Kuder y Marion Richardson involucrados en la elaboración de las fórmulas de Kuder-Richardson , Louis Guttman y, más recientemente, Melvin Novick , sin mencionar a otros durante el siguiente cuarto de siglo después de los hallazgos iniciales de Spearman.
La teoría clásica de las pruebas supone que cada persona tiene una puntuación verdadera , T , que se obtendría si no hubiera errores en la medición. La puntuación verdadera de una persona se define como la puntuación correcta esperada a lo largo de un número infinito de administraciones independientes de la prueba. Desafortunadamente, los usuarios de la prueba nunca observan la puntuación verdadera de una persona, solo una puntuación observada , X. Se supone que la puntuación observada = puntuación verdadera más algún error :
X = T + E Puntuación observada Puntuación real Error
La teoría clásica de los tests se ocupa de las relaciones entre las tres variables , y en la población. Estas relaciones se utilizan para decir algo sobre la calidad de los resultados de los tests. En este sentido, el concepto más importante es el de fiabilidad . La fiabilidad de los resultados de los tests observados , que se denota como , se define como la relación entre la varianza de los resultados reales y la varianza de los resultados observados :
Debido a que se puede demostrar que la varianza de las puntuaciones observadas es igual a la suma de la varianza de las puntuaciones reales y la varianza de las puntuaciones de error, esto es equivalente a
Esta ecuación, que formula una relación señal-ruido, tiene un atractivo intuitivo: la fiabilidad de las puntuaciones de las pruebas aumenta a medida que la proporción de varianza del error en las puntuaciones de las pruebas disminuye y viceversa. La fiabilidad es igual a la proporción de la varianza en las puntuaciones de las pruebas que podríamos explicar si conociéramos las puntuaciones verdaderas. La raíz cuadrada de la fiabilidad es el valor absoluto de la correlación entre las puntuaciones verdaderas y las observadas.
La fiabilidad no se puede estimar directamente, ya que para ello sería necesario conocer las puntuaciones reales, lo que, según la teoría clásica de las pruebas, es imposible. Sin embargo, las estimaciones de fiabilidad se pueden obtener por diversos medios. Una forma de estimar la fiabilidad es mediante la construcción de una prueba paralela . La propiedad fundamental de una prueba paralela es que produce la misma puntuación real y la misma varianza de la puntuación observada que la prueba original para cada individuo. Si tenemos pruebas paralelas x y x', esto significa que
y
Bajo estos supuestos, se deduce que la correlación entre puntuaciones de pruebas paralelas es igual a la confiabilidad (véase Lord y Novick, 1968, cap. 2, para una prueba).
El uso de pruebas paralelas para estimar la confiabilidad es complicado porque es muy difícil conseguir pruebas paralelas. En la práctica, el método rara vez se utiliza. En su lugar, los investigadores utilizan una medida de consistencia interna conocida como la prueba de Cronbach . Considere una prueba que consta de ítems , . La puntuación total de la prueba se define como la suma de las puntuaciones de los ítems individuales, de modo que para cada ítem
Entonces el alfa de Cronbach es igual a
Se puede demostrar que el coeficiente de Cronbach proporciona un límite inferior de fiabilidad bajo supuestos bastante moderados. [ cita requerida ] Por lo tanto, la fiabilidad de las puntuaciones de las pruebas en una población siempre es mayor que el valor del coeficiente de Cronbach en esa población. Por lo tanto, este método es empíricamente factible y, como resultado, es muy popular entre los investigadores. El cálculo del coeficiente de Cronbach está incluido en muchos paquetes estadísticos estándar como SPSS y SAS . [3]
Como se ha señalado anteriormente, todo el ejercicio de la teoría clásica de los tests se lleva a cabo para llegar a una definición adecuada de fiabilidad. Se supone que la fiabilidad dice algo sobre la calidad general de las puntuaciones de los tests en cuestión. La idea general es que cuanto mayor sea la fiabilidad, mejor. La teoría clásica de los tests no dice qué tan alta se supone que debe ser la fiabilidad. Un valor demasiado alto para , digamos superior a 0,9, indica redundancia de ítems. Se recomienda alrededor de 0,8 para la investigación de la personalidad, mientras que 0,9+ es deseable para pruebas individuales de alto riesgo. [4] Estos "criterios" no se basan en argumentos formales, sino que son el resultado de la convención y la práctica profesional. No está claro hasta qué punto se pueden relacionar con los principios formales de inferencia estadística.
La fiabilidad proporciona un índice conveniente de la calidad de la prueba en un solo número, la fiabilidad. Sin embargo, no proporciona ninguna información para evaluar ítems individuales. El análisis de ítems dentro del enfoque clásico a menudo se basa en dos estadísticas: el valor P (proporción) y la correlación ítem-total ( coeficiente de correlación biserial puntual ). El valor P representa la proporción de examinados que responden en la dirección clave y generalmente se conoce como dificultad del ítem . La correlación ítem-total proporciona un índice de la discriminación o poder diferenciador del ítem y generalmente se conoce como discriminación del ítem . Además, estas estadísticas se calculan para cada respuesta del ítem de opción múltiple de uso frecuente, que se utilizan para evaluar ítems y diagnosticar posibles problemas, como un distractor confuso. Este valioso análisis lo proporciona un software psicométrico especialmente diseñado .
La teoría clásica de los tests es una teoría influyente de las puntuaciones de los tests en las ciencias sociales. En psicometría , la teoría ha sido sustituida por los modelos más sofisticados de la teoría de respuesta al ítem (TRI) y la teoría de la generalización (teoría G). Sin embargo, la TRI no está incluida en los paquetes estadísticos estándar como SPSS , pero SAS puede estimar modelos de TRI a través de PROC IRT y PROC MCMC y existen paquetes de TRI para el lenguaje de programación estadística de código abierto R (por ejemplo, CTT). Aunque los paquetes comerciales proporcionan rutinariamente estimaciones de la TRI de Cronbach , puede preferirse un software psicométrico especializado para la TRI o la teoría G. Sin embargo, los paquetes estadísticos generales a menudo no proporcionan un análisis clásico completo (la TRI de Cronbach es solo una de las muchas estadísticas importantes) y, en muchos casos, también es necesario un software especializado para el análisis clásico.
Una de las deficiencias más importantes o más conocidas de la teoría clásica de los tests es que las características del sujeto y las características del test no pueden separarse: cada una sólo puede interpretarse en el contexto de la otra. Otra deficiencia reside en la definición de fiabilidad que existe en la teoría clásica de los tests, que establece que la fiabilidad es "la correlación entre las puntuaciones de los tests en formas paralelas de un test". [5] El problema con esto es que hay diferentes opiniones sobre lo que son los tests paralelos. Diversos coeficientes de fiabilidad proporcionan estimaciones de la fiabilidad de límite inferior o estimaciones de fiabilidad con sesgos desconocidos. Una tercera deficiencia tiene que ver con el error estándar de medición. El problema aquí es que, según la teoría clásica de los tests, se supone que el error estándar de medición es el mismo para todos los sujetos. Sin embargo, como explica Hambleton en su libro, las puntuaciones en cualquier test son medidas de precisión desigual para sujetos de distintas capacidades, lo que hace que la suposición de errores de medición iguales para todos los sujetos sea inverosímil (Hambleton, Swaminathan, Rogers, 1991, p. 4). Una cuarta y última deficiencia de la teoría clásica de los tests es que está orientada a los tests, en lugar de a los ítems. En otras palabras, la teoría clásica de los tests no nos puede ayudar a hacer predicciones sobre el rendimiento que un individuo o incluso un grupo de sujetos podrían obtener en un ítem de un test. [5]