La validez de una prueba es el grado en el que una prueba (como una prueba química , física o académica ) mide con precisión lo que se supone que mide . En los campos de las pruebas psicológicas y educativas , "la validez se refiere al grado en el que la evidencia y la teoría respaldan las interpretaciones de las puntuaciones de las pruebas que implican los usos propuestos de las pruebas". [1] Aunque los modelos clásicos dividían el concepto en varias "valideces" (como la validez de contenido , la validez de criterio y la validez de constructo ), [2] la visión actualmente dominante es que la validez es un constructo unitario único. [3]
La validez se considera generalmente el tema más importante en las pruebas psicológicas y educativas [4] porque se refiere al significado que se le da a los resultados de las pruebas. [3] Aunque muchos libros de texto presentan la validez como un constructo estático, [5] han evolucionado varios modelos de validez desde las primeras recomendaciones publicadas para la construcción de pruebas psicológicas y educativas. [6] Estos modelos se pueden clasificar en dos grupos principales: modelos clásicos, que incluyen varios tipos de validez, y modelos modernos, que presentan la validez como un único constructo. Los modelos modernos reorganizan las "valideces" clásicas en "aspectos" de validez [3] o "tipos" de evidencia que respalda la validez [1].
La validez de una prueba suele confundirse con la fiabilidad , que se refiere a la consistencia de una medida. Una fiabilidad adecuada es un requisito previo para la validez, pero una fiabilidad alta no garantiza en ningún caso que una medida sea válida.
Aunque los psicólogos y educadores eran conscientes de varias facetas de la validez antes de la Segunda Guerra Mundial, sus métodos para establecer la validez se limitaban comúnmente a correlaciones de las puntuaciones de las pruebas con algún criterio conocido. [7] Bajo la dirección de Lee Cronbach , las Recomendaciones técnicas para pruebas psicológicas y técnicas de diagnóstico de 1954 [6] intentaron aclarar y ampliar el alcance de la validez dividiéndola en cuatro partes: (a) validez concurrente , (b) validez predictiva , (c) validez de contenido y (d) validez de constructo . La publicación posterior de Cronbach y Meehl [8] agrupó la validez predictiva y concurrente en una "orientación de criterio", que finalmente se convirtió en validez de criterio .
Durante las siguientes cuatro décadas, muchos teóricos, incluido el propio Cronbach, [9] expresaron su insatisfacción con este modelo de validez tres en uno. [10] [11] [12] Sus argumentos culminaron en el artículo de Samuel Messick de 1995 que describía la validez como un constructo único, compuesto de seis "aspectos". [3] En su opinión, varias inferencias realizadas a partir de los puntajes de las pruebas pueden requerir diferentes tipos de evidencia, pero no diferentes validez.
Las Normas para las pruebas educativas y psicológicas de 1999 [1] codificaron en gran medida el modelo de Messick. Describen cinco tipos de evidencia que respalda la validez que incorporan cada uno de los aspectos de Messick y no mencionan la validez de contenido, criterio y constructo de los modelos clásicos.
Según las Normas de 1999 , [1] la validación es el proceso de recopilación de evidencias para proporcionar "una base científica sólida" para interpretar las puntuaciones propuestas por el desarrollador de la prueba y/o el usuario de la misma. Por lo tanto, la validación comienza con un marco que define el alcance y los aspectos (en el caso de escalas multidimensionales) de la interpretación propuesta. El marco también incluye una justificación racional que vincula la interpretación con la prueba en cuestión.
Los investigadores que estudian la validez enumeran una serie de proposiciones que deben cumplirse para que la interpretación sea válida o, por el contrario, pueden compilar una lista de cuestiones que pueden amenazar la validez de las interpretaciones. En ambos casos, los investigadores proceden a reunir evidencia (ya sea investigación empírica original, metaanálisis o revisión de la literatura existente, o análisis lógico de las cuestiones) para respaldar o cuestionar las proposiciones de la interpretación (o las amenazas a la validez de la interpretación). Se hace hincapié en la calidad, más que en la cantidad, de la evidencia.
Una interpretación única de un resultado de una prueba puede requerir varias proposiciones para ser verdadera (o puede ser cuestionada por cualquiera de un conjunto de amenazas a su validez). La evidencia sólida en apoyo de una sola proposición no reduce el requisito de apoyar las otras proposiciones.
La evidencia para apoyar (o cuestionar) la validez de una interpretación se puede clasificar en una de cinco categorías:
Las técnicas para reunir cada tipo de evidencia sólo deben emplearse cuando produzcan información que respalde o cuestione las proposiciones requeridas para la interpretación en cuestión.
Cada pieza de evidencia se integra finalmente en un argumento de validez. El argumento puede requerir una revisión de la prueba, su protocolo de administración o los conceptos teóricos que sustentan las interpretaciones. Si la prueba y/o las interpretaciones de los resultados de la prueba se revisan de alguna manera, un nuevo proceso de validación debe reunir evidencia para respaldar la nueva versión.