stringtranslate.com

Validez de la prueba

La validez de una prueba es el grado en que una prueba (como una prueba química , física o académica ) mide con precisión lo que se supone que debe medir . En los campos de las pruebas psicológicas y las pruebas educativas , "la validez se refiere al grado en que la evidencia y la teoría respaldan las interpretaciones de las puntuaciones de las pruebas que implican los usos propuestos de las pruebas". [1] Aunque los modelos clásicos dividieron el concepto en varias "valideces" (como validez de contenido , validez de criterio y validez de constructo ), [2] la visión actualmente dominante es que la validez es un constructo unitario único. [3]

La validez se considera generalmente la cuestión más importante en las pruebas psicológicas y educativas [4] porque se refiere al significado que se atribuye a los resultados de las pruebas. [3] Aunque muchos libros de texto presentan la validez como una construcción estática, [5] varios modelos de validez han evolucionado desde las primeras recomendaciones publicadas para la construcción de pruebas psicológicas y educativas. [6] Estos modelos se pueden clasificar en dos grupos principales: modelos clásicos, que incluyen varios tipos de validez, y modelos modernos, que presentan la validez como un constructo único. Los modelos modernos reorganizan las "valideces" clásicas en "aspectos" de validez [3] o "tipos" de evidencia que respalda la validez [1]

La validez de la prueba a menudo se confunde con la confiabilidad , que se refiere a la consistencia de una medida. Una confiabilidad adecuada es un requisito previo para la validez, pero una confiabilidad alta no garantiza de ninguna manera que una medida sea válida.

Antecedentes históricos

Aunque los psicólogos y educadores eran conscientes de varias facetas de la validez antes de la Segunda Guerra Mundial, sus métodos para establecer la validez se restringían comúnmente a correlaciones de las puntuaciones de las pruebas con algún criterio conocido. [7] Bajo la dirección de Lee Cronbach , las Recomendaciones técnicas para pruebas psicológicas y técnicas de diagnóstico de 1954 [6] intentaron aclarar y ampliar el alcance de la validez dividiéndolo en cuatro partes: (a) validez concurrente , (b) validez predictiva. , (c) validez de contenido y (d) validez de constructo . La publicación posterior de Cronbach y Meehl [8] agrupó la validez predictiva y concurrente en una "orientación de criterio", que finalmente se convirtió en validez de criterio .

Durante las siguientes cuatro décadas, muchos teóricos, incluido el propio Cronbach, [9] expresaron su insatisfacción con este modelo de validez tres en uno. [10] [11] [12] Sus argumentos culminaron en el artículo de Samuel Messick de 1995 que describía la validez como un constructo único, compuesto de seis "aspectos". [3] En su opinión, varias inferencias hechas a partir de las puntuaciones de las pruebas pueden requerir diferentes tipos de evidencia, pero no diferentes validezes.

Los Estándares para pruebas educativas y psicológicas de 1999 [1] codificaron en gran medida el modelo de Messick. Describen cinco tipos de evidencia que respalda la validez que incorporan cada uno de los aspectos de Messick y no mencionan las validez de contenido, criterio y constructo de los modelos clásicos.

Proceso de validacion

Según los Estándares de 1999 , [1] la validación es el proceso de recopilación de evidencia para proporcionar "una base científica sólida" para interpretar las puntuaciones según lo propuesto por el desarrollador y/o el usuario de la prueba. Por lo tanto, la validación comienza con un marco que define el alcance y los aspectos (en el caso de escalas multidimensionales) de la interpretación propuesta. El marco también incluye una justificación racional que vincula la interpretación con la prueba en cuestión.

Luego, los investigadores de la validez enumeran una serie de proposiciones que deben cumplirse para que la interpretación sea válida. O, por el contrario, pueden compilar una lista de cuestiones que pueden amenazar la validez de las interpretaciones. En cualquier caso, los investigadores proceden reuniendo evidencia (ya sea investigación empírica original, metanálisis o revisión de la literatura existente, o análisis lógico de los temas) para respaldar o cuestionar las proposiciones de la interpretación (o las amenazas a la validez de la interpretación). . Se pone énfasis en la calidad, más que en la cantidad, de la evidencia.

Una interpretación única de cualquier resultado de prueba puede requerir que varias proposiciones sean verdaderas (o puede ser cuestionada por cualquiera de un conjunto de amenazas a su validez). La evidencia sólida que respalda una sola proposición no disminuye el requisito de respaldar las otras proposiciones.

La evidencia para apoyar (o cuestionar) la validez de una interpretación se puede clasificar en una de cinco categorías:

  1. Evidencia basada en el contenido de la prueba.
  2. Evidencia basada en procesos de respuesta
  3. Evidencia basada en estructura interna.
  4. Evidencia basada en relaciones con otras variables
  5. Evidencia basada en las consecuencias de las pruebas.

Las técnicas para reunir cada tipo de evidencia sólo deben emplearse cuando proporcionen información que respalde o cuestione las proposiciones requeridas para la interpretación en cuestión.

Cada pieza de evidencia finalmente se integra en un argumento de validez. El argumento puede requerir una revisión de la prueba, su protocolo de administración o las construcciones teóricas subyacentes a las interpretaciones. Si la prueba y/o las interpretaciones de los resultados de la prueba se revisan de alguna manera, un nuevo proceso de validación debe recopilar evidencia para respaldar la nueva versión.

Ver también

Referencias

  1. ^ abcd Asociación Estadounidense de Investigación Educativa, Asociación Estadounidense de Psicología y Consejo Nacional de Medición en Educación. (1999) Estándares para pruebas educativas y psicológicas . Washington, DC: Asociación Estadounidense de Investigación Educativa.
  2. ^ Guión, RM (1980). Sobre las doctrinas trinitarias de validez. Psicología Profesional, 11 , 385-398.
  3. ^ abcd Messick, S. (1995). Validez de la evaluación psicológica: validación de inferencias a partir de las respuestas y desempeños de las personas como investigación científica sobre el significado de la puntuación. Psicólogo estadounidense, 50 , 741-749.
  4. ^ Popham, WJ (2008). Todo sobre la evaluación / Un Grial incomprendido. Liderazgo educativo, 66 (1), 82-83.
  5. ^ Nitko, JJ, Brookhart, SM (2004). Evaluación educativa de los estudiantes . Upper Saddle River, Nueva Jersey: Merrill-Prentice Hall.
  6. ^ ab Asociación Estadounidense de Psicología, Asociación Estadounidense de Investigación Educativa y Consejo Nacional de Medición en Educación. (1954). Recomendaciones técnicas para pruebas psicológicas y técnicas de diagnóstico . Washington, DC: La Asociación.
  7. ^ Angoff, WH (1988). Validez: un concepto en evolución. En H. Wainer y H. Braun (Eds.), Validez de la prueba (págs. 19-32). Hillsdale, Nueva Jersey: Lawrence Erlbaum.
  8. ^ Cronbach, LJ y Meehl, PE (1955). La validez de constructo en las pruebas psicológicas. Boletín Psicológico, 52 , 281-302.
  9. ^ Cronbach, LJ (1969). Validación de medidas educativas. Actas de la conferencia por invitación de 1969 sobre problemas de prueba. Princeton , Nueva Jersey: Servicio de pruebas educativas, 35-52.
  10. ^ Loevinger, J. (1957). Las pruebas objetivas como instrumentos de la teoría psicológica. Informes Psicológicos, 3 , 634-694.
  11. ^ Tenopir, ML (1977). Confusión contenido-construcción. Psicología del Personal, 30 , 47-54.
  12. ^ Guion, RM (1977). Validez de contenido: la fuente de mi descontento. Medición Psicológica Aplicada, 1 , 1-10.