La validez de constructo se refiere a qué tan bien un conjunto de indicadores representa o refleja un concepto que no es directamente mensurable . [1] [2] [3] La validación de constructo es la acumulación de evidencia para respaldar la interpretación de lo que refleja una medida. [1] [4] [5] [6] La teoría de la validez moderna define la validez de constructo como la preocupación general de la investigación sobre la validez, subsumiendo todos los demás tipos de evidencia de validez [7] [8] , como la validez de contenido y la validez de criterio . [9] [10]
La validez de constructo es la idoneidad de las inferencias realizadas sobre la base de observaciones o mediciones (a menudo puntuaciones de pruebas), específicamente si se puede considerar razonablemente que una prueba refleja el constructo previsto . Los constructos son abstracciones creadas deliberadamente por los investigadores para conceptualizar la variable latente , que se correlaciona con las puntuaciones en una medida determinada (aunque no es directamente observable). La validez de constructo examina la pregunta: ¿Se comporta la medida como la teoría dice que debería comportarse una medida de ese constructo?
La validez de constructo es esencial para la validez general percibida de la prueba. La validez de constructo es particularmente importante en las ciencias sociales , la psicología , la psicometría y los estudios del lenguaje.
Psicólogos como Samuel Messick (1998) han impulsado una visión unificada de la validez de constructo "... como un juicio evaluativo integrado del grado en que la evidencia empírica y los fundamentos teóricos apoyan la adecuación y conveniencia de las inferencias y acciones basadas en las puntuaciones de las pruebas. .." [11] Si bien los puntos de vista de Messick se popularizan en la medición educativa y se originan en una carrera en torno a explicar la validez en el contexto de la industria de las pruebas, una definición más acorde con la investigación psicológica fundamental, respaldada por estudios empíricos basados en datos que enfatizan la estadística y el razonamiento causal fue dado por (Borsboom et al., 2004). [12]
La clave para la validez de constructo son las ideas teóricas detrás del rasgo bajo consideración, es decir, los conceptos que organizan cómo se ven los aspectos de la personalidad , la inteligencia , etc. [13] Paul Meehl afirma que "el mejor constructo es aquel en torno al cual podemos construir el mayor número de inferencias, de la manera más directa". [1]
La purificación de la escala, es decir, "el proceso de eliminación de ítems de escalas de múltiples ítems" (Wieland et al., 2017) puede influir en la validez de constructo. Un marco presentado por Wieland et al. (2017) destaca que se deben tener en cuenta criterios tanto estadísticos como de juicio al tomar decisiones de purificación de escala. [14]
A lo largo de la década de 1940, los científicos intentaron encontrar formas de validar los experimentos antes de publicarlos. El resultado de esto fue una plétora de validez diferentes (validez intrínseca, validez aparente , validez lógica , validez empírica, etc.). Esto hacía difícil saber cuáles eran realmente iguales y cuáles no eran útiles en absoluto. Hasta mediados de la década de 1950, había muy pocos métodos universalmente aceptados para validar experimentos psicológicos. La razón principal fue que nadie había determinado exactamente qué cualidades de los experimentos debían examinarse antes de publicarlos. Entre 1950 y 1954, el Comité de Pruebas Psicológicas de la APA se reunió y discutió las cuestiones relacionadas con la validación de experimentos psicológicos. [1]
Por esta época, el término validez de constructo fue acuñado por primera vez por Paul Meehl y Lee Cronbach en su artículo fundamental "Validez de constructo en pruebas psicológicas". Observaron la idea de que la validez de constructo no era nueva en ese momento; más bien, fue una combinación de muchos tipos diferentes de validez relacionados con conceptos teóricos. Propusieron los siguientes tres pasos para evaluar la validez de constructo:
Muchos psicólogos señalaron que un papel importante de la validación de constructos en psicometría era que ponía más énfasis en la teoría que en la validación. Este énfasis fue diseñado para abordar un requisito central de que la validación incluya alguna demostración de que la prueba mide el constructo teórico que pretendía medir. La validez de constructo tiene tres aspectos o componentes: el componente sustantivo, el componente estructural y el componente externo. [15] Están estrechamente relacionados con tres etapas en el proceso de construcción de la prueba: constitución del conjunto de ítems, análisis y selección de la estructura interna del conjunto de ítems, y correlación de las puntuaciones de la prueba con los criterios y otras variables.
En la década de 1970 hubo un creciente debate entre los teóricos que comenzaron a ver la validez de constructo como el modelo dominante que impulsaba hacia una teoría de la validez más unificada, y aquellos que continuaron trabajando desde múltiples marcos de validez. [16] Muchos psicólogos e investigadores en educación vieron "las validezes predictiva, concurrente y de contenido como esencialmente ad hoc , la validez de constructo era la validez completa desde un punto de vista científico" [15] En la versión de 1974 de The Standards for Educational and Psychology Se reconoció la necesidad de probar la interrelación de los tres diferentes aspectos de la validez: "Estos aspectos de la validez pueden discutirse de forma independiente, pero sólo por conveniencia. Están interrelacionados operativa y lógicamente; sólo rara vez uno de ellos es importante por sí solo en una situación particular". .
En 1989 Messick presentó una nueva conceptualización de la validez de constructo como un concepto unificado y multifacético. [17] Bajo este marco, todas las formas de validez están conectadas y dependen de la calidad del constructo. Señaló que una teoría unificada no era su propia idea, sino más bien la culminación del debate y la discusión dentro de la comunidad científica durante las décadas anteriores. Hay seis aspectos de la validez de constructo en la teoría unificada de validez de constructo de Messick: [18]
Cómo debe considerarse adecuadamente la validez de constructo sigue siendo un tema de debate para los teóricos de la validez. El núcleo de la diferencia reside en una diferencia epistemológica entre teóricos positivistas y pospositivistas .
La evaluación de la validez de constructo requiere que las correlaciones de la medida se examinen con respecto a variables que se sabe que están relacionadas con el constructo (supuestamente medidas por el instrumento que se evalúa o para las cuales existen bases teóricas para esperar que estén relacionadas). Esto es consistente con la matriz multirrasgo-multimétodo (MTMM) para examinar la validez de constructo descrita en el artículo histórico de Campbell y Fiske (1959). [19] Existen otros métodos para evaluar la validez de constructo además del MTMM. Puede evaluarse mediante diferentes formas de análisis factorial , modelado de ecuaciones estructurales (SEM) y otras evaluaciones estadísticas. [20] [21] Es importante señalar que un solo estudio no prueba la validez de constructo. Más bien es un proceso continuo de evaluación, reevaluación, refinamiento y desarrollo. Las correlaciones que se ajustan al patrón esperado aportan evidencia de validez de constructo. La validez de constructo es un juicio basado en la acumulación de correlaciones de numerosos estudios que utilizan el instrumento que se evalúa. [22]
La mayoría de los investigadores intentan probar la validez de constructo antes de la investigación principal. Para ello se pueden utilizar estudios piloto . Los estudios piloto son estudios preliminares a pequeña escala destinados a probar la viabilidad de una prueba a gran escala. Estos estudios piloto establecen la solidez de su investigación y les permiten realizar los ajustes necesarios. Otro método es la técnica de grupos conocidos, que implica administrar el instrumento de medición a grupos que se espera que difieran debido a características conocidas. Las pruebas de relaciones hipotéticas implican un análisis lógico basado en teoría o investigaciones previas. [6] Los estudios de intervención son otro método más para evaluar la validez de constructo. Los estudios de intervención en los que se evalúa a un grupo con puntuaciones bajas en el constructo, se le enseña el constructo y luego se vuelve a medir pueden demostrar la validez del constructo de una prueba. Si hay una diferencia significativa entre la prueba previa y la prueba posterior, que se analizan mediante pruebas estadísticas, entonces esto puede demostrar una buena validez de constructo. [23]
La validez convergente y discriminante son los dos subtipos de validez que componen la validez de constructo. La validez convergente se refiere al grado en que dos medidas de constructos que teóricamente deberían estar relacionadas, en realidad lo están. Por el contrario, la validez discriminante prueba si conceptos o mediciones que se supone que no están relacionados, en realidad no lo están. [19] Tomemos, por ejemplo, una construcción de felicidad general. Si una medida de felicidad general tuviera validez convergente, entonces constructos similares a la felicidad (satisfacción, contentamiento, alegría, etc.) deberían relacionarse positivamente con la medida de felicidad general. Si esta medida tiene validez discriminante, entonces los constructos que se supone no están relacionados positivamente con la felicidad general (tristeza, depresión, desesperación, etc.) no deberían relacionarse con la medida de felicidad general. Las medidas pueden tener uno de los subtipos de validez de constructo y no el otro. Utilizando el ejemplo de la felicidad general, un investigador podría crear un inventario en el que exista una correlación positiva muy alta entre la felicidad general y la satisfacción, pero si también existe una correlación positiva significativa entre la felicidad y la depresión, entonces se cuestiona la validez de constructo de la medida. . La prueba tiene validez convergente pero no validez discriminante.
Lee Cronbach y Paul Meehl (1955) [1] propusieron que el desarrollo de una red nomológica era esencial para medir la validez de constructo de una prueba. Una red nomológica define un constructo ilustrando su relación con otros constructos y comportamientos. Es una representación de los conceptos (constructos) de interés en un estudio, sus manifestaciones observables y la interrelación entre ellas. Examina si las relaciones entre constructos similares se consideran con relaciones entre las medidas observadas de los constructos. Una observación minuciosa de las relaciones de los constructos entre sí puede generar nuevos constructos. Por ejemplo, la inteligencia y la memoria de trabajo se consideran constructos altamente relacionados. A través de la observación de sus componentes subyacentes, los psicólogos desarrollaron nuevas construcciones teóricas como: atención controlada [24] y carga a corto plazo. [25] La creación de una red nomológica también puede hacer que la observación y medición de constructos existentes sea más eficiente al identificar errores. [1] Los investigadores han descubierto que el estudio de las protuberancias en el cráneo humano ( frenología ) no son indicadores de inteligencia, pero sí el volumen del cerebro. Al eliminar la teoría de la frenología de la red nomológica de la inteligencia y agregar la teoría de la evolución de la masa cerebral, las construcciones de la inteligencia se vuelven más eficientes y poderosas. El tejido de todos estos conceptos interrelacionados y sus rasgos observables crea una "red" que respalda su concepto teórico. Por ejemplo, en la red nomológica del rendimiento académico, esperaríamos que los rasgos observables del rendimiento académico (es decir, puntuaciones de GPA, SAT y ACT) se relacionaran con los rasgos observables del estudio (horas dedicadas a estudiar, atención en clase, detalle de las notas). . Si no lo hacen, entonces hay un problema con la medición (del rendimiento académico o del estudio), o con la supuesta teoría del rendimiento. Si son indicadores unos de otros, entonces se fortalece la red nomológica, y por tanto la teoría construida, del rendimiento académico. Aunque la red nomológica propuso una teoría sobre cómo fortalecer los constructos, no nos dice cómo podemos evaluar la validez del constructo en un estudio.
La matriz multirrasgo-multimétodo (MTMM) es un enfoque para examinar la validez de constructo desarrollado por Campbell y Fiske (1959). [19] Este modelo examina la convergencia (evidencia de que diferentes métodos de medición de un constructo dan resultados similares) y la discriminabilidad (capacidad de diferenciar el constructo de otros constructos relacionados). Mide seis rasgos: la evaluación de la validez convergente, la evaluación de la validez discriminante (divergente), las unidades rasgo-método, los multirrasgo-multimétodos, las metodologías verdaderamente diferentes y las características de los rasgos. Este diseño permite a los investigadores probar: "convergencia entre diferentes medidas... de la misma 'cosa'... y divergencia entre medidas... de 'cosas' relacionadas pero conceptualmente distintas. [2] [26]
La validez de constructo aparente puede ser engañosa debido a una variedad de problemas en la formulación de hipótesis y el diseño experimental.
En Trochim se presenta una exploración en profundidad de las amenazas a la validez de constructo. [31]