Validez de constructo

La validez de constructo se refiere a qué tan bien un conjunto de indicadores representa o refleja un concepto que no es directamente medible . ^[1]^[2]^[3] La validación de constructo es la acumulación de evidencia para respaldar la interpretación de lo que refleja una medida. ^[1]^[4]^[5]^[6] La teoría de validez moderna define la validez de constructo como la preocupación general de la investigación de validez, subsumiendo todos los demás tipos de evidencia de validez ^[7]^[8] como la validez de contenido y la validez de criterio . ^[9]^[10]

La validez de constructo es la idoneidad de las inferencias realizadas sobre la base de observaciones o mediciones (a menudo, puntuaciones de pruebas), específicamente si se puede considerar razonablemente que una prueba refleja el constructo previsto . Los constructos son abstracciones creadas deliberadamente por los investigadores para conceptualizar la variable latente , que se correlaciona con las puntuaciones en una medida dada (aunque no sea directamente observable). La validez de constructo examina la pregunta: ¿La medida se comporta como la teoría dice que debería comportarse una medida de ese constructo?

La validez de constructo es esencial para la validez general percibida de la prueba. La validez de constructo es particularmente importante en las ciencias sociales , la psicología , la psicometría y los estudios del lenguaje.

Psicólogos como Samuel Messick (1998) han presionado para lograr una visión unificada de la validez de constructo "...como un juicio evaluativo integrado del grado en que la evidencia empírica y los fundamentos teóricos respaldan la adecuación y pertinencia de las inferencias y acciones basadas en los puntajes de las pruebas..." ^[11] Si bien las opiniones de Messick se popularizaron en la medición educativa y se originaron en una carrera en torno a la explicación de la validez en el contexto de la industria de las pruebas, una definición más en línea con la investigación psicológica fundamental, respaldada por estudios empíricos basados en datos que enfatizan el razonamiento estadístico y causal fue dada por (Borsboom et al., 2004). ^[12]

La clave para la validez de constructo son las ideas teóricas detrás del rasgo en consideración, es decir, los conceptos que organizan cómo se ven los aspectos de la personalidad , la inteligencia , etc. ^[13] Paul Meehl afirma que "el mejor constructo es aquel alrededor del cual podemos construir el mayor número de inferencias, de la manera más directa". ^[1]

La depuración de escalas, es decir, "el proceso de eliminación de elementos de escalas de múltiples elementos" (Wieland et al., 2017) puede influir en la validez del constructo. Un marco presentado por Wieland et al. (2017) destaca que se deben tener en cuenta tanto los criterios estadísticos como los de juicio al tomar decisiones de depuración de escalas. ^[14]

Historia

A lo largo de la década de 1940, los científicos habían estado tratando de encontrar formas de validar los experimentos antes de publicarlos. El resultado de esto fue una plétora de diferentes validez (validez intrínseca, validez aparente , validez lógica , validez empírica, etc.). Esto hizo que fuera difícil decir cuáles eran realmente iguales y cuáles no eran útiles en absoluto. Hasta mediados de la década de 1950, había muy pocos métodos universalmente aceptados para validar experimentos psicológicos. La razón principal de esto era que nadie había descubierto exactamente qué cualidades de los experimentos debían analizarse antes de publicarlos. Entre 1950 y 1954, el Comité de Pruebas Psicológicas de la APA se reunió y discutió las cuestiones relacionadas con la validación de experimentos psicológicos. ^[1]

En esa época, Paul Meehl y Lee Cronbach acuñaron por primera vez el término validez de constructo en su influyente artículo "Validez de constructo en tests psicológicos". Señalaron que la idea de validez de constructo no era nueva en ese momento, sino que era una combinación de muchos tipos diferentes de validez que abordaban conceptos teóricos. Propusieron los tres pasos siguientes para evaluar la validez de constructo:

Articular un conjunto de conceptos teóricos y sus interrelaciones.
Desarrollar formas de medir los constructos hipotéticos propuestos por la teoría.
Probando empíricamente las relaciones hipotéticas ^[1]

Muchos psicólogos señalaron que un papel importante de la validación de constructo en psicometría era que ponía más énfasis en la teoría que en la validación. Este énfasis fue diseñado para abordar un requisito central de que la validación incluyera alguna demostración de que la prueba mide el constructo teórico que pretendía medir. La validez de constructo tiene tres aspectos o componentes: el componente sustantivo, el componente estructural y el componente externo. ^[15] Están estrechamente relacionados con tres etapas en el proceso de construcción de la prueba: constitución del conjunto de ítems, análisis y selección de la estructura interna del conjunto de ítems, y correlación de las puntuaciones de la prueba con los criterios y otras variables.

En la década de 1970 hubo un creciente debate entre los teóricos que comenzaron a ver la validez de constructo como el modelo dominante que empujaba hacia una teoría más unificada de la validez, y aquellos que continuaron trabajando desde múltiples marcos de validez. ^[16] Muchos psicólogos e investigadores de la educación vieron "las validez predictiva, concurrente y de contenido como esencialmente ad hoc , la validez de constructo era la totalidad de la validez desde un punto de vista científico" ^[15] En la versión de 1974 de The Standards for Educational and Psychological Testing se reconoció la interrelación de los tres aspectos diferentes de la validez: "Estos aspectos de la validez se pueden discutir de forma independiente, pero solo por conveniencia. Están interrelacionados operativa y lógicamente; solo rara vez uno de ellos solo es importante en una situación particular".

En 1989, Messick presentó una nueva conceptualización de la validez de constructo como un concepto unificado y multifacético. ^[17] En este marco, todas las formas de validez están conectadas con la calidad del constructo y dependen de ella. Señaló que una teoría unificada no era una idea suya, sino más bien la culminación de debates y discusiones dentro de la comunidad científica durante las décadas anteriores. Hay seis aspectos de la validez de constructo en la teoría unificada de la validez de constructo de Messick: ^[18]

Consecuencias : ¿Cuáles son los riesgos potenciales si las puntuaciones no son válidas o se interpretan de forma inadecuada? ¿Vale la pena realizar la prueba teniendo en cuenta los riesgos?
Contenido – ¿Los elementos de prueba parecen medir el constructo de interés?
Sustantivo – ¿Es sólida la base teórica que sustenta el concepto de interés?
Estructural : ¿Las interrelaciones de las dimensiones medidas por la prueba se correlacionan con el constructo de interés y los puntajes de la prueba?
Externo : ¿Tiene la prueba cualidades convergentes, discriminantes y predictivas?
Generalizabilidad : ¿La prueba se puede generalizar a diferentes grupos, entornos y tareas?

La forma correcta de considerar la validez de constructo sigue siendo un tema de debate para los teóricos de la validez. La esencia de la diferencia radica en una diferencia epistemológica entre los teóricos positivistas y pospositivistas .

Evaluación

La evaluación de la validez de constructo requiere que las correlaciones de la medida se examinen con respecto a las variables que se sabe que están relacionadas con el constructo (supuestamente medidas por el instrumento que se está evaluando o para las cuales hay fundamentos teóricos para esperar que estén relacionadas). Esto es consistente con la matriz multirasgo-multimétodo (MTMM) de examen de la validez de constructo descrita en el artículo de referencia de Campbell y Fiske (1959). ^[19] Hay otros métodos para evaluar la validez de constructo además de MTMM. Se puede evaluar a través de diferentes formas de análisis factorial , modelado de ecuaciones estructurales (SEM) y otras evaluaciones estadísticas. ^[20]^[21] Es importante señalar que un solo estudio no prueba la validez de constructo. Más bien es un proceso continuo de evaluación, reevaluación, refinamiento y desarrollo. Las correlaciones que se ajustan al patrón esperado aportan evidencia de la validez de constructo. La validez de constructo es un juicio basado en la acumulación de correlaciones de numerosos estudios que utilizan el instrumento que se está evaluando. ^[22]

La mayoría de los investigadores intentan comprobar la validez del constructo antes de realizar la investigación principal. Para ello, pueden utilizarse estudios piloto . Los estudios piloto son estudios preliminares a pequeña escala cuyo objetivo es comprobar la viabilidad de una prueba a gran escala. Estos estudios piloto establecen la solidez de su investigación y les permiten realizar los ajustes necesarios. Otro método es la técnica de grupos conocidos, que implica administrar el instrumento de medición a grupos que se espera que difieran debido a características conocidas. La prueba de relación hipotética implica un análisis lógico basado en la teoría o en investigaciones previas. ^[6] Los estudios de intervención son otro método para evaluar la validez del constructo. Los estudios de intervención en los que se prueba a un grupo con puntuaciones bajas en el constructo, se le enseña el constructo y luego se vuelve a medir pueden demostrar la validez del constructo de una prueba. Si hay una diferencia significativa entre la prueba previa y la posterior, que se analizan mediante pruebas estadísticas, entonces esto puede demostrar una buena validez del constructo. ^[23]

Validez convergente y discriminante

La validez convergente y discriminante son los dos subtipos de validez que componen la validez de constructo. La validez convergente se refiere al grado en que dos medidas de constructos que teóricamente deberían estar relacionados, de hecho lo están. Por el contrario, la validez discriminante prueba si los conceptos o mediciones que se supone que no están relacionados, de hecho, no están relacionados. ^[19] Tomemos, por ejemplo, un constructo de felicidad general. Si una medida de felicidad general tuviera validez convergente, entonces los constructos similares a la felicidad (satisfacción, contento, alegría, etc.) deberían relacionarse positivamente con la medida de felicidad general. Si esta medida tiene validez discriminante, entonces los constructos que no se supone que estén relacionados positivamente con la felicidad general (tristeza, depresión, desesperación, etc.) no deberían relacionarse con la medida de felicidad general. Las medidas pueden tener uno de los subtipos de validez de constructo y no el otro. Utilizando el ejemplo de la felicidad general, un investigador podría crear un inventario en el que exista una correlación positiva muy alta entre la felicidad general y la satisfacción, pero si también existe una correlación positiva significativa entre la felicidad y la depresión, entonces la validez de constructo de la medida se pone en duda. La prueba tiene validez convergente pero no validez discriminante.

Red nomológica

Lee Cronbach y Paul Meehl (1955) ^[1] propusieron que el desarrollo de una red nomológica era esencial para la medición de la validez de constructo de una prueba. Una red nomológica define un constructo ilustrando su relación con otros constructos y comportamientos. Es una representación de los conceptos (constructos) de interés en un estudio, sus manifestaciones observables y la interrelación entre ellos. Examina si las relaciones entre constructos similares se consideran con las relaciones entre las medidas observadas de los constructos. Una observación exhaustiva de las relaciones de los constructos entre sí puede generar nuevos constructos. Por ejemplo, la inteligencia y la memoria de trabajo se consideran constructos altamente relacionados. A través de la observación de sus componentes subyacentes, los psicólogos desarrollaron nuevos constructos teóricos como: atención controlada ^{[24] y carga de corto plazo}^[25] . La creación de una red nomológica también puede hacer que la observación y medición de constructos existentes sea más eficiente al señalar errores. ^[1] Los investigadores han descubierto que el estudio de las protuberancias del cráneo humano ( frenología ) no son indicadores de inteligencia, pero sí lo es el volumen del cerebro. Al eliminar la teoría de la frenología de la red nomológica de la inteligencia y añadir la teoría de la evolución de la masa cerebral, los constructos de inteligencia se vuelven más eficientes y más poderosos. El tejido de todos estos conceptos interrelacionados y sus rasgos observables crea una "red" que respalda su concepto teórico. Por ejemplo, en la red nomológica para el rendimiento académico, esperaríamos que los rasgos observables del rendimiento académico (es decir, el promedio de calificaciones, las puntuaciones del SAT y del ACT) se relacionaran con los rasgos observables de la estudiosidad (horas dedicadas al estudio, atención en clase, detalle de las notas). Si no es así, entonces hay un problema con la medición (del rendimiento académico o la estudiosidad), o con la supuesta teoría del rendimiento. Si son indicadores entre sí, entonces la red nomológica, y por lo tanto la teoría construida, del rendimiento académico se fortalece. Aunque la red nomológica propuso una teoría sobre cómo fortalecer los constructos, no nos dice cómo podemos evaluar la validez del constructo en un estudio.

Matriz multirasgo-multimétodo

La matriz multirasgo-multimétodo (MTMM) es un enfoque para examinar la validez de constructo desarrollado por Campbell y Fiske (1959). ^[19] Este modelo examina la convergencia (evidencia de que diferentes métodos de medición de un constructo dan resultados similares) y la discriminabilidad (capacidad de diferenciar el constructo de otros constructos relacionados). Mide seis rasgos: la evaluación de la validez convergente, la evaluación de la validez discriminante (divergente), las unidades rasgo-método, multirasgo-multimétodos, metodologías verdaderamente diferentes y características de los rasgos. Este diseño permite a los investigadores probar: "la convergencia entre diferentes medidas... de la misma 'cosa'... y la divergencia entre medidas... de 'cosas' relacionadas pero conceptualmente distintas". ^[2]^[26]

Amenazas a la validez del constructo

La aparente validez de constructo puede ser engañosa debido a una serie de problemas en la formulación de hipótesis y el diseño experimental.

Adivinación de hipótesis : si el participante conoce o adivina el resultado final deseado, sus acciones pueden cambiar. ^[27] Un ejemplo es el efecto Hawthorne : en un estudio de ergonomía industrial realizado en 1925 en la fábrica Hawthorne Works en las afueras de Chicago, los experimentadores observaron que tanto la reducción como el aumento de los niveles de luz ambiental mejoraban la productividad de los trabajadores. Finalmente, determinaron la base de este resultado paradójico: los trabajadores que eran conscientes de que los observaban trabajaban más duro sin importar el cambio en el entorno.
Sesgo en el diseño experimental (intencionado o no). Un ejemplo de esto se proporciona en el libro de Stephen Jay Gould de 1981 " La falsa medida del hombre ". ^[28] Entre las preguntas utilizadas en la época de la Primera Guerra Mundial en la batería utilizada para medir la inteligencia estaba "¿En qué ciudad juegan los Dodgers?" (en ese entonces tenían su base en Brooklyn). Los inmigrantes recientes en los EE. UU. procedentes de Europa del Este que no estaban familiarizados con el deporte del béisbol respondieron mal, y esto se utilizó para inferir que los europeos del Este tenían una inteligencia menor. La pregunta no medía la inteligencia: solo medía cuánto tiempo había vivido uno en los EE. UU. y se había aculturado con un pasatiempo popular.
Las expectativas del investigador pueden ser comunicadas involuntariamente a los participantes de manera no verbal, lo que provoca el efecto deseado. Para controlar esta posibilidad, se deben utilizar diseños experimentales de doble ciego siempre que sea posible. Es decir, el evaluador de un participante en particular no debe saber qué intervención se ha realizado en ese participante en particular o debe ser independiente del experimentador.
Definir el resultado previsto de forma demasiado restringida . ^[29] Por ejemplo, utilizar únicamente la satisfacción laboral para medir la felicidad excluirá información relevante procedente de fuera del lugar de trabajo.
Variables de confusión (covariables): La causa raíz de los efectos observados puede deberse a variables que no se han considerado ni medido.^[30]

En Trochim se presenta una exploración en profundidad de las amenazas a la validez de constructo. ^[31]

Véase también

Referencias

^ abcdefg Cronbach, LJ; Meehl, PE (1955). "Validez de constructo en tests psicológicos". Psychological Bulletin . 52 (4): 281–302. doi :10.1037/h0040957. hdl : 11299/184279 . PMID 13245896. S2CID 5312179.
^ ab Cook TD; Campbell DT (1979). Cuasi-experimentación . Boston: Houghton Mifflin.
^ Sjøberg, DIK; Bergersen, GR (2022). "Validez de constructo en ingeniería de software". IEEE Transactions on Software Engineering . 49 (3): 1374–1396. doi : 10.1109/TSE.2022.3176725 .
^ Kelley, Truman Lee (1927). Interpretación de las mediciones educativas. Nueva York: World Book.
^ Brown, JD (1996). Pruebas en programas de lenguaje. Upper Saddle River, NJ: Prentice Hall Regents.
^ ab Polit DF Beck CT (2012). Investigación en enfermería: generación y evaluación de evidencia para la práctica de enfermería, 9.ª ed. Filadelfia, EE. UU.: Wolters Klower Health, Lippincott Williams & Wilkins
^ Messick, S. (1995). "Validez de la evaluación psicológica: Validación de inferencias a partir de las respuestas y los desempeños de las personas como investigación científica sobre el significado de las puntuaciones". American Psychologist . 50 (9): 741–749. doi :10.1037/0003-066x.50.9.741.
^ Schotte, CKW; Maes, M.; Cluydts, R.; De Doncker, D.; Cosyns, P. (1997). "Validez de constructo del Inventario de Depresión de Beck en una población depresiva". Journal of Affective Disorders . 46 (2): 115–125. doi :10.1016/s0165-0327(97)00094-3. PMID 9479615.
^ Guion, RM (1980). "Sobre las doctrinas trinitarias de validez". Psicología Profesional . 11 (3): 385–398. doi :10.1037/0735-7028.11.3.385.
^ Brown, JD (1996). Pruebas en programas de lenguaje . Upper Saddle River, NJ: Prentice Hall Regents.
^ Messick, Samuel (1998). "Validez de pruebas: una cuestión de consecuencias". Investigación de indicadores sociales . 45 (1–3): 35–44. doi :10.1023/a:1006964925094. S2CID : 142684085.
^ Borsboom, D., Mellenbergh, GJ y van Heerden, J. (2004). El concepto de validez. Revisión psicológica, 111(4), 1061–1071. https://doi.org/10.1037/0033-295X.111.4.1061
^ Pennington, Donald (2003). Personalidad esencial . Arnold. ISBN 978-0-340-76118-2.
^ Wieland, A., Durach, CF, Kembro, J. y Treiblmaier, H. (2017), Criterios estadísticos y de juicio para la purificación de incrustaciones, Supply Chain Management, vol. 22, n.º 4, https://doi.org/10.1108/SCM-07-2016-0230
^ ab Loevinger J (1957). "Pruebas objetivas como instrumentos de la teoría psicológica: suplemento monográfico 9". Psychological Reports . 3 (3): 635–694. doi :10.2466/pr0.1957.3.3.635. S2CID 145640521.
^ Kane, MT (2006). "Validación". Medición Educativa . 4 : 17–64.
^ Messick, S. (1989). "Validez". En RL Linn (ed.). Medición educativa (3.ª ed.). Nueva York: American Council on Education/Macmillan. págs. 13-103.
^ Messick, S. (1995). "Estándares de validez y validez de los estándares en la evaluación del desempeño". Medición educativa: cuestiones y práctica . 14 (4): 5–8. doi :10.1111/j.1745-3992.1995.tb00881.x.
^ abc Campbell DT (1959). "Validación convergente y discriminante mediante la matriz multirasgo-multimétodo". Psychological Bulletin . 56 (2): 81–105. doi :10.1037/h0046016. PMID 13634291.
^ Hammond, KR, Hamm, RM y Grassia, J. (1986). Generalización sobre condiciones mediante la combinación de la matriz multimétodo y multirasgo y el diseño representativo de experimentos (n.º CRJP-255A). Centro de investigación sobre juicio y política de la Universidad de Colorado en Boulder.
^ Westen Drew; Rosenthal Robert (2003). "Cuantificación de la validez de constructo: dos medidas simples". Revista de personalidad y psicología social . 84 (3): 608–618. doi :10.1037/0022-3514.84.3.608. PMID 12635920.
^ Peter, JP (1981). Validez de constructo: una revisión de cuestiones básicas y prácticas de marketing. Journal of Marketing Research, 133-145.
^ Dimitrov DM; Rumrill Jr PD (2003). "Diseños de pretest-postest y medición del cambio". Trabajo: Revista de prevención, evaluación y rehabilitación . 20 (2): 159–165. PMID 12671209.
^ Engle, RW, Kane, MJ y Tuholski, SW (1999). Diferencias individuales en la capacidad de la memoria de trabajo y lo que nos dicen sobre la atención controlada, la inteligencia fluida general y las funciones de la corteza prefrontal. En A. Miyake y P. Shah (Eds.), Modelos de memoria de trabajo (pp. 102−134). Cambridge: Cambridge University Press.
^ Ackerman PL; Beier ME; Boyle MO (2002). "Diferencias individuales en la memoria de trabajo dentro de una red nomológica de capacidades cognitivas y de velocidad perceptiva". Revista de Psicología Experimental: General . 131 (4): 567–589. doi :10.1037/0096-3445.131.4.567. PMID 12500864.
^ Edgington, ES (1974). "Una nueva tabulación de los procedimientos estadísticos utilizados en las revistas APA". American Psychologist . 29 : 61. doi :10.1037/h0035846.
^ McCroskey, JC, Richmond, VP y McCroskey, LL (2006). Introducción a la comunicación en el aula: el papel de la comunicación en la enseñanza y la formación. Boston: Allyn & Bacon.
^ Gould, SJ (1996). La falsa medida del hombre. 2.ª edición. Nueva York: WW Norton & Company.
^ MacKenzie SB (2003). "Los peligros de una conceptualización deficiente de los constructos". Revista de la Academia de Ciencias de Marketing . 31 (3): 323–326. CiteSeerX 10.1.1.417.7311 . doi :10.1177/0092070303031003011. S2CID 5930358.
^ White D.; Hultquist RA (1965). "Construcción de planes de confusión para diseños factoriales mixtos". Anales de estadística matemática . 36 (4): 1256–1271. doi : 10.1214/aoms/1177699997 .
^ Amenazas a la validez de constructo, Trochim, William M. The Research Methods Knowledge Base, 2.ª edición.

Enlaces externos

Guía de referencia útil para términos de investigación
Proporciona una representación visual de la red nomológica.