Validez de constructo

La validez de constructo se refiere a qué tan bien un conjunto de indicadores representa o refleja un concepto que no es directamente mensurable . ^[1]^[2]^[3] La validación de constructo es la acumulación de evidencia para respaldar la interpretación de lo que refleja una medida. ^[1]^[4]^[5]^[6] La teoría de la validez moderna define la validez de constructo como la preocupación general de la investigación sobre la validez, subsumiendo todos los demás tipos de evidencia de validez ^[7]^[8] , como la validez de contenido y la validez de criterio . ^[9]^[10]

La validez de constructo es la idoneidad de las inferencias realizadas sobre la base de observaciones o mediciones (a menudo puntuaciones de pruebas), específicamente si se puede considerar razonablemente que una prueba refleja el constructo previsto . Los constructos son abstracciones creadas deliberadamente por los investigadores para conceptualizar la variable latente , que se correlaciona con las puntuaciones en una medida determinada (aunque no es directamente observable). La validez de constructo examina la pregunta: ¿Se comporta la medida como la teoría dice que debería comportarse una medida de ese constructo?

La validez de constructo es esencial para la validez general percibida de la prueba. La validez de constructo es particularmente importante en las ciencias sociales , la psicología , la psicometría y los estudios del lenguaje.

Psicólogos como Samuel Messick (1998) han impulsado una visión unificada de la validez de constructo "... como un juicio evaluativo integrado del grado en que la evidencia empírica y los fundamentos teóricos apoyan la adecuación y conveniencia de las inferencias y acciones basadas en las puntuaciones de las pruebas. .." ^[11] Si bien los puntos de vista de Messick se popularizan en la medición educativa y se originan en una carrera en torno a explicar la validez en el contexto de la industria de las pruebas, una definición más acorde con la investigación psicológica fundamental, respaldada por estudios empíricos basados en datos que enfatizan la estadística y el razonamiento causal fue dado por (Borsboom et al., 2004). ^[12]

La clave para la validez de constructo son las ideas teóricas detrás del rasgo bajo consideración, es decir, los conceptos que organizan cómo se ven los aspectos de la personalidad , la inteligencia , etc. ^[13] Paul Meehl afirma que "el mejor constructo es aquel en torno al cual podemos construir el mayor número de inferencias, de la manera más directa". ^[1]

La purificación de la escala, es decir, "el proceso de eliminación de ítems de escalas de múltiples ítems" (Wieland et al., 2017) puede influir en la validez de constructo. Un marco presentado por Wieland et al. (2017) destaca que se deben tener en cuenta criterios tanto estadísticos como de juicio al tomar decisiones de purificación de escala. ^[14]

Historia

A lo largo de la década de 1940, los científicos intentaron encontrar formas de validar los experimentos antes de publicarlos. El resultado de esto fue una plétora de validez diferentes (validez intrínseca, validez aparente , validez lógica , validez empírica, etc.). Esto hacía difícil saber cuáles eran realmente iguales y cuáles no eran útiles en absoluto. Hasta mediados de la década de 1950, había muy pocos métodos universalmente aceptados para validar experimentos psicológicos. La razón principal fue que nadie había determinado exactamente qué cualidades de los experimentos debían examinarse antes de publicarlos. Entre 1950 y 1954, el Comité de Pruebas Psicológicas de la APA se reunió y discutió las cuestiones relacionadas con la validación de experimentos psicológicos. ^[1]

Por esta época, el término validez de constructo fue acuñado por primera vez por Paul Meehl y Lee Cronbach en su artículo fundamental "Validez de constructo en pruebas psicológicas". Observaron la idea de que la validez de constructo no era nueva en ese momento; más bien, fue una combinación de muchos tipos diferentes de validez relacionados con conceptos teóricos. Propusieron los siguientes tres pasos para evaluar la validez de constructo:

Articular un conjunto de conceptos teóricos y sus interrelaciones.
Desarrollar formas de medir los constructos hipotéticos propuestos por la teoría.
probar empíricamente las relaciones hipotéticas ^[1]

Muchos psicólogos señalaron que un papel importante de la validación de constructos en psicometría era que ponía más énfasis en la teoría que en la validación. Este énfasis fue diseñado para abordar un requisito central de que la validación incluya alguna demostración de que la prueba mide el constructo teórico que pretendía medir. La validez de constructo tiene tres aspectos o componentes: el componente sustantivo, el componente estructural y el componente externo. ^[15] Están estrechamente relacionados con tres etapas en el proceso de construcción de la prueba: constitución del conjunto de ítems, análisis y selección de la estructura interna del conjunto de ítems, y correlación de las puntuaciones de la prueba con los criterios y otras variables.

En la década de 1970 hubo un creciente debate entre los teóricos que comenzaron a ver la validez de constructo como el modelo dominante que impulsaba hacia una teoría de la validez más unificada, y aquellos que continuaron trabajando desde múltiples marcos de validez. ^[16] Muchos psicólogos e investigadores en educación vieron "las validezes predictiva, concurrente y de contenido como esencialmente ad hoc , la validez de constructo era la validez completa desde un punto de vista científico" ^[15] En la versión de 1974 de The Standards for Educational and Psychology Se reconoció la necesidad de probar la interrelación de los tres diferentes aspectos de la validez: "Estos aspectos de la validez pueden discutirse de forma independiente, pero sólo por conveniencia. Están interrelacionados operativa y lógicamente; sólo rara vez uno de ellos es importante por sí solo en una situación particular". .

En 1989 Messick presentó una nueva conceptualización de la validez de constructo como un concepto unificado y multifacético. ^[17] Bajo este marco, todas las formas de validez están conectadas y dependen de la calidad del constructo. Señaló que una teoría unificada no era su propia idea, sino más bien la culminación del debate y la discusión dentro de la comunidad científica durante las décadas anteriores. Hay seis aspectos de la validez de constructo en la teoría unificada de validez de constructo de Messick: ^[18]

Consecuente : ¿Cuáles son los riesgos potenciales si las puntuaciones no son válidas o se interpretan de forma inapropiada? ¿Sigue mereciendo la pena la prueba dados los riesgos?
Contenido : ¿Parece que los elementos de la prueba miden el constructo de interés?
Sustantivo : ¿Es sólida la base teórica que subyace al concepto de interés?
Estructural : ¿Las interrelaciones de las dimensiones medidas por la prueba se correlacionan con el constructo de interés y las puntuaciones de la prueba?
Externo : ¿Tiene la prueba cualidades convergentes, discriminantes y predictivas?
Generalizabilidad : ¿la prueba se generaliza entre diferentes grupos, entornos y tareas?

Cómo debe considerarse adecuadamente la validez de constructo sigue siendo un tema de debate para los teóricos de la validez. El núcleo de la diferencia reside en una diferencia epistemológica entre teóricos positivistas y pospositivistas .

Evaluación

La evaluación de la validez de constructo requiere que las correlaciones de la medida se examinen con respecto a variables que se sabe que están relacionadas con el constructo (supuestamente medidas por el instrumento que se evalúa o para las cuales existen bases teóricas para esperar que estén relacionadas). Esto es consistente con la matriz multirrasgo-multimétodo (MTMM) para examinar la validez de constructo descrita en el artículo histórico de Campbell y Fiske (1959). ^[19] Existen otros métodos para evaluar la validez de constructo además del MTMM. Puede evaluarse mediante diferentes formas de análisis factorial , modelado de ecuaciones estructurales (SEM) y otras evaluaciones estadísticas. ^[20]^[21] Es importante señalar que un solo estudio no prueba la validez de constructo. Más bien es un proceso continuo de evaluación, reevaluación, refinamiento y desarrollo. Las correlaciones que se ajustan al patrón esperado aportan evidencia de validez de constructo. La validez de constructo es un juicio basado en la acumulación de correlaciones de numerosos estudios que utilizan el instrumento que se evalúa. ^[22]

La mayoría de los investigadores intentan probar la validez de constructo antes de la investigación principal. Para ello se pueden utilizar estudios piloto . Los estudios piloto son estudios preliminares a pequeña escala destinados a probar la viabilidad de una prueba a gran escala. Estos estudios piloto establecen la solidez de su investigación y les permiten realizar los ajustes necesarios. Otro método es la técnica de grupos conocidos, que implica administrar el instrumento de medición a grupos que se espera que difieran debido a características conocidas. Las pruebas de relaciones hipotéticas implican un análisis lógico basado en teoría o investigaciones previas. ^[6] Los estudios de intervención son otro método más para evaluar la validez de constructo. Los estudios de intervención en los que se evalúa a un grupo con puntuaciones bajas en el constructo, se le enseña el constructo y luego se vuelve a medir pueden demostrar la validez del constructo de una prueba. Si hay una diferencia significativa entre la prueba previa y la prueba posterior, que se analizan mediante pruebas estadísticas, entonces esto puede demostrar una buena validez de constructo. ^[23]

Validez convergente y discriminante.

La validez convergente y discriminante son los dos subtipos de validez que componen la validez de constructo. La validez convergente se refiere al grado en que dos medidas de constructos que teóricamente deberían estar relacionadas, en realidad lo están. Por el contrario, la validez discriminante prueba si conceptos o mediciones que se supone que no están relacionados, en realidad no lo están. ^[19] Tomemos, por ejemplo, una construcción de felicidad general. Si una medida de felicidad general tuviera validez convergente, entonces constructos similares a la felicidad (satisfacción, contentamiento, alegría, etc.) deberían relacionarse positivamente con la medida de felicidad general. Si esta medida tiene validez discriminante, entonces los constructos que se supone no están relacionados positivamente con la felicidad general (tristeza, depresión, desesperación, etc.) no deberían relacionarse con la medida de felicidad general. Las medidas pueden tener uno de los subtipos de validez de constructo y no el otro. Utilizando el ejemplo de la felicidad general, un investigador podría crear un inventario en el que exista una correlación positiva muy alta entre la felicidad general y la satisfacción, pero si también existe una correlación positiva significativa entre la felicidad y la depresión, entonces se cuestiona la validez de constructo de la medida. . La prueba tiene validez convergente pero no validez discriminante.

Red nomológica

Lee Cronbach y Paul Meehl (1955) ^[1] propusieron que el desarrollo de una red nomológica era esencial para medir la validez de constructo de una prueba. Una red nomológica define un constructo ilustrando su relación con otros constructos y comportamientos. Es una representación de los conceptos (constructos) de interés en un estudio, sus manifestaciones observables y la interrelación entre ellas. Examina si las relaciones entre constructos similares se consideran con relaciones entre las medidas observadas de los constructos. Una observación minuciosa de las relaciones de los constructos entre sí puede generar nuevos constructos. Por ejemplo, la inteligencia y la memoria de trabajo se consideran constructos altamente relacionados. A través de la observación de sus componentes subyacentes, los psicólogos desarrollaron nuevas construcciones teóricas como: atención controlada ^[24] y carga a corto plazo. ^[25] La creación de una red nomológica también puede hacer que la observación y medición de constructos existentes sea más eficiente al identificar errores. ^[1] Los investigadores han descubierto que el estudio de las protuberancias en el cráneo humano ( frenología ) no son indicadores de inteligencia, pero sí el volumen del cerebro. Al eliminar la teoría de la frenología de la red nomológica de la inteligencia y agregar la teoría de la evolución de la masa cerebral, las construcciones de la inteligencia se vuelven más eficientes y poderosas. El tejido de todos estos conceptos interrelacionados y sus rasgos observables crea una "red" que respalda su concepto teórico. Por ejemplo, en la red nomológica del rendimiento académico, esperaríamos que los rasgos observables del rendimiento académico (es decir, puntuaciones de GPA, SAT y ACT) se relacionaran con los rasgos observables del estudio (horas dedicadas a estudiar, atención en clase, detalle de las notas). . Si no lo hacen, entonces hay un problema con la medición (del rendimiento académico o del estudio), o con la supuesta teoría del rendimiento. Si son indicadores unos de otros, entonces se fortalece la red nomológica, y por tanto la teoría construida, del rendimiento académico. Aunque la red nomológica propuso una teoría sobre cómo fortalecer los constructos, no nos dice cómo podemos evaluar la validez del constructo en un estudio.

Matriz multirasgo-multimétodo

La matriz multirrasgo-multimétodo (MTMM) es un enfoque para examinar la validez de constructo desarrollado por Campbell y Fiske (1959). ^[19] Este modelo examina la convergencia (evidencia de que diferentes métodos de medición de un constructo dan resultados similares) y la discriminabilidad (capacidad de diferenciar el constructo de otros constructos relacionados). Mide seis rasgos: la evaluación de la validez convergente, la evaluación de la validez discriminante (divergente), las unidades rasgo-método, los multirrasgo-multimétodos, las metodologías verdaderamente diferentes y las características de los rasgos. Este diseño permite a los investigadores probar: "convergencia entre diferentes medidas... de la misma 'cosa'... y divergencia entre medidas... de 'cosas' relacionadas pero conceptualmente distintas. ^[2]^[26]

Amenazas a la validez de constructo

La validez de constructo aparente puede ser engañosa debido a una variedad de problemas en la formulación de hipótesis y el diseño experimental.

Adivinación de hipótesis : si el participante conoce o adivina el resultado final deseado, sus acciones pueden cambiar. ^[27] Un ejemplo es el efecto Hawthorne : en un estudio de ergonomía industrial de 1925 realizado en la fábrica Hawthorne Works en las afueras de Chicago, los experimentadores observaron que tanto la reducción como el aumento de los niveles de luz ambiental mejoraban la productividad de los trabajadores. Finalmente determinaron la base de este resultado paradójico: los trabajadores que eran conscientes de ser observados trabajaban más duro sin importar el cambio en el entorno.
Sesgo en el diseño experimental (intencional o no). Un ejemplo de esto se proporciona en el libro de Stephen Jay Gould de 1981 " The Mismeasure of Man ". ^[28] Entre las preguntas utilizadas en la época de la Primera Guerra Mundial en la batería utilizada para medir la inteligencia estaba "¿En qué ciudad juegan los Dodgers?" (entonces tenían su base en Brooklyn). Los inmigrantes recientes a Estados Unidos procedentes de Europa del Este que no estaban familiarizados con el deporte del béisbol dieron la respuesta equivocada, y esto se utilizó para inferir que los europeos del Este tenían menor inteligencia. La pregunta no medía la inteligencia: sólo medía cuánto tiempo uno había vivido en Estados Unidos y se había acostumbrado a un pasatiempo popular.
Las expectativas del investigador pueden comunicarse involuntariamente a los participantes de forma no verbal, provocando el efecto deseado. Para controlar esta posibilidad, siempre que sea posible se deben utilizar diseños experimentales doble ciego . Es decir, el evaluador de un participante en particular debe desconocer qué intervención se ha realizado en ese participante en particular o debe ser independiente del experimentador.
Definir el resultado previsto de forma demasiado estricta . ^[29] Por ejemplo, utilizar únicamente la satisfacción laboral para medir la felicidad excluirá información relevante fuera del lugar de trabajo.
Variables de confusión (covariables): la causa fundamental de los efectos observados puede deberse a variables que no se han considerado ni medido. ^[30]

En Trochim se presenta una exploración en profundidad de las amenazas a la validez de constructo. ^[31]

Ver también

Referencias

^ abcdefg Cronbach, LJ; Meehl, PE (1955). "La validez de constructo en las pruebas psicológicas". Boletín Psicológico . 52 (4): 281–302. doi :10.1037/h0040957. hdl : 11299/184279 . PMID 13245896. S2CID 5312179.
^ ab Cook TD; Campbell DT (1979). Cuasi-experimentación . Boston: Houghton Mifflin.
^ Sjøberg, DIK; Bergersen, GR (2022). "Validez de constructo en ingeniería de software". Transacciones IEEE sobre ingeniería de software . 49 (3): 1374-1396. doi : 10.1109/TSE.2022.3176725 .
^ Kelley, Truman Lee (1927). Interpretación de medidas educativas. Nueva York: Libro mundial.
^ Marrón, JD (1996). Pruebas en programas de idiomas. Upper Saddle River, Nueva Jersey: Prentice Hall Regents.
^ ab Polit DF Beck CT (2012). Investigación en enfermería: generación y evaluación de evidencia para la práctica de enfermería, 9ª ed. Filadelfia, EE.UU.: Wolters Klower Health, Lippincott Williams & Wilkins
^ Messick, S. (1995). "Validez de la evaluación psicológica: validación de inferencias a partir de las respuestas y actuaciones de las personas como investigación científica sobre el significado de la puntuación". Psicólogo americano . 50 (9): 741–749. doi :10.1037/0003-066x.50.9.741.
^ Schotte, CKW; Maes, M.; Cluydts, R.; De Doncker, D.; Cosyns, P. (1997). "Validez de constructo del Inventario de Depresión de Beck en una población depresiva". Revista de trastornos afectivos . 46 (2): 115-125. doi :10.1016/s0165-0327(97)00094-3. PMID 9479615.
^ Guión, RM (1980). "Sobre las doctrinas trinitarias de validez". Psicología Profesional . 11 (3): 385–398. doi :10.1037/0735-7028.11.3.385.
^ Marrón, JD (1996). Pruebas en programas de idiomas . Upper Saddle River, Nueva Jersey: Prentice Hall Regents.
^ Messick, Samuel (1998). "Validez de la prueba: una cuestión de consecuencias". Investigación de Indicadores Sociales . 45 (1–3): 35–44. doi :10.1023/a:1006964925094. S2CID 142684085.
^ Borsboom, D., Mellenbergh, GJ y van Heerden, J. (2004). El concepto de validez. Revisión psicológica, 111(4), 1061–1071. https://doi.org/10.1037/0033-295X.111.4.1061
^ Pennington, Donald (2003). Personalidad esencial . Arnaldo. ISBN 978-0-340-76118-2.
^ Wieland, A., Durach, CF, Kembro, J. & Treiblmaier, H. (2017), Criterios estadísticos y de juicio para la purificación de incrustaciones, Supply Chain Management, vol. 22, N° 4, https://doi.org/10.1108/SCM-07-2016-0230
^ ab Loevinger J (1957). "Pruebas objetivas como instrumentos de la teoría psicológica: Suplemento monográfico 9". Informes Psicológicos . 3 (3): 635–694. doi :10.2466/pr0.1957.3.3.635. S2CID 145640521.
^ Kane, MT (2006). "Validación". Medición Educativa . 4 : 17–64.
^ Messick, S. (1989). "Validez.". En RL Linn (ed.). Medición educativa (3ª ed.). Nueva York: Consejo Americano de Educación/Macmillan. págs. 13-103.
^ Messick, S. (1995). "Estándares de validez y validez de los estándares en la evaluación del desempeño". Medición educativa: problemas y práctica . 14 (4): 5–8. doi :10.1111/j.1745-3992.1995.tb00881.x.
^ abc Campbell DT (1959). "Validación convergente y discriminante mediante la matriz multirasgo-multimétodo". Boletín Psicológico . 56 (2): 81-105. doi :10.1037/h0046016. PMID 13634291.
^ Hammond, KR, Hamm, RM y Grassia, J. (1986). Generalización de condiciones mediante la combinación de la matriz multimétodo multirrasgo y el diseño representativo de experimentos (No. CRJP-255A). Centro de investigación sobre juicios y políticas de la Universidad de Colorado en Boulder.
^ Westen Drew; Rosenthal Robert (2003). "Cuantificar la validez de constructo: dos medidas simples". Revista de Personalidad y Psicología Social . 84 (3): 608–618. doi :10.1037/0022-3514.84.3.608. PMID 12635920.
^ Pedro, JP (1981). Validez de constructo: una revisión de cuestiones básicas y prácticas de marketing. Revista de investigación de mercados, 133-145.
^ DimitrovDM; Policía de Rumrill Jr (2003). "Diseños pretest-postest y medición del cambio". Trabajo: Revista de Prevención, Evaluación y Rehabilitación . 20 (2): 159–165. PMID 12671209.
^ Engle, RW, Kane, MJ y Tuholski, SW (1999). Diferencias individuales en la capacidad de la memoria de trabajo y lo que nos dicen sobre la atención controlada, la inteligencia fluida general y las funciones de la corteza prefrontal. En A. Miyake y P. Shah (Eds.), Modelos de memoria de trabajo (págs. 102-134). Cambridge: Prensa de la Universidad de Cambridge.
^ AckermanPL; Beier YO; Boyle MO (2002). "Diferencias individuales en la memoria de trabajo dentro de una red nomológica de habilidades de velocidad cognitiva y perceptiva". Revista de Psicología Experimental: General . 131 (4): 567–589. doi :10.1037/0096-3445.131.4.567. PMID 12500864.
^ Edgington, ES (1974). "Una nueva tabulación de los procedimientos estadísticos utilizados en las revistas APA". Psicólogo americano . 29 : 61. doi : 10.1037/h0035846.
^ McCroskey, JC, Richmond, vicepresidente y McCroskey, LL (2006). Introducción a la comunicación en el aula: El papel de la comunicación en la enseñanza y la formación. Boston: Allyn y Bacon.
^ Gould, SJ (1996). La mala medida del hombre. 2da edición. Nueva York: WW Norton & Company.
^ MacKenzie SB (2003). "Los peligros de una mala conceptualización de los constructos". Revista de la Academia de Ciencias del Marketing . 31 (3): 323–326. CiteSeerX 10.1.1.417.7311 . doi :10.1177/0092070303031003011. S2CID 5930358.
^ Blanco D.; Hultquist RA (1965). "Construcción de planos de confusión para diseños factoriales mixtos". Los anales de la estadística matemática . 36 (4): 1256-1271. doi : 10.1214/aoms/1177699997 .
^ Amenazas a la validez de la construcción, Trochim, William M. The Research Methods Knowledge Base, segunda edición.

enlaces externos

Guía de referencia útil para términos de investigación.
Proporciona una representación visual de la red nomológica.