Validez (estadística)

La validez es el grado principal en el que un concepto , conclusión o medición está bien fundamentado y probablemente corresponde con precisión al mundo real. ^[1]^[2] La palabra "válido" se deriva del latín validus, que significa fuerte. La validez de una herramienta de medición (por ejemplo, una prueba en educación) es el grado en el que la herramienta mide lo que dice medir. ^[3] La validez se basa en la solidez de una colección de diferentes tipos de evidencia (por ejemplo, validez aparente, validez de constructo, etc.) que se describe con mayor detalle a continuación.

En psicometría , la validez tiene una aplicación particular conocida como validez de prueba : "el grado en el que la evidencia y la teoría respaldan las interpretaciones de los puntajes de las pruebas" ("tal como lo implican los usos propuestos de las pruebas"). ^[4]

En general, se acepta que el concepto de validez científica aborda la naturaleza de la realidad en términos de medidas estadísticas y, como tal, es una cuestión epistemológica y filosófica , así como una cuestión de medición . El uso del término en lógica es más restringido y se relaciona con la relación entre las premisas y la conclusión de un argumento. En lógica, la validez se refiere a la propiedad de un argumento por la cual, si las premisas son verdaderas, entonces la verdad de la conclusión se sigue necesariamente. La conclusión de un argumento es verdadera si el argumento es sólido, es decir, si el argumento es válido y sus premisas son verdaderas. Por el contrario, la "validez científica o estadística" no es una afirmación deductiva que necesariamente preserve la verdad, sino una afirmación inductiva que sigue siendo verdadera o falsa de manera indecidida. Es por eso que la "validez científica o estadística" es una afirmación que se califica como fuerte o débil en su naturaleza, nunca es necesaria ni ciertamente verdadera. Esto tiene el efecto de hacer que las afirmaciones de "validez científica o estadística" estén abiertas a la interpretación en cuanto a lo que, de hecho, significan los hechos del asunto.

La validez es importante porque puede ayudar a determinar qué tipos de pruebas utilizar y ayudar a garantizar que los investigadores estén utilizando métodos que no sólo sean éticos y rentables, sino también que realmente midan las ideas o constructos en cuestión.

Validez de la prueba

Validez (precisión)

La validez ^[5] de una evaluación es el grado en que mide lo que se supone que debe medir. Esto no es lo mismo que la confiabilidad , que es el grado en que una medición da resultados que son muy consistentes. Dentro de la validez, la medición no siempre tiene que ser similar, como ocurre en la confiabilidad. Sin embargo, el hecho de que una medida sea confiable no significa necesariamente que sea válida. Por ejemplo, una báscula que está 5 libras por debajo es confiable pero no válida. Una prueba no puede ser válida a menos que sea confiable. La validez también depende de que la medición mida lo que fue diseñada para medir, y no otra cosa en su lugar. ^[6] La validez (similar a la confiabilidad) es un concepto relativo; la validez no es una idea de todo o nada. Hay muchos tipos diferentes de validez.

Validez de constructo

La validez de constructo se refiere al grado en que las operacionalizaciones de un constructo (por ejemplo, las pruebas prácticas desarrolladas a partir de una teoría) miden un constructo tal como lo define una teoría. Subsume todos los demás tipos de validez. Por ejemplo, el grado en que una prueba mide la inteligencia es una cuestión de validez de constructo. Una medida de inteligencia presupone, entre otras cosas, que la medida está asociada con cosas con las que debería estar asociada ( validez convergente ), no asociada con cosas con las que no debería estar asociada ( validez discriminante ). ^[7]

La evidencia de validez de constructo implica el respaldo empírico y teórico para la interpretación del constructo. Estas líneas de evidencia incluyen análisis estadísticos de la estructura interna de la prueba, incluidas las relaciones entre las respuestas a diferentes ítems de la prueba. También incluyen relaciones entre la prueba y las mediciones de otros constructos. Tal como se entiende actualmente, la validez de constructo no es distinta del respaldo a la teoría sustantiva del constructo que la prueba está diseñada para medir. Como tal, los experimentos diseñados para revelar aspectos del papel causal del constructo también contribuyen a la construcción de evidencia de validez. ^[7]

Validez de contenido

La validez de contenido es un tipo de validez no estadística que implica "el examen sistemático del contenido de una prueba para determinar si cubre una muestra representativa del dominio de conducta que se va a medir" (Anastasi y Urbina, 1997, pág. 114). Por ejemplo, ¿un cuestionario de CI tiene ítems que cubren todas las áreas de inteligencia analizadas en la literatura científica?

La evidencia de validez de contenido implica el grado en el que el contenido de la prueba coincide con un dominio de contenido asociado con el constructo. Por ejemplo, una prueba de la capacidad de sumar dos números debe incluir un rango de combinaciones de dígitos. Una prueba con solo números de un dígito, o solo números pares, no tendría una buena cobertura del dominio de contenido. La evidencia relacionada con el contenido generalmente implica un experto en la materia (SME) que evalúa los elementos de la prueba contra las especificaciones de la prueba. Los expertos deben prestar atención a cualquier diferencia cultural. Por ejemplo, cuando un cuestionario de evaluación de conducción adopta de Inglaterra (por ejemplo, DBQ), los expertos deben considerar la conducción por la derecha en Gran Bretaña. Algunos estudios encontraron que esto será crítico para obtener un cuestionario válido. ^[8] Antes de pasar a la administración final de los cuestionarios, el investigador debe consultar la validez de los elementos contra cada uno de los constructos o variables y, en consecuencia, modificar los instrumentos de medición sobre la base de la opinión del SME.

La validez de contenido de una prueba se basa en una cuidadosa selección de los ítems que se incluirán (Anastasi y Urbina, 1997). Los ítems se eligen de modo que cumplan con las especificaciones de la prueba, que se elaboran mediante un examen exhaustivo del dominio del sujeto. Foxcroft, Paterson, le Roux y Herbst (2004, p. 49) ^[9] señalan que, al utilizar un panel de expertos para revisar las especificaciones de la prueba y la selección de ítems, se puede mejorar la validez de contenido de una prueba. Los expertos podrán revisar los ítems y comentar si cubren una muestra representativa del dominio de la conducta.

Validez aparente

La validez aparente es una estimación de si una prueba parece medir un determinado criterio; no garantiza que la prueba realmente mida fenómenos en ese dominio. Las medidas pueden tener una validez alta, pero cuando la prueba no parece medir lo que mide, tiene una validez aparente baja. De hecho, cuando una prueba está sujeta a falsificaciones (simulación), una validez aparente baja puede hacer que la prueba sea más válida. Teniendo en cuenta que se pueden obtener respuestas más honestas con una validez aparente baja, a veces es importante hacer que parezca que hay una validez aparente baja al administrar las medidas.

La validez aparente está muy relacionada con la validez de contenido. Mientras que la validez de contenido depende de una base teórica para suponer si una prueba evalúa todos los dominios de un determinado criterio (por ejemplo, ¿evaluar las habilidades de suma arroja un buen resultado en las habilidades matemáticas? Para responder a esta pregunta, hay que saber qué tipos de habilidades aritméticas incluyen las habilidades matemáticas), la validez aparente se relaciona con si una prueba parece ser una buena medida o no. Este juicio se realiza sobre la "apariencia" de la prueba, por lo que también puede ser juzgada por un aficionado.

La validez aparente es un punto de partida, pero nunca debe asumirse que sea probablemente válida para un propósito determinado, ya que los "expertos" se han equivocado antes: el Malleus Malificarum (Martillo de las Brujas) no tenía ningún respaldo para sus conclusiones más allá de la competencia autoimaginada de dos "expertos" en "detección de brujería", pero fue utilizado como una "prueba" para condenar y quemar en la hoguera a decenas de miles de hombres y mujeres como "brujos". ^[10]

Validez de criterio

La evidencia de validez de criterio implica la correlación entre la prueba y una variable de criterio (o variables) consideradas representativas del constructo. En otras palabras, compara la prueba con otras medidas o resultados (los criterios) que ya se consideran válidos. Por ejemplo, las pruebas de selección de empleados suelen validarse con medidas de desempeño laboral (el criterio), y las pruebas de CI suelen validarse con medidas de desempeño académico (el criterio).

Si los datos de prueba y los datos de criterio se recogen al mismo tiempo, se habla de evidencia de validez concurrente. Si los datos de prueba se recogen primero para predecir los datos de criterio recogidos en un momento posterior, se habla de evidencia de validez predictiva.

Validez concurrente

La validez concurrente se refiere al grado en que la operacionalización se correlaciona con otras medidas del mismo constructo que se miden al mismo tiempo. Cuando la medida se compara con otra medida del mismo tipo, estarán relacionadas (o correlacionadas). Volviendo al ejemplo de la prueba de selección, esto significaría que las pruebas se administran a los empleados actuales y luego se correlacionan con sus puntuaciones en las evaluaciones de desempeño.

Validez predictiva

La validez predictiva se refiere al grado en que la operacionalización puede predecir (o correlacionarse con) otras medidas del mismo constructo que se midan en algún momento en el futuro. Nuevamente, con el ejemplo de la prueba de selección, esto significaría que las pruebas se administran a los solicitantes, todos los solicitantes son contratados, su desempeño se evalúa en un momento posterior y luego se correlacionan sus puntajes en las dos medidas.

Esto también ocurre cuando la medición predice una relación entre lo que se mide y algo más; predice si lo otro sucederá o no en el futuro. Una alta correlación entre los resultados previstos ex ante y los resultados reales ex post es la prueba más sólida de validez.

Validez experimental

La validez del diseño de los estudios de investigación experimental es una parte fundamental del método científico [ ^2] y una preocupación de la ética de la investigación . Sin un diseño válido, no se pueden extraer conclusiones científicas válidas.

Validez de la conclusión estadística

La validez de las conclusiones estadísticas es el grado en que las conclusiones sobre la relación entre las variables basadas en los datos son correctas o "razonables". En un principio, se trataba únicamente de determinar si la conclusión estadística sobre la relación entre las variables era correcta, pero ahora se está avanzando hacia conclusiones "razonables" que utilizan datos cuantitativos, estadísticos y cualitativos. ^[11]

La validez de la conclusión estadística implica asegurar el uso de procedimientos de muestreo adecuados, pruebas estadísticas apropiadas y procedimientos de medición confiables. ^[12] Como este tipo de validez se ocupa únicamente de la relación que se encuentra entre las variables, la relación puede ser únicamente una correlación.

Validez interna

La validez interna es una estimación inductiva del grado en que se pueden extraer conclusiones sobre relaciones causales (por ejemplo, causa y efecto), basándose en las medidas utilizadas, el contexto de la investigación y el diseño de la investigación en su conjunto. Las buenas técnicas experimentales, en las que se estudia el efecto de una variable independiente sobre una variable dependiente en condiciones muy controladas, suelen permitir grados más altos de validez interna que, por ejemplo, los diseños de caso único.

Ocho tipos de variables de confusión pueden interferir con la validez interna (es decir, con el intento de aislar relaciones causales):

Historial , los eventos específicos que ocurrieron entre la primera y la segunda medición además de las variables experimentales.
Maduración , procesos dentro de los participantes en función del paso del tiempo (no específicos de eventos particulares), por ejemplo, envejecer, tener más hambre, estar más cansado, etc.
Pruebas , los efectos de tomar una prueba sobre los puntajes de una segunda prueba.
La instrumentación , los cambios en la calibración de una herramienta de medición o los cambios en los observadores o calificadores pueden producir cambios en las mediciones obtenidas.
Regresión estadística , en la que los grupos se seleccionan en función de sus puntuaciones extremas.
Selección , sesgos resultantes de la selección diferencial de encuestados para los grupos de comparación.
Mortalidad experimental o pérdida diferencial de encuestados de los grupos de comparación.
Interacción selección-maduración , etc., por ejemplo, en diseños cuasiexperimentales de grupos múltiples

Validez externa

La validez externa se refiere al grado en que los resultados (internamente válidos) de un estudio pueden considerarse verdaderos para otros casos, por ejemplo, para diferentes personas, lugares o momentos. En otras palabras, se trata de si los hallazgos pueden generalizarse de manera válida. Si el mismo estudio de investigación se llevara a cabo en esos otros casos, ¿obtendría los mismos resultados?

Un factor importante a tener en cuenta es si la muestra del estudio (por ejemplo, los participantes de la investigación) es representativa de la población general en las dimensiones pertinentes. Otros factores que ponen en peligro la validez externa son:

Efecto reactivo o de interacción de las pruebas : una prueba previa podría aumentar las puntuaciones en una prueba posterior.
Efectos de interacción de los sesgos de selección y la variable experimental .
Efectos reactivos de los arreglos experimentales , que impedirían la generalización acerca del efecto de la variable experimental sobre las personas expuestas a ella en entornos no experimentales.
Interferencia de tratamientos múltiples , donde los efectos de los tratamientos anteriores no se pueden borrar.

Validez ecológica

La validez ecológica es el grado en que los resultados de una investigación pueden aplicarse a situaciones de la vida real fuera de los entornos de investigación. Esta cuestión está estrechamente relacionada con la validez externa, pero abarca la cuestión de hasta qué punto los hallazgos experimentales reflejan lo que se puede observar en el mundo real (ecología = la ciencia de la interacción entre los organismos y su entorno). Para que sean ecológicamente válidos, los métodos, los materiales y el entorno de un estudio deben aproximarse a la situación de la vida real que se está investigando.

La validez ecológica está relacionada en parte con la cuestión de la experimentación frente a la observación. Normalmente, en la ciencia hay dos dominios de investigación: observacional (pasivo) y experimental (activo). El propósito de los diseños experimentales es comprobar la causalidad, de modo que se pueda inferir que A causa B o que B causa A. Pero a veces, las restricciones éticas y/o metodológicas impiden realizar un experimento (por ejemplo, ¿cómo influye el aislamiento en el funcionamiento cognitivo de un niño?). En ese caso, se puede seguir haciendo una investigación, pero no es causal, sino correlacional. Solo se puede concluir que A ocurre junto con B. Ambas técnicas tienen sus puntos fuertes y sus puntos débiles.

Relación con la validez interna

A primera vista, la validez interna y la externa parecen contradecirse: para conseguir un diseño experimental hay que controlar todas las variables que interfieren. Por eso, a menudo se realizan los experimentos en un entorno de laboratorio. Si bien se gana validez interna (excluyendo las variables que interfieren manteniéndolas constantes), se pierde validez ecológica o externa porque se establece un entorno de laboratorio artificial. Por otro lado, con la investigación observacional no se pueden controlar las variables que interfieren (baja validez interna), pero se puede medir en el entorno natural (ecológico), en el lugar donde normalmente se produce el comportamiento. Sin embargo, al hacerlo, se sacrifica la validez interna.

La aparente contradicción entre validez interna y validez externa es, sin embargo, sólo superficial. La cuestión de si los resultados de un estudio particular se pueden generalizar a otras personas, lugares o épocas surge sólo cuando se sigue una estrategia de investigación inductivista . Si el objetivo de un estudio es comprobar deductivamente una teoría, sólo se preocupan de los factores que podrían socavar el rigor del estudio, es decir, las amenazas a la validez interna. En otras palabras, la relevancia de la validez externa e interna para un estudio de investigación depende de los objetivos del estudio. Además, mezclar los objetivos de la investigación con las preocupaciones sobre la validez puede conducir al problema de la validez interna mutua, en el que las teorías sólo pueden explicar fenómenos en entornos de laboratorio artificiales, pero no en el mundo real. ^[13]^[14]

Validez diagnóstica

En psiquiatría existe un problema particular con la evaluación de la validez de las categorías diagnósticas en sí mismas. En este contexto: ^[15]

La validez de contenido puede referirse a síntomas y criterios diagnósticos;
La validez concurrente puede definirse por diversos correlatos o marcadores, y quizás también por la respuesta al tratamiento;
La validez predictiva puede referirse principalmente a la estabilidad diagnóstica a lo largo del tiempo;
La validez discriminante puede implicar la delimitación de otros trastornos.

En 1970, Robins y Guze propusieron lo que se convertirían en criterios formales influyentes para establecer la validez de los diagnósticos psiquiátricos. Enumeraron cinco criterios: ^[15]

Descripción clínica clara (incluidos perfiles de síntomas, características demográficas y desencadenantes típicos)
Estudios de laboratorio (incluidas pruebas psicológicas, radiología y hallazgos post mortem)
Delimitación de otros trastornos (mediante criterios de exclusión)
Estudios de seguimiento que muestran un curso característico (incluida evidencia de estabilidad diagnóstica)
Estudios familiares que muestran agrupamiento familiar

Estos se incorporaron a los Criterios Feighner y a los Criterios de Diagnóstico de Investigación que desde entonces han formado la base de los sistemas de clasificación DSM y CIE.

Kendler en 1980 distinguió entre: ^[15]

Validadores antecedentes (agregación familiar, personalidad premórbida y factores precipitantes)
validadores concurrentes (incluidas pruebas psicológicas)
Validadores predictivos (consistencia diagnóstica a lo largo del tiempo, tasas de recaída y recuperación y respuesta al tratamiento)

Nancy Andreasen (1995) enumeró varios validadores adicionales ( genética molecular y biología molecular , neuroquímica , neuroanatomía , neurofisiología y neurociencia cognitiva ) que son potencialmente capaces de vincular los síntomas y diagnósticos con sus sustratos neuronales . ^[15]

Kendell y Jablinsky (2003) enfatizaron la importancia de distinguir entre validez y utilidad , y argumentaron que las categorías diagnósticas definidas por sus síndromes deberían considerarse válidas sólo si se ha demostrado que son entidades discretas con límites naturales que las separan de otros trastornos. ^[15]

Kendler (2006) enfatizó que para ser útil, un criterio de validación debe ser lo suficientemente sensible como para validar la mayoría de los síndromes que son verdaderos trastornos, y al mismo tiempo lo suficientemente específico como para invalidar la mayoría de los síndromes que no son verdaderos trastornos. Sobre esta base, sostiene que un criterio de Robins y Guze de "se transmite en la familia" es inadecuadamente específico porque la mayoría de los rasgos físicos y psicológicos humanos calificarían - por ejemplo, un síndrome arbitrario que comprenda una mezcla de "altura de más de 6 pies, cabello rojo y nariz grande" se considerará "transmisible" y " hereditario ", pero esto no debería considerarse evidencia de que sea un trastorno. Kendler ha sugerido además que los modelos genéticos " esencialistas " de los trastornos psiquiátricos, y la esperanza de que podamos validar diagnósticos psiquiátricos categóricos "tallando la naturaleza por sus articulaciones" únicamente como resultado del descubrimiento de genes, son improbables. ^[16]

En el sistema de tribunales federales de los Estados Unidos, la validez y la fiabilidad de las pruebas se evalúan utilizando el estándar Daubert: véase Daubert v. Merrell Dow Pharmaceuticals . Perri y Lichtenwald (2010) ofrecen un punto de partida para un debate sobre una amplia gama de temas de fiabilidad y validez en su análisis de una condena por homicidio injusto. ^[17]

Véase también

Referencias

^ Brains, Willnat, Manheim, Rich 2011. Análisis político empírico 8.ª edición. Boston: Longman, pág. 105
^ ab Campbell, Donald T. (1957). "Factores relevantes para la validez de experimentos en entornos sociales". Psychological Bulletin . 54 (4): 297–312. doi :10.1037/h0040950. ISSN 1939-1455. PMID 13465924.
^ Kelley, Truman Lee (1927). Interpretación de las mediciones educativas . Yonkers-on-Hudson, NY: World Book Company. p. 14. El problema de la validez es el de si una prueba mide realmente lo que pretende medir...
^ Asociación Estadounidense de Investigación Educativa, Asociación Psicológica y Consejo Nacional de Medición en Educación. (1999). Estándares para pruebas educativas y psicológicas . Washington, DC: Asociación Estadounidense de Investigación Educativa.
^ Consejo Nacional de Medición en Educación. https://web.archive.org/web/20160924135257/http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061
^ Kramer, Geoffrey P., Douglas A. Bernstein y Vicky Phares. Introducción a la psicología clínica. 7.ª ed. Upper Saddle River, NJ: Pearson Prentice Hall, 2009. Impreso.
^ ab Cronbach, Lee J.; Meehl, Paul E. (1955). "Validez de constructo en tests psicológicos". Psychological Bulletin . 52 (4): 281–302. doi :10.1037/h0040957. hdl : 11299/184279 . ISSN 0033-2909. PMID 13245896. S2CID 5312179.
^ Arghami, Shirazeh; Sadeghi, Gholamreza; Abbasi Chenari, Mohsen (2020). "Reevaluación de las propiedades psicométricas de la versión persa del cuestionario de conducta al volante de Manchester". Salud ocupacional de Irán . 17 (8): 1–19.
^ Foxcroft, C., Paterson, H., le Roux, N., y Herbst, D. Consejo de Investigación de Ciencias Humanas, (2004). 'Evaluación psicológica en Sudáfrica: un análisis de necesidades: los patrones de uso de pruebas y las necesidades de los profesionales de la evaluación psicológica: informe final: julio de . Recuperado del sitio web: http://www.hsrc.ac.za/research/output/outputDocuments/1716_Foxcroft_Psychologicalassessmentin%20SA.pdf
^ Las estimaciones más comunes son de entre 40.000 y 60.000 muertes. Brian Levack ( The Witch Hunt in Early Modern Europe ) multiplicó el número de juicios por brujería conocidos en Europa por la tasa media de condenas y ejecuciones, para llegar a una cifra de alrededor de 60.000 muertes. Anne Lewellyn Barstow ( Witchcraze ) ajustó la estimación de Levack para tener en cuenta los registros perdidos, estimando 100.000 muertes. Ronald Hutton ( Triumph of the Moon ) sostiene que la estimación de Levack ya había sido ajustada para estos, y revisa la cifra a aproximadamente 40.000.
^ Cozby, Paul C.. Métodos en la investigación del comportamiento. 10ª ed. Boston: McGraw-Hill Higher Education, 2009. Impreso.
^ Jonathan Javid (6 de noviembre de 2015). «Validez y fiabilidad de las mediciones». slideshare.net . Consultado el 23 de marzo de 2018 .
^ Lin, Hause; Werner, Kaitlyn M.; Inzlicht, Michael (16 de febrero de 2021). "Promesas y peligros de la experimentación: el problema de la validez interna mutua". Perspectivas de la ciencia psicológica . 16 (4): 854–863. doi :10.1177/1745691620974773. ISSN 1745-6916. PMID 33593177. S2CID 231877717.
^ Schram, Arthur (1 de junio de 2005). "Artificialidad: La tensión entre validez interna y externa en experimentos económicos". Revista de Metodología Económica . 12 (2): 225–237. doi :10.1080/13501780500086081. ISSN 1350-178X. S2CID 145588503.
^ abcde Kendell, R; Jablensky, A (2003). "Distinguir entre la validez y la utilidad de los diagnósticos psiquiátricos". The American Journal of Psychiatry . 160 (1): 4–12. doi :10.1176/appi.ajp.160.1.4. PMID 12505793.
^ Kendler, KS (2006). "Reflexiones sobre la relación entre la genética psiquiátrica y la nosología psiquiátrica". The American Journal of Psychiatry . 163 (7): 1138–46. doi :10.1176/appi.ajp.163.7.1138. PMID 16816216.
^ Perri, FS; Lichtenwald, TG (2010). "El uso precario de la psicología forense como prueba: el caso de Timothy Masters" (PDF) . Champion Magazine (julio): 34–45.

Lectura adicional

Cronbach, LJ; Meehl, PE (1955), "Validez de constructo en pruebas psicológicas", Psychological Bulletin , 52 (4): 281–302, doi :10.1037/h0040957, hdl : 11299/184279 , PMID 13245896, S2CID 5312179
Rupp, AA; Pant, HA (2007), "Teoría de la validez", en Salkind, Neil J. (ed.), Enciclopedia de medición y estadística , SAGE Publishing

Wikiversidad tiene recursos de aprendizaje sobre Validez