La validez es el grado principal en el que un concepto , conclusión o medición está bien fundamentado y probablemente corresponde con precisión al mundo real. [1] [2] La palabra "válido" se deriva del latín validus, que significa fuerte. La validez de una herramienta de medición (por ejemplo, una prueba en educación) es el grado en el que la herramienta mide lo que dice medir. [3] La validez se basa en la solidez de una colección de diferentes tipos de evidencia (por ejemplo, validez aparente, validez de constructo, etc.) que se describe con mayor detalle a continuación.
En psicometría , la validez tiene una aplicación particular conocida como validez de prueba : "el grado en el que la evidencia y la teoría respaldan las interpretaciones de los puntajes de las pruebas" ("tal como lo implican los usos propuestos de las pruebas"). [4]
En general, se acepta que el concepto de validez científica aborda la naturaleza de la realidad en términos de medidas estadísticas y, como tal, es una cuestión epistemológica y filosófica , así como una cuestión de medición . El uso del término en lógica es más restringido y se relaciona con la relación entre las premisas y la conclusión de un argumento. En lógica, la validez se refiere a la propiedad de un argumento por la cual, si las premisas son verdaderas, entonces la verdad de la conclusión se sigue necesariamente. La conclusión de un argumento es verdadera si el argumento es sólido, es decir, si el argumento es válido y sus premisas son verdaderas. Por el contrario, la "validez científica o estadística" no es una afirmación deductiva que necesariamente preserve la verdad, sino una afirmación inductiva que sigue siendo verdadera o falsa de manera indecidida. Es por eso que la "validez científica o estadística" es una afirmación que se califica como fuerte o débil en su naturaleza, nunca es necesaria ni ciertamente verdadera. Esto tiene el efecto de hacer que las afirmaciones de "validez científica o estadística" estén abiertas a la interpretación en cuanto a lo que, de hecho, significan los hechos del asunto.
La validez es importante porque puede ayudar a determinar qué tipos de pruebas utilizar y ayudar a garantizar que los investigadores estén utilizando métodos que no sólo sean éticos y rentables, sino también que realmente midan las ideas o constructos en cuestión.
La validez [5] de una evaluación es el grado en que mide lo que se supone que debe medir. Esto no es lo mismo que la confiabilidad , que es el grado en que una medición da resultados que son muy consistentes. Dentro de la validez, la medición no siempre tiene que ser similar, como ocurre en la confiabilidad. Sin embargo, el hecho de que una medida sea confiable no significa necesariamente que sea válida. Por ejemplo, una báscula que está 5 libras por debajo es confiable pero no válida. Una prueba no puede ser válida a menos que sea confiable. La validez también depende de que la medición mida lo que fue diseñada para medir, y no otra cosa en su lugar. [6] La validez (similar a la confiabilidad) es un concepto relativo; la validez no es una idea de todo o nada. Hay muchos tipos diferentes de validez.
La validez de constructo se refiere al grado en que las operacionalizaciones de un constructo (por ejemplo, las pruebas prácticas desarrolladas a partir de una teoría) miden un constructo tal como lo define una teoría. Subsume todos los demás tipos de validez. Por ejemplo, el grado en que una prueba mide la inteligencia es una cuestión de validez de constructo. Una medida de inteligencia presupone, entre otras cosas, que la medida está asociada con cosas con las que debería estar asociada ( validez convergente ), no asociada con cosas con las que no debería estar asociada ( validez discriminante ). [7]
La evidencia de validez de constructo implica el respaldo empírico y teórico para la interpretación del constructo. Estas líneas de evidencia incluyen análisis estadísticos de la estructura interna de la prueba, incluidas las relaciones entre las respuestas a diferentes ítems de la prueba. También incluyen relaciones entre la prueba y las mediciones de otros constructos. Tal como se entiende actualmente, la validez de constructo no es distinta del respaldo a la teoría sustantiva del constructo que la prueba está diseñada para medir. Como tal, los experimentos diseñados para revelar aspectos del papel causal del constructo también contribuyen a la construcción de evidencia de validez. [7]
La validez de contenido es un tipo de validez no estadística que implica "el examen sistemático del contenido de una prueba para determinar si cubre una muestra representativa del dominio de conducta que se va a medir" (Anastasi y Urbina, 1997, pág. 114). Por ejemplo, ¿un cuestionario de CI tiene ítems que cubren todas las áreas de inteligencia analizadas en la literatura científica?
La evidencia de validez de contenido implica el grado en el que el contenido de la prueba coincide con un dominio de contenido asociado con el constructo. Por ejemplo, una prueba de la capacidad de sumar dos números debe incluir un rango de combinaciones de dígitos. Una prueba con solo números de un dígito, o solo números pares, no tendría una buena cobertura del dominio de contenido. La evidencia relacionada con el contenido generalmente implica un experto en la materia (SME) que evalúa los elementos de la prueba contra las especificaciones de la prueba. Los expertos deben prestar atención a cualquier diferencia cultural. Por ejemplo, cuando un cuestionario de evaluación de conducción adopta de Inglaterra (por ejemplo, DBQ), los expertos deben considerar la conducción por la derecha en Gran Bretaña. Algunos estudios encontraron que esto será crítico para obtener un cuestionario válido. [8] Antes de pasar a la administración final de los cuestionarios, el investigador debe consultar la validez de los elementos contra cada uno de los constructos o variables y, en consecuencia, modificar los instrumentos de medición sobre la base de la opinión del SME.
La validez de contenido de una prueba se basa en una cuidadosa selección de los ítems que se incluirán (Anastasi y Urbina, 1997). Los ítems se eligen de modo que cumplan con las especificaciones de la prueba, que se elaboran mediante un examen exhaustivo del dominio del sujeto. Foxcroft, Paterson, le Roux y Herbst (2004, p. 49) [9] señalan que, al utilizar un panel de expertos para revisar las especificaciones de la prueba y la selección de ítems, se puede mejorar la validez de contenido de una prueba. Los expertos podrán revisar los ítems y comentar si cubren una muestra representativa del dominio de la conducta.
La validez aparente es una estimación de si una prueba parece medir un determinado criterio; no garantiza que la prueba realmente mida fenómenos en ese dominio. Las medidas pueden tener una validez alta, pero cuando la prueba no parece medir lo que mide, tiene una validez aparente baja. De hecho, cuando una prueba está sujeta a falsificaciones (simulación), una validez aparente baja puede hacer que la prueba sea más válida. Teniendo en cuenta que se pueden obtener respuestas más honestas con una validez aparente baja, a veces es importante hacer que parezca que hay una validez aparente baja al administrar las medidas.
La validez aparente está muy relacionada con la validez de contenido. Mientras que la validez de contenido depende de una base teórica para suponer si una prueba evalúa todos los dominios de un determinado criterio (por ejemplo, ¿evaluar las habilidades de suma arroja un buen resultado en las habilidades matemáticas? Para responder a esta pregunta, hay que saber qué tipos de habilidades aritméticas incluyen las habilidades matemáticas), la validez aparente se relaciona con si una prueba parece ser una buena medida o no. Este juicio se realiza sobre la "apariencia" de la prueba, por lo que también puede ser juzgada por un aficionado.
La validez aparente es un punto de partida, pero nunca debe asumirse que sea probablemente válida para un propósito determinado, ya que los "expertos" se han equivocado antes: el Malleus Malificarum (Martillo de las Brujas) no tenía ningún respaldo para sus conclusiones más allá de la competencia autoimaginada de dos "expertos" en "detección de brujería", pero fue utilizado como una "prueba" para condenar y quemar en la hoguera a decenas de miles de hombres y mujeres como "brujas". [10]
La evidencia de validez de criterio implica la correlación entre la prueba y una variable de criterio (o variables) consideradas representativas del constructo. En otras palabras, compara la prueba con otras medidas o resultados (los criterios) que ya se consideran válidos. Por ejemplo, las pruebas de selección de empleados suelen validarse con medidas de desempeño laboral (el criterio), y las pruebas de CI suelen validarse con medidas de desempeño académico (el criterio).
Si los datos de prueba y los datos de criterio se recogen al mismo tiempo, se habla de evidencia de validez concurrente. Si los datos de prueba se recogen primero para predecir los datos de criterio recogidos en un momento posterior, se habla de evidencia de validez predictiva.
La validez concurrente se refiere al grado en que la operacionalización se correlaciona con otras medidas del mismo constructo que se miden al mismo tiempo. Cuando la medida se compara con otra medida del mismo tipo, estarán relacionadas (o correlacionadas). Volviendo al ejemplo de la prueba de selección, esto significaría que las pruebas se administran a los empleados actuales y luego se correlacionan con sus puntuaciones en las evaluaciones de desempeño.
La validez predictiva se refiere al grado en que la operacionalización puede predecir (o correlacionarse con) otras medidas del mismo constructo que se midan en algún momento en el futuro. Nuevamente, con el ejemplo de la prueba de selección, esto significaría que las pruebas se administran a los solicitantes, todos los solicitantes son contratados, su desempeño se evalúa en un momento posterior y luego se correlacionan sus puntajes en las dos medidas.
Esto también ocurre cuando la medición predice una relación entre lo que se mide y algo más; predice si lo otro sucederá o no en el futuro. Una alta correlación entre los resultados previstos ex ante y los resultados reales ex post es la prueba más sólida de validez.
La validez del diseño de los estudios de investigación experimental es una parte fundamental del método científico [ 2] y una preocupación de la ética de la investigación . Sin un diseño válido, no se pueden extraer conclusiones científicas válidas.
La validez de las conclusiones estadísticas es el grado en que las conclusiones sobre la relación entre las variables basadas en los datos son correctas o "razonables". En un principio, se trataba únicamente de determinar si la conclusión estadística sobre la relación entre las variables era correcta, pero ahora se está avanzando hacia conclusiones "razonables" que utilizan datos cuantitativos, estadísticos y cualitativos. [11]
La validez de la conclusión estadística implica asegurar el uso de procedimientos de muestreo adecuados, pruebas estadísticas apropiadas y procedimientos de medición confiables. [12] Como este tipo de validez se ocupa únicamente de la relación que se encuentra entre las variables, la relación puede ser únicamente una correlación.
La validez interna es una estimación inductiva del grado en que se pueden extraer conclusiones sobre relaciones causales (por ejemplo, causa y efecto), basándose en las medidas utilizadas, el contexto de la investigación y el diseño de la investigación en su conjunto. Las buenas técnicas experimentales, en las que se estudia el efecto de una variable independiente sobre una variable dependiente en condiciones muy controladas, suelen permitir grados más altos de validez interna que, por ejemplo, los diseños de caso único.
Ocho tipos de variables de confusión pueden interferir con la validez interna (es decir, con el intento de aislar relaciones causales):
La validez externa se refiere al grado en que los resultados (internamente válidos) de un estudio pueden considerarse verdaderos para otros casos, por ejemplo, para diferentes personas, lugares o momentos. En otras palabras, se trata de si los hallazgos pueden generalizarse de manera válida. Si el mismo estudio de investigación se llevara a cabo en esos otros casos, ¿obtendría los mismos resultados?
Un factor importante a tener en cuenta es si la muestra del estudio (por ejemplo, los participantes de la investigación) es representativa de la población general en las dimensiones pertinentes. Otros factores que ponen en peligro la validez externa son:
La validez ecológica es el grado en que los resultados de una investigación pueden aplicarse a situaciones de la vida real fuera de los entornos de investigación. Esta cuestión está estrechamente relacionada con la validez externa, pero abarca la cuestión de hasta qué punto los hallazgos experimentales reflejan lo que se puede observar en el mundo real (ecología = la ciencia de la interacción entre los organismos y su entorno). Para que sean ecológicamente válidos, los métodos, los materiales y el entorno de un estudio deben aproximarse a la situación de la vida real que se está investigando.
La validez ecológica está relacionada en parte con la cuestión de la experimentación frente a la observación. Normalmente, en la ciencia hay dos dominios de investigación: observacional (pasivo) y experimental (activo). El propósito de los diseños experimentales es comprobar la causalidad, de modo que se pueda inferir que A causa B o que B causa A. Pero a veces, las restricciones éticas y/o metodológicas impiden realizar un experimento (por ejemplo, ¿cómo influye el aislamiento en el funcionamiento cognitivo de un niño?). En ese caso, se puede seguir haciendo una investigación, pero no es causal, sino correlacional. Solo se puede concluir que A ocurre junto con B. Ambas técnicas tienen sus puntos fuertes y sus puntos débiles.
A primera vista, la validez interna y la externa parecen contradecirse: para conseguir un diseño experimental hay que controlar todas las variables que interfieren. Por eso, a menudo se realizan los experimentos en un entorno de laboratorio. Si bien se gana validez interna (excluyendo las variables que interfieren manteniéndolas constantes), se pierde validez ecológica o externa porque se establece un entorno de laboratorio artificial. Por otro lado, con la investigación observacional no se pueden controlar las variables que interfieren (baja validez interna), pero se puede medir en el entorno natural (ecológico), en el lugar donde normalmente se produce el comportamiento. Sin embargo, al hacerlo, se sacrifica la validez interna.
La aparente contradicción entre validez interna y validez externa es, sin embargo, sólo superficial. La cuestión de si los resultados de un estudio particular se pueden generalizar a otras personas, lugares o épocas surge sólo cuando se sigue una estrategia de investigación inductivista . Si el objetivo de un estudio es comprobar deductivamente una teoría, sólo se preocupan de los factores que podrían socavar el rigor del estudio, es decir, las amenazas a la validez interna. En otras palabras, la relevancia de la validez externa e interna para un estudio de investigación depende de los objetivos del estudio. Además, mezclar los objetivos de la investigación con las preocupaciones sobre la validez puede conducir al problema de la validez interna mutua, en el que las teorías sólo pueden explicar fenómenos en entornos de laboratorio artificiales, pero no en el mundo real. [13] [14]
En psiquiatría existe un problema particular con la evaluación de la validez de las categorías diagnósticas en sí mismas. En este contexto: [15]
En 1970, Robins y Guze propusieron lo que se convertirían en criterios formales influyentes para establecer la validez de los diagnósticos psiquiátricos. Enumeraron cinco criterios: [15]
Estos se incorporaron a los Criterios Feighner y a los Criterios de Diagnóstico de Investigación que desde entonces han formado la base de los sistemas de clasificación DSM y CIE.
Kendler en 1980 distinguió entre: [15]
Nancy Andreasen (1995) enumeró varios validadores adicionales ( genética molecular y biología molecular , neuroquímica , neuroanatomía , neurofisiología y neurociencia cognitiva ) que son potencialmente capaces de vincular los síntomas y diagnósticos con sus sustratos neuronales . [15]
Kendell y Jablinsky (2003) enfatizaron la importancia de distinguir entre validez y utilidad , y argumentaron que las categorías diagnósticas definidas por sus síndromes deberían considerarse válidas sólo si se ha demostrado que son entidades discretas con límites naturales que las separan de otros trastornos. [15]
Kendler (2006) enfatizó que para ser útil, un criterio de validación debe ser lo suficientemente sensible como para validar la mayoría de los síndromes que son verdaderos trastornos, y al mismo tiempo lo suficientemente específico como para invalidar la mayoría de los síndromes que no son verdaderos trastornos. Sobre esta base, sostiene que un criterio de Robins y Guze de "se transmite en la familia" es inadecuadamente específico porque la mayoría de los rasgos físicos y psicológicos humanos calificarían - por ejemplo, un síndrome arbitrario que comprenda una mezcla de "altura de más de 6 pies, cabello rojo y nariz grande" se considerará "transmisible" y " hereditario ", pero esto no debería considerarse evidencia de que sea un trastorno. Kendler ha sugerido además que los modelos genéticos " esencialistas " de los trastornos psiquiátricos, y la esperanza de que podamos validar diagnósticos psiquiátricos categóricos "tallando la naturaleza por sus articulaciones" únicamente como resultado del descubrimiento de genes, son improbables. [16]
En el sistema de tribunales federales de los Estados Unidos, la validez y la fiabilidad de las pruebas se evalúan utilizando el estándar Daubert: véase Daubert v. Merrell Dow Pharmaceuticals . Perri y Lichtenwald (2010) ofrecen un punto de partida para un debate sobre una amplia gama de temas de fiabilidad y validez en su análisis de una condena por homicidio injusto. [17]
El problema de la validez es el de si una prueba mide realmente lo que pretende medir...