La validez externa es la validez de aplicar las conclusiones de un estudio científico fuera del contexto de ese estudio. [1] En otras palabras, es el grado en que los resultados de un estudio pueden generalizarse o transportarse a otras situaciones, personas, estímulos y momentos. [2] [3] La generalizabilidad se refiere a la aplicabilidad de una muestra predefinida a una población más amplia, mientras que la transportabilidad se refiere a la aplicabilidad de una muestra a otra población objetivo. [2] Por el contrario, la validez interna es la validez de las conclusiones extraídas dentro del contexto de un estudio particular.
El análisis matemático de la validez externa se ocupa de determinar si es factible la generalización entre poblaciones heterogéneas y de idear métodos estadísticos y computacionales que produzcan generalizaciones válidas. [4]
Al establecer la validez externa, los investigadores tienden a identificar el "alcance" del estudio, que se refiere a la aplicabilidad o limitaciones de la teoría o argumento del estudio. [2] Esto implica definir la muestra del estudio y la población más amplia que la muestra representa. [2]
"Una amenaza a la validez externa es una explicación de cómo uno podría estar equivocado al hacer una generalización a partir de los hallazgos de un estudio en particular". [5] En la mayoría de los casos, la generalización es limitada cuando el efecto de un factor (es decir, la variable independiente ) depende de otros factores. Por lo tanto, todas las amenazas a la validez externa pueden describirse como interacciones estadísticas . [6] Algunos ejemplos incluyen:
Cabe señalar que la validez externa de un estudio está limitada por su validez interna . Si una inferencia causal realizada dentro de un estudio no es válida, entonces las generalizaciones de esa inferencia a otros contextos también serán inválidas.
Cook y Campbell [7] hicieron la distinción crucial entre generalizar a una población determinada y generalizar a subpoblaciones definidas por diferentes niveles de algún factor de fondo. Lynch ha sostenido que casi nunca es posible generalizar a poblaciones significativas, excepto como una instantánea de la historia, pero es posible probar el grado en que el efecto de alguna causa sobre alguna variable dependiente se generaliza a subpoblaciones que varían en algún factor de fondo. Eso requiere una prueba de si el efecto del tratamiento que se investiga está moderado por interacciones con uno o más factores de fondo. [6] [8]
Aunque enumerar las amenazas a la validez puede ayudar a los investigadores a evitar generalizaciones injustificadas, muchas de esas amenazas pueden ser desarmadas o neutralizadas de manera sistemática, de modo de permitir una generalización válida. En concreto, los hallazgos experimentales de una población pueden ser "reprocesados" o "recalibrados" de modo de evitar las diferencias poblacionales y producir generalizaciones válidas en una segunda población, donde no se pueden realizar experimentos. Pearl y Bareinboim [4] clasificaron los problemas de generalización en dos categorías: (1) aquellos que se prestan a una recalibración válida, y (2) aquellos en los que la validez externa es teóricamente imposible. Utilizando el cálculo de inferencia causal basado en grafos , [9] derivaron una condición necesaria y suficiente para que una instancia del problema permita una generalización válida, e idearon algoritmos que producen automáticamente la recalibración necesaria, siempre que exista. [10] Esto reduce el problema de la validez externa a un ejercicio de teoría de grafos, y ha llevado a algunos filósofos a concluir que el problema ahora está resuelto. [11]
Una variante importante del problema de validez externa se ocupa del sesgo de selección , también conocido como sesgo de muestreo , es decir, el sesgo creado cuando los estudios se realizan en muestras no representativas de la población prevista. Por ejemplo, si se realiza un ensayo clínico en estudiantes universitarios, un investigador puede desear saber si los resultados se generalizan a toda la población, donde los atributos como la edad, la educación y los ingresos difieren sustancialmente de los de un estudiante típico. El método basado en gráficos de Bareinboim y Pearl identifica las condiciones bajo las cuales se puede evitar el sesgo de selección de muestra y, cuando se cumplen estas condiciones, el método construye un estimador imparcial del efecto causal promedio en toda la población. La principal diferencia entre la generalización a partir de estudios muestreados incorrectamente y la generalización a través de poblaciones dispares radica en el hecho de que las disparidades entre poblaciones generalmente son causadas por factores preexistentes, como la edad o la etnia, mientras que el sesgo de selección a menudo es causado por condiciones posteriores al tratamiento, por ejemplo, pacientes que abandonan el estudio o pacientes seleccionados por la gravedad de la lesión. Cuando la selección está regida por factores posteriores al tratamiento, se requieren métodos de recalibración no convencionales para garantizar una estimación libre de sesgos, y estos métodos se obtienen fácilmente del gráfico del problema. [12] [13]
Si se considera que la edad es un factor importante que hace que el efecto del tratamiento varíe de un individuo a otro, entonces las diferencias de edad entre los estudiantes muestreados y la población general conducirían a una estimación sesgada del efecto promedio del tratamiento en esa población. Sin embargo, dicho sesgo se puede corregir mediante un procedimiento simple de reponderación: tomamos el efecto específico de la edad en la subpoblación de estudiantes y calculamos su promedio utilizando la distribución de edad en la población general. Esto nos daría una estimación no sesgada del efecto promedio del tratamiento en la población. Si, por otro lado, el factor relevante que distingue la muestra del estudio de la población general se ve afectado en sí mismo por el tratamiento, entonces se debe invocar un esquema de reponderación diferente. Llamando a este factor Z , nuevamente promediamos el efecto específico de z de X sobre Y en la muestra experimental, pero ahora lo ponderamos por el "efecto causal" de X sobre Z . En otras palabras, el nuevo peso es la proporción de unidades que alcanzan el nivel Z = z si se hubiera administrado el tratamiento X = x a toda la población. Esta probabilidad intervencionista, a menudo escrita utilizando el cálculo Do [14] , a veces se puede estimar a partir de estudios observacionales en la población general.
Un ejemplo típico de esta naturaleza ocurre cuando Z es un mediador entre el tratamiento y el resultado. Por ejemplo, el tratamiento puede ser un fármaco para reducir el colesterol, Z puede ser el nivel de colesterol e Y la esperanza de vida. Aquí, Z se ve afectado por el tratamiento y es un factor importante en la determinación del resultado, Y . Supongamos que los sujetos seleccionados para el estudio experimental tienden a tener niveles de colesterol más altos de lo que es típico en la población general. Para estimar el efecto promedio del fármaco en la supervivencia en toda la población, primero calculamos el efecto del tratamiento específico de z en el estudio experimental y luego lo promediamos utilizando como una función de ponderación. La estimación obtenida estará libre de sesgo incluso cuando Z e Y se confundan, es decir, cuando hay un factor común no medido que afecta tanto a Z como a Y . [15]
Las condiciones precisas que garantizan la validez de este y otros esquemas de ponderación se formulan en Bareinboim y Pearl, 2016 [15] y Bareinboim et al., 2014. [13]
En muchos estudios y diseños de investigación, puede haber un equilibrio entre validez interna y validez externa: [16] [17] [18] Los intentos de aumentar la validez interna también pueden limitar la generalización de los hallazgos, y viceversa. Esta situación ha llevado a muchos investigadores a pedir experimentos "ecológicamente válidos". Con esto quieren decir que los procedimientos experimentales deben parecerse a las condiciones del "mundo real". Critican la falta de validez ecológica en muchos estudios de laboratorio que se centran en entornos controlados y restringidos artificialmente. Algunos investigadores piensan que la validez externa y la validez ecológica están estrechamente relacionadas en el sentido de que las inferencias causales basadas en diseños de investigación ecológicamente válidos a menudo permiten mayores grados de generalización que las obtenidas en un entorno de laboratorio producido artificialmente. Sin embargo, esto se relaciona nuevamente con la distinción entre generalizar a alguna población (estrechamente relacionada con las preocupaciones sobre la validez ecológica) y generalizar a través de subpoblaciones que difieren en algún factor de fondo. Algunos hallazgos producidos en entornos de investigación ecológicamente válidos pueden difícilmente ser generalizables, y algunos hallazgos producidos en entornos altamente controlados pueden reclamar una validez externa casi universal. Por tanto, la validez externa y la ecológica son independientes: un estudio puede poseer validez externa pero no validez ecológica, y viceversa.
Dentro del paradigma de la investigación cualitativa , la validez externa se sustituye por el concepto de transferibilidad, que es la capacidad de los resultados de una investigación de transferirse a situaciones con parámetros, poblaciones y características similares. [19]
Es habitual que los investigadores afirmen que los experimentos tienen, por su naturaleza, una baja validez externa. Algunos sostienen que pueden surgir muchos inconvenientes al seguir el método experimental. En virtud de obtener suficiente control sobre la situación como para asignar aleatoriamente a las personas a las condiciones y descartar los efectos de variables extrañas, la situación puede volverse algo artificial y distante de la vida real.
Hay dos tipos de generalización en cuestión:
Sin embargo, ambas consideraciones se refieren al concepto de Cook y Campbell de generalizar a una población objetivo en lugar de a la tarea posiblemente más central de evaluar la generalización de los hallazgos de un experimento a través de subpoblaciones que difieren de la situación específica estudiada y personas que difieren de los encuestados estudiados de alguna manera significativa. [7]
Los críticos de los experimentos sugieren que la validez externa podría mejorarse mediante el uso de escenarios de campo (o, como mínimo, escenarios de laboratorio realistas) y mediante el uso de muestras de probabilidad real de los encuestados. Sin embargo, si el objetivo es comprender la generalización entre subpoblaciones que difieren en factores situacionales o personales de fondo, estos remedios no tienen la eficacia para aumentar la validez externa que se les atribuye comúnmente. Si existen interacciones de tratamiento con factores de fondo X de las que el investigador no es consciente (como parece probable), estas prácticas de investigación pueden ocultar una falta sustancial de validez externa. Dipboye y Flanagan, escribiendo sobre psicología industrial y organizacional, señalan que la evidencia es que los hallazgos de un escenario de campo y de un escenario de laboratorio tienen la misma probabilidad de generalizarse a un segundo escenario de campo. [20] Por lo tanto, los estudios de campo no son por naturaleza altos en validez externa y los estudios de laboratorio no son por naturaleza bajos en validez externa. Depende en ambos casos de si el efecto del tratamiento particular estudiado cambiaría con los cambios en los factores de fondo que se mantienen constantes en ese estudio. Si un estudio es "irrealista" en el nivel de algún factor de fondo que no interactúa con los tratamientos, no tiene efecto sobre la validez externa. La validez externa sólo se ve amenazada si un experimento mantiene algún factor de fondo constante en un nivel irreal y si la variación de ese factor de fondo hubiera revelado una fuerte interacción entre el tratamiento y el factor de fondo. [6]
Las investigaciones en experimentos de psicología que se intentan en las universidades suelen ser criticadas por llevarse a cabo en situaciones artificiales y por no poder generalizarse a la vida real. [21] [22] Para resolver este problema, los psicólogos sociales intentan aumentar la generalización de sus resultados haciendo que sus estudios sean lo más realistas posible. Como se señaló anteriormente, esto se hace con la esperanza de generalizar a una población específica. El realismo per se no ayuda a hacer afirmaciones sobre si los resultados cambiarían si el entorno fuera de alguna manera más realista, o si los participantes del estudio se colocaran en un entorno realista diferente. Si solo se prueba un entorno, no es posible hacer afirmaciones sobre la generalización a través de entornos. [6] [8]
Sin embargo, muchos autores confunden validez externa y realismo. Hay más de una forma en que un experimento puede ser realista:
Esto se refiere al grado en el cual un experimento es similar a situaciones de la vida real como el realismo mundano del experimento. [21]
Es más importante garantizar que el estudio tenga un alto grado de realismo psicológico (qué tan similares son los procesos psicológicos desencadenados en un experimento a los procesos psicológicos que ocurren en la vida cotidiana). [23]
El realismo psicológico se acentúa si las personas se ven inmersas en un acontecimiento real. Para lograrlo, los investigadores a veces cuentan a los participantes una historia falsa , una descripción falsa del propósito del estudio. Sin embargo, si los investigadores les dijeran a los participantes el propósito del experimento, ese procedimiento sería poco realista. En la vida cotidiana, nadie sabe cuándo ocurrirán las emergencias y las personas no tienen tiempo para planificar respuestas ante ellas. Esto significa que los tipos de procesos psicológicos desencadenados diferirían ampliamente de los de una emergencia real, lo que reduciría el realismo psicológico del estudio. [3]
Las personas no siempre saben por qué hacen lo que hacen, o lo que hacen hasta que sucede. Por lo tanto, describir una situación experimental a los participantes y luego pedirles que respondan normalmente producirá respuestas que pueden no coincidir con el comportamiento de las personas que están realmente en la misma situación. No podemos depender de las predicciones de las personas sobre lo que harían en una situación hipotética; solo podemos averiguar lo que las personas harán realmente cuando construyamos una situación que desencadene los mismos procesos psicológicos que ocurren en el mundo real.
Los psicólogos sociales estudian la forma en que las personas, en general, son susceptibles a la influencia social. Varios experimentos han documentado un ejemplo interesante e inesperado de influencia social, en el que el mero hecho de saber que otras personas estaban presentes reducía la probabilidad de que las personas ayudaran.
La única manera de estar seguros de que los resultados de un experimento representan el comportamiento de una población en particular es asegurarse de que los participantes sean seleccionados al azar de esa población. Las muestras en los experimentos no pueden seleccionarse al azar como se hace en las encuestas porque es poco práctico y costoso seleccionar muestras aleatorias para experimentos de psicología social. Es bastante difícil convencer a una muestra aleatoria de personas para que acepten responder algunas preguntas por teléfono como parte de una encuesta política, y realizar tales encuestas puede costar miles de dólares. Además, incluso si de alguna manera uno pudiera reclutar una muestra verdaderamente aleatoria, puede haber heterogeneidad no observada en los efectos de los tratamientos experimentales... Un tratamiento puede tener un efecto positivo en algunos subgrupos pero un efecto negativo en otros. Los efectos mostrados en los promedios de los tratamientos pueden no generalizarse a ningún subgrupo. [6] [24]
Muchos investigadores abordan este problema estudiando los procesos psicológicos básicos que hacen que las personas sean susceptibles a la influencia social, suponiendo que estos procesos son tan fundamentales que son universalmente compartidos. Algunos procesos de la psicología social varían en diferentes culturas y, en esos casos, es necesario estudiar muestras diversas de personas. [25]
La prueba definitiva de la validez externa de un experimento es la replicación : realizar el estudio nuevamente, generalmente con diferentes poblaciones de sujetos o en diferentes entornos. Los investigadores suelen utilizar métodos diferentes para ver si obtienen los mismos resultados.
Cuando se realizan muchos estudios sobre un mismo problema, los resultados pueden variar. Algunos estudios pueden encontrar un efecto del número de espectadores en la conducta de ayuda, mientras que unos pocos no lo hacen. Para entender esto, existe una técnica estadística llamada metaanálisis que promedia los resultados de dos o más estudios para ver si el efecto de una variable independiente es confiable. Un metaanálisis nos dice básicamente la probabilidad de que los hallazgos en los resultados de muchos estudios sean atribuibles al azar o a la variable independiente. Si se encuentra que una variable independiente tiene un efecto en solo uno de 20 estudios, el metaanálisis nos dirá que ese estudio fue una excepción y que, en promedio, la variable independiente no está influyendo en la variable dependiente. Si una variable independiente tiene un efecto en la mayoría de los estudios, es probable que el metaanálisis nos diga que, en promedio, sí influye en la variable dependiente.
Puede haber fenómenos fiables que no se limitan al laboratorio. Por ejemplo, se ha descubierto que aumentar el número de espectadores inhibe la conducta de ayuda en muchos tipos de personas, incluidos niños, estudiantes universitarios y futuros ministros; [25] en Israel; [26] en pequeñas y grandes ciudades de los EE. UU.; [27] en una variedad de entornos, como laboratorios de psicología, calles de la ciudad y trenes subterráneos; [28] y con una variedad de tipos de emergencias, como convulsiones, posibles incendios, peleas y accidentes, [29] así como con eventos menos graves, como tener una rueda pinchada. [30] Muchas de estas réplicas se han llevado a cabo en entornos de la vida real donde las personas no podrían haber sabido de ninguna manera que se estaba llevando a cabo un experimento.
Al realizar experimentos en psicología, algunos creen que siempre existe un equilibrio entre la validez interna y la externa.
Algunos investigadores creen que una buena manera de aumentar la validez externa es realizar experimentos de campo . En un experimento de campo, se estudia el comportamiento de las personas fuera del laboratorio, en su entorno natural. Un experimento de campo es idéntico en diseño a un experimento de laboratorio, excepto que se lleva a cabo en un entorno de la vida real. Los participantes en un experimento de campo no son conscientes de que los eventos que experimentan son de hecho un experimento. Algunos afirman que la validez externa de un experimento de este tipo es alta porque se lleva a cabo en el mundo real, con personas reales que son más diversas que una muestra típica de estudiantes universitarios. Sin embargo, como los entornos del mundo real difieren drásticamente, los hallazgos en un entorno del mundo real pueden o no generalizarse a otro entorno del mundo real. [20]
Ni la validez interna ni la externa se capturan en un solo experimento. Los psicólogos sociales optan primero por la validez interna, realizando experimentos de laboratorio en los que las personas son asignadas aleatoriamente a diferentes condiciones y se controlan todas las variables externas. Otros psicólogos sociales prefieren la validez externa al control, realizando la mayor parte de sus investigaciones en estudios de campo, y muchos hacen ambas cosas. En conjunto, ambos tipos de estudios cumplen los requisitos del experimento perfecto. A través de la replicación, los investigadores pueden estudiar una pregunta de investigación dada con máxima validez interna y externa. [31]