Modelo causal

En metafísica , un modelo causal (o modelo causal estructural ) es un modelo conceptual que describe los mecanismos causales de un sistema . Se pueden utilizar varios tipos de notación causal en el desarrollo de un modelo causal. Los modelos causales pueden mejorar los diseños de estudio al proporcionar reglas claras para decidir qué variables independientes deben incluirse o controlarse.

Pueden permitir que se respondan algunas preguntas a partir de datos observacionales existentes sin la necesidad de un estudio de intervención, como un ensayo controlado aleatorio . Algunos estudios de intervención son inadecuados por razones éticas o prácticas, lo que significa que sin un modelo causal, algunas hipótesis no se pueden probar.

Los modelos causales pueden ayudar a resolver la cuestión de la validez externa (si los resultados de un estudio se aplican a poblaciones no estudiadas). Los modelos causales pueden permitir que se fusionen datos de múltiples estudios (en determinadas circunstancias) para responder preguntas que no pueden responderse con ningún conjunto de datos individual.

Los modelos causales han encontrado aplicaciones en el procesamiento de señales , la epidemiología y el aprendizaje automático . ^[2]

Definición

Los modelos causales son modelos matemáticos que representan relaciones causales dentro de un sistema individual o de una población. Facilitan la inferencia sobre relaciones causales a partir de datos estadísticos. Pueden enseñarnos mucho sobre la epistemología de la causalidad y sobre la relación entre causalidad y probabilidad. También se han aplicado a temas de interés para los filósofos, como la lógica de los contrafácticos, la teoría de la decisión y el análisis de la causalidad real. ^[3]
— Enciclopedia de filosofía de Stanford

Judea Pearl define un modelo causal como una triple ordenada , donde U es un conjunto de variables exógenas cuyos valores están determinados por factores externos al modelo; V es un conjunto de variables endógenas cuyos valores están determinados por factores internos al modelo; y E es un conjunto de ecuaciones estructurales que expresan el valor de cada variable endógena en función de los valores de las otras variables en U y V. ^[2] $\langle U,V,E\rangle$

Historia

Aristóteles definió una taxonomía de causalidad que incluye causas materiales, formales, eficientes y finales. Hume rechazó la taxonomía de Aristóteles en favor de los contrafácticos . En un momento dado, negó que los objetos tengan "poderes" que hagan de uno una causa y de otro un efecto. Más tarde adoptó la "si el primer objeto no hubiera existido, el segundo nunca hubiera existido" ( causalidad " de no ser por "). ^[4]

A fines del siglo XIX, comenzó a tomar forma la disciplina de la estadística. Después de años de esfuerzos para identificar reglas causales para dominios como la herencia biológica, Galton introdujo el concepto de regresión media (epítome de la mala racha de los deportes en el segundo año de secundaria), que más tarde lo llevó al concepto no causal de correlación . ^[4]

Como positivista , Pearson eliminó la noción de causalidad de gran parte de la ciencia como un caso especial de asociación no demostrable e introdujo el coeficiente de correlación como la métrica de asociación. Escribió: "La fuerza como causa del movimiento es exactamente lo mismo que un dios árbol como causa del crecimiento" y que la causalidad era solo un "fetiche entre los arcanos inescrutables de la ciencia moderna". Pearson fundó Biometrika y el Laboratorio de Biometría en el University College de Londres , que se convirtió en el líder mundial en estadística. ^[4]

En 1908, Hardy y Weinberg resolvieron el problema de la estabilidad de los rasgos que había llevado a Galton a abandonar la causalidad, resucitando la herencia mendeliana . ^[4]

En 1921, el análisis de trayectorias de Wright se convirtió en el antecesor teórico del modelado causal y los gráficos causales . ^[5] Desarrolló este enfoque mientras intentaba desenredar los impactos relativos de la herencia , el desarrollo y el medio ambiente en los patrones de pelaje de los conejillos de indias . Respaldó sus afirmaciones, entonces heréticas, al mostrar cómo dichos análisis podían explicar la relación entre el peso al nacer de los conejillos de indias, el tiempo en el útero y el tamaño de la camada. La oposición a estas ideas por parte de destacados estadísticos llevó a que se las ignorara durante los siguientes 40 años (excepto entre los criadores de animales). En cambio, los científicos se basaron en correlaciones, en parte a instancias del crítico de Wright (y destacado estadístico), Fisher . ^[4] Una excepción fue Burks , una estudiante que en 1926 fue la primera en aplicar diagramas de trayectorias para representar una influencia mediadora ( mediador ) y en afirmar que mantener un mediador constante induce errores. Es posible que haya inventado los diagramas de trayectorias de forma independiente. ^[4]^{: 304}

En 1923, Neyman introdujo el concepto de resultado potencial, pero su artículo no fue traducido del polaco al inglés hasta 1990. ^[4]^{: 271}

En 1958, Cox advirtió que controlar una variable Z es válido sólo si es muy poco probable que se vea afectada por variables independientes. ^[4]^{: 154}

En la década de 1960, Duncan , Blalock , Goldberger y otros redescubrieron el análisis de trayectorias. Mientras leía el trabajo de Blalock sobre diagramas de trayectorias, Duncan recordó una conferencia dada por Ogburn veinte años antes que mencionaba un artículo de Wright que a su vez mencionaba a Burks. ^[4]^{: 308}

Los sociólogos originalmente llamaron a los modelos causales modelos de ecuaciones estructurales , pero una vez que se convirtió en un método rutinario, perdió su utilidad, lo que llevó a algunos profesionales a rechazar cualquier relación con la causalidad. Los economistas adoptaron la parte algebraica del análisis de trayectorias, llamándola modelos de ecuaciones simultáneas. Sin embargo, los economistas todavía evitaban atribuir un significado causal a sus ecuaciones. ^[4]

Sesenta años después de su primer artículo, Wright publicó un artículo que lo recapitulaba, siguiendo la crítica de Karlin et al., que objetaba que sólo manejaba relaciones lineales y que las presentaciones de datos robustas y libres de modelos eran más reveladoras. ^[4]

En 1973 Lewis abogó por reemplazar la correlación por la causalidad contrafactual. Hizo referencia a la capacidad de los humanos de imaginar mundos alternativos en los que una causa ocurría o no, y en los que un efecto aparecía sólo después de su causa. ^[4]^{: 266} En 1974 Rubin introdujo la noción de "resultados potenciales" como un lenguaje para plantear preguntas causales. ^[4]^{: 269}

En 1983, Cartwright propuso que cualquier factor que sea "causalmente relevante" para un efecto sea condicionado, yendo más allá de la simple probabilidad como única guía. ^[4]^{: 48}

En 1986, Baron y Kenny introdujeron principios para detectar y evaluar la mediación en un sistema de ecuaciones lineales. En 2014, su artículo fue el 33.º más citado de todos los tiempos. ^[4]^{: 324} Ese año, Greenland y Robins introdujeron el enfoque de "intercambiabilidad" para manejar la confusión al considerar un contrafactual. Propusieron evaluar lo que le habría sucedido al grupo de tratamiento si no hubiera recibido el tratamiento y comparar ese resultado con el del grupo de control. Si coincidían, se decía que no había confusión. ^[4]^{: 154}

Escalera de causalidad

El metamodelo causal de Pearl implica una abstracción de tres niveles que él llama la escalera de la causalidad. El nivel más bajo, Asociación (ver/observar), implica la detección de regularidades o patrones en los datos de entrada, expresados como correlaciones. El nivel medio, Intervención (hacer), predice los efectos de las acciones deliberadas, expresados como relaciones causales. El nivel más alto, Contrafactuales (imaginar), implica la construcción de una teoría del mundo (o parte de él) que explica por qué acciones específicas tienen efectos específicos y qué sucede en ausencia de tales acciones. ^[4]

Asociación

Un objeto se asocia con otro si la observación de uno cambia la probabilidad de observar el otro. Ejemplo: los compradores que compran pasta de dientes tienen más probabilidades de comprar también hilo dental. Matemáticamente:

P(\mathrm {hilo dental} |\mathrm {pasta de dientes})

o la probabilidad de (comprar) hilo dental dada (la compra de) pasta de dientes. Las asociaciones también se pueden medir calculando la correlación de los dos eventos. Las asociaciones no tienen implicaciones causales. Un evento podría causar el otro, lo inverso podría ser cierto, o ambos eventos podrían ser causados por un tercer evento (un higienista infeliz avergüenza al comprador para que trate mejor su boca). ^[4]

Intervención

Este nivel afirma que existen relaciones causales específicas entre eventos. La causalidad se evalúa realizando experimentalmente alguna acción que afecte a uno de los eventos. Ejemplo: después de duplicar el precio de la pasta de dientes, ¿cuál sería la nueva probabilidad de compra? La causalidad no se puede establecer examinando el historial (de cambios de precios) porque el cambio de precio puede haber sido por alguna otra razón que podría afectar al segundo evento (un arancel que aumenta el precio de ambos bienes). Matemáticamente:

P(\mathrm {hilo dental} |hacer(\mathrm {pasta de dientes} ))

donde do es un operador que señala la intervención experimental (duplicar el precio). ^[4] El operador indica realizar el cambio mínimo en el mundo necesario para crear el efecto deseado, una "mini-cirugía" en el modelo con el menor cambio posible respecto de la realidad. ^[6]

Contrafactuales

El nivel más alto, el contrafáctico, implica considerar una versión alternativa de un evento pasado, o lo que sucedería en circunstancias diferentes para la misma unidad experimental. Por ejemplo, ¿cuál es la probabilidad de que, si una tienda hubiera duplicado el precio del hilo dental, el comprador que compró la pasta de dientes lo hubiera comprado igualmente?

P(\mathrm {hilo dental} |\mathrm {pasta de dientes}, 2*\mathrm {precio} )

Los contrafácticos pueden indicar la existencia de una relación causal. Los modelos que pueden responder a los contrafácticos permiten intervenciones precisas cuyas consecuencias pueden predecirse. En casos extremos, estos modelos se aceptan como leyes físicas (como en las leyes de la física, por ejemplo, la inercia, que dice que si no se aplica fuerza a un objeto estacionario, no se moverá). ^[4]

Causalidad

Causalidad vs correlación

La estadística gira en torno al análisis de las relaciones entre múltiples variables. Tradicionalmente, estas relaciones se describen como correlaciones , asociaciones sin ninguna relación causal implícita. Los modelos causales intentan ampliar este marco añadiendo la noción de relaciones causales, en las que los cambios en una variable provocan cambios en otras. ^[2]

Las definiciones de causalidad del siglo XX se basaban exclusivamente en probabilidades/asociaciones. Se decía que un acontecimiento ( ) causaba otro si aumentaba la probabilidad del otro ( ). Matemáticamente, esto se expresa así: ${\estilo de visualización X}$ ${\estilo de visualización Y}$

P(Y|X)>P(Y)

Estas definiciones son inadecuadas porque otras relaciones (por ejemplo, una causa común para y ) pueden satisfacer la condición. La causalidad es relevante para el segundo paso de la escalera. Las asociaciones están en el primer paso y solo proporcionan evidencia para el último. ^[4] ${\estilo de visualización X}$ ${\estilo de visualización Y}$

Una definición posterior intentó abordar esta ambigüedad al condicionarla a factores de fondo. Matemáticamente:

P(Y|X,K=k)>P(Y|K=k)

donde es el conjunto de variables de fondo y representa los valores de esas variables en un contexto específico. Sin embargo, el conjunto requerido de variables de fondo es indeterminado (múltiples conjuntos pueden aumentar la probabilidad), siempre que la probabilidad sea el único criterio ^[^{aclaración necesaria}^] . ^[4] $K$ $k$

Otros intentos de definir la causalidad incluyen la causalidad de Granger , una prueba de hipótesis estadística que sostiene que la causalidad (en economía ) puede evaluarse midiendo la capacidad de predecir los valores futuros de una serie temporal utilizando valores anteriores de otra serie temporal. ^[4]

Tipos

Una causa puede ser necesaria, suficiente, contributiva o alguna combinación de ambas. ^[7]

Necesario

Para que x sea una causa necesaria de y , la presencia de y debe implicar la ocurrencia previa de x . Sin embargo, la presencia de x no implica que y ocurrirá. ^[8] Las causas necesarias también se conocen como causas "de no ser por", como en y no habría ocurrido si no fuera por la ocurrencia de x . ^[4]^{: 261}

Causas suficientes

Para que x sea una causa suficiente de y , la presencia de x debe implicar la ocurrencia posterior de y . Sin embargo, otra causa z puede causar y de forma independiente . Por lo tanto, la presencia de y no requiere la ocurrencia previa de x . ^[8]

Causas contributivas

Para que x sea una causa contributiva de y , la presencia de x debe aumentar la probabilidad de y . Si la probabilidad es del 100 %, entonces x se considera suficiente. También puede ser necesaria una causa contributiva. ^[9]

Modelo

Diagrama causal

Un diagrama causal es un gráfico dirigido que muestra relaciones causales entre variables en un modelo causal. Un diagrama causal incluye un conjunto de variables (o nodos ). Cada nodo está conectado por una flecha a uno o más nodos sobre los que tiene una influencia causal. Una punta de flecha delinea la dirección de la causalidad, por ejemplo, una flecha que conecta variables y con la punta de flecha en indica que un cambio en causa un cambio en (con una probabilidad asociada). Un camino es un recorrido del gráfico entre dos nodos siguiendo flechas causales. ^[4] $A$ $B$ $B$ $A$ $B$

Los diagramas causales incluyen diagramas de bucle causal , gráficos acíclicos dirigidos y diagramas de Ishikawa . ^[4]

Los diagramas causales son independientes de las probabilidades cuantitativas que los sustentan. Los cambios en esas probabilidades (por ejemplo, debidos a mejoras tecnológicas) no requieren cambios en el modelo. ^[4]

Elementos del modelo

Los modelos causales tienen estructuras formales con elementos con propiedades específicas. ^[4]

Patrones de unión

Los tres tipos de conexiones de tres nodos son cadenas lineales, bifurcaciones ramificadas y colisionadores fusionados. ^[4]

Cadena

Las cadenas son conexiones en línea recta con flechas que apuntan de la causa al efecto. En este modelo, es un mediador en el sentido de que media el cambio que de otro modo tendría lugar en . ^[4]^{: 113} $B$ $A$ $C$

A\rightarrow B\rightarrow C

Tenedor

En las bifurcaciones, una causa tiene múltiples efectos. Los dos efectos tienen una causa común. Existe una correlación espuria (no causal) entre y que puede eliminarse mediante el condicionamiento de (para un valor específico de ). ^[4]^{: 114} $A$ $C$ $B$ $B$

A\leftarrow B\rightarrow C

"Condicionar " significa "dado " (es decir, dado un valor de ). $B$ $B$ $B$

La elaboración de un tenedor es lo que confunde:

A\leftarrow B\rightarrow C\rightarrow A

En tales modelos, es una causa común de y (que también causa ), lo que hace que el factor de confusión ^[^{aclaración necesaria}^] . ^[4]^{: 114} $B$ $A$ $C$ $A$ $B$

Colisionador

En los colisionadores , múltiples causas afectan un resultado. El condicionamiento de (para un valor específico de ) a menudo revela una correlación negativa no causal entre y . Esta correlación negativa se ha denominado sesgo del colisionador y el efecto de "explicación" explica la correlación entre y . ^[4]^{: 115} La correlación puede ser positiva en el caso en que las contribuciones de ambos y sean necesarias para afectar a . ^[4]^{: 197} $B$ $B$ $A$ $C$ $B$ $A$ $C$ $A$ $C$ $B$

A\rightarrow B\leftarrow C

Tipos de nodos

Mediador

Un nodo mediador modifica el efecto de otras causas sobre un resultado (en lugar de simplemente afectar el resultado). ^[4]^{: 113} Por ejemplo, en el ejemplo de cadena anterior, es un mediador, porque modifica el efecto de (una causa indirecta de ) sobre (el resultado). $B$ $A$ $C$ $C$

Confusor

Un nodo de confusión afecta múltiples resultados, creando una correlación positiva entre ellos. ^[4]^{: 114}

Variable instrumental

Una variable instrumental es aquella que: ^[4]^{: 246}

tiene un camino hacia el resultado;
no tiene otro camino hacia las variables causales;
no tiene influencia directa en el resultado.

Los coeficientes de regresión pueden servir como estimaciones del efecto causal de una variable instrumental sobre un resultado, siempre que dicho efecto no esté sujeto a factores de confusión. De esta manera, las variables instrumentales permiten cuantificar los factores causales sin datos sobre factores de confusión. ^[4]^{: 249}

Por ejemplo, dado el modelo:

Z\rightarrow X\rightarrow Y\leftarrow U\rightarrow X

$Z$ es una variable instrumental, porque tiene un camino hacia el resultado y no está confundida, por ejemplo, por . $Y$ $U$

En el ejemplo anterior, si y toman valores binarios, entonces la suposición de que esto no ocurre se llama monotonía ^[^{aclaración necesaria}^] . ^[4]^{: 253} $Z$ $X$ $Z=0,X=1$

Los refinamientos de la técnica ^{[ aclaración necesaria ]} incluyen la creación de un instrumento ^{[ aclaración necesaria ]} condicionando otra variable ^{[ aclaración necesaria ]} para bloquear ^{[ aclaración necesaria ]} los caminos ^{[ aclaración necesaria ]} entre el instrumento y el factor de confusión ^{[ aclaración necesaria ]} y combinando múltiples variables para formar un único instrumento ^{[ aclaración necesaria ]} . ^[4]^{: 257}

Aleatorización mendeliana

Definición: La aleatorización mendeliana utiliza la variación medida en genes de función conocida para examinar el efecto causal de una exposición modificable sobre la enfermedad en estudios observacionales . ^[10]^[11]

Debido a que los genes varían aleatoriamente entre poblaciones, la presencia de un gen generalmente califica como una variable instrumental, lo que implica que en muchos casos, la causalidad se puede cuantificar utilizando regresión en un estudio observacional. ^[4]^{: 255}

Asociaciones

Condiciones de independencia

Las condiciones de independencia son reglas para decidir si dos variables son independientes entre sí. Las variables son independientes si los valores de una no afectan directamente los valores de la otra. Múltiples modelos causales pueden compartir condiciones de independencia. Por ejemplo, los modelos

A\rightarrow B\rightarrow C

A\leftarrow B\rightarrow C

tienen las mismas condiciones de independencia, porque el condicionamiento en hojas y independientes. Sin embargo, los dos modelos no tienen el mismo significado y pueden ser falsificados en función de los datos (es decir, si los datos observacionales muestran una asociación entre y después del condicionamiento en , entonces ambos modelos son incorrectos). Por el contrario, los datos no pueden mostrar cuál de estos dos modelos es correcto, porque tienen las mismas condiciones de independencia. $B$ $A$ $C$ $A$ $C$ $B$

El condicionamiento de una variable es un mecanismo para realizar experimentos hipotéticos. El condicionamiento de una variable implica analizar los valores de otras variables para un valor dado de la variable condicionada. En el primer ejemplo, el condicionamiento de implica que las observaciones para un valor dado de no deben mostrar dependencia entre y . Si existe tal dependencia, entonces el modelo es incorrecto. Los modelos no causales no pueden hacer tales distinciones, porque no hacen afirmaciones causales. ^[4]^{: 129–130} $B$ $B$ $A$ $C$

Factor de confusión/factor de desconfusión

Un elemento esencial del diseño de un estudio correlacional es identificar las posibles influencias que pueden causar confusión en la variable en estudio, como los datos demográficos. Estas variables se controlan para eliminar esas influencias. Sin embargo, la lista correcta de variables que pueden causar confusión no se puede determinar a priori . Por lo tanto, es posible que un estudio controle variables irrelevantes o incluso (indirectamente) la variable en estudio. ^[4]^{: 139}

Los modelos causales ofrecen una técnica robusta para identificar variables de confusión adecuadas. Formalmente, Z es un factor de confusión si "Y está asociado con Z a través de caminos que no pasan por X". Estos a menudo se pueden determinar utilizando datos recopilados para otros estudios. Matemáticamente, si

P(Y|X)\neq P(Y|do(X))

X e Y se confunden (por alguna variable de confusión Z). ^[4]^{: 151}

Entre las definiciones anteriores, supuestamente incorrectas, de factor de confusión se incluyen: ^[4]^{: 152}

"Cualquier variable que esté correlacionada con X e Y."
Y se asocia con Z entre los no expuestos.
No colapsabilidad: Una diferencia entre el "riesgo relativo crudo y el riesgo relativo resultante después del ajuste por el factor de confusión potencial".
Epidemiológico: Variable asociada con X en la población en general y asociada con Y entre personas no expuestas a X.

Este último es defectuoso porque en el modelo:

X\rightarrow Z\rightarrow Y

Z coincide con la definición, pero es un mediador, no un factor de confusión, y es un ejemplo de control del resultado.

En el modelo

X\leftarrow A\rightarrow B\leftarrow C\rightarrow Y

Tradicionalmente, se consideraba que B era un factor de confusión, porque está asociado con X y con Y, pero no está en una ruta causal ni es descendiente de nada que esté en una ruta causal. Si se controla B, se convierte en un factor de confusión. Esto se conoce como sesgo M. ^[4]^{: 161}

Ajuste de puerta trasera

Para analizar el efecto causal de X sobre Y en un modelo causal, se deben tener en cuenta todas las variables de confusión (desconfusión). Para identificar el conjunto de factores de confusión, (1) cada camino no causal entre X e Y debe estar bloqueado por este conjunto; (2) sin interrumpir ningún camino causal; y (3) sin crear ningún camino espurio. ^[4]^{: 158}

Definición : una ruta de puerta trasera desde la variable X a Y es cualquier ruta desde X a Y que comienza con una flecha que apunta a X. ^[4]^{: 158}

Definición : Dado un par ordenado de variables (X, Y) en un modelo, un conjunto de variables de confusión Z satisface el criterio de puerta trasera si (1) ninguna variable de confusión Z es descendiente de X y (2) todos los caminos de puerta trasera entre X e Y están bloqueados por el conjunto de variables de confusión.

Si se cumple el criterio de puerta trasera para (X, Y), X e Y se desconfunden mediante el conjunto de variables de confusión. No es necesario controlar ninguna variable distinta de las variables de confusión. ^[4]^{: 158} El criterio de puerta trasera es una condición suficiente pero no necesaria para encontrar un conjunto de variables Z para desconfundir el análisis del efecto causal de X sobre y.

Cuando el modelo causal es una representación plausible de la realidad y se satisface el criterio de puerta trasera, entonces los coeficientes de regresión parcial se pueden utilizar como coeficientes de ruta (causal) (para relaciones lineales). ^[4]^{: 223}^[12]

P(Y|do(X))=\textstyle \sum _{z}\displaystyle P(Y|X,Z=z)P(Z=z)

^[4]^{: 227}

Ajuste de la puerta de entrada

Si los elementos de una ruta de bloqueo no son observables, la ruta de puerta trasera no es calculable, pero si todas las rutas de avance desde tienen elementos donde no hay rutas abiertas que conecten , entonces , el conjunto de todos los s, puede medir . Efectivamente, hay condiciones donde puede actuar como un proxy para . $X\to Y$ $z$ $z\to Y$ $Z$ $z$ $P(Y|do(X))$ $Z$ $X$

Definición : una ruta de puerta frontal es una ruta causal directa para la cual hay datos disponibles para todos , ^[4]^{: 226} intercepta todas las rutas dirigidas a , no hay rutas desbloqueadas de a , y todas las rutas de puerta trasera de a están bloqueadas por . ^[13] $z\in Z$ $Z$ $X$ $Y$ $Z$ $Y$ $Z$ $Y$ $X$

Lo siguiente convierte una expresión do en una expresión do-free mediante el condicionamiento de las variables a lo largo de la ruta de la puerta de entrada. ^[4]^{: 226}

P(Y|do(X))=\textstyle \sum _{z}\left[\displaystyle P(Z=z|X)\textstyle \sum _{x}\displaystyle P(Y|X=x,Z=z)P(X=x)\right]

Suponiendo que se dispone de datos para estas probabilidades observables, la probabilidad final se puede calcular sin un experimento, independientemente de la existencia de otros caminos de confusión y sin ajuste de puerta trasera. ^[4]^{: 226}

Intervenciones

Consultas

Las consultas son preguntas que se formulan en función de un modelo específico y que, por lo general, se responden mediante la realización de experimentos (intervenciones). Las intervenciones adoptan la forma de fijar el valor de una variable en un modelo y observar el resultado. Matemáticamente, estas consultas adoptan la forma (del ejemplo): ^[4]^{: 8}

P({\text{floss}}\vline do({\text{toothpaste}}))

donde el operador do indica que el experimento modificó explícitamente el precio de la pasta de dientes. Gráficamente, esto bloquea cualquier factor causal que de otra manera afectaría esa variable. Diagramáticamente, esto borra todas las flechas causales que apuntan a la variable experimental. ^[4]^{: 40}

Son posibles consultas más complejas, en las que se aplica el operador do (el valor es fijo) a múltiples variables.

Distribución intervencionista

Hacer cálculo

El cálculo do es el conjunto de manipulaciones que están disponibles para transformar una expresión en otra, con el objetivo general de transformar expresiones que contienen el operador do en expresiones que no lo contienen. Las expresiones que no incluyen el operador do pueden estimarse a partir de datos observacionales únicamente, sin la necesidad de una intervención experimental, que podría ser costosa, prolongada o incluso poco ética (por ejemplo, pedir a los sujetos que comiencen a fumar). ^[4]^{: 231} El conjunto de reglas es completo (se puede utilizar para derivar cada afirmación verdadera en este sistema). ^[4]^{: 237} Un algoritmo puede determinar si, para un modelo dado, una solución es computable en tiempo polinomial . ^[4]^{: 238}

Normas

El cálculo incluye tres reglas para la transformación de expresiones de probabilidad condicional que involucran al operador do.

Regla 1

La regla 1 permite la adición o eliminación de observaciones.: ^[4]^{: 235}

P(Y|do(X),Z,W)=P(Y|do(X),Z)

en el caso de que el conjunto de variables Z bloquee todos los caminos de W a Y y se hayan eliminado todas las flechas que conducen a X. ^[4]^{: 234}

Regla 2

La regla 2 permite la sustitución de una intervención por una observación o viceversa.: ^[4]^{: 235}

P(Y|do(X),Z)=P(Y|X,Z)

en el caso de que Z satisfaga el criterio de puerta trasera. ^[4]^{: 234}

Regla 3

La regla 3 permite la supresión o adición de intervenciones: ^[4]

P(Y|do(X))=P(Y)

en el caso en que no haya caminos causales que conecten X e Y. ^[4]^{: 234} ^{: 235}

Extensiones

Las reglas no implican que se puedan eliminar los operadores do de cualquier consulta. En esos casos, puede ser posible sustituir una variable que esté sujeta a manipulación (por ejemplo, dieta) por otra que no lo esté (por ejemplo, colesterol en sangre), que luego se puede transformar para eliminar el operador do. Ejemplo:

P({\text{Heart disease}}|do({\text{blood cholesterol}}))=P({\text{Heart disease}}|do({\text{diet}}))

Contrafactuales

Los contrafácticos consideran posibilidades que no se encuentran en los datos, como por ejemplo si un no fumador habría desarrollado cáncer si hubiera sido un fumador empedernido. Son el escalón más alto en la escala de causalidad de Pearl.

Resultado potencial

Definición: Un resultado potencial para una variable Y es "el valor que Y habría tomado para el individuo ^{[ aclaración necesaria ]} u , si a X se le hubiera asignado el valor x". Matemáticamente: ^[4]^{: 270}

Y_{X=x}(u)

o .

Y_{x}(u)

El resultado potencial se define a nivel del individuo u. ^[4]^{: 270}

El enfoque convencional para los resultados potenciales se basa en datos, no en modelos, lo que limita su capacidad para desentrañar las relaciones causales. Trata las cuestiones causales como problemas de datos faltantes y da respuestas incorrectas incluso a los escenarios estándar. ^[4]^{: 275}

Inferencia causal

En el contexto de los modelos causales, los resultados potenciales se interpretan causalmente, en lugar de estadísticamente.

La primera ley de inferencia causal establece que el resultado potencial

Y_{X}(u)

se puede calcular modificando el modelo causal M (eliminando las flechas en X) y calculando el resultado para algún x . Formalmente: ^[4]^{: 280}

Y_{X}(u)=Y_{Mx}(u)

Realización de un contrafactual

El examen de un contrafactual mediante un modelo causal implica tres pasos. ^[14] El enfoque es válido independientemente de la forma de las relaciones del modelo, lineal o de otro tipo. Cuando las relaciones del modelo están completamente especificadas, se pueden calcular los valores puntuales. En otros casos (por ejemplo, cuando solo se dispone de probabilidades), se puede calcular una afirmación de intervalo de probabilidad, como que el no fumador x tendría una probabilidad del 10-20% de padecer cáncer. ^[4]^{: 279}

Dado el modelo:

Y\leftarrow X\rightarrow M\rightarrow Y\leftarrow U

Se pueden aplicar las ecuaciones para calcular los valores de A y C derivadas del análisis de regresión u otra técnica, sustituyendo los valores conocidos de una observación y fijando el valor de otras variables (el contrafactual). ^[4]^{: 278}

Secuestrar

Aplicar el razonamiento abductivo ( inferencia lógica que utiliza la observación para encontrar la explicación más simple/más probable) para estimar u , el proxy de las variables no observadas en la observación específica que respalda el contrafactual. ^[4]^{: 278} Calcule la probabilidad de u dada la evidencia proposicional.

Acto

Para una observación específica, utilice el operador do para establecer el contrafáctico (por ejemplo, m = 0), modificando las ecuaciones en consecuencia. ^[4]^{: 278}

Predecir

Calcular los valores de la salida ( y ) utilizando las ecuaciones modificadas. ^[4]^{: 278}

Mediación

Las causas directas e indirectas (mediadas) solo se pueden distinguir mediante la realización de contrafácticos. ^[4]^{: 301} Para comprender la mediación es necesario mantener constante al mediador mientras se interviene sobre la causa directa. En el modelo

$Y\leftarrow M\leftarrow X\rightarrow Y$

M media la influencia de X sobre Y, mientras que X también tiene un efecto no mediado sobre Y. Por lo tanto, M se mantiene constante, mientras se calcula do(X).

La falacia de la mediación, en cambio, implica un condicionamiento del mediador si éste y el resultado se confunden, como ocurre en el modelo anterior.

En el caso de los modelos lineales, el efecto indirecto se puede calcular tomando el producto de todos los coeficientes de la trayectoria a lo largo de una vía mediada. El efecto indirecto total se calcula mediante la suma de los efectos indirectos individuales. En el caso de los modelos lineales, la mediación se indica cuando los coeficientes de una ecuación ajustada sin incluir el mediador varían significativamente de una ecuación que lo incluye. ^[4]^{: 324}

Efecto directo

En experimentos sobre dicho modelo, el efecto directo controlado (EDC) se calcula forzando el valor del mediador M (do(M = 0)) y asignando aleatoriamente algunos sujetos a cada uno de los valores de X (do(X=0), do(X=1), ...) y observando los valores resultantes de Y. ^[4]^{: 317}

CDE(0)=P(Y=1|do(X=1),do(M=0))-P(Y=1|do(X=0),do(M=0))

Cada valor del mediador tiene una CDE correspondiente.

Sin embargo, un experimento mejor es calcular el efecto directo natural. (NDE) Este es el efecto que se determina dejando intacta la relación entre X y M mientras se interviene en la relación entre X e Y. ^[4]^{: 318}

NDE=P(Y_{M=M0}=1|do(X=1))-P(Y_{M=M0}=1|do(X=0))

Por ejemplo, considere el efecto directo de aumentar las visitas al higienista dental (X) de cada dos años a cada año, lo que fomenta el uso del hilo dental (M). Las encías (Y) se vuelven más saludables, ya sea por el higienista (directo) o por el uso del hilo dental (mediador/indirecto). El experimento consiste en continuar usando el hilo dental y omitir la visita al higienista.

Efecto indirecto

El efecto indirecto de X sobre Y es el "aumento que veríamos en Y mientras mantenemos X constante y aumentamos M a cualquier valor que M alcanzaría bajo un aumento unitario en X". ^[4]^{: 328}

Los efectos indirectos no se pueden "controlar" porque la vía directa no se puede desactivar manteniendo otra variable constante. El efecto indirecto natural (EIN) es el efecto sobre la salud de las encías (Y) del uso del hilo dental (M). El EIN se calcula como la suma de (casos de uso y casos sin uso del hilo dental) de la diferencia entre la probabilidad de uso del hilo dental con el higienista y sin el higienista, o: ^[4]^{: 321}

NIE=\sum _{m}[P(M=m|X=1)-P(M=m|X=0)]xxP(Y=1|X=0,M=m)

El cálculo de NDE anterior incluye subíndices contrafácticos ( ). Para los modelos no lineales, la equivalencia aparentemente obvia ^[4]^{: 322} $Y_{M=M0}$

{\mathsf {Total\ effect=Direct\ effect+Indirect\ effect}}

No se aplica debido a anomalías como efectos de umbral y valores binarios. Sin embargo,

{\mathsf {Total\ effect}}(X=0\rightarrow X=1)=NDE(X=0\rightarrow X=1)-\ NIE(X=1\rightarrow X=0)

Funciona para todas las relaciones de modelos (lineales y no lineales). Permite calcular la ECM directamente a partir de datos observacionales, sin intervenciones ni uso de subíndices contrafácticos. ^[4]^{: 326}

Transportabilidad

Los modelos causales proporcionan un vehículo para integrar datos entre conjuntos de datos, conocido como transporte, aunque los modelos causales (y los datos asociados) difieren. Por ejemplo, los datos de la encuesta se pueden fusionar con datos de ensayos controlados aleatorios. ^[4]^{: 352} El transporte ofrece una solución a la cuestión de la validez externa , si un estudio se puede aplicar en un contexto diferente.

Cuando dos modelos coinciden en todas las variables relevantes y se sabe que los datos de un modelo no tienen sesgo, los datos de una población se pueden utilizar para extraer conclusiones sobre la otra. En otros casos, cuando se sabe que los datos tienen sesgo, la reponderación puede permitir que se transporte el conjunto de datos. En un tercer caso, se pueden extraer conclusiones de un conjunto de datos incompleto. En algunos casos, los datos de estudios de múltiples poblaciones se pueden combinar (mediante el transporte) para permitir conclusiones sobre una población no medida. En algunos casos, la combinación de estimaciones (por ejemplo, P(W|X)) de múltiples estudios puede aumentar la precisión de una conclusión. ^[4]^{: 355}

El cálculo do proporciona un criterio general para el transporte: una variable objetivo se puede transformar en otra expresión mediante una serie de operaciones do que no involucran ninguna variable "productora de diferencias" (aquellas que distinguen a las dos poblaciones). ^[4]^{: 355} Una regla análoga se aplica a los estudios que tienen participantes relevantesmente diferentes. ^[4]^{: 356}

Red bayesiana

Cualquier modelo causal puede implementarse como una red bayesiana. Las redes bayesianas pueden utilizarse para proporcionar la probabilidad inversa de un evento (dado un resultado, ¿cuáles son las probabilidades de una causa específica?). Esto requiere la preparación de una tabla de probabilidad condicional, que muestre todas las entradas y resultados posibles con sus probabilidades asociadas. ^[4]^{: 119}

Por ejemplo, dado un modelo de dos variables de Enfermedad y Prueba (para la enfermedad), la tabla de probabilidad condicional toma la forma: ^[4]^{: 117}

Según esta tabla, cuando un paciente no tiene la enfermedad, la probabilidad de un resultado positivo es del 12%.

Si bien esto es manejable para problemas pequeños, a medida que aumenta el número de variables y sus estados asociados, la tabla de probabilidad (y el tiempo de cálculo asociado) aumenta exponencialmente. ^[4]^{: 121}

Las redes bayesianas se utilizan comercialmente en aplicaciones como la corrección de errores de datos inalámbricos y el análisis de ADN. ^[4]^{: 122}

Invariantes/contexto

Una conceptualización diferente de la causalidad implica la noción de relaciones invariantes. En el caso de la identificación de dígitos escritos a mano, la forma del dígito controla el significado, por lo tanto, la forma y el significado son invariantes. Al cambiar la forma, se cambia el significado. Otras propiedades no lo hacen (por ejemplo, el color). Esta invariancia debería transmitirse a través de conjuntos de datos generados en diferentes contextos (las propiedades no invariantes forman el contexto). En lugar de aprender (evaluar la causalidad) utilizando conjuntos de datos agrupados, aprender en uno y probar en otro puede ayudar a distinguir las propiedades variantes de las invariantes. ^[15]

Véase también

Sistema causal
Red causal : una red bayesiana con un requisito explícito de que las relaciones sean causales.
Modelado de ecuaciones estructurales : una técnica estadística para probar y estimar relaciones causales
Análisis de trayectorias (estadísticas)
Red bayesiana
Mapa causal
Modelado causal dinámico
Modelo causal de Rubin

Referencias

^ Karl Friston (febrero de 2009). "Modelado causal y conectividad cerebral en imágenes por resonancia magnética funcional". PLOS Biology . 7 (2): e1000033. doi : 10.1371/journal.pbio.1000033 . PMC 2642881 . PMID 19226186.
^abc Perla 2009.
^ Hitchcock, Christopher (2018), "Causal Models", en Zalta, Edward N. (ed.), The Stanford Encyclopedia of Philosophy (edición de otoño de 2018), Metaphysics Research Lab, Stanford University , consultado el 8 de septiembre de 2018
^ abcdefghijklmnopqrstu vwxyz aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc bd be bf bg bh bi bj bk bl bm bn bo bp bq br bs bt bu bv bw bx by bz ca cb cc cd ce cf cg ch ci cj ck cl Pearl, Judea ; Mackenzie, Dana (15 de mayo de 2018). El libro del por qué: la nueva ciencia de causa y efecto. Basic Books. ISBN 9780465097616.
^ Okasha, Samir (12 de enero de 2012). "Causalidad en biología". En Beebee, Helen; Hitchcock, Christopher; Menzies, Peter (eds.). El manual de Oxford sobre causalidad. Vol. 1. OUP Oxford. doi :10.1093/oxfordhb/9780199279739.001.0001. ISBN 9780191629464.
^ Pearl, Judea (2021). "Inferencia causal y contrafáctica". En Knauff, Markus; Spohn, Wolfgang (eds.). El manual de la racionalidad . MIT Press . doi :10.7551/mitpress/11252.003.0044. ISBN 9780262366175.
^ Epp, Susanna S. (2004). Matemática discreta con aplicaciones. Thomson-Brooks/Cole. págs. 25-26. ISBN 9780534359454.
^ ab "Razonamiento causal". www.istarassessment.org . Consultado el 2 de marzo de 2016 .
^ Riegelman, R. (1979). "Causa contributiva: innecesaria e insuficiente". Medicina de posgrado . 66 (2): 177–179. doi :10.1080/00325481.1979.11715231. PMID 450828.
^ Katan MB (marzo de 1986). "Isoformas de la apolipoproteína E, colesterol sérico y cáncer". Lancet . 1 (8479): 507–8. doi :10.1016/s0140-6736(86)92972-7. PMID 2869248. S2CID 38327985.
^ Smith, George Davey; Ebrahim, Shah (2008). Aleatorización mendeliana: variantes genéticas como instrumentos para fortalecer la inferencia causal en estudios observacionales. National Academies Press (EE. UU.).
^ Pearl 2009, capítulo 3-3 Control del sesgo de confusión.
^ Pearl, Judea; Glymour, Madelyn; Jewell, Nicholas P (7 de marzo de 2016). Inferencia causal en estadística: una introducción . John Wiley & Sons. ISBN 978-1-119-18684-7.
^ Perla 2009, pág. 207.
^ Hao, Karen (8 de mayo de 2019). «El aprendizaje profundo podría revelar por qué el mundo funciona como lo hace». MIT Technology Review . Consultado el 10 de febrero de 2020 .

Fuentes

Pearl, Judea (14 de septiembre de 2009). Causalidad. Cambridge University Press. ISBN 9781139643986.

Enlaces externos

Pearl, Judea (26 de febrero de 2010). "Introducción a la inferencia causal". Revista internacional de bioestadística . 6 (2): Artículo 7. doi :10.2202/1557-4679.1203. ISSN 1557-4679. PMC 2836213 . PMID 20305706.
Modelado causal en PhilPapers
Falk, Dan (17 de marzo de 2019). «Los algoritmos de IA son sorprendentemente buenos para hacer ciencia». Wired . ISSN 1059-1028 . Consultado el 20 de marzo de 2019 .
Maudlin, Tim (30 de agosto de 2019). "El porqué del mundo". Boston Review . Consultado el 9 de septiembre de 2019 .
Hartnett, Kevin (15 de mayo de 2018). "Para construir máquinas verdaderamente inteligentes, enséñeles causa y efecto". Quanta Magazine . Consultado el 19 de septiembre de 2019 .
^[1]

^ Representaciones de aprendizaje utilizando invariancia causal, ICLR, febrero de 2020 , consultado el 10 de febrero de 2020