modelo causal

En filosofía de la ciencia , un modelo causal (o modelo causal estructural ) es un modelo conceptual que describe los mecanismos causales de un sistema . Se pueden utilizar varios tipos de notación causal en el desarrollo de un modelo causal. Los modelos causales pueden mejorar los diseños de estudio al proporcionar reglas claras para decidir qué variables independientes deben incluirse o controlarse.

Pueden permitir que algunas preguntas sean respondidas a partir de datos de observación existentes sin la necesidad de un estudio intervencionista como un ensayo controlado aleatorio . Algunos estudios de intervención son inapropiados por razones éticas o prácticas, lo que significa que sin un modelo causal algunas hipótesis no pueden probarse.

Los modelos causales pueden ayudar con la cuestión de la validez externa (si los resultados de un estudio se aplican a poblaciones no estudiadas). Los modelos causales pueden permitir que se combinen datos de múltiples estudios (en determinadas circunstancias) para responder preguntas que no pueden ser respondidas por ningún conjunto de datos individual.

Los modelos causales han encontrado aplicaciones en el procesamiento de señales , la epidemiología y el aprendizaje automático . ^[2]

Definición

Los modelos causales son modelos matemáticos que representan relaciones causales dentro de un sistema o población individual. Facilitan inferencias sobre relaciones causales a partir de datos estadísticos. Pueden enseñarnos mucho sobre la epistemología de la causalidad y sobre la relación entre causalidad y probabilidad. También se han aplicado a temas de interés para los filósofos, como la lógica de los contrafactuales, la teoría de la decisión y el análisis de la causalidad real. ^[3]
— Enciclopedia de Filosofía de Stanford

Judea Pearl define un modelo causal como un triple ordenado , donde U es un conjunto de variables exógenas cuyos valores están determinados por factores ajenos al modelo; V es un conjunto de variables endógenas cuyos valores están determinados por factores dentro del modelo; y E es un conjunto de ecuaciones estructurales que expresan el valor de cada variable endógena en función de los valores de las otras variables en U y V. ^[2] $\langle U,V,E\rangle$

Historia

Aristóteles definió una taxonomía de causalidad, que incluye causas materiales, formales, eficientes y finales. Hume rechazó la taxonomía de Aristóteles en favor de los contrafácticos . En un momento, negó que los objetos tengan "poderes" que conviertan a uno en causa y a otro en efecto. Más tarde adoptó "si el primer objeto no hubiera existido, el segundo nunca habría existido" (" sino por " causalidad). ^[4]

A finales del siglo XIX comenzó a formarse la disciplina de la estadística. Después de un esfuerzo de años para identificar reglas causales para dominios como la herencia biológica, Galton introdujo el concepto de regresión media (representada por la crisis de los estudiantes de segundo año en los deportes), que más tarde lo llevó al concepto no causal de correlación . ^[4]

Como positivista , Pearson eliminó la noción de causalidad de gran parte de la ciencia como un caso especial de asociación no demostrable e introdujo el coeficiente de correlación como métrica de asociación. Escribió: "La fuerza como causa del movimiento es exactamente lo mismo que un dios árbol como causa del crecimiento" y que la causalidad era sólo un "fetiche entre los arcanos inescrutables de la ciencia moderna". Pearson fundó Biometrika y el Laboratorio de Biometría del University College de Londres , que se convirtió en el líder mundial en estadística. ^[4]

En 1908, Hardy y Weinberg resolvieron el problema de la estabilidad de los rasgos que había llevado a Galton a abandonar la causalidad, resucitando la herencia mendeliana . ^[4]

En 1921, el análisis de trayectorias de Wright se convirtió en el antepasado teórico de los modelos causales y los gráficos causales. ^[5] Desarrolló este enfoque mientras intentaba desenredar los impactos relativos de la herencia , el desarrollo y el medio ambiente en los patrones del pelaje de las cobayas . Respaldó sus afirmaciones entonces heréticas mostrando cómo tales análisis podrían explicar la relación entre el peso al nacer de las cobayas, el tiempo en el útero y el tamaño de la camada. La oposición a estas ideas por parte de destacados estadísticos llevó a que fueran ignoradas durante los siguientes 40 años (excepto entre los criadores de animales). En lugar de ello, los científicos se basaron en correlaciones, en parte a instancias del crítico de Wright (y destacado estadístico), Fisher . ^[4] Una excepción fue Burks , un estudiante que en 1926 fue el primero en aplicar diagramas de ruta para representar una influencia mediadora ( mediador ) y afirmar que mantener constante a un mediador induce errores. Es posible que haya inventado diagramas de ruta de forma independiente. ^[4]^{: 304}

En 1923, Neyman introdujo el concepto de resultado potencial, pero su artículo no fue traducido del polaco al inglés hasta 1990. ^[4]^{: 271}

En 1958 Cox advirtió que controlar una variable Z sólo es válido si es muy poco probable que se vea afectada por variables independientes. ^[4]^{: 154}

En la década de 1960, Duncan , Blalock , Goldberger y otros redescubrieron el análisis de trayectorias. Mientras leía el trabajo de Blalock sobre diagramas de ruta, Duncan recordó una conferencia de Ogburn veinte años antes que mencionaba un artículo de Wright que a su vez mencionaba a Burks. ^[4]^{: 308}

Los sociólogos originalmente llamaron modelos causales modelado de ecuaciones estructurales , pero una vez que se convirtió en un método de memoria, perdió su utilidad, lo que llevó a algunos profesionales a rechazar cualquier relación con la causalidad. Los economistas adoptaron la parte algebraica del análisis de trayectorias y la llamaron modelado de ecuaciones simultáneas. Sin embargo, los economistas todavía evitaron atribuir un significado causal a sus ecuaciones. ^[4]

Sesenta años después de su primer artículo, Wright publicó un artículo que lo recapituló, siguiendo la crítica de Karlin et al., que objetó que manejaba sólo relaciones lineales y que las presentaciones de datos sólidas y sin modelos eran más reveladoras. ^[4]

En 1973, Lewis abogó por reemplazar la correlación con la causalidad contrafáctica (contrafactuales). Se refirió a la capacidad de los humanos para imaginar mundos alternativos en los que una causa ocurrió o no, y en los que un efecto apareció sólo después de su causa. ^[4]^{: 266} En 1974, Rubin introdujo la noción de "resultados potenciales" como un lenguaje para formular preguntas causales. ^[4]^{: 269}

En 1983, Cartwright propuso que cualquier factor que sea "causalmente relevante" para un efecto sea condicionado, yendo más allá de la simple probabilidad como única guía. ^[4]^{: 48}

En 1986, Baron y Kenny introdujeron principios para detectar y evaluar la mediación en un sistema de ecuaciones lineales. En 2014, su artículo ocupaba el puesto 33 entre los más citados de todos los tiempos. ^[4]^{: 324} Ese año, Greenland y Robins introdujeron el enfoque de "intercambiabilidad" para manejar la confusión considerando un contrafactual. Propusieron evaluar qué le habría sucedido al grupo de tratamiento si no hubieran recibido el tratamiento y comparar ese resultado con el del grupo de control. Si coincidían, se decía que no había confusión. ^[4]^{: 154}

Escalera de causalidad

El metamodelo causal de Pearl implica una abstracción de tres niveles que él llama la escalera de la causalidad. El nivel más bajo, Asociación (ver/observar), implica la detección de regularidades o patrones en los datos de entrada, expresados como correlaciones. El nivel medio, Intervención (hacer), predice los efectos de acciones deliberadas, expresados como relaciones causales. El nivel más alto, Contrafactuales (imaginación), implica la construcción de una teoría de (parte del) mundo que explica por qué acciones específicas tienen efectos específicos y qué sucede en ausencia de tales acciones. ^[4]

Asociación

Un objeto está asociado con otro si observar uno cambia la probabilidad de observar el otro. Ejemplo: es más probable que los compradores que compran pasta de dientes también compren hilo dental. Matemáticamente:

P(hilo dental\vline pasta de dientes)

o la probabilidad de (comprar) hilo dental dada (la compra de) pasta de dientes. Las asociaciones también se pueden medir calculando la correlación de los dos eventos. Las asociaciones no tienen implicaciones causales. Un evento podría causar el otro, lo contrario podría ser cierto, o ambos eventos podrían ser causados por un tercer evento (un higienista infeliz avergüenza al comprador para que se trate mejor la boca). ^[4]

Intervención

Este nivel afirma relaciones causales específicas entre eventos. La causalidad se evalúa realizando experimentalmente alguna acción que afecte a uno de los eventos. Ejemplo: después de duplicar el precio de la pasta de dientes, ¿cuál sería la nueva probabilidad de compra? La causalidad no puede establecerse examinando la historia (de los cambios de precios) porque el cambio de precio puede haber sido por alguna otra razón que podría afectar el segundo evento (un arancel que aumenta el precio de ambos bienes). Matemáticamente:

P(hilo dental\vline do(pasta de dientes))

donde do es un operador que señala la intervención experimental (duplicando el precio). ^[4] El operador indica realizar el cambio mínimo en el mundo necesario para crear el efecto deseado, una "minicirugía" en el modelo con el menor cambio posible de la realidad. ^[6]

Contrafácticos

El nivel más alto, contrafactual, implica la consideración de una versión alternativa de un evento pasado, o lo que sucedería en circunstancias diferentes para la misma unidad experimental. Por ejemplo, ¿cuál es la probabilidad de que, si una tienda hubiera duplicado el precio del hilo dental, el comprador de pasta de dientes aún lo hubiera comprado?

P(hilo dental\vline pasta de dientes,precio*2)

Los contrafactuales pueden indicar la existencia de una relación causal. Los modelos que pueden responder a contrafácticos permiten intervenciones precisas cuyas consecuencias pueden predecirse. En casos extremos, estos modelos se aceptan como leyes físicas (como en las leyes de la física, por ejemplo, la inercia, que dice que si no se aplica fuerza a un objeto estacionario, no se moverá). ^[4]

Causalidad

Causalidad vs correlación

La estadística gira en torno al análisis de las relaciones entre múltiples variables. Tradicionalmente, estas relaciones se describen como correlaciones , asociaciones sin ninguna relación causal implícita. Los modelos causales intentan ampliar este marco añadiendo la noción de relaciones causales, en las que los cambios en una variable provocan cambios en otras. ^[2]

Las definiciones de causalidad del siglo XX se basaban puramente en probabilidades/asociaciones. Se decía que un evento ( ) causa otro si aumenta la probabilidad del otro ( ). Matemáticamente esto se expresa como: $X$ $Y$

P(Y\vline X)>P(Y)

Estas definiciones son inadecuadas porque otras relaciones (p. ej., una causa común para y ) pueden satisfacer la condición. La causalidad es relevante para el segundo escalón de la escalera. Las asociaciones están en el primer paso y sólo aportan pruebas para el segundo. ^[4] $X$ $Y$

Una definición posterior intentó abordar esta ambigüedad condicionando factores de fondo. Matemáticamente:

P(Y\vline X,K=k)>P(Y|K=k)

donde es el conjunto de variables de fondo y representa los valores de esas variables en un contexto específico. Sin embargo, el conjunto requerido de variables de fondo es indeterminado (varios conjuntos pueden aumentar la probabilidad), siempre que la probabilidad sea el único criterio ^[^{aclaración necesaria}^] . ^[4] $K$ $k$

Otros intentos de definir la causalidad incluyen la causalidad de Granger , una prueba de hipótesis estadística de que la causalidad (en economía ) puede evaluarse midiendo la capacidad de predecir los valores futuros de una serie temporal utilizando valores anteriores de otra serie temporal. ^[4]

Tipos

Una causa puede ser necesaria, suficiente, contributiva o alguna combinación. ^[7]

Necesario

Para que x sea una causa necesaria de y , la presencia de y debe implicar la aparición previa de x . La presencia de x , sin embargo, no implica que y ocurrirá. ^[8] Las causas necesarias también se conocen como causas "de no ser por", ya que y no habría ocurrido si no hubiera ocurrido x . ^[4]^{: 261}

Causas suficientes

Para que x sea una causa suficiente de y , la presencia de x debe implicar la aparición posterior de y . Sin embargo, otra causa z puede causar y de forma independiente . Por tanto, la presencia de y no requiere la aparición previa de x . ^[8]

Causas contributivas

Para que x sea una causa contribuyente de y , la presencia de x debe aumentar la probabilidad de y . Si la probabilidad es del 100%, entonces x se considera suficiente. También puede ser necesaria una causa contributiva. ^[9]

Modelo

diagrama causal

Un diagrama causal es un gráfico dirigido que muestra relaciones causales entre variables en un modelo causal. Un diagrama causal incluye un conjunto de variables (o nodos ). Cada nodo está conectado por una flecha a uno o más nodos sobre los que tiene una influencia causal. Una punta de flecha delinea la dirección de la causalidad, por ejemplo, una flecha que conecta variables y con la punta de flecha en indica que un cambio en causa un cambio en (con una probabilidad asociada). Una ruta es un recorrido del gráfico entre dos nodos siguiendo flechas causales. ^[4] $A$ $B$ $B$ $A$ $B$

Los diagramas causales incluyen diagramas de bucle causal , gráficos acíclicos dirigidos y diagramas de Ishikawa . ^[4]

Los diagramas causales son independientes de las probabilidades cuantitativas que los informan. Los cambios en esas probabilidades (por ejemplo, debido a mejoras tecnológicas) no requieren cambios en el modelo. ^[4]

Elementos del modelo

Los modelos causales tienen estructuras formales con elementos con propiedades específicas. ^[4]

Patrones de unión

Los tres tipos de conexiones de tres nodos son cadenas lineales, bifurcaciones y colisionadores fusionados. ^[4]

Cadena

Las cadenas son conexiones en línea recta con flechas que apuntan de causa a efecto. En este modelo, es un mediador en el sentido de que media en el cambio que de otro modo se produciría . ^[4]^{: 113} $B$ $A$ $C$

A\rightarrow B\rightarrow C

Tenedor

En las bifurcaciones, una causa tiene múltiples efectos. Los dos efectos tienen una causa común. Existe una correlación espuria (no causal) entre y que puede eliminarse condicionando (para un valor específico de ). ^[4]^{: 114} $A$ $C$ $B$ $B$

A\leftarrow B\rightarrow C

"Condicionado por " significa "dado " (es decir, dado un valor de ). $B$ $B$ $B$

Una elaboración de un tenedor es el factor de confusión:

A\leftarrow B\rightarrow C\rightarrow A

En tales modelos, es una causa común de y (que también causa ), lo que genera el factor de confusión ^[^{se necesita aclaración}^] . ^[4]^{: 114} $B$ $A$ $C$ $A$ $B$

Colisionador

En los colisionadores , múltiples causas afectan un resultado. El condicionamiento sobre (para un valor específico de ) a menudo revela una correlación negativa no causal entre y . Esta correlación negativa se ha denominado sesgo del colisionador y efecto de "explicación", ya que explica la correlación entre y . ^[4]^{: 115} La correlación puede ser positiva en el caso de que las contribuciones de ambos y sean necesarias para afectar . ^[4]^{: 197} $B$ $B$ $A$ $C$ $B$ $A$ $C$ $A$ $C$ $B$

A\rightarrow B\leftarrow C

Tipos de nodos

Mediador

Un nodo mediador modifica el efecto de otras causas sobre un resultado (en lugar de simplemente afectar el resultado). ^[4]^{: 113} Por ejemplo, en el ejemplo de cadena anterior, es un mediador, porque modifica el efecto de (una causa indirecta de ) sobre (el resultado). $B$ $A$ $C$ $C$

Confusor

Un nodo de confusión afecta múltiples resultados, creando una correlación positiva entre ellos. ^[4]^{: 114}

variable instrumental

Una variable instrumental es aquella que: ^[4]^{: 246}

tiene un camino hacia el resultado;
no tiene otro camino hacia las variables causales;
no tiene influencia directa sobre el resultado.

Los coeficientes de regresión pueden servir como estimaciones del efecto causal de una variable instrumental sobre un resultado, siempre que ese efecto no esté confundido. De esta forma, las variables instrumentales permiten cuantificar los factores causales sin datos sobre factores de confusión. ^[4]^{: 249}

Por ejemplo, dado el modelo:

Z\rightarrow X\rightarrow Y\leftarrow U\rightarrow X

$Z$ es una variable instrumental, porque tiene un camino hacia el resultado y no está confundida, por ejemplo, por . $Y$ $U$

En el ejemplo anterior, si y toma valores binarios, entonces la suposición que no ocurre se llama monotonicidad ^[^{aclaración necesaria}^] . ^[4]^{: 253} $Z$ $X$ $Z=0,X=1$

Las mejoras a la técnica ^{[ aclaración necesaria ]} incluyen la creación de un instrumento ^{[ aclaración necesaria ]} condicionando a otra variable ^{[ aclaración necesaria ]} para bloquear ^{[ aclaración necesaria ]} los caminos ^{[ aclaración necesaria ]} entre el instrumento y el factor de confusión ^{[ aclaración necesaria ]} y combinando múltiples variables para formar un solo instrumento ^{[ se necesita aclaración ]} . ^[4]^{: 257}

Aleatorización mendeliana

Definición: La aleatorización mendeliana utiliza la variación medida en genes de función conocida para examinar el efecto causal de una exposición modificable sobre la enfermedad en estudios observacionales . ^[10]^[11]

Debido a que los genes varían aleatoriamente entre poblaciones, la presencia de un gen generalmente se considera una variable instrumental, lo que implica que, en muchos casos, la causalidad se puede cuantificar mediante regresión en un estudio observacional. ^[4]^{: 255}

Asociaciones

Condiciones de independencia

Las condiciones de independencia son reglas para decidir si dos variables son independientes entre sí. Las variables son independientes si los valores de una no afectan directamente los valores de la otra. Múltiples modelos causales pueden compartir condiciones de independencia. Por ejemplo, los modelos

A\rightarrow B\rightarrow C

A\leftarrow B\rightarrow C

Tienen las mismas condiciones de independencia, porque condicionadas a hojas e independientes. Sin embargo, los dos modelos no tienen el mismo significado y pueden falsificarse basándose en los datos (es decir, si los datos observacionales muestran una asociación entre y después del condicionamiento en , entonces ambos modelos son incorrectos). Por el contrario, los datos no pueden mostrar cuál de estos dos modelos es correcto porque tienen las mismas condiciones de independencia. $B$ $A$ $C$ $A$ $C$ $B$

El condicionamiento de una variable es un mecanismo para realizar experimentos hipotéticos. El condicionamiento de una variable implica analizar los valores de otras variables para un valor dado de la variable condicionada. En el primer ejemplo, condicionar implica que las observaciones para un valor dado de no deberían mostrar dependencia entre y . Si existe tal dependencia, entonces el modelo es incorrecto. Los modelos no causales no pueden hacer tales distinciones porque no hacen afirmaciones causales. ^[4]^{: 129-130} $B$ $B$ $A$ $C$

Confusor/desconfundente

Un elemento esencial del diseño de un estudio correlacional es identificar influencias potencialmente confusas sobre la variable en estudio, como la demografía. Estas variables se controlan para eliminar esas influencias. Sin embargo, la lista correcta de variables de confusión no se puede determinar a priori . Por tanto, es posible que un estudio pueda controlar variables irrelevantes o incluso (indirectamente) la variable en estudio. ^[4]^{: 139}

Los modelos causales ofrecen una técnica sólida para identificar variables de confusión apropiadas. Formalmente, Z es un factor de confusión si "Y está asociado con Z a través de caminos que no pasan por X". A menudo, estos pueden determinarse utilizando datos recopilados para otros estudios. Matemáticamente, si

P(Y|X)\neq P(Y|do(X))

X e Y están confundidos (por alguna variable de confusión Z). ^[4]^{: 151}

Las definiciones anteriores supuestamente incorrectas de factor de confusión incluyen: ^[4]^{: 152}

"Cualquier variable que esté correlacionada tanto con X como con Y."
Y está asociado con Z entre los no expuestos.
No colapsabilidad: una diferencia entre el "riesgo relativo bruto y el riesgo relativo resultante después del ajuste por el posible factor de confusión".
Epidemiológica: Variable asociada a X en la población en general y asociada a Y entre personas no expuestas a X.

Este último tiene un defecto dado que en el modelo:

X\rightarrow Z\rightarrow Y

Z coincide con la definición, pero es un mediador, no un factor de confusión, y es un ejemplo de control del resultado.

en el modelo

X\leftarrow A\rightarrow B\leftarrow C\rightarrow Y

Tradicionalmente, se consideraba que B era un factor de confusión, porque está asociado con X y con Y, pero no está en un camino causal ni es descendiente de nada en un camino causal. Controlar por B hace que se convierta en un factor de confusión. Esto se conoce como polarización M. ^[4]^{: 161}

Ajuste de puerta trasera

Para analizar el efecto causal de X sobre Y en un modelo causal, se deben abordar todas las variables de confusión (desconfusión). Para identificar el conjunto de factores de confusión, (1) cada camino no causal entre X e Y debe estar bloqueado por este conjunto; (2) sin interrumpir ninguna vía causal; y (3) sin crear caminos espurios. ^[4]^{: 158}

Definición : una ruta de puerta trasera de la variable X a Y es cualquier ruta de X a Y que comienza con una flecha que apunta a X. ^[4]^{: 158}

Definición : Dado un par ordenado de variables (X,Y) en un modelo, un conjunto de variables de confusión Z satisface el criterio de puerta trasera si (1) ninguna variable de confusión Z es descendiente de X y (2) todas las rutas de puerta trasera entre X y Y están bloqueados por el conjunto de factores de confusión.

Si se cumple el criterio de puerta trasera para (X,Y), X e Y son desconcertados por el conjunto de variables de confusión. No es necesario controlar ninguna variable distinta de los factores de confusión. ^[4]^{: 158} El criterio de la puerta trasera es una condición suficiente pero no necesaria para encontrar un conjunto de variables Z para desconcertar el análisis del efecto causal de X sobre y.

Cuando el modelo causal es una representación plausible de la realidad y se cumple el criterio de la puerta trasera, entonces los coeficientes de regresión parcial se pueden utilizar como coeficientes de ruta (causales) (para relaciones lineales). ^[4]^{: 223}^[12]

P(Y|do(X))=\textstyle \sum _{z}\displaystyle P(Y|X,Z=z)P(Z=z)

^[4]^{: 227}

Ajuste de la puerta delantera

Si todos los elementos de una ruta de bloqueo no son observables, la ruta de la puerta trasera no es calculable, pero si todas las rutas directas tienen elementos donde no se conectan rutas abiertas , entonces , el conjunto de todos los s, puede medir . Efectivamente, existen condiciones en las que puede actuar como representante de . $X\to Y$ $z$ $z\to Y$ $Z$ $z$ $P(Y|do(X))$ $Z$ $X$

Definición : una ruta de puerta frontal es una ruta causal directa para la cual los datos están disponibles para todos , ^[4]^{: 226} intercepta todas las rutas dirigidas a , no hay rutas desbloqueadas desde a y todas las rutas de puerta trasera desde a están bloqueadas por . ^[13] $z\in Z$ $Z$ $X$ $Y$ $Z$ $Y$ $Z$ $Y$ $X$

Lo siguiente convierte una expresión do en una expresión do-free condicionando las variables a lo largo de la ruta de entrada. ^[4]^{: 226}

P(Y|do(X))=\textstyle \sum _{z}\left[\displaystyle P(Z=z|X)\textstyle \sum _{x}\displaystyle P(Y|X=x,Z=z)P(X=x)\right]

Suponiendo que se disponga de datos para estas probabilidades observables, la probabilidad final se puede calcular sin un experimento, independientemente de la existencia de otras rutas de confusión y sin ajustes de puerta trasera. ^[4]^{: 226}

Intervenciones

Consultas

Las consultas son preguntas que se formulan en función de un modelo específico. Generalmente se responden mediante la realización de experimentos (intervenciones). Las intervenciones toman la forma de fijar el valor de una variable en un modelo y observar el resultado. Matemáticamente, estas consultas toman la forma (del ejemplo): ^[4]^{: 8}

P({\text{floss}}\vline do({\text{toothpaste}}))

donde el operador do indica que el experimento modificó explícitamente el precio de la pasta de dientes. Gráficamente, esto bloquea cualquier factor causal que de otro modo afectaría esa variable. Diagramáticamente, esto borra todas las flechas causales que apuntan a la variable experimental. ^[4]^{: 40}

Son posibles consultas más complejas, en las que el operador do se aplica (el valor es fijo) a múltiples variables.

hacer cálculo

El cálculo do es el conjunto de manipulaciones que están disponibles para transformar una expresión en otra, con el objetivo general de transformar expresiones que contienen el operador do en expresiones que no lo contienen. Las expresiones que no incluyen el operador do pueden estimarse únicamente a partir de datos observacionales, sin necesidad de una intervención experimental, que podría ser costosa, larga o incluso poco ética (por ejemplo, pedir a los sujetos que empiecen a fumar). ^[4]^{: 231} El conjunto de reglas está completo (puede usarse para derivar cada afirmación verdadera en este sistema). ^[4]^{: 237} Un algoritmo puede determinar si, para un modelo dado, una solución es computable en tiempo polinomial . ^[4]^{: 238}

Normas

El cálculo incluye tres reglas para la transformación de expresiones de probabilidad condicional que involucran al operador do.

Regla 1

La regla 1 permite añadir o eliminar observaciones.: ^[4]^{: 235}

P(Y|do(X),Z,W)=P(Y|do(X),Z)

en el caso de que el conjunto de variables Z bloquee todos los caminos de W a Y y se hayan eliminado todas las flechas que conducen a X. ^[4]^{: 234}

Regla 2

La regla 2 permite la sustitución de una intervención por una observación o viceversa: ^[4]^{: 235}

P(Y|do(X),Z)=P(Y|X,Z)

en el caso de que Z satisfaga el criterio de puerta trasera. ^[4]^{: 234}

Regla 3

La regla 3 permite la eliminación o adición de intervenciones: ^[4]

P(Y|do(X))=P(Y)

en el caso de que no haya caminos causales que conecten X e Y. ^[4]^{: 234} ^{: 235}

Extensiones

Las reglas no implican que se puedan eliminar los operadores do de cualquier consulta. En esos casos, puede ser posible sustituir una variable que esté sujeta a manipulación (p. ej., dieta) en lugar de otra que no lo esté (p. ej., colesterol en sangre), que luego puede transformarse para eliminar la manipulación. Ejemplo:

P({\text{Heart disease}}|do({\text{blood cholesterol}}))=P({\text{Heart disease}}|do({\text{diet}}))

Contrafácticos

Los contrafactuales consideran posibilidades que no se encuentran en los datos, como si un no fumador habría desarrollado cáncer si hubiera sido un fumador empedernido. Son el escalón más alto en la escala de causalidad de Pearl.

Resultado potencial

Definición: Un resultado potencial para una variable Y es "el valor que Y habría tomado para ^{[ aclaración necesaria ] individual} u , si a X se le hubiera asignado el valor x". Matemáticamente: ^[4]^{: 270}

Y_{X=x}(u)

o .

Y_{x}(u)

El resultado potencial se define al nivel del individuo u. ^[4]^{: 270}

El enfoque convencional de los resultados potenciales se basa en datos, no en modelos, lo que limita su capacidad para desenredar relaciones causales. Trata las preguntas causales como problemas de datos faltantes y da respuestas incorrectas incluso a escenarios estándar. ^[4]^{: 275}

inferencia causal

En el contexto de los modelos causales, los resultados potenciales se interpretan causalmente, más que estadísticamente.

La primera ley de la inferencia causal establece que el resultado potencial

Y_{X}(u)

se puede calcular modificando el modelo causal M (eliminando flechas en X) y calculando el resultado para alguna x . Formalmente: ^[4]^{: 280}

Y_{X}(u)=Y_{Mx}(u)

Realización de un contrafactual

Examinar un contrafactual utilizando un modelo causal implica tres pasos. ^[14] El enfoque es válido independientemente de la forma de las relaciones del modelo, lineales o no. Cuando las relaciones del modelo están completamente especificadas, se pueden calcular los valores de los puntos. En otros casos (p. ej., cuando sólo se dispone de probabilidades) se puede calcular un enunciado de intervalo de probabilidad, como que el no fumador x tendría entre un 10% y un 20% de posibilidades de padecer cáncer. ^[4]^{: 279}

Dado el modelo:

Y\leftarrow X\rightarrow M\rightarrow Y\leftarrow U

Se pueden aplicar las ecuaciones para calcular los valores de A y C derivadas del análisis de regresión u otra técnica, sustituyendo valores conocidos de una observación y fijando el valor de otras variables (el contrafactual). ^[4]^{: 278}

Secuestrar

Aplicar el razonamiento abductivo ( inferencia lógica que utiliza la observación para encontrar la explicación más simple/más probable) para estimar u , el proxy de las variables no observadas en la observación específica que respalda el contrafactual. ^[4]^{: 278} Calcule la probabilidad de u dada la evidencia proposicional.

Acto

Para una observación específica, utilice el operador do para establecer el contrafactual (por ejemplo, m =0), modificando las ecuaciones en consecuencia. ^[4]^{: 278}

Predecir

Calcule los valores de la salida ( y ) usando las ecuaciones modificadas. ^[4]^{: 278}

Mediación

Las causas directas e indirectas (mediadas) sólo pueden distinguirse mediante la realización de contrafácticos. ^[4]^{: 301} Comprender la mediación requiere mantener constante al mediador mientras interviene sobre la causa directa. en el modelo

$Y\leftarrow M\leftarrow X\rightarrow Y$

M media la influencia de X sobre Y, mientras que X también tiene un efecto inmediato sobre Y. Por tanto, M se mantiene constante, mientras que se calcula do(X).

En cambio, la falacia de la mediación implica condicionar al mediador si éste y el resultado se confunden, como ocurre en el modelo anterior.

Para los modelos lineales, el efecto indirecto se puede calcular tomando el producto de todos los coeficientes de la trayectoria a lo largo de una trayectoria mediada. El efecto indirecto total se calcula mediante la suma de los efectos indirectos individuales. Para los modelos lineales, la mediación se indica cuando los coeficientes de una ecuación ajustada sin incluir al mediador varían significativamente de una ecuación que lo incluye. ^[4]^{: 324}

Efecto directo

En experimentos con dicho modelo, el efecto directo controlado (CDE) se calcula forzando el valor del mediador M (do(M = 0)) y asignando aleatoriamente algunos sujetos a cada uno de los valores de X (do(X=0) ), do(X=1), ...) y observando los valores resultantes de Y. ^[4]^{: 317}

CDE(0)=P(Y=1|do(X=1),do(M=0))-P(Y=1|do(X=0),do(M=0))

Cada valor del mediador tiene un CDE correspondiente.

Sin embargo, un mejor experimento es calcular el efecto directo natural. (ECM) Este es el efecto determinado al dejar intacta la relación entre X y M mientras se interviene en la relación entre X e Y. ^[4]^{: 318}

NDE=P(Y_{M=M0}=1|do(X=1))-P(Y_{M=M0}=1|do(X=0))

Por ejemplo, considere el efecto directo de aumentar las visitas al higienista dental (X) de cada dos años a cada año, lo que fomenta el uso de hilo dental (M). Las encías (Y) se vuelven más sanas, ya sea por el higienista (directo) o por el uso del hilo dental (mediador/indirecto). El experimento consiste en seguir usando hilo dental sin acudir a la visita al higienista.

efecto indirecto

El efecto indirecto de X sobre Y es el "aumento que veríamos en Y mientras mantenemos X constante y aumentamos M a cualquier valor que M alcanzaría con un aumento unitario en X". ^[4]^{: 328}

Los efectos indirectos no se pueden "controlar" porque la ruta directa no se puede desactivar manteniendo constante otra variable. El efecto indirecto natural (NIE) es el efecto sobre la salud de las encías (Y) por el uso del hilo dental (M). El NIE se calcula como la suma de (casos con y sin hilo dental) de la diferencia entre la probabilidad de usar hilo dental con y sin higienista, o: ^[4]^{: 321}

NIE=\sum _{m}[P(M=m|X=1)-P(M=m|X=0)]xxP(Y=1|X=0,M=m)

El cálculo de ECM anterior incluye subíndices contrafactuales ( ). Para modelos no lineales, la equivalencia aparentemente obvia ^[4]^{: 322} $Y_{M=M0}$

{\mathsf {Total\ effect=Direct\ effect+Indirect\ effect}}

no se aplica debido a anomalías como efectos de umbral y valores binarios. Sin embargo,

{\mathsf {Total\ effect}}(X=0\rightarrow X=1)=NDE(X=0\rightarrow X=1)-\ NIE(X=1\rightarrow X=0)

Funciona para todas las relaciones del modelo (lineales y no lineales). Permite calcular las ECM directamente a partir de datos de observación, sin intervenciones ni uso de subíndices contrafactuales. ^[4]^{: 326}

Transportabilidad

Los modelos causales proporcionan un vehículo para integrar datos entre conjuntos de datos, lo que se conoce como transporte, aunque los modelos causales (y los datos asociados) difieren. Por ejemplo, los datos de encuestas se pueden combinar con datos de ensayos controlados y aleatorios. ^[4]^{: 352} El transporte ofrece una solución a la cuestión de la validez externa , es decir, si un estudio puede aplicarse en un contexto diferente.

Cuando dos modelos coinciden en todas las variables relevantes y se sabe que los datos de un modelo son imparciales, los datos de una población se pueden utilizar para sacar conclusiones sobre la otra. En otros casos, cuando se sabe que los datos están sesgados, la reponderación puede permitir que se transporte el conjunto de datos. En un tercer caso, se pueden extraer conclusiones a partir de un conjunto de datos incompleto. En algunos casos, los datos de estudios de múltiples poblaciones se pueden combinar (mediante transporte) para permitir sacar conclusiones sobre una población no medida. En algunos casos, combinar estimaciones (p. ej., P(W|X)) de múltiples estudios puede aumentar la precisión de una conclusión. ^[4]^{: 355}

El cálculo do proporciona un criterio general para el transporte: una variable objetivo se puede transformar en otra expresión mediante una serie de operaciones do que no involucran ninguna variable "productora de diferencias" (aquellas que distinguen las dos poblaciones). ^[4]^{: 355} Se aplica una regla análoga a los estudios que tienen participantes significativamente diferentes. ^[4]^{: 356}

red bayesiana

Cualquier modelo causal puede implementarse como una red bayesiana. Las redes bayesianas se pueden utilizar para proporcionar la probabilidad inversa de un evento (dado un resultado, cuáles son las probabilidades de una causa específica). Esto requiere la preparación de una tabla de probabilidad condicional, que muestre todos los insumos y resultados posibles con sus probabilidades asociadas. ^[4]^{: 119}

Por ejemplo, dado un modelo de dos variables de Enfermedad y Prueba (para la enfermedad), la tabla de probabilidad condicional toma la forma: ^[4]^{: 117}

Según esta tabla, cuando un paciente no padece la enfermedad, la probabilidad de dar positivo en la prueba es del 12%.

Si bien esto es manejable para problemas pequeños, a medida que aumenta el número de variables y sus estados asociados, la tabla de probabilidad (y el tiempo de cálculo asociado) aumenta exponencialmente. ^[4]^{: 121}

Las redes bayesianas se utilizan comercialmente en aplicaciones como la corrección de errores de datos inalámbricos y el análisis de ADN. ^[4]^{: 122}

Invariantes/contexto

Una conceptualización diferente de la causalidad implica la noción de relaciones invariantes. En el caso de identificar dígitos escritos a mano, la forma de los dígitos controla el significado, por lo que la forma y el significado son las invariantes. Cambiar la forma cambia el significado. Otras propiedades no (por ejemplo, color). Esta invariancia debe trasladarse a conjuntos de datos generados en diferentes contextos (las propiedades no invariantes forman el contexto). En lugar de aprender (evaluar la causalidad) utilizando conjuntos de datos agrupados, aprender de uno y probar otro puede ayudar a distinguir las propiedades variantes de las invariantes. ^[15]

Ver también

sistema causal
Red causal : una red bayesiana con un requisito explícito de que las relaciones sean causales.
Modelado de ecuaciones estructurales : una técnica estadística para probar y estimar relaciones causales
Análisis de ruta (estadísticas)
red bayesiana
mapa causal
Modelado causal dinámico

Referencias

^ Karl Friston (febrero de 2009). "Modelado causal y conectividad cerebral en imágenes de resonancia magnética funcional". Más biología . 7 (2): e1000033. doi : 10.1371/journal.pbio.1000033 . PMC 2642881 . PMID 19226186.
^ abc Perla 2009.
^ Hitchcock, Christopher (2018), "Causal Models", en Zalta, Edward N. (ed.), The Stanford Encyclopedia of Philosophy (edición de otoño de 2018), Metaphysics Research Lab, Universidad de Stanford , consultado el 8 de septiembre de 2018
^ abcdefghijklmnopqrstu vwxyz aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc bd be bf bg bh bi bj bk bl bm bn bo bp bq br bs bt bu bv bw bx por bz ca cb cc cd ce cf cg ch ci cj ck cl Perla, Judea ; Mackenzie, Dana (15 de mayo de 2018). El libro del por qué: la nueva ciencia de causa y efecto. Libros básicos. ISBN 9780465097616.
^ Okasha, Samir (12 de enero de 2012). "Causalidad en biología". En Beebee, Helen; Hitchcock, Christopher; Menzies, Peter (eds.). El manual de causalidad de Oxford. vol. 1. OUP Oxford. doi : 10.1093/oxfordhb/9780199279739.001.0001. ISBN 9780191629464.
^ Pearl, Judea (29 de octubre de 2019). "Inferencia causal y contrafactual" (PDF) . Consultado el 14 de diciembre de 2020 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Epp, Susanna S. (2004). Matemática discreta con aplicaciones. Thomson-Brooks/Cole. págs. 25-26. ISBN 9780534359454.
^ ab "Razonamiento causal". www.istarassessment.org . Consultado el 2 de marzo de 2016 .
^ Riegelman, R. (1979). "Causa contributiva: innecesaria e insuficiente". Medicina de posgrado . 66 (2): 177-179. doi :10.1080/00325481.1979.11715231. PMID 450828.
^ Katan MB (marzo de 1986). "Isoformas de apolipoproteína E, colesterol sérico y cáncer". Lanceta . 1 (8479): 507–8. doi :10.1016/s0140-6736(86)92972-7. PMID 2869248. S2CID 38327985.
^ Smith, George Davey; Ebrahim, Shah (2008). Aleatorización mendeliana: variantes genéticas como instrumentos para fortalecer la inferencia causal en estudios observacionales. Prensa de las Academias Nacionales (EE. UU.).
^ Pearl 2009, capítulo 3-3 Control del sesgo de confusión.
^ Perla, Judea; Glymour, Madelyn; Jewell, Nicholas P (7 de marzo de 2016). Inferencia causal en estadística: introducción . John Wiley e hijos. ISBN 978-1-119-18684-7.
^ Perla 2009, pag. 207.
^ Hao, Karen (8 de mayo de 2019). "El aprendizaje profundo podría revelar por qué el mundo funciona como lo hace". Revisión de tecnología del MIT . Consultado el 10 de febrero de 2020 .

Fuentes

Perla, Judea (14 de septiembre de 2009). Causalidad. Prensa de la Universidad de Cambridge. ISBN 9781139643986.

enlaces externos

Perla, Judea (26 de febrero de 2010). "Una introducción a la inferencia causal". La Revista Internacional de Bioestadística . 6 (2): Artículo 7. doi :10.2202/1557-4679.1203. ISSN 1557-4679. PMC 2836213 . PMID 20305706.
Modelado causal en PhilPapers
Falk, Dan (17 de marzo de 2019). "Los algoritmos de IA son ahora sorprendentemente buenos para hacer ciencia". Cableado . ISSN 1059-1028 . Consultado el 20 de marzo de 2019 .
Maudlin, Tim (30 de agosto de 2019). "El por qué del mundo". Revisión de Boston . Consultado el 9 de septiembre de 2019 .
Hartnett, Kevin (15 de mayo de 2018). "Para construir máquinas verdaderamente inteligentes, enséñeles causa y efecto". Revista Quanta . Consultado el 19 de septiembre de 2019 .
^[1]

^ Aprendizaje de representaciones mediante invariancia causal, ICLR, febrero de 2020 , consultado el 10 de febrero de 2020