Grafo dirigido que modela relaciones causales entre variables
En estadística, econometría, epidemiología, genética y disciplinas relacionadas, los gráficos causales (también conocidos como diagramas de ruta , redes bayesianas causales o DAG ) son modelos gráficos probabilísticos utilizados para codificar suposiciones sobre el proceso de generación de datos.
Los gráficos causales se pueden utilizar para la comunicación y la inferencia. Son complementarios a otras formas de razonamiento causal, por ejemplo, utilizando la notación de igualdad causal. Como dispositivos de comunicación, los gráficos proporcionan una representación formal y transparente de los supuestos causales que los investigadores pueden querer transmitir y defender. Como herramientas de inferencia, los gráficos permiten a los investigadores estimar los tamaños de los efectos a partir de datos no experimentales, [1] [2] [3] [4] [5] derivar implicaciones comprobables de los supuestos codificados, [1] [6] [7] [8] comprobar la validez externa, [9] y gestionar los datos faltantes [10] y el sesgo de selección. [11]
Los gráficos causales fueron utilizados por primera vez por el genetista Sewall Wright [12] bajo el nombre de "diagramas de trayectorias". Posteriormente fueron adoptados por los científicos sociales [13] [14] [15] [16] [17] y, en menor medida, por los economistas [18] . Estos modelos se limitaban inicialmente a ecuaciones lineales con parámetros fijos. Los desarrollos modernos han extendido los modelos gráficos al análisis no paramétrico, y así han logrado una generalidad y flexibilidad que ha transformado el análisis causal en la informática, la epidemiología [19] y las ciencias sociales [20] .
Construcción y terminología
El gráfico causal se puede dibujar de la siguiente manera. Cada variable del modelo tiene un vértice o nodo correspondiente y se dibuja una flecha desde una variable X a una variable Y siempre que se considere que Y responde a cambios en X cuando todas las demás variables se mantienen constantes. Las variables conectadas a Y a través de flechas directas se denominan padres de Y o "causas directas de Y " y se denotan por Pa(Y) .
Los modelos causales suelen incluir "términos de error" o "factores omitidos" que representan todos los factores no medidos que influyen en una variable Y cuando Pa(Y) se mantiene constante. En la mayoría de los casos, los términos de error se excluyen del gráfico. Sin embargo, si el autor del gráfico sospecha que los términos de error de dos variables cualesquiera son dependientes (por ejemplo, las dos variables tienen una causa común no observada o latente), se dibuja un arco bidireccional entre ellas. De este modo, se tiene en cuenta la presencia de variables latentes a través de las correlaciones que inducen entre los términos de error, tal como se representa mediante arcos bidireccionales.
Herramientas fundamentales
Una herramienta fundamental en el análisis gráfico es la separación d , que permite a los investigadores determinar, mediante inspección, si la estructura causal implica que dos conjuntos de variables son independientes dado un tercer conjunto. En los modelos recursivos sin términos de error correlacionados (a veces llamados markovianos ), estas independencias condicionales representan todas las implicaciones comprobables del modelo. [21]
Ejemplo
Supongamos que queremos estimar el efecto de asistir a una universidad de élite sobre los ingresos futuros. La simple regresión de los ingresos en función de la calificación de la universidad no dará una estimación imparcial del efecto objetivo porque las universidades de élite son altamente selectivas y es probable que los estudiantes que asisten a ellas tengan calificaciones para trabajos con altos ingresos antes de asistir a la escuela. Suponiendo que las relaciones causales son lineales, este conocimiento de fondo se puede expresar en la siguiente especificación del modelo de ecuación estructural (SEM).
Modelo 1
donde representa las calificaciones del individuo antes de la universidad, representa las calificaciones después de la universidad, contiene atributos que representan la calidad de la universidad a la que asistió y el salario del individuo.
La figura 1 es un gráfico causal que representa esta especificación del modelo. Cada variable del modelo tiene un nodo o vértice correspondiente en el gráfico. Además, para cada ecuación, se dibujan flechas desde las variables independientes hasta las variables dependientes. Estas flechas reflejan la dirección de la causalidad. En algunos casos, podemos etiquetar la flecha con su coeficiente estructural correspondiente, como en la figura 1.
Si y son variables no observadas o latentes, su influencia sobre y puede atribuirse a sus términos de error. Al eliminarlos, obtenemos la siguiente especificación del modelo:
Modelo 2
La información de fondo especificada por el Modelo 1 implica que el término de error de , , está correlacionado con el término de error de C , . Como resultado, agregamos un arco bidireccional entre S y C , como en la Figura 2.
Dado que está correlacionado con y, por lo tanto, , es endógeno y no se identifica en el Modelo 2. Sin embargo, si incluimos la solidez de la solicitud de ingreso a la universidad de un individuo, , como se muestra en la Figura 3, obtenemos el siguiente modelo:
Modelo 3
Eliminando las variables latentes de la especificación del modelo obtenemos:
Modelo 4
con correlacionado con .
Ahora, se identifica y se puede estimar utilizando la regresión de en y . Esto se puede verificar utilizando el criterio de puerta única , [1] [22] una condición gráfica necesaria y suficiente para la identificación de coeficientes estructurales, como , utilizando regresión.
^ Tian, Jin; Pearl, Judea (2002). "Una condición de identificación general para los efectos causales". Actas de la Decimoctava Conferencia Nacional sobre Inteligencia Artificial . ISBN978-0-262-51129-2.
^ Shpitser, Ilya; Pearl, Judea (2008). "Métodos de identificación completos para la jerarquía causal" (PDF) . Revista de investigación en aprendizaje automático . 9 : 1941–1979.
^ Huang, Y.; Valtorta, M. (2006). Identificabilidad en redes bayesianas causales: un algoritmo sólido y completo (PDF) .
^ Bareinboim, Elias; Pearl, Judea (2012). "Inferencia causal mediante experimentos sustitutos: z-Identificabilidad". Actas de la vigésimo octava conferencia sobre incertidumbre en inteligencia artificial . arXiv : 1210.4842 . Código Bibliográfico :2012arXiv1210.4842B. ISBN :978-0-9749039-8-9.
^ Tian, Jin; Pearl, Judea (2002). "Sobre las implicaciones comprobables de los modelos causales con variables ocultas". Actas de la decimoctava conferencia sobre incertidumbre en inteligencia artificial . pp. 519–27. arXiv : 1301.0608 . Bibcode :2013arXiv1301.0608T. ISBN.978-1-55860-897-9.
^ Shpitser, Ilya; Pearl, Judea (2008). "Métodos de identificación completos para la jerarquía causal" (PDF) . Journal of Machine Learning Research . 9 (64): 1941–1979. ISSN 1533-7928 . Consultado el 11 de agosto de 2024 .
^ Chen, Bryant; Pearl, Judea (2014). "Implicaciones comprobables de los modelos de ecuaciones estructurales lineales". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 28 . doi : 10.1609/aaai.v28i1.9065 . S2CID 1612893.
^ Bareinmboim, Elias; Pearl, Judea (2014). "Validez externa: del cálculo do a la transportabilidad entre poblaciones". Ciencia estadística . 29 (4): 579–595. arXiv : 1503.01603 . doi :10.1214/14-sts486. S2CID 5586184.
^ Mohan, Karthika; Pearl, Judea; Tian, Jin (2013). "Modelos gráficos para inferencia con datos faltantes" (PDF) . Avances en sistemas de procesamiento de información neuronal .
^ Bareinboim, Elias; Tian, Jin; Pearl, Judea (2014). "Recuperación del sesgo de selección en la inferencia causal y estadística". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 28 . doi : 10.1609/aaai.v28i1.9074 .
^ Wright, S. (1921). "Correlación y causalidad". Revista de investigación agrícola . 20 : 557–585.
^ Blalock, HM (1960). "Análisis correlacional e inferencias causales". Antropólogo estadounidense . 62 (4): 624–631. doi : 10.1525/aa.1960.62.4.02a00060 .
^ Duncan, OD (1966). "Análisis de trayectorias: ejemplos sociológicos". Revista estadounidense de sociología . 72 : 1–16. doi :10.1086/224256. S2CID 59428866.
^ Duncan, OD (1976). "Introducción a los modelos de ecuaciones estructurales". Revista Americana de Sociología . 82 (3): 731–733. doi :10.1086/226377.
^ Jöreskog, KG (1969). "Un enfoque general para el análisis factorial de máxima verosimilitud confirmatorio". Psychometrika . 34 (2): 183–202. doi :10.1007/bf02289343. S2CID 186236320.
^ Goldberger, AS (1972). "Modelos de ecuaciones estructurales en las ciencias sociales". Econometrica . 40 (6): 979–1001. doi :10.2307/1913851. JSTOR 1913851.
^ White, Halbert; Chalak, Karim; Lu, Xun (2011). "Vinculación de la causalidad de Granger y el modelo causal de Pearl con sistemas configurables" (PDF) . Causalidad en series temporales: desafíos en el aprendizaje automático . 5 .
^ Rothman, Kenneth J.; Greenland, Sander; Lash, Timothy (2008). Epidemiología moderna . Lippincott Williams & Wilkins. ISBN978-0-7817-5564-1.
^ Morgan, SL; Winship, C. (2007). Contrafácticos e inferencia causal: métodos y principios para la investigación social . Nueva York: Cambridge University Press. doi :10.1017/cbo9781107587991. ISBN .978-1-107-06507-9.
^ Geiger, Dan; Pearl, Judea (1993). "Propiedades lógicas y algorítmicas de la independencia condicional". Anales de estadística . 21 (4): 2001–2021. CiteSeerX 10.1.1.295.2043 . doi :10.1214/aos/1176349407.
^ Chen, B.; Pearl, J (2014). "Herramientas gráficas para el modelado de ecuaciones estructurales lineales" (PDF) . Informe técnico .