En estadística, econometría, epidemiología, genética y disciplinas relacionadas, los gráficos causales (también conocidos como diagramas de ruta , redes bayesianas causales o DAG ) son modelos gráficos probabilísticos que se utilizan para codificar suposiciones sobre el proceso de generación de datos.
Los gráficos causales se pueden utilizar para la comunicación y la inferencia. Son complementarios de otras formas de razonamiento causal, por ejemplo, el uso de notación de igualdad causal. Como dispositivos de comunicación, los gráficos proporcionan una representación formal y transparente de los supuestos causales que los investigadores deseen transmitir y defender. Como herramientas de inferencia, los gráficos permiten a los investigadores estimar los tamaños del efecto a partir de datos no experimentales, [1] [2] [3] [4] [5] derivar implicaciones comprobables de los supuestos codificados, [1] [6] [7] [8] probar la validez externa, [9] y gestionar los datos faltantes [10] y el sesgo de selección. [11]
Los gráficos causales fueron utilizados por primera vez por el genetista Sewall Wright [12] bajo la rúbrica "diagramas de ruta". Posteriormente fueron adoptados por los científicos sociales [13] [14] [15] [16] [17] [18] y, en menor medida, por los economistas. [19] Estos modelos se limitaron inicialmente a ecuaciones lineales con parámetros fijos. Los desarrollos modernos han extendido los modelos gráficos al análisis no paramétrico y, por lo tanto, lograron una generalidad y flexibilidad que ha transformado el análisis causal en la informática, la epidemiología [20] y las ciencias sociales. [21]
El gráfico causal se puede dibujar de la siguiente manera. Cada variable en el modelo tiene un vértice o nodo correspondiente y se dibuja una flecha desde una variable X a una variable Y siempre que se considere que Y responde a cambios en X cuando todas las demás variables se mantienen constantes. Las variables conectadas a Y mediante flechas directas se denominan padres de Y , o "causas directas de Y ", y se denotan por Pa(Y) .
Los modelos causales suelen incluir "términos de error" o "factores omitidos" que representan todos los factores no medidos que influyen en una variable Y cuando Pa(Y) se mantiene constante. En la mayoría de los casos, los términos de error se excluyen del gráfico. Sin embargo, si el autor del gráfico sospecha que los términos de error de dos variables cualesquiera son dependientes (por ejemplo, las dos variables tienen una causa común latente o no observada), entonces se traza un arco bidireccional entre ellas. Así, la presencia de variables latentes se tiene en cuenta a través de las correlaciones que inducen entre los términos de error, representados por arcos bidireccionales.
Una herramienta fundamental en el análisis gráfico es la separación d , que permite a los investigadores determinar, mediante inspección, si la estructura causal implica que dos conjuntos de variables son independientes dado un tercer conjunto. En los modelos recursivos sin términos de error correlacionados (a veces llamados Markovianos ), estas independencias condicionales representan todas las implicaciones comprobables del modelo. [22]
Supongamos que deseamos estimar el efecto de asistir a una universidad de élite sobre los ingresos futuros. La simple regresión de los ingresos sobre la calificación universitaria no dará una estimación imparcial del efecto objetivo porque las universidades de élite son muy selectivas y los estudiantes que asisten a ellas probablemente estén calificados para trabajos bien remunerados antes de asistir a la escuela. Suponiendo que las relaciones causales son lineales, este conocimiento previo se puede expresar en la siguiente especificación del modelo de ecuaciones estructurales (SEM).
Modelo 1
donde representa las calificaciones del individuo antes de la universidad, representa las calificaciones después de la universidad, contiene atributos que representan la calidad de la universidad a la que asistió y el salario del individuo.
La Figura 1 es un gráfico causal que representa la especificación de este modelo. Cada variable del modelo tiene un nodo o vértice correspondiente en el gráfico. Además, para cada ecuación, se dibujan flechas desde las variables independientes hasta las variables dependientes. Estas flechas reflejan la dirección de la causalidad. En algunos casos, podemos etiquetar la flecha con su correspondiente coeficiente estructural como en la Figura 1.
Si y son variables no observadas o latentes, su influencia sobre y puede atribuirse a sus términos de error. Al eliminarlos obtenemos la siguiente especificación del modelo:
Modelo 2
La información básica especificada por el Modelo 1 implica que el término de error de , está correlacionado con el término de error de C. Como resultado, agregamos un arco bidireccional entre S y C , como en la Figura 2.
Puesto que está correlacionado con y, por lo tanto , es endógeno y no se identifica en el Modelo 2. Sin embargo, si incluimos la solidez de la solicitud universitaria de un individuo, como se muestra en la Figura 3, obtenemos el siguiente modelo:
Modelo 3
Eliminando las variables latentes de la especificación del modelo obtenemos:
Modelo 4
con correlacionado con .
Ahora, se identifica y se puede estimar mediante la regresión de on y . Esto se puede verificar utilizando el criterio de puerta única , [1] [23] una condición gráfica necesaria y suficiente para la identificación de coeficientes estructurales, como , mediante regresión.
{{cite journal}}
: Citar diario requiere |journal=
( ayuda ) ; Falta o está vacío |title=
( ayuda ){{cite journal}}
: Citar diario requiere |journal=
( ayuda ) ; Falta o está vacío |title=
( ayuda )