En estadística , el análisis de trayectorias se utiliza para describir las dependencias dirigidas entre un conjunto de variables. Esto incluye modelos equivalentes a cualquier forma de análisis de regresión múltiple , análisis factorial , análisis de correlación canónica , análisis discriminante , así como familias más generales de modelos en el análisis multivariado de varianza y análisis de covarianza ( MANOVA , ANOVA , ANCOVA ).
Además de considerarse una forma de regresión múltiple centrada en la causalidad, el análisis de trayectorias puede considerarse un caso especial de modelado de ecuaciones estructurales (SEM) , en el que solo se emplean indicadores únicos para cada una de las variables del modelo causal. Es decir, el análisis de trayectorias es un SEM con un modelo estructural, pero sin un modelo de medición. Otros términos utilizados para referirse al análisis de trayectorias incluyen modelado causal y análisis de estructuras de covarianza.
Judea Pearl considera que el análisis de trayectorias es un antecesor directo de las técnicas de inferencia causal . [1]
El análisis de trayectorias fue desarrollado alrededor de 1918 por el genetista Sewall Wright , quien escribió sobre él más extensamente en la década de 1920. [2] Desde entonces se ha aplicado a una amplia gama de áreas de modelado complejo, incluidas la biología , la psicología , la sociología y la econometría . [3]
Por lo general, los modelos de trayectorias constan de variables independientes y dependientes representadas gráficamente por cuadros o rectángulos. Las variables que son variables independientes, y no dependientes, se denominan "exógenas". Gráficamente, estos cuadros de variables exógenas se encuentran en los bordes exteriores del modelo y solo tienen flechas de una sola punta que salen de ellos. Ninguna flecha de una sola punta apunta a las variables exógenas. Las variables que son únicamente variables dependientes, o que son variables independientes y dependientes, se denominan "endógenas". Gráficamente, las variables endógenas tienen al menos una flecha de una sola punta que las apunta.
En el modelo que se muestra a continuación, las dos variables exógenas (Ex 1 y Ex 2 ) se modelan como correlacionadas , como se muestra mediante la flecha de dos puntas. Ambas variables tienen efectos directos e indirectos (a través de En 1 ) sobre En 2 (las dos variables o factores dependientes o "endógenos"). En la mayoría de los modelos del mundo real, las variables endógenas también pueden verse afectadas por variables y factores que surgen de fuera del modelo (efectos externos, incluido el error de medición). Estos efectos se representan mediante los términos "e" o de error en el modelo.
Utilizando las mismas variables, se pueden concebir modelos alternativos. Por ejemplo, se puede plantear la hipótesis de que Ex 1 tiene sólo un efecto indirecto sobre En 2 , eliminando la flecha de Ex 1 a En 2 ; y la probabilidad o "ajuste" de estos dos modelos se puede comparar estadísticamente.
Para calcular de forma válida la relación entre dos casillas cualesquiera del diagrama, Wright (1934) propuso un conjunto simple de reglas de trazado de trayectorias [4] para calcular la correlación entre dos variables. La correlación es igual a la suma de la contribución de todas las trayectorias a través de las cuales se conectan las dos variables. La fuerza de cada una de estas trayectorias contribuyentes se calcula como el producto de los coeficientes de trayectoria a lo largo de esa trayectoria.
Las reglas para el rastreo de rutas son:
Nuevamente, la correlación esperada debido a cada cadena trazada entre dos variables es el producto de los coeficientes de ruta estandarizados, y la correlación total esperada entre dos variables es la suma de estas cadenas de ruta contribuyentes.
NB : Las reglas de Wright suponen un modelo sin bucles de retroalimentación: el gráfico dirigido del modelo no debe contener ciclos , es decir, es un gráfico acíclico dirigido , que ha sido ampliamente estudiado en el marco de análisis causal de Judea Pearl .
Si las variables modeladas no han sido estandarizadas, una regla adicional permite calcular las covarianzas esperadas siempre que no existan caminos que conecten variables dependientes con otras variables dependientes.
El caso más simple se da cuando todas las varianzas residuales se modelan explícitamente. En este caso, además de las tres reglas anteriores, calcule las covarianzas esperadas mediante:
Cuando no se incluyen explícitamente las varianzas residuales, o como una solución más general, en cualquier cambio de dirección que se encuentre en una ruta (excepto en flechas de doble sentido), incluya la varianza de la variable en el punto de cambio. Es decir, al trazar una ruta desde una variable dependiente a una variable independiente, incluya la varianza de la variable independiente excepto cuando hacerlo violaría la regla 1 anterior (pasando por puntas de flecha adyacentes: es decir, cuando la variable independiente también se conecta a una flecha de doble punta que la conecta a otra variable independiente). Al derivar varianzas (lo cual es necesario en el caso en que no se modelan explícitamente), la ruta desde una variable dependiente a una variable independiente y viceversa se cuenta solo una vez.