El análisis causal es el campo del diseño experimental y de las estadísticas que se ocupa de establecer la relación causa-efecto. [1] Normalmente implica establecer cuatro elementos: correlación , secuencia en el tiempo (es decir, las causas deben ocurrir antes de su efecto propuesto), un mecanismo físico o teórico de la información plausible para que un efecto observado se derive de una causa posible y la eliminación de la posibilidad de causas comunes y alternativas ("especiales") . Este tipo de análisis suele implicar uno o más experimentos artificiales o naturales . [2]
El análisis de datos se ocupa principalmente de cuestiones causales. [3] [4] [5] [6] [7] Por ejemplo, ¿el fertilizante hizo que los cultivos crecieran? [8] O, ¿se puede prevenir una enfermedad determinada? [9] O, ¿por qué está deprimido mi amigo? [10] Los resultados potenciales y las técnicas de análisis de regresión manejan tales consultas cuando los datos se recopilan utilizando experimentos diseñados. Los datos recopilados en estudios observacionales requieren diferentes técnicas para la inferencia causal (debido, por ejemplo, a problemas como la confusión ). [11] Las técnicas de inferencia causal utilizadas con datos experimentales requieren suposiciones adicionales para producir inferencias razonables con datos de observación. [12] La dificultad de la inferencia causal en tales circunstancias a menudo se resume como " la correlación no implica causalidad ".
La naturaleza de la causalidad se investiga sistemáticamente en varias disciplinas académicas , incluidas la filosofía y la física .
En el ámbito académico, hay un número significativo de teorías sobre la causalidad; The Oxford Handbook of Causation (Beebee, Hitchcock & Menzies 2009) abarca 770 páginas. Entre las teorías más influyentes dentro de la filosofía se encuentran las Cuatro causas de Aristóteles y el ocasionalismo de Al-Ghazali . [13] David Hume argumentó que las creencias sobre la causalidad se basan en la experiencia, y la experiencia se basa de manera similar en el supuesto de que el futuro modela el pasado, que a su vez solo puede basarse en la experiencia, lo que conduce a la lógica circular . En conclusión, afirmó que la causalidad no se basa en el razonamiento real : solo la correlación puede percibirse realmente. [14] Immanuel Kant , según Beebee, Hitchcock & Menzies (2009), sostuvo que "un principio causal según el cual cada evento tiene una causa, o se sigue de acuerdo con una ley causal, no puede establecerse a través de la inducción como una afirmación puramente empírica, ya que entonces carecería de universalidad estricta o necesidad".
Fuera del campo de la filosofía, las teorías de causalidad se pueden identificar en la mecánica clásica , la mecánica estadística , la mecánica cuántica , las teorías del espacio-tiempo , la biología , las ciencias sociales y el derecho . [13] Para establecer una correlación como causal dentro de la física , normalmente se entiende que la causa y el efecto deben conectarse a través de un mecanismo local (cf. por ejemplo el concepto de impacto ) o un mecanismo no local (cf. el concepto de campo ), de acuerdo con las leyes conocidas de la naturaleza .
Desde el punto de vista de la termodinámica , las propiedades universales de las causas en comparación con los efectos se han identificado a través de la Segunda ley de la termodinámica , lo que confirma la visión antigua, medieval y cartesiana [15] de que "la causa es mayor que el efecto" para el caso particular de la energía libre termodinámica . Esto, a su vez, es desafiado [ dudoso – discutir ] por las interpretaciones populares de los conceptos de sistemas no lineales y el efecto mariposa , en el que pequeños eventos causan grandes efectos debido, respectivamente, a la imprevisibilidad y a un desencadenamiento improbable de grandes cantidades de energía potencial .
Intuitivamente, la causalidad parece requerir no sólo una correlación, sino una dependencia contrafáctica . Supongamos que un estudiante obtuvo un mal resultado en un examen y supone que la causa fue que no estudió. Para demostrarlo, se piensa en el contrafáctico: el mismo estudiante rinde el mismo examen en las mismas circunstancias, pero habiendo estudiado la noche anterior. Si se pudiera retroceder en el tiempo y cambiar sólo una pequeña cosa (hacer que el estudiante estudie para el examen), entonces se podría observar la causalidad (comparando la versión 1 con la versión 2). Como no se puede retroceder en el tiempo y reproducir los hechos después de hacer pequeños cambios controlados, la causalidad sólo se puede inferir, nunca conocer con exactitud. Esto se conoce como el problema fundamental de la inferencia causal: es imposible observar directamente los efectos causales. [16]
Un objetivo importante de los experimentos científicos y de los métodos estadísticos es aproximarse lo mejor posible al estado contrafáctico del mundo. [17] Por ejemplo, se podría realizar un experimento con gemelos idénticos que se sabe que siempre obtienen las mismas notas en sus exámenes. Uno de ellos es enviado a estudiar durante seis horas mientras que el otro es enviado al parque de diversiones. Si sus puntuaciones en los exámenes divergen repentinamente en un grado considerable, esto sería una prueba sólida de que estudiar (o ir al parque de diversiones) tiene un efecto causal en las puntuaciones de los exámenes. En este caso, la correlación entre el estudio y las puntuaciones de los exámenes implicaría casi con certeza causalidad.
Los estudios experimentales bien diseñados sustituyen la igualdad de individuos, como en el ejemplo anterior, por la igualdad de grupos. El objetivo es construir dos grupos que sean similares excepto por el tratamiento que reciben. Esto se logra seleccionando sujetos de una única población y asignándolos aleatoriamente a dos o más grupos. La probabilidad de que los grupos se comporten de manera similar entre sí (en promedio) aumenta con el número de sujetos en cada grupo. Si los grupos son esencialmente equivalentes excepto por el tratamiento que reciben, y se observa una diferencia en el resultado de los grupos, entonces esto constituye evidencia de que el tratamiento es responsable del resultado, o en otras palabras, el tratamiento causa el efecto observado. Sin embargo, un efecto observado también podría ser causado "por casualidad", por ejemplo, como resultado de perturbaciones aleatorias en la población. Existen pruebas estadísticas para cuantificar la probabilidad de concluir erróneamente que existe una diferencia observada cuando, de hecho, no existe (por ejemplo, consulte el valor P ).
Clive Granger creó la primera definición operacional de causalidad en 1969. [18] Granger hizo operativa la definición de causalidad probabilística propuesta por Norbert Wiener como una comparación de varianzas. [19]
Peter Spirtes, Clark Glymour y Richard Scheines introdujeron la idea de no proporcionar explícitamente una definición de causalidad [ aclaración necesaria ] . [3] Spirtes y Glymour introdujeron el algoritmo PC para el descubrimiento causal en 1990. [20] Muchos algoritmos de descubrimiento causal recientes siguen el enfoque de Spirtes-Glymour para la verificación. [21]
El análisis causal exploratorio, también conocido como "causalidad de datos" o "descubrimiento causal" [3], es el uso de algoritmos estadísticos para inferir asociaciones en conjuntos de datos observados que son potencialmente causales bajo supuestos estrictos. El ECA es un tipo de inferencia causal distinto del modelado causal y los efectos del tratamiento en ensayos controlados aleatorios . [4] Es una investigación exploratoria que generalmente precede a una investigación causal más formal de la misma manera que el análisis exploratorio de datos a menudo precede a la prueba de hipótesis estadísticas en el análisis de datos . [22] [23]