stringtranslate.com

Interacción (estadísticas)

Efecto de interacción de la educación y la ideología sobre la preocupación por el aumento del nivel del mar

En estadística , una interacción puede surgir al considerar la relación entre tres o más variables, y describe una situación en la que el efecto de una variable causal sobre un resultado depende del estado de una segunda variable causal (es decir, cuando los efectos de las dos causas no son aditivos ). [1] [2] Aunque comúnmente se piensa en términos de relaciones causales, el concepto de interacción también puede describir asociaciones no causales (también llamadas entonces moderación o modificación del efecto ). Las interacciones a menudo se consideran en el contexto de análisis de regresión o experimentos factoriales .

La presencia de interacciones puede tener implicaciones importantes para la interpretación de los modelos estadísticos. Si dos variables de interés interactúan, la relación entre cada una de las variables interactuantes y una tercera "variable dependiente" depende del valor de la otra variable interactuante. En la práctica, esto hace que sea más difícil predecir las consecuencias de cambiar el valor de una variable, en particular si las variables con las que interactúa son difíciles de medir o de controlar.

La noción de "interacción" está estrechamente relacionada con la de moderación , que es común en la investigación en ciencias sociales y de la salud: la interacción entre una variable explicativa y una variable ambiental sugiere que el efecto de la variable explicativa ha sido moderado o modificado por la variable ambiental. [1]

Introducción

Una variable de interacción o característica de interacción es una variable construida a partir de un conjunto original de variables para intentar representar toda la interacción presente o parte de ella. En los análisis estadísticos exploratorios, es común utilizar productos de variables originales como base para comprobar si hay interacción, con la posibilidad de sustituir otras variables de interacción más realistas en una etapa posterior. Cuando hay más de dos variables explicativas, se construyen varias variables de interacción, con productos por pares que representan interacciones por pares y productos de orden superior que representan interacciones de orden superior.

El factor binario A y la variable cuantitativa X interactúan ( no son aditivos) cuando se analizan con respecto a la variable de resultado Y.

Así, para una respuesta Y y dos variables x 1 y x 2 un modelo aditivo sería:

En contraste con esto,

es un ejemplo de un modelo con una interacción entre las variables x 1 y x 2 ("error" se refiere a la variable aleatoria cuyo valor es aquel por el cual Y difiere del valor esperado de Y ; ver errores y residuos en estadística ). A menudo, los modelos se presentan sin el término de interacción , pero esto confunde el efecto principal y el efecto de interacción (es decir, sin especificar el término de interacción, es posible que cualquier efecto principal encontrado se deba en realidad a una interacción).

En modelado

En ANOVA

Un escenario simple en el que pueden surgir interacciones es un experimento de dos factores analizado mediante el análisis de varianza (ANOVA). Supongamos que tenemos dos factores binarios A y B. Por ejemplo, estos factores podrían indicar si se administró alguno de los dos tratamientos a un paciente, ya sea de forma individual o en combinación. Podemos entonces considerar la respuesta promedio al tratamiento (por ejemplo, los niveles de síntomas después del tratamiento) para cada paciente, como una función de la combinación de tratamientos que se administró. La siguiente tabla muestra una posible situación:

En este ejemplo, no hay interacción entre los dos tratamientos: sus efectos son aditivos. La razón de esto es que la diferencia en la respuesta media entre los sujetos que reciben el tratamiento A y los que no lo reciben es de -2 independientemente de si se administra el tratamiento B ( -2 = 4 - 6) o no (-2 = 5 - 7). Nótese que de ello se deduce automáticamente que la diferencia en la respuesta media entre los sujetos que reciben el tratamiento B y los que no lo reciben es la misma independientemente de si se administra el tratamiento A ( 7 - 6 = 5 - 4).

Por el contrario, si se observan las siguientes respuestas promedio

Entonces, hay una interacción entre los tratamientos: sus efectos no son aditivos. Suponiendo que un mayor número corresponde a una mejor respuesta, en esta situación, el tratamiento B es útil en promedio si el sujeto no está recibiendo también el tratamiento A , pero es perjudicial en promedio si se administra en combinación con el tratamiento A. El tratamiento A es útil en promedio independientemente de si también se administra el tratamiento B , pero es más útil en términos absolutos y relativos si se administra solo, en lugar de en combinación con el tratamiento B. Se hacen observaciones similares para este ejemplo particular en la siguiente sección.

Interacciones cualitativas y cuantitativas

En muchas aplicaciones es útil distinguir entre interacciones cualitativas y cuantitativas. [3] Una interacción cuantitativa entre A y B es una situación en la que la magnitud del efecto de B depende del valor de A , pero la dirección del efecto de B es constante para todo A. Una interacción cualitativa entre A y B se refiere a una situación en la que tanto la magnitud como la dirección del efecto de cada variable pueden depender del valor de la otra variable.

La tabla de medias de la izquierda, a continuación, muestra una interacción cuantitativa: el tratamiento A es beneficioso tanto cuando se administra B como cuando no se administra B , pero el beneficio es mayor cuando no se administra B (es decir, cuando se administra A solo). La tabla de medias de la derecha muestra una interacción cualitativa. A es perjudicial cuando se administra B , pero es beneficioso cuando no se administra B. Obsérvese que la misma interpretación se aplicaría si consideramos el beneficio de B en función de si se administra A o no.

La distinción entre interacciones cualitativas y cuantitativas depende del orden en que se consideren las variables (en contraste, la propiedad de aditividad es invariante al orden de las variables). En la siguiente tabla, si nos centramos en el efecto del tratamiento A , hay una interacción cuantitativa: administrar el tratamiento A mejorará el resultado en promedio independientemente de si ya se está administrando o no el tratamiento B (aunque el beneficio es mayor si se administra solo el tratamiento A ). Sin embargo, si nos centramos en el efecto del tratamiento B , hay una interacción cualitativa: administrar el tratamiento B a un sujeto que ya está recibiendo el tratamiento A empeorará (en promedio), mientras que administrar el tratamiento B a un sujeto que no está recibiendo el tratamiento A mejorará el resultado en promedio.

Aditividad del tratamiento unitario

En su forma más simple, el supuesto de aditividad de la unidad de tratamiento establece que la respuesta observada y ij de la unidad experimental i al recibir el tratamiento j se puede escribir como la suma y ij  =  y i  +  t j . [4] [5] [6] El supuesto de aditividad de la unidad de tratamiento implica que cada tratamiento tiene exactamente el mismo efecto aditivo en cada unidad experimental. Dado que cualquier unidad experimental dada solo puede someterse a uno de los tratamientos, el supuesto de aditividad de la unidad de tratamiento es una hipótesis que no es directamente falsable, según Cox [ cita requerida ] y Kempthorne. [ cita requerida ]

Sin embargo, muchas consecuencias de la aditividad de las unidades de tratamiento pueden ser refutadas. [ cita requerida ] Para un experimento aleatorio, el supuesto de aditividad de los tratamientos implica que la varianza es constante para todos los tratamientos. Por lo tanto, por contraposición, una condición necesaria para la aditividad de los tratamientos unitarios es que la varianza sea constante. [ cita requerida ]

La propiedad de aditividad del tratamiento unitario no es invariable ante un cambio de escala, [ cita requerida ] por lo que los estadísticos a menudo utilizan transformaciones para lograr la aditividad del tratamiento unitario. Si se espera que la variable de respuesta siga una familia paramétrica de distribuciones de probabilidad, entonces el estadístico puede especificar (en el protocolo para el experimento o estudio observacional) que las respuestas se transformen para estabilizar la varianza. [7] En muchos casos, un estadístico puede especificar que se apliquen transformaciones logarítmicas a las respuestas, que se cree que siguen un modelo multiplicativo. [5] [8]

El supuesto de la aditividad del tratamiento unitario fue enunciado en el diseño experimental por Kempthorne [ cita requerida ] y Cox [ cita requerida ] . El uso que hace Kempthorne de la aditividad del tratamiento unitario y la aleatorización es similar al análisis basado en el diseño del muestreo de encuestas de población finita.

En los últimos años, se ha vuelto común [ cita requerida ] utilizar la terminología de Donald Rubin, que utiliza contrafácticos. Supongamos que estamos comparando dos grupos de personas con respecto a algún atributo y . Por ejemplo, el primer grupo podría estar formado por personas a las que se les da un tratamiento estándar para una condición médica, y el segundo grupo formado por personas que reciben un nuevo tratamiento con efecto desconocido. Tomando una perspectiva "contrafáctica", podemos considerar un individuo cuyo atributo tiene valor y si ese individuo pertenece al primer grupo, y cuyo atributo tiene valor τ ( y ) si el individuo pertenece al segundo grupo. El supuesto de "aditividad del tratamiento unitario" es que τ ( y ) =  τ , es decir, el "efecto del tratamiento" no depende de y . Dado que no podemos observar tanto y como τ( y ) para un individuo dado, esto no es comprobable a nivel individual. Sin embargo, la aditividad del tratamiento unitario implica que las funciones de distribución acumulativa F 1 y F 2 para los dos grupos satisfacen F 2 ( y ) =  F 1 ( y − τ ), siempre que la asignación de individuos a los grupos 1 y 2 sea independiente de todos los demás factores que influyen en y (es decir, no hay factores de confusión ). La falta de aditividad del tratamiento unitario puede verse como una forma de interacción entre la asignación del tratamiento (por ejemplo, a los grupos 1 o 2) y el valor de referencia o no tratado de y .

Variables categóricas

A veces, las variables que interactúan son variables categóricas en lugar de números reales y el estudio podría entonces abordarse como un problema de análisis de varianza . Por ejemplo, los miembros de una población pueden clasificarse por religión y ocupación. Si uno desea predecir la altura de una persona basándose únicamente en la religión y la ocupación de la persona, un modelo aditivo simple , es decir, un modelo sin interacción, agregaría a una altura promedio general un ajuste para una religión en particular y otro para una ocupación en particular. Un modelo con interacción, a diferencia de un modelo aditivo , podría agregar un ajuste adicional para la "interacción" entre esa religión y esa ocupación. Este ejemplo puede hacer que uno sospeche que la palabra interacción es algo inapropiada.

Estadísticamente, la presencia de una interacción entre variables categóricas se suele comprobar utilizando una forma de análisis de varianza (ANOVA). Sin embargo, si una o más de las variables son de naturaleza continua, normalmente se comprobaría utilizando una regresión múltiple moderada. [9] Se denomina así porque un moderador es una variable que afecta la solidez de una relación entre otras dos variables.

Experimentos diseñados

Genichi Taguchi sostuvo [10] que las interacciones podrían eliminarse de un sistema mediante la elección adecuada de la variable de respuesta y la transformación. Sin embargo, George Box y otros han sostenido que este no es el caso en general. [11]

Tamaño del modelo

Dados n predictores, la cantidad de términos en un modelo lineal que incluye una constante, cada predictor y cada interacción posible es . Dado que esta cantidad crece exponencialmente, fácilmente se vuelve imprácticamente grande. Un método para limitar el tamaño del modelo es limitar el orden de las interacciones. Por ejemplo, si solo se permiten interacciones bidireccionales, la cantidad de términos se convierte en . La siguiente tabla muestra la cantidad de términos para cada cantidad de predictores y el orden máximo de interacción.

En regresión

El enfoque más general para modelar los efectos de interacción implica la regresión, comenzando con la versión elemental dada anteriormente:

donde el término de interacción podría formarse explícitamente multiplicando dos (o más) variables, o implícitamente usando la notación factorial en paquetes estadísticos modernos como Stata . Los componentes x 1 y x 2 podrían ser mediciones o variables ficticias {0,1} en cualquier combinación. Las interacciones que involucran una variable ficticia multiplicada por una variable de medición se denominan variables ficticias de pendiente , [12] porque estiman y prueban la diferencia en pendientes entre los grupos 0 y 1.

Cuando se emplean variables de medición en interacciones, a menudo es deseable trabajar con versiones centradas, donde la media de la variable (o algún otro valor razonablemente central) se establece como cero. El centrado puede hacer que los efectos principales en los modelos de interacción sean más interpretables, ya que reduce la multicolinealidad entre el término de interacción y los efectos principales. [13] El coeficiente a en la ecuación anterior, por ejemplo, representa el efecto de x 1 cuando x 2 es igual a cero.

La interacción entre la educación y los partidos políticos afecta las creencias sobre el cambio climático

Los enfoques de regresión para el modelado de interacciones son muy generales porque pueden dar cabida a predictores adicionales y muchas especificaciones alternativas o estrategias de estimación más allá de los mínimos cuadrados ordinarios . Entre las posibilidades se encuentran los modelos robustos , cuantiles y de efectos mixtos ( multinivel ), al igual que el modelado lineal generalizado que abarca una amplia gama de variables dependientes categóricas, ordenadas, contadas o limitadas de otro modo. El gráfico representa una interacción educación*política, a partir de un análisis de regresión logit ponderada por probabilidad de datos de encuestas. [14]

Gráficas de interacción

Los gráficos de interacción, también llamados gráficos de pendiente simple , muestran posibles interacciones entre variables.

Ejemplo: Interacción de las especies y la temperatura del aire y su efecto sobre la temperatura corporal

Consideremos un estudio de la temperatura corporal de diferentes especies a distintas temperaturas del aire, en grados Fahrenheit. Los datos se muestran en la siguiente tabla.

El gráfico de interacción puede utilizar la temperatura del aire o la especie como eje x. El segundo factor se representa mediante líneas en el gráfico de interacción.

trama de interacción temperatura corporal

trama de interacción temperatura corporal 2

Existe una interacción entre los dos factores (temperatura del aire y especie) en su efecto sobre la respuesta (temperatura corporal), porque el efecto de la temperatura del aire depende de la especie. La interacción se indica en el gráfico porque las líneas no son paralelas.

Ejemplo: efecto de la gravedad del accidente cerebrovascular y del tratamiento en la recuperación

Como segundo ejemplo, consideremos un ensayo clínico sobre la interacción entre la gravedad del accidente cerebrovascular y la eficacia de un fármaco en la supervivencia del paciente. Los datos se muestran en la siguiente tabla.

interacción trama accidente cerebrovascular supervivencia

En el gráfico de interacción, las líneas para los grupos de ACV leve y moderado son paralelas, lo que indica que el fármaco tiene el mismo efecto en ambos grupos, por lo que no hay interacción. La línea para el grupo de ACV grave no es paralela a las otras líneas, lo que indica que hay una interacción entre la gravedad del ACV y el efecto del fármaco en la supervivencia. La línea para el grupo de ACV grave es plana, lo que indica que, entre estos pacientes, no hay diferencia en la supervivencia entre los tratamientos con fármaco y placebo. Por el contrario, las líneas para los grupos de ACV leve y moderado descienden hacia la derecha, lo que indica que, entre estos pacientes, el grupo placebo tiene una supervivencia menor que el grupo tratado con fármaco.

Pruebas de hipótesis para interacciones

El análisis de varianza y el análisis de regresión se utilizan para probar interacciones significativas.

Ejemplo: Interacción de la temperatura y el tiempo en la cocción de galletas

¿La temperatura de cocción y el tiempo de cocción en el horno afectan el rendimiento de las galletas de buena calidad? La tabla muestra datos de 8 lotes de galletas.

trama de interacción horneando galletas

Los datos muestran que el rendimiento de las galletas es mejor cuando (i) la temperatura es alta y el tiempo en el horno es corto, o (ii) la temperatura es baja y el tiempo en el horno es largo. Si las galletas se dejan en el horno durante mucho tiempo a una temperatura alta, se queman y el rendimiento es bajo.

Del gráfico y de los datos se desprende claramente que las líneas no son paralelas, lo que indica que existe una interacción. Esto se puede comprobar mediante un análisis de varianza (ANOVA). El primer modelo ANOVA no incluirá el término de interacción, es decir, ignorará la posible interacción. El segundo modelo ANOVA incluirá el término de interacción, es decir, realizará explícitamente una prueba de hipótesis para la interacción.

Modelo ANOVA 1: sin término de interacción; resultado ~ temperatura + tiempo

En el modelo ANOVA que ignora la interacción, ni la temperatura ni el tiempo tienen un efecto significativo en el rendimiento (p=0,91), lo que claramente es una conclusión incorrecta. El modelo ANOVA más apropiado debería probar la posible interacción.

Modelo ANOVA 2: incluye término de interacción; rendimiento ~ temperatura * tiempo

El término de interacción temperatura:tiempo es significativo (p=0,000180). Con base en la prueba de interacción y el gráfico de interacción, parece que el efecto del tiempo en el rendimiento depende de la temperatura y viceversa.

Ejemplos

Algunos ejemplos de interacción en el mundo real incluyen:

Véase también

Referencias

  1. ^ ab Dodge, Y. (2003). Diccionario Oxford de términos estadísticos . Oxford University Press. ISBN 978-0-19-920613-1.
  2. ^ Cox, DR (1984). "Interacción". Revista Estadística Internacional . 52 (1): 1–25. doi :10.2307/1403235. JSTOR  1403235.
  3. ^ Peto, DP (1982). "Aspectos estadísticos de los ensayos sobre el cáncer". Tratamiento del cáncer (primera edición). Londres: Chapman and Hall. ISBN 0-412-21850-X.
  4. ^ Kempthorne, Oscar (1979). El diseño y análisis de experimentos (reimpresión corregida de la edición de Wiley de 1952). Robert E. Krieger. ISBN 978-0-88275-105-4.
  5. ^ ab Cox, David R. (1958). Planificación de experimentos . Wiley. Capítulo 2. ISBN 0-471-57429-5.
  6. ^ Hinkelmann, Klaus y Kempthorne, Oscar (2008). Diseño y análisis de experimentos, volumen I: Introducción al diseño experimental (segunda edición). Wiley. Capítulos 5 y 6. ISBN 978-0-471-72756-9.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  7. ^ Hinkelmann, Klaus y Kempthorne, Oscar (2008). Diseño y análisis de experimentos, volumen I: Introducción al diseño experimental (segunda edición). Wiley. Capítulos 7 y 8. ISBN 978-0-471-72756-9.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  8. ^ Bailey, RA (2008). Diseño de experimentos comparativos. Cambridge University Press. ISBN 978-0-521-68357-9.Los capítulos previos a su publicación están disponibles en línea.
  9. ^ Overton, RC (2001). "Regresión múltiple moderada para interacciones que involucran variables categóricas: un control estadístico para la varianza heterogénea entre dos grupos". Psychol Methods . 6 (3): 218–33. doi :10.1037/1082-989X.6.3.218. PMID  11570229.
  10. ^ "Diseño de experimentos - Experimentos Taguchi". www.qualitytrainingportal.com . Consultado el 27 de noviembre de 2015 .
  11. ^ George EP Box (1990). "¿Importan las interacciones?" (PDF) . Quality Engineering . 2 : 365–369. doi :10.1080/08982119008962728. Archivado desde el original (PDF) el 2010-06-10 . Consultado el 2009-07-28 .
  12. ^ Hamilton, LC 1992. Regresión con gráficos: un segundo curso de estadística aplicada . Pacific Grove, CA: Brooks/Cole. ISBN 978-0534159009 
  13. ^ Iacobucci, Dawn; Schneider, Matthew J.; Popovich, Deidre L.; Bakamitsos, Georgios A. (2016). "El centrado de la media ayuda a aliviar la multicolinealidad "micro" pero no la "macro"". Métodos de investigación del comportamiento . 48 (4): 1308–1317. doi : 10.3758/s13428-015-0624-x . ISSN  1554-3528. PMID  26148824.
  14. ^ Hamilton, LC; Saito, K. (2015). "Una visión cuatripartita de la preocupación medioambiental estadounidense". Environmental Politics . 24 (2): 212–227. Bibcode :2015EnvPo..24..212H. doi :10.1080/09644016.2014.976485. S2CID  154762226.
  15. ^ Lee, PN (2001). "Relación entre la exposición al amianto y el tabaquismo en conjunto y el riesgo de cáncer de pulmón". Medicina ocupacional y ambiental . 58 (3): 145–53. doi :10.1136/oem.58.3.145. PMC 1740104. PMID  11171926 . 
  16. ^ Lu, Q.; et al. (2009). "Predisposición genética, patrón dietético occidental y riesgo de diabetes tipo 2 en hombres". Am J Clin Nutr . 89 (5): 1453–1458. doi :10.3945/ajcn.2008.27249. PMC 2676999 . PMID  19279076. 
  17. ^ Hamilton, LC (2011). "Educación, política y opiniones sobre el cambio climático: evidencia de efectos de interacción". Cambio climático . 104 (2): 231–242. Bibcode :2011ClCh..104..231H. doi :10.1007/s10584-010-9957-8. S2CID  16481640.
  18. ^ McCright, AM (2011). "La orientación política modera las creencias y preocupaciones de los estadounidenses sobre el cambio climático". Cambio climático . 104 (2): 243–253. Bibcode :2011ClCh..104..243M. doi :10.1007/s10584-010-9946-y. S2CID  152795205.
  19. ^ Hamilton, Lawrence C.; Saito, Kei (2015). "Una visión cuatripartita de la preocupación medioambiental estadounidense". Environmental Politics . 24 (2): 212–227. Bibcode :2015EnvPo..24..212H. doi :10.1080/09644016.2014.976485. S2CID  154762226.
  20. ^ Kahan, DM; Jenkins-Smith, H.; Braman, D. (2011). "Cognición cultural del consenso científico". Revista de investigación de riesgos . 14 (2): 147–174. doi :10.1080/13669877.2010.511246. hdl : 10.1080/13669877.2010.511246 . S2CID  216092368.
  21. ^ Hamilton, LC; Cutler, MJ; Schaefer, A. (2012). "Conocimiento público y preocupación por el calentamiento de la región polar". Polar Geography . 35 (2): 155–168. Bibcode :2012PolGe..35..155H. doi :10.1080/1088937X.2012.684155. S2CID  12437794.

Lectura adicional

Enlaces externos