stringtranslate.com

Análisis de variación

El análisis de varianza ( ANOVA ) es una colección de modelos estadísticos y sus procedimientos de estimación asociados (como la "variación" entre grupos) que se utilizan para analizar las diferencias entre medias. ANOVA fue desarrollado por el estadístico Ronald Fisher . ANOVA se basa en la ley de la varianza total , donde la varianza observada en una variable particular se divide en componentes atribuibles a diferentes fuentes de variación. En su forma más simple, ANOVA proporciona una prueba estadística de si dos o más medias poblacionales son iguales y, por lo tanto, generaliza la prueba t más allá de dos medias. En otras palabras, el ANOVA se utiliza para probar la diferencia entre dos o más medias.

Historia

Si bien el análisis de la varianza llegó a buen término en el siglo XX, según Stigler , los antecedentes se remontan a siglos atrás . [1] Estos incluyen pruebas de hipótesis, la partición de sumas de cuadrados, técnicas experimentales y el modelo aditivo. Laplace estaba realizando pruebas de hipótesis en la década de 1770. [2] Alrededor de 1800, Laplace y Gauss desarrollaron el método de mínimos cuadrados para combinar observaciones, que mejoró los métodos utilizados entonces en astronomía y geodesia . También inició muchos estudios sobre las contribuciones a las sumas de cuadrados. Laplace sabía cómo estimar una varianza a partir de una suma de cuadrados residual (en lugar de una total). [3] En 1827, Laplace estaba utilizando métodos de mínimos cuadrados para abordar problemas de ANOVA relacionados con las mediciones de mareas atmosféricas. [4] Antes de 1800, los astrónomos habían aislado los errores de observación resultantes de los tiempos de reacción (la " ecuación personal ") y habían desarrollado métodos para reducir los errores. [5] Los métodos experimentales utilizados en el estudio de la ecuación personal fueron aceptados más tarde por el campo emergente de la psicología [6] que desarrolló fuertes métodos experimentales (factoriales completos) a los que pronto se agregaron la aleatorización y el enmascaramiento. [7] En 1885 estaba disponible una elocuente explicación no matemática del modelo de efectos aditivos. [8]

Ronald Fisher introdujo el término varianza y propuso su análisis formal en un artículo de 1918 sobre genética de poblaciones teórica, La correlación entre parientes sobre la suposición de la herencia mendeliana . [9] Su primera aplicación del análisis de varianza al análisis de datos se publicó en 1921, Studies in Crop Variation I , [10] Este dividió la variación de una serie temporal en componentes que representan causas anuales y deterioro lento. El siguiente artículo de Fisher, Studies in Crop Variation II , escrito con Winifred Mackenzie y publicado en 1923, estudió la variación del rendimiento entre parcelas sembradas con diferentes variedades y sometidas a diferentes tratamientos de fertilizantes. [11] El análisis de varianza se hizo ampliamente conocido después de ser incluido en el libro de Fisher de 1925 Métodos estadísticos para trabajadores de investigación .

Varios investigadores desarrollaron modelos de aleatorización. El primero fue publicado en polaco por Jerzy Neyman en 1923. [12]

Ejemplo

No encaja: joven versus viejo, y pelo corto versus pelo largo
Ajuste justo: mascota versus raza trabajadora y menos atlético versus más atlético
Muy buen ajuste: Peso por raza

El análisis de varianza se puede utilizar para describir relaciones que de otro modo serían complejas entre variables. Una exposición canina es un ejemplo. Una exposición canina no es una muestra aleatoria de la raza: generalmente se limita a perros adultos, de pura raza y ejemplares. Es posible que un histograma del peso de los perros de una exposición sea bastante complejo, como la distribución amarillo-naranja que se muestra en las ilustraciones. Supongamos que quisiéramos predecir el peso de un perro en función de un determinado conjunto de características de cada perro. Una forma de hacerlo es explicar la distribución de pesos dividiendo la población de perros en grupos según esas características. Un agrupamiento exitoso dividirá a los perros de manera que (a) cada grupo tenga una variación baja en el peso de los perros (lo que significa que el grupo es relativamente homogéneo) y (b) la media de cada grupo sea distinta (si dos grupos tienen la misma media, entonces No es razonable concluir que los grupos estén, de hecho, separados de manera significativa).

En las ilustraciones de la derecha, los grupos se identifican como X 1 , X 2 , etc. En la primera ilustración, los perros se dividen según el producto (interacción) de dos agrupaciones binarias: jóvenes versus viejos, y de pelo corto versus largo. -de pelo (por ejemplo, el grupo 1 son perros jóvenes de pelo corto, el grupo 2 son perros jóvenes de pelo largo, etc.). Dado que las distribuciones del peso de los perros dentro de cada uno de los grupos (que se muestran en azul) tienen una variación relativamente grande, y dado que las medias son muy similares entre los grupos, agrupar a los perros según estas características no produce una manera efectiva de explicar la variación en el peso de los perros. : saber en qué grupo está un perro no nos permite predecir su peso mucho mejor que simplemente saber que el perro está en una exposición canina. Por tanto, esta agrupación no explica la variación en la distribución general (amarillo-naranja).

Un intento de explicar la distribución del peso agrupando a los perros como mascota versus raza de trabajo y menos atléticos versus más atléticos probablemente sería algo más exitoso (ajuste justo). Es probable que los perros de exhibición más pesados ​​sean razas grandes, fuertes y de trabajo, mientras que las razas mantenidas como mascotas tienden a ser más pequeñas y, por lo tanto, más livianas. Como muestra la segunda ilustración, las distribuciones tienen varianzas considerablemente menores que en el primer caso y las medias son más distinguibles. Sin embargo, la significativa superposición de distribuciones, por ejemplo, significa que no podemos distinguir X 1 y X 2 de manera confiable. Agrupar perros según el lanzamiento de una moneda podría producir distribuciones que parecen similares.

Es probable que un intento de explicar el peso por raza produzca un ajuste muy bueno. Todos los chihuahuas son livianos y todos los San Bernardo son pesados. La diferencia de peso entre Setters y Pointers no justifica razas separadas. El análisis de varianza proporciona las herramientas formales para justificar estos juicios intuitivos. Un uso común del método es el análisis de datos experimentales o el desarrollo de modelos. El método tiene algunas ventajas sobre la correlación: no todos los datos deben ser numéricos y un resultado del método es un juicio sobre la confianza en una relación explicativa.

clases de modelos

Hay tres clases de modelos utilizados en el análisis de varianza, y se describen aquí.

Modelos de efectos fijos

El modelo de efectos fijos (clase I) de análisis de varianza se aplica a situaciones en las que el experimentador aplica uno o más tratamientos a los sujetos del experimento para ver si los valores de las variables de respuesta cambian. Esto permite al experimentador estimar los rangos de valores de las variables de respuesta que el tratamiento generaría en la población en su conjunto.

Efectos fijos versus efectos aleatorios

Modelos de efectos aleatorios

El modelo de efectos aleatorios (clase II) se utiliza cuando los tratamientos no son fijos. Esto ocurre cuando los distintos niveles de factores se muestrean de una población más grande. Debido a que los niveles en sí son variables aleatorias , algunos supuestos y el método para contrastar los tratamientos (una generalización multivariable de diferencias simples) difieren del modelo de efectos fijos. [13]

Modelos de efectos mixtos

Un modelo de efectos mixtos (clase III) contiene factores experimentales de tipos de efectos fijos y aleatorios, con interpretaciones y análisis apropiadamente diferentes para los dos tipos.

Ejemplo

Un departamento de colegio o universidad podría realizar experimentos de enseñanza para encontrar un buen libro de texto introductorio, y cada texto se consideraría un tratamiento. El modelo de efectos fijos compararía una lista de textos candidatos. El modelo de efectos aleatorios determinaría si existen diferencias importantes entre una lista de textos seleccionados al azar. El modelo de efectos mixtos compararía los textos vigentes (fijos) con alternativas seleccionadas al azar.

Definir efectos fijos y aleatorios ha resultado difícil de alcanzar, con múltiples definiciones en competencia. [14]

Suposiciones

El análisis de varianza se ha estudiado desde varios enfoques, el más común utiliza un modelo lineal que relaciona la respuesta a los tratamientos y bloques. Tenga en cuenta que el modelo es lineal en parámetros pero puede ser no lineal en todos los niveles de factores. La interpretación es fácil cuando los datos están equilibrados entre factores, pero se necesita una comprensión mucho más profunda cuando los datos no están equilibrados.

Análisis de libros de texto utilizando una distribución normal.

El análisis de varianza se puede presentar en términos de un modelo lineal , que hace los siguientes supuestos sobre la distribución de probabilidad de las respuestas: [15] [16] [17] [18]

Los supuestos separados del modelo del libro de texto implican que los errores están distribuidos de forma independiente, idéntica y normal para los modelos de efectos fijos, es decir, que los errores ( ) son independientes y

Análisis basado en aleatorización

En un experimento controlado aleatorio , los tratamientos se asignan aleatoriamente a unidades experimentales, siguiendo el protocolo experimental. Esta aleatorización es objetiva y declarada antes de realizar el experimento. La asignación aleatoria objetiva se utiliza para probar la significancia de la hipótesis nula , siguiendo las ideas de CS Peirce y Ronald Fisher . Este análisis basado en el diseño fue discutido y desarrollado por Francis J. Anscombe en la Estación Experimental Rothamsted y por Oscar Kempthorne en la Universidad Estatal de Iowa . [19] Kempthorne y sus estudiantes hacen una suposición de aditividad del tratamiento unitario , que se analiza en los libros de Kempthorne y David R. Cox . [20] [21]

Aditividad del tratamiento unitario

En su forma más simple, el supuesto de aditividad unidad-tratamiento [nb 1] establece que la respuesta observada de la unidad experimental cuando recibe tratamiento se puede escribir como la suma de la respuesta de la unidad y el efecto del tratamiento , es decir [22] [23 ] [24]

Según Cox y Kempthorne, el supuesto de aditividad del tratamiento unitario generalmente no se puede refutar directamente. Sin embargo, muchas consecuencias de la aditividad de las unidades de tratamiento pueden refutarse. Para un experimento aleatorio, el supuesto de aditividad por unidad de tratamiento implica que la varianza es constante para todos los tratamientos. Por lo tanto, por contraposición , una condición necesaria para la aditividad del tratamiento unitario es que la varianza sea constante.

El uso de la aditividad del tratamiento unitario y la aleatorización es similar a la inferencia basada en el diseño que es estándar en el muestreo de encuestas de población finita .

Modelo lineal derivado

Kempthorne utiliza la distribución de aleatorización y el supuesto de aditividad del tratamiento unitario para producir un modelo lineal derivado , muy similar al modelo de libro de texto discutido anteriormente. [25] Las estadísticas de prueba de este modelo lineal derivado se aproximan estrechamente mediante las estadísticas de prueba de un modelo lineal normal apropiado, de acuerdo con teoremas de aproximación y estudios de simulación. [26] Sin embargo, existen diferencias. Por ejemplo, el análisis basado en la aleatorización da como resultado una correlación pequeña pero (estrictamente) negativa entre las observaciones. [27] [28] En el análisis basado en la aleatorización, no existe ningún supuesto de distribución normal y ciertamente ningún supuesto de independencia . ¡Por el contrario, las observaciones son dependientes !

El análisis basado en aleatorización tiene la desventaja de que su exposición implica álgebra tediosa y mucho tiempo. Dado que el análisis basado en la aleatorización es complicado y se aproxima mucho mediante el enfoque que utiliza un modelo lineal normal, la mayoría de los profesores enfatizan el enfoque del modelo lineal normal. Pocos estadísticos se oponen al análisis basado en modelos de experimentos aleatorios equilibrados.

Modelos estadísticos para datos observacionales.

Sin embargo, cuando se aplica a datos de experimentos no aleatorios o estudios observacionales , el análisis basado en modelos carece de la garantía de la aleatorización. [29] Para datos observacionales, la derivación de intervalos de confianza debe utilizar modelos subjetivos , como enfatizaron Ronald Fisher y sus seguidores. En la práctica, las estimaciones de los efectos del tratamiento a partir de estudios observacionales suelen ser inconsistentes. En la práctica, los "modelos estadísticos" y los datos observacionales son útiles para sugerir hipótesis que el público debería tratar con mucha cautela. [30]

Resumen de supuestos

El análisis ANOVA basado en el modelo normal supone la independencia, normalidad y homogeneidad de las varianzas de los residuos. El análisis basado en la aleatorización supone únicamente la homogeneidad de las varianzas de los residuos (como consecuencia de la aditividad del tratamiento unitario) y utiliza el procedimiento de aleatorización del experimento. Ambos análisis requieren homocedasticidad , como supuesto para el análisis del modelo normal y como consecuencia de la aleatorización y la aditividad para el análisis basado en aleatorización.

Sin embargo, se han realizado con éxito estudios de procesos que cambian las varianzas en lugar de las medias (llamados efectos de dispersión) utilizando ANOVA. [31] No hay supuestos necesarios para ANOVA en su generalidad completa, pero la prueba F utilizada para la prueba de hipótesis ANOVA tiene supuestos y limitaciones prácticas que son de interés continuo.

Los problemas que no satisfacen los supuestos de ANOVA a menudo pueden transformarse para satisfacerlos. La propiedad de la aditividad del tratamiento unitario no es invariante bajo un "cambio de escala", por lo que los estadísticos suelen utilizar transformaciones para lograr la aditividad del tratamiento unitario. Si se espera que la variable de respuesta siga una familia paramétrica de distribuciones de probabilidad, entonces el estadístico puede especificar (en el protocolo del experimento o estudio observacional) que las respuestas se transformen para estabilizar la varianza. [32] Además, un estadístico puede especificar que se apliquen transformadas logarítmicas a las respuestas que se cree que siguen un modelo multiplicativo. [23] [33] Según el teorema de ecuación funcional de Cauchy , el logaritmo es la única transformación continua que transforma la multiplicación real en suma. [ cita necesaria ]

Características

ANOVA se utiliza en el análisis de experimentos comparativos, aquellos en los que sólo interesa la diferencia en los resultados. La significación estadística del experimento está determinada por una relación de dos varianzas. Esta relación es independiente de varias posibles alteraciones de las observaciones experimentales: agregar una constante a todas las observaciones no altera la importancia. Multiplicar todas las observaciones por una constante no altera la importancia. Por lo tanto, el resultado de significación estadística del ANOVA es independiente del sesgo constante y los errores de escala, así como de las unidades utilizadas para expresar las observaciones. En la era del cálculo mecánico, era común restar una constante de todas las observaciones (cuando equivalía a eliminar los dígitos iniciales) para simplificar la entrada de datos. [34] [35] Este es un ejemplo de codificación de datos .

Algoritmo

Los cálculos de ANOVA se pueden caracterizar como calcular una serie de medias y varianzas, dividir dos varianzas y comparar la relación con un valor manual para determinar la significación estadística. Calcular el efecto de un tratamiento es entonces trivial: "el efecto de cualquier tratamiento se estima tomando la diferencia entre la media de las observaciones que reciben el tratamiento y la media general". [36]

texto medio
texto medio

Partición de la suma de cuadrados.

Tabla ANOVA de un factor que muestra datos de salida de ejemplo

ANOVA utiliza terminología estandarizada tradicional. La ecuación que define la varianza muestral es , donde el divisor se llama grados de libertad (DF), la suma se llama suma de cuadrados (SS), el resultado se llama media cuadrática (MS) y los términos al cuadrado son desviaciones de la media muestral. ANOVA estima 3 varianzas muestrales: una varianza total basada en todas las desviaciones de observación de la media general, una varianza de error basada en todas las desviaciones de observación de sus medias de tratamiento apropiadas y una varianza de tratamiento. La varianza del tratamiento se basa en las desviaciones de las medias del tratamiento de la media general, y el resultado se multiplica por el número de observaciones en cada tratamiento para tener en cuenta la diferencia entre la varianza de las observaciones y la varianza de las medias.

La técnica fundamental es dividir la suma total de cuadrados SS en componentes relacionados con los efectos utilizados en el modelo. Por ejemplo, el modelo de ANOVA simplificado con un tipo de tratamiento en diferentes niveles.

El número de grados de libertad DF se puede dividir de manera similar: uno de estos componentes (el del error) especifica una distribución chi-cuadrado que describe la suma de cuadrados asociada, mientras que lo mismo ocurre con los "tratamientos" si hay ningún efecto del tratamiento.

La prueba F

Para comprobar la significación estadística de un ANOVA unidireccional, consultamos la tabla de probabilidad F utilizando grados de libertad en el nivel alfa de 0,05 . Después de calcular el estadístico F, comparamos el valor en la intersección de cada grado de libertad, también conocido como valor crítico. Si el estadístico F de uno es mayor en magnitud que su valor crítico, podemos decir que hay significancia estadística en el nivel alfa de 0,05 .

La prueba F se utiliza para comparar los factores de la desviación total. Por ejemplo, en ANOVA unidireccional o de un solo factor, la significancia estadística se prueba comparando el estadístico de prueba F

donde MS es el cuadrado medio, es el número de tratamientos y es el número total de casos

a la distribución F siendo los grados de libertad del numerador y los grados de libertad del denominador. Usar la distribución F es un candidato natural porque el estadístico de prueba es la relación de dos sumas de cuadrados escaladas, cada una de las cuales sigue una distribución chi-cuadrado escalada .

El valor esperado de F es (donde está el tamaño de la muestra del tratamiento), que es 1 si no hay efecto del tratamiento. A medida que los valores de F aumentan por encima de 1, la evidencia es cada vez más inconsistente con la hipótesis nula. Dos métodos experimentales aparentes para aumentar F son aumentar el tamaño de la muestra y reducir la varianza del error mediante controles experimentales estrictos.

Hay dos métodos para concluir la prueba de hipótesis ANOVA, y ambos producen el mismo resultado:

Se sabe que la prueba ANOVA F es casi óptima en el sentido de minimizar los errores falsos negativos para una tasa fija de errores falsos positivos (es decir, maximizar el poder para un nivel de significancia fijo). Por ejemplo, para probar la hipótesis de que varios tratamientos médicos tienen exactamente el mismo efecto, los valores p de la prueba F se aproximan mucho a los valores p de la prueba de permutación : la aproximación es particularmente cercana cuando el diseño está equilibrado. [26] [37] Tales pruebas de permutación caracterizan pruebas con potencia máxima contra todas las hipótesis alternativas , como lo observa Rosenbaum . [nb 2] La prueba ANOVA F (de la hipótesis nula de que todos los tratamientos tienen exactamente el mismo efecto) se recomienda como prueba práctica, debido a su solidez frente a muchas distribuciones alternativas. [38] [nota 3]

Algoritmo extendido

ANOVA consta de partes separables; La partición de fuentes de varianza y las pruebas de hipótesis se pueden utilizar individualmente. ANOVA se utiliza para respaldar otras herramientas estadísticas. La regresión se utiliza primero para ajustar modelos más complejos a los datos, luego se utiliza ANOVA para comparar modelos con el objetivo de seleccionar modelos simples(r) que describan adecuadamente los datos. "Tales modelos podrían ajustarse sin ninguna referencia a ANOVA, pero las herramientas ANOVA podrían luego usarse para darle algún sentido a los modelos ajustados y probar hipótesis sobre lotes de coeficientes". [39] "[P]ensamos en el análisis de varianza como una forma de comprender y estructurar modelos multinivel, no como una alternativa a la regresión sino como una herramienta para resumir inferencias complejas de alta dimensión ..." [39]

Por un solo factor

El experimento más simple adecuado para el análisis ANOVA es el experimento completamente aleatorio con un solo factor. Los experimentos más complejos con un solo factor implican restricciones a la aleatorización e incluyen bloques completamente aleatorios y cuadrados latinos (y variantes: cuadrados grecolatinos, etc.). Los experimentos más complejos comparten muchas de las complejidades de múltiples factores. Está disponible una discusión relativamente completa del análisis (modelos, resúmenes de datos, tabla ANOVA) del experimento completamente aleatorio .

Existen algunas alternativas al análisis de varianza unidireccional convencional, por ejemplo: prueba F heterocedástica de Welch, prueba F heterocedástica de Welch con medias recortadas y varianzas Winsorizadas, prueba de Brown-Forsythe, prueba de Alexander-Govern, prueba de segundo orden de James y prueba de Kruskal-Wallis. , disponible en pruebas unidireccionales R

Es útil representar cada punto de datos en la siguiente forma, denominada modelo estadístico:

Es decir, imaginamos un modelo aditivo que dice que cada punto de datos se puede representar sumando tres cantidades: la media verdadera, promediada sobre todos los niveles de factores que se investigan, más un componente incremental asociado con la columna particular (nivel de factor), más un componente final. componente asociado con todo lo demás que afecta ese valor de datos específico.

Por múltiples factores

ANOVA se generaliza al estudio de los efectos de múltiples factores. Cuando el experimento incluye observaciones en todas las combinaciones de niveles de cada factor, se denomina factorial . Los experimentos factoriales son más eficientes que una serie de experimentos de un solo factor y la eficiencia crece a medida que aumenta el número de factores. [40] En consecuencia, los diseños factoriales se utilizan mucho.

El uso de ANOVA para estudiar los efectos de múltiples factores tiene una complicación. En un ANOVA de 3 vías con factores x, y y z, el modelo ANOVA incluye términos para los efectos principales (x, y, z) y términos para las interacciones (xy, xz, yz, xyz). Todos los términos requieren pruebas de hipótesis. La proliferación de términos de interacción aumenta el riesgo de que alguna prueba de hipótesis produzca un falso positivo por casualidad. Afortunadamente, la experiencia dice que las interacciones de alto orden son raras. [41] [ verificación necesaria ] La capacidad de detectar interacciones es una ventaja importante del ANOVA de factores múltiples. Probar un factor a la vez oculta interacciones, pero produce resultados experimentales aparentemente inconsistentes. [40]

Se recomienda precaución al encontrar interacciones; Pruebe primero los términos de interacción y amplíe el análisis más allá de ANOVA si se encuentran interacciones. Los textos varían en sus recomendaciones con respecto a la continuación del procedimiento ANOVA después de encontrar una interacción. Las interacciones complican la interpretación de los datos experimentales. Ni los cálculos de significancia ni los efectos estimados del tratamiento pueden tomarse al pie de la letra. "Una interacción significativa a menudo enmascarará la importancia de los efectos principales". [42] Se recomiendan métodos gráficos para mejorar la comprensión. La regresión suele ser útil. Una extensa discusión sobre las interacciones está disponible en Cox (1958). [43] Algunas interacciones se pueden eliminar (mediante transformaciones) mientras que otras no.

Se utiliza una variedad de técnicas con ANOVA de factores múltiples para reducir los gastos. Una técnica utilizada en los diseños factoriales es minimizar la replicación (posiblemente ninguna replicación con el apoyo de trucos analíticos ) y combinar grupos cuando se descubre que los efectos son estadísticamente (o prácticamente) insignificantes. Un experimento con muchos factores insignificantes puede convertirse en uno con unos pocos factores respaldados por muchas repeticiones. [44]

Análisis asociado

Se requiere algún análisis para respaldar el diseño del experimento, mientras que otros análisis se realizan después de que se determina formalmente que los cambios en los factores producen cambios estadísticamente significativos en las respuestas. Debido a que la experimentación es iterativa, los resultados de un experimento alteran los planes para los experimentos siguientes.

Análisis preparatorio

El número de unidades experimentales.

En el diseño de un experimento, se planifica el número de unidades experimentales para satisfacer los objetivos del experimento. La experimentación suele ser secuencial.

Los primeros experimentos suelen estar diseñados para proporcionar estimaciones insesgadas de la media de los efectos del tratamiento y del error experimental. Los experimentos posteriores suelen diseñarse para probar una hipótesis de que el efecto de un tratamiento tiene una magnitud importante; en este caso, el número de unidades experimentales se elige de manera que el experimento esté dentro del presupuesto y tenga la potencia adecuada, entre otros objetivos.

En psicología generalmente se requiere informar un análisis del tamaño de la muestra. "Proporcionar información sobre el tamaño de la muestra y el proceso que condujo a las decisiones sobre el tamaño de la muestra". [45] El análisis, que está escrito en el protocolo experimental antes de realizar el experimento, se examina en las solicitudes de subvención y en las juntas de revisión administrativa.

Además del análisis de potencia, existen métodos menos formales para seleccionar el número de unidades experimentales. Estos incluyen métodos gráficos basados ​​en limitar la probabilidad de errores falsos negativos, métodos gráficos basados ​​en un aumento de variación esperado (por encima de los residuos) y métodos basados ​​en lograr un intervalo de confianza deseado. [46]

Análisis de potencia

El análisis de poder se aplica a menudo en el contexto de ANOVA para evaluar la probabilidad de rechazar con éxito la hipótesis nula si asumimos un determinado diseño ANOVA, tamaño del efecto en la población, tamaño de muestra y nivel de significancia. El análisis de poder puede ayudar en el diseño del estudio al determinar qué tamaño de muestra se requeriría para tener una probabilidad razonable de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera. [47] [48] [49] [50]

Tamaño del efecto

Tamaño del efecto

Se han propuesto varias medidas de efecto estandarizadas para ANOVA para resumir la fuerza de la asociación entre un predictor y la variable dependiente o la diferencia estandarizada general del modelo completo. Las estimaciones estandarizadas del tamaño del efecto facilitan la comparación de los hallazgos entre estudios y disciplinas. Sin embargo, si bien los tamaños del efecto estandarizados se utilizan comúnmente en gran parte de la literatura profesional, puede ser preferible una medida no estandarizada del tamaño del efecto que tenga unidades inmediatamente "significativas" para fines de presentación de informes. [51]

Confirmación de modelo

A veces se realizan pruebas para determinar si los supuestos de ANOVA parecen violarse. Los residuos se examinan o analizan para confirmar la homocedasticidad y la normalidad general. [52] Los residuos deben tener la apariencia de ruido (distribución normal media cero) cuando se representan como una función de cualquier cosa, incluido el tiempo y los valores de datos modelados. Las tendencias sugieren interacciones entre factores o entre observaciones.

Pruebas de seguimiento

Un efecto estadísticamente significativo en ANOVA suele ir seguido de pruebas adicionales. Esto se puede hacer para evaluar qué grupos son diferentes de qué otros grupos o para probar otras hipótesis específicas. Las pruebas de seguimiento a menudo se distinguen en términos de si son "planificadas" ( a priori ) o "post hoc ". Las pruebas planificadas se determinan antes de observar los datos, y las pruebas post hoc se conciben sólo después de observar los datos (aunque el término "post hoc" se utiliza de manera inconsistente).

Las pruebas de seguimiento pueden ser comparaciones "simples" por pares de medias de grupos individuales o pueden ser comparaciones "compuestas" (por ejemplo, comparar la combinación de medias de los grupos A, B y C con la media del grupo D). Las comparaciones también pueden analizar pruebas de tendencia, como relaciones lineales y cuadráticas, cuando la variable independiente involucra niveles ordenados. A menudo, las pruebas de seguimiento incorporan un método de ajuste para el problema de las comparaciones múltiples .

Las pruebas de seguimiento para identificar qué grupos, variables o factores específicos tienen medias estadísticamente diferentes incluyen la prueba de rangos de Tukey y la nueva prueba de rangos múltiples de Duncan . A su vez, estas pruebas suelen ir seguidas de una metodología de visualización de letras compactas (CLD) para que el resultado de las pruebas mencionadas sea más transparente para una audiencia no estadística.

Diseños de estudio

Hay varios tipos de ANOVA. Muchos estadísticos basan el ANOVA en el diseño del experimento , [53] especialmente en el protocolo que especifica la asignación aleatoria de tratamientos a los sujetos; La descripción del protocolo del mecanismo de asignación debe incluir una especificación de la estructura de los tratamientos y de cualquier bloqueo . También es común aplicar ANOVA a datos observacionales utilizando un modelo estadístico apropiado. [54]

Algunos diseños populares utilizan los siguientes tipos de ANOVA:

Precauciones

Los experimentos balanceados (aquellos con un tamaño de muestra igual para cada tratamiento) son relativamente fáciles de interpretar; los experimentos desequilibrados ofrecen más complejidad. Para el ANOVA de un solo factor (unidireccional), el ajuste para datos no balanceados es fácil, pero el análisis no balanceado carece de solidez y potencia. [57] Para diseños más complejos, la falta de equilibrio conduce a más complicaciones. "La propiedad de ortogonalidad de los principales efectos e interacciones presentes en los datos balanceados no se traslada al caso desequilibrado. Esto significa que las técnicas habituales de análisis de varianza no se aplican. En consecuencia, el análisis de factoriales desequilibrados es mucho más difícil que el de los datos balanceados. diseños." [58] En el caso general, "El análisis de varianza también se puede aplicar a datos no balanceados, pero entonces las sumas de cuadrados, cuadrados medios y razones F dependerán del orden en que se consideren las fuentes de variación". [39]

ANOVA es (en parte) una prueba de significación estadística. La Asociación Estadounidense de Psicología (y muchas otras organizaciones) sostienen que simplemente informar sobre la significancia estadística es insuficiente y que es preferible informar sobre los límites de confianza. [51]

Generalizaciones

ANOVA se considera un caso especial de regresión lineal [59] [60] que a su vez es un caso especial del modelo lineal general . [61] Todos consideran que las observaciones son la suma de un modelo (ajuste) y un residual (error) a minimizar.

La prueba de Kruskal-Wallis y la prueba de Friedman son pruebas no paramétricas que no se basan en un supuesto de normalidad. [62] [63]

Conexión a la regresión lineal

A continuación dejamos clara la conexión entre ANOVA multidireccional y la regresión lineal.

Reordene linealmente los datos para que la -ésima observación esté asociada con una respuesta y factores donde denota los diferentes factores y es el número total de factores. En ANOVA unidireccional y en ANOVA bidireccional . Además, asumimos que el -ésimo factor tiene niveles, es decir , . Ahora, podemos codificar en caliente los factores en el vector dimensional .

La función de codificación one-hot se define de manera que la -ésima entrada de es

Con esta notación implementada, ahora tenemos la conexión exacta con la regresión lineal. Simplemente hacemos una regresión de la respuesta contra el vector . Sin embargo, existe una preocupación sobre la identificabilidad . Para superar estos problemas asumimos que la suma de los parámetros dentro de cada conjunto de interacciones es igual a cero. A partir de aquí, se pueden utilizar estadísticas F u otros métodos para determinar la relevancia de los factores individuales.

Ejemplo

Podemos considerar el ejemplo de interacción bidireccional donde asumimos que el primer factor tiene 2 niveles y el segundo factor tiene 3 niveles.

Defina if y if , es decir, es la codificación one-hot del primer factor y es la codificación one-hot del segundo factor.

Con ese,

Ver también

Notas a pie de página

  1. ^ La aditividad del tratamiento unitario se denomina simplemente aditividad en la mayoría de los textos. Hinkelmann y Kempthorne añaden adjetivos y distinguen entre aditividad en sentido estricto y amplio. Esto permite una consideración detallada de múltiples fuentes de error (tratamiento, estado, selección, medición y muestreo) en la página 161.
  2. ^ Rosenbaum (2002, página 40) cita la Sección 5.7 (Pruebas de permutación), Teorema 2.3 (en realidad Teorema 3, página 184) de Prueba de hipótesis estadísticas de Lehmann (1959).
  3. ^ La prueba F para la comparación de varianzas tiene una reputación mixta. No se recomienda como prueba de hipótesis para determinar si dos muestras diferentes tienen la misma varianza. Se recomienda para ANOVA donde se comparan dos estimaciones de la varianza de la misma muestra. Si bien la prueba F generalmente no es sólida contra las desviaciones de la normalidad, se ha descubierto que sí lo es en el caso especial de ANOVA. Citas de Moore y McCabe (2003): "El análisis de varianza utiliza estadísticas F, pero no son las mismas que la estadística F para comparar dos desviaciones estándar de poblaciones". (página 554) "La prueba F y otros procedimientos para la inferencia sobre varianzas carecen tanto de solidez que son de poca utilidad en la práctica". (página 556) "[La prueba ANOVA F ] es relativamente insensible a la no normalidad moderada y las varianzas desiguales, especialmente cuando los tamaños de muestra son similares". (página 763) ANOVA supone homocedasticidad, pero es robusto. La prueba estadística de homocedasticidad (la prueba F ) no es sólida. Moore y McCabe recomiendan una regla general.

Notas

  1. ^ Stigler (1986)
  2. ^ Stigler (1986, pág. 134)
  3. ^ Stigler (1986, pág.153)
  4. ^ Stigler (1986, págs. 154-155)
  5. ^ Stigler (1986, págs. 240-242)
  6. ^ Stigler (1986, Capítulo 7 - La psicofísica como contrapunto)
  7. ^ Stigler (1986, pág. 253)
  8. ^ Stigler (1986, págs. 314-315)
  9. ^ La correlación entre familiares bajo el supuesto de herencia mendeliana . Ronald A. Fisher. Transacciones filosóficas de la Royal Society de Edimburgo . 1918. (volumen 52, páginas 399–433)
  10. ^ Pescador, Ronald A. (1921). ") Estudios sobre variación de cultivos. I. Un examen del rendimiento del grano preparado de Broadbalk". Revista de Ciencias Agrícolas . 11 (2): 107-135. doi :10.1017/S0021859600003750. hdl : 2440/15170 . S2CID  86029217.
  11. ^ Pescador, Ronald A. (1923). ") Estudios en variación de cultivos. II. La respuesta abono de diferentes variedades de papa". Revista de Ciencias Agrícolas . 13 (3): 311–320. doi :10.1017/S0021859600003592. hdl : 2440/15179 . S2CID  85985907.
  12. ^ Scheffé (1959, p. 291, "Los modelos de aleatorización fueron formulados por primera vez por Neyman (1923) para el diseño completamente aleatorio, por Neyman (1935) para bloques aleatorios, por Welch (1937) y Pitman (1937) para el cuadrado latino bajo un ciertas hipótesis nulas, y por Kempthorne (1952, 1955) y Wilk (1955) para muchos otros diseños.")
  13. ^ Montgomery (2001, Capítulo 12: Experimentos con factores aleatorios)
  14. ^ Gelman (2005, págs. 20-21)
  15. ^ Snedecor, George W.; Cochran, William G. (1967). Métodos estadísticos (6ª ed.). pag. 321.
  16. ^ Cochran y Cox (1992, pág. 48)
  17. ^ Howell (2002, pág. 323)
  18. ^ Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. (1996). Estadísticas para empresas y economía (6ª ed.). Mineápolis/St. Pablo: Pub Oeste. Co. págs. 452–453. ISBN 978-0-314-06378-6.
  19. ^ Anscombe (1948)
  20. ^ Hinkelmann, Klaus; Kempthorne, Óscar (2005). Diseño y análisis de experimentos, Volumen 2: Diseño experimental avanzado. Juan Wiley. pag. 213.ISBN 978-0-471-70993-0.
  21. ^ Cox, DR (1992). Planificación de Experimentos . Wiley. ISBN 978-0-471-57429-3.
  22. ^ Kempthorne (1979, pág. 30)
  23. ^ ab Cox (1958, Capítulo 2: Algunas suposiciones clave)
  24. ^ Hinkelmann y Kempthorne (2008, volumen 1, completo. Introducido en la sección 2.3.3: Principios de diseño experimental; El modelo lineal; Esquema de un modelo)
  25. ^ Hinkelmann y Kempthorne (2008, volumen 1, sección 6.3: diseño completamente aleatorio; modelo lineal derivado)
  26. ^ ab Hinkelmann y Kempthorne (2008, Volumen 1, Sección 6.6: Diseño completamente aleatorizado; Aproximación de la prueba de aleatorización)
  27. ^ Bailey (2008, capítulo 2.14 "Un modelo más general" en Bailey, págs. 38-40)
  28. ^ Hinkelmann y Kempthorne (2008, volumen 1, capítulo 7: Comparación de tratamientos)
  29. ^ Kempthorne (1979, págs. 125-126, "El experimentador debe decidir cuál de las diversas causas que cree que producirá variaciones en sus resultados debe controlarse experimentalmente. Aquellas causas que no controla experimentalmente, porque no las conoce , debe controlar mediante el dispositivo de aleatorización". "[S]ólo cuando los tratamientos en el experimento son aplicados por el experimentador utilizando el procedimiento de aleatorización completo, la cadena de inferencia inductiva suena. Es sólo bajo estas circunstancias que el experimentador puede atribuya cualquier efecto que observe al tratamiento y al tratamiento únicamente. En estas circunstancias, sus conclusiones son confiables en el sentido estadístico.")
  30. ^ Freedman [ se necesita cita completa ]
  31. ^ Montgomery (2001, Sección 3.8: Descubriendo los efectos de dispersión)
  32. ^ Hinkelmann y Kempthorne (2008, Volumen 1, Sección 6.10: Diseño completamente aleatorio; Transformaciones)
  33. ^ Bailey (2008)
  34. ^ Montgomery (2001, Sección 3-3: Experimentos con un solo factor: Análisis de varianza; Análisis del modelo de efectos fijos)
  35. ^ Cochran y Cox (1992, p. 2 ejemplo)
  36. ^ Cochran y Cox (1992, pág. 49)
  37. ^ Hinkelmann y Kempthorne (2008, Volumen 1, Sección 6.7: Diseño completamente aleatorio; CRD con números desiguales de replicaciones)
  38. ^ Moore y McCabe (2003, página 763)
  39. ^ abc Gelman (2008)
  40. ^ ab Montgomery (2001, Sección 5-2: Introducción a los diseños factoriales; Las ventajas de los factoriales)
  41. ^ Belle (2008, Sección 8.4: Las interacciones de alto orden rara vez ocurren)
  42. ^ Montgomery (2001, Sección 5-1: Introducción a los diseños factoriales; Definiciones y principios básicos)
  43. ^ Cox (1958, Capítulo 6: Ideas básicas sobre experimentos factoriales)
  44. ^ Montgomery (2001, Sección 5-3.7: Introducción a los diseños factoriales; El diseño factorial de dos factores; Una observación por celda)
  45. ^ Wilkinson (1999, pág. 596)
  46. ^ Montgomery (2001, Sección 3-7: Determinación del tamaño de la muestra)
  47. ^ Howell (2002, Capítulo 8: Poder)
  48. ^ Howell (2002, Sección 11.12: Potencia (en ANOVA))
  49. ^ Howell (2002, Sección 13.7: Análisis de potencia para experimentos factoriales)
  50. ^ Moore y McCabe (2003, págs. 778–780)
  51. ^ ab Wilkinson (1999, pág. 599)
  52. ^ Montgomery (2001, Sección 3-4: Verificación de la adecuación del modelo)
  53. ^ Cochran y Cox (1957, p. 9, "La regla general [es] que la forma en que se realiza el experimento determina no sólo si se pueden hacer inferencias, sino también los cálculos necesarios para realizarlas").
  54. ^ "Diseño ANOVA". bluebox.creighton.edu . Consultado el 23 de enero de 2023 .
  55. ^ "ANOVA unidireccional/de factor único". Archivado desde el original el 7 de noviembre de 2014.
  56. ^ "El probable error de una media" (PDF) . Biometrika . 6 : 1–25. 1908. doi : 10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545.
  57. ^ Montgomery (2001, Sección 3-3.4: Datos desequilibrados)
  58. ^ Montgomery (2001, Sección 14-2: Datos desequilibrados en diseño factorial)
  59. ^ Gelman (2005, p.1) (con calificación en el texto posterior)
  60. ^ Montgomery (2001, Sección 3.9: El enfoque de regresión para el análisis de varianza)
  61. ^ Howell (2002, pág. 604)
  62. ^ Howell (2002, Capítulo 18: Remuestreo y enfoques no paramétricos de datos)
  63. ^ Montgomery (2001, Sección 3-10: Métodos no paramétricos en el análisis de varianza)

Referencias

Otras lecturas

enlaces externos