Estadísticas multivariadas

La estadística multivariada es una subdivisión de la estadística que abarca la observación y el análisis simultáneos de más de una variable de resultado , es decir, variables aleatorias multivariadas . La estadística multivariada se refiere a comprender los diferentes objetivos y antecedentes de cada una de las diferentes formas de análisis multivariado, y cómo se relacionan entre sí. La aplicación práctica de la estadística multivariada a un problema particular puede implicar varios tipos de análisis univariados y multivariados para comprender las relaciones entre las variables y su relevancia para el problema que se estudia.

Además, la estadística multivariada se ocupa de las distribuciones de probabilidad multivariadas , en términos tanto de

cómo se pueden utilizar para representar las distribuciones de los datos observados;
cómo se pueden utilizar como parte de la inferencia estadística , particularmente cuando varias cantidades diferentes son de interés para el mismo análisis.

Ciertos tipos de problemas que involucran datos multivariados, por ejemplo, regresión lineal simple y regresión múltiple , generalmente no se consideran casos especiales de estadística multivariada porque el análisis se realiza considerando la distribución condicional (univariada) de una única variable de resultado dada la otra. variables.

Analisis multivariable

El análisis multivariado ( MVA ) se basa en los principios de la estadística multivariada. Normalmente, MVA se utiliza para abordar situaciones en las que se realizan múltiples mediciones en cada unidad experimental y las relaciones entre estas mediciones y sus estructuras son importantes. ^[1] Una categorización moderna y superpuesta de MVA incluye: ^[1]

Modelos multivariados normales y generales y teoría de la distribución.
El estudio y medición de las relaciones.
Cálculos de probabilidad de regiones multidimensionales.
La exploración de estructuras y patrones de datos.

El análisis multivariado puede complicarse por el deseo de incluir análisis basados en la física para calcular los efectos de las variables para un "sistema de sistemas" jerárquico. A menudo, los estudios que desean utilizar análisis multivariado se ven estancados por la dimensionalidad del problema. Estas preocupaciones a menudo se alivian mediante el uso de modelos sustitutos , aproximaciones muy precisas del código basado en la física. Dado que los modelos sustitutos toman la forma de una ecuación, pueden evaluarse muy rápidamente. Esto se convierte en un facilitador para estudios MVA a gran escala: si bien una simulación Monte Carlo en el espacio de diseño es difícil con códigos basados en la física, se vuelve trivial cuando se evalúan modelos sustitutos, que a menudo toman la forma de ecuaciones de superficie de respuesta .

Tipos de análisis

En MVA se utilizan muchos modelos diferentes, cada uno con su propio tipo de análisis:

El análisis de varianza multivariado (MANOVA) extiende el análisis de varianza para cubrir casos en los que hay más de una variable dependiente para analizar simultáneamente; ver también Análisis multivariado de covarianza (MANCOVA).
La regresión multivariada intenta determinar una fórmula que pueda describir cómo los elementos de un vector de variables responden simultáneamente a cambios en otros. Para las relaciones lineales, los análisis de regresión aquí se basan en formas del modelo lineal general . Algunos sugieren que la regresión multivariada es distinta de la regresión multivariable; sin embargo, esto es objeto de debate y no es consistentemente cierto en todos los campos científicos. ^[2]
El análisis de componentes principales (PCA) crea un nuevo conjunto de variables ortogonales que contienen la misma información que el conjunto original. Gira los ejes de variación para dar un nuevo conjunto de ejes ortogonales, ordenados de modo que resuman proporciones decrecientes de la variación.
El análisis factorial es similar al PCA pero permite al usuario extraer un número específico de variables sintéticas, menos que el conjunto original, dejando la variación restante sin explicación como error. Las variables extraídas se conocen como variables o factores latentes; Se puede suponer que cada uno explica la covariación en un grupo de variables observadas.
El análisis de correlación canónica encuentra relaciones lineales entre dos conjuntos de variables; es la versión generalizada (es decir, canónica) de la correlación bivariada ^[3] .
El análisis de redundancia (RDA) es similar al análisis de correlación canónica, pero permite al usuario derivar un número específico de variables sintéticas de un conjunto de variables (independientes) que explican la mayor varianza posible en otro conjunto (independiente). Es un análogo multivariado de la regresión . ^[4]
El análisis de correspondencia (CA), o promedio recíproco, encuentra (como el PCA) un conjunto de variables sintéticas que resumen el conjunto original. El modelo subyacente supone diferencias de chi-cuadrado entre registros (casos).
Análisis de correspondencia canónico (o "restringido") (CCA) para resumir la variación conjunta en dos conjuntos de variables (como el análisis de redundancia); combinación de análisis de correspondencia y análisis de regresión multivariada. El modelo subyacente supone diferencias de chi-cuadrado entre registros (casos).
El escalado multidimensional comprende varios algoritmos para determinar un conjunto de variables sintéticas que representan mejor las distancias por pares entre registros. El método original es el análisis de coordenadas principales (PCoA; basado en PCA).
El análisis discriminante , o análisis de variables canónico, intenta establecer si un conjunto de variables se puede utilizar para distinguir entre dos o más grupos de casos.
El análisis discriminante lineal (LDA) calcula un predictor lineal a partir de dos conjuntos de datos distribuidos normalmente para permitir la clasificación de nuevas observaciones.
Los sistemas de agrupamiento asignan objetos en grupos (llamados grupos) de modo que los objetos (casos) del mismo grupo sean más similares entre sí que los objetos de diferentes grupos.
La partición recursiva crea un árbol de decisión que intenta clasificar correctamente a los miembros de la población en función de una variable dependiente dicotómica.
Las redes neuronales artificiales amplían los métodos de regresión y agrupamiento a modelos multivariados no lineales.
Se pueden utilizar gráficos estadísticos como recorridos, trazados de coordenadas paralelas y matrices de diagramas de dispersión para explorar datos multivariados.
Los modelos de ecuaciones simultáneas involucran más de una ecuación de regresión, con diferentes variables dependientes, estimadas juntas.
La autorregresión vectorial implica regresiones simultáneas de varias variables de series temporales por sí mismas y los valores rezagados de cada una.
El análisis de curvas de respuesta principal (PRC) es un método basado en RDA que permite al usuario centrarse en los efectos del tratamiento a lo largo del tiempo corrigiendo los cambios en los tratamientos de control a lo largo del tiempo. ^[5]
La iconografía de las correlaciones consiste en sustituir una matriz de correlaciones por un diagrama donde las correlaciones “notables” están representadas por una línea continua (correlación positiva) o una línea de puntos (correlación negativa).

Tratar con datos incompletos

Es muy común que en un conjunto de datos adquiridos experimentalmente falten los valores de algunos componentes de un punto de datos determinado . En lugar de descartar todo el dato, es común "rellenar" los valores de los componentes que faltan, un proceso llamado " imputación ". ^[6]

Distribuciones de probabilidad importantes

Existe un conjunto de distribuciones de probabilidad utilizadas en análisis multivariados que desempeñan un papel similar al conjunto correspondiente de distribuciones que se utilizan en análisis univariados cuando la distribución normal es apropiada para un conjunto de datos. Estas distribuciones multivariadas son:

La distribución inversa-Wishart es importante en la inferencia bayesiana , por ejemplo en la regresión lineal multivariada bayesiana . Además, la distribución T cuadrada de Hotelling es una distribución multivariada, que generaliza la distribución t de Student , que se utiliza en las pruebas de hipótesis multivariadas .

Historia

El libro de texto de Anderson de 1958, Introducción al análisis estadístico multivariado , ^[7] educó a una generación de teóricos y estadísticos aplicados; El libro de Anderson enfatiza la prueba de hipótesis mediante pruebas de razón de verosimilitud y las propiedades de las funciones de potencia : admisibilidad , insesgación y monotonicidad . ^[8]^[9]

Anteriormente, MVA se analizaba únicamente en el contexto de las teorías estadísticas, debido al tamaño y la complejidad de los conjuntos de datos subyacentes y su alto consumo computacional. Con el espectacular crecimiento del poder computacional, MVA ahora desempeña un papel cada vez más importante en el análisis de datos y tiene una amplia aplicación en los campos de las ómicas .

Aplicaciones

Prueba de hipótesis multivariada
Reducción de dimensionalidad
Descubrimiento de estructura latente
Agrupación
Análisis de regresión multivariante
Análisis de clasificación y discriminación.
selección de variables
Análisis multidimensional
Escalamiento multidimensional
Procesamiento de datos

Software y herramientas

Existe una enorme cantidad de paquetes de software y otras herramientas para el análisis multivariado, que incluyen:

JMP (software estadístico)
Minipestaña
cálculo
PSPP
R ^[10]
SAS (software)
CienciaPy para Python
SPSS
estado
ESTADÍSTICA
El descifrador
WarpPLS
SmartPLS
MATLAB
Opiniones
NCSS (software estadístico) incluye análisis multivariado.
El Unscrambler® X es una herramienta de análisis multivariado.
SIMCA
DataPandit (aplicaciones SaaS gratuitas de Let's Excel Analytics Solutions)

Ver también

Referencias

^ ab Olkin, I.; Sampson, AR (1 de enero de 2001), "Análisis multivariado: descripción general", en Smelser, Neil J.; Baltes, Paul B. (eds.), Enciclopedia internacional de ciencias sociales y del comportamiento , Pérgamo, págs. 10240–10247, ISBN 9780080430768, recuperado 2019-09-02
^ Hidalgo, B; Goodman, M (2013). "¿Regresión multivariada o multivariable?". Soy J Salud Pública . 103 (1): 39–40. doi :10.2105/AJPH.2012.300897. PMC 3518362 . PMID 23153131.
^ Los analistas poco sofisticados de problemas gaussianos bivariados pueden encontrar útil un método tosco pero preciso para medir con precisión la probabilidad simplemente tomando la suma S de los N cuadrados de residuos, restando la suma Sm como mínimo, dividiendo esta diferencia por Sm y multiplicando el resultado por ( N - 2) y tomando el anti-ln inverso de la mitad de ese producto.
^ Van Den Wollenberg, Arnold L. (1977). "El análisis de redundancia una alternativa al análisis de correlación canónica". Psicometrika . 42 (2): 207–219. doi :10.1007/BF02294050.
^ ter Braak, Cajo JF y Šmilauer, Petr (2012). Manual de referencia y guía del usuario de Canoco: software para ordenación (versión 5.0) , p292. Potencia de microcomputadoras, Ithaca, Nueva York.
^ JL Schafer (1997). Análisis de datos multivariados incompletos . Chapman y Hall/CRC. ISBN 978-1-4398-2186-2.
^ TW Anderson (1958) Introducción al análisis multivariado , Nueva York: Wiley ISBN 0471026409 ; 2e (1984) ISBN 0471889873 ; 3e (2003) ISBN 0471360910
^ Sen, Pranab Kumar ; Anderson, TW; Arnold, SF; Eaton, ML; Giri, Carolina del Norte; Gnanadesikan, R.; Kendall, MG; Kshirsagar, AM; et al. (junio de 1986). "Revisión: libros de texto contemporáneos sobre análisis estadístico multivariado: una evaluación y crítica panorámicas". Revista de la Asociación Estadounidense de Estadística . 81 (394): 560–564. doi :10.2307/2289251. ISSN 0162-1459. JSTOR 2289251.(Páginas 560 y 561)
^ Schervish, Mark J. (noviembre de 1987). "Una revisión del análisis multivariado". Ciencia estadística . 2 (4): 396–413. doi : 10.1214/ss/1177013111 . ISSN 0883-4237. JSTOR 2245530.
^ CRAN tiene detalles sobre los paquetes disponibles para análisis de datos multivariados

Otras lecturas

Johnson, Richard A.; Wichern, Dean W. (2007). Análisis estadístico multivariado aplicado (Sexta ed.). Prentice Hall. ISBN 978-0-13-187715-3.
KV Mardia ; JT Kent; JM Bibby (1979). Analisis multivariable . Prensa académica. ISBN 0-12-471252-5.
A. Sen, M. Srivastava, Análisis de regresión: teoría, métodos y aplicaciones , Springer-Verlag, Berlín, 2011 (cuarta impresión).
Cocinero, Swayne (2007). Gráficos interactivos para análisis de datos.
Malakooti, B. (2013). Operaciones y Sistemas de Producción con Múltiples Objetivos. John Wiley e hijos.
TW Anderson, Introducción al análisis estadístico multivariado , Wiley, Nueva York, 1958.
KV Mardia; JT Kent y JM Bibby (1979). Analisis multivariable. Prensa académica . ISBN 978-0124712522.(Enfoque de "probabilidad" a nivel de MA)
Feinstein, AR (1996) Análisis multivariable . New Haven, CT: Prensa de la Universidad de Yale.
Hair, JF Jr. (1995) Análisis de datos multivariados con lecturas , 4ª ed. Prentice Hall.
Schafer, JL (1997) Análisis de datos multivariados incompletos . Prensa CRC. (Avanzado)
Sharma, S. (1996) Técnicas multivariadas aplicadas . Wiley. (Informal, aplicado)
Izenman, Alan J. (2008). Técnicas estadísticas multivariadas modernas: regresión, clasificación y aprendizaje múltiple. Textos Springer en Estadística. Nueva York: Springer-Verlag. ISBN 9780387781884 .
Tinsley, Howard EA; Marrón, Steven D., eds. (2000). Manual de estadística multivariada aplicada y modelado matemático . Prensa académica. doi :10.1016/B978-0-12-691360-6.X5000-9. ISBN 978-0-12-691360-6.

enlaces externos

Wikimedia Commons tiene medios relacionados con las estadísticas multivariadas .

Notas estadísticas: temas de análisis multivariado, por G. David Garson
Mike Palmer: La página web de ordenación
InsightsNow: creadores de ReportsNow, ProfilesNow y KnowledgeNow