Estadísticas multivariadas

La estadística multivariante es una subdivisión de la estadística que abarca la observación y el análisis simultáneos de más de una variable de resultado , es decir, variables aleatorias multivariantes . La estadística multivariante se ocupa de comprender los diferentes objetivos y antecedentes de cada una de las diferentes formas de análisis multivariante y cómo se relacionan entre sí. La aplicación práctica de la estadística multivariante a un problema particular puede implicar varios tipos de análisis univariados y multivariantes para comprender las relaciones entre las variables y su relevancia para el problema que se está estudiando.

Además, la estadística multivariante se ocupa de las distribuciones de probabilidad multivariante , en términos de ambos

cómo se pueden utilizar para representar las distribuciones de datos observados;
cómo pueden utilizarse como parte de la inferencia estadística , en particular cuando varias cantidades diferentes son de interés para el mismo análisis.

Ciertos tipos de problemas que involucran datos multivariados, por ejemplo la regresión lineal simple y la regresión múltiple , generalmente no se consideran casos especiales de estadística multivariada porque el análisis se aborda considerando la distribución condicional (univariada) de una única variable de resultado dadas las otras variables.

Análisis multivariado

El análisis multivariado ( AVM ) se basa en los principios de la estadística multivariada. Normalmente, el AVM se utiliza para abordar situaciones en las que se realizan múltiples mediciones en cada unidad experimental y las relaciones entre estas mediciones y sus estructuras son importantes. ^[1] Una categorización moderna y superpuesta del AVM incluye: ^[1]

Modelos multivariados normales y generales y teoría de distribuciones
El estudio y medición de las relaciones.
Cálculos de probabilidad de regiones multidimensionales
La exploración de estructuras y patrones de datos

El análisis multivariable puede complicarse por el deseo de incluir un análisis basado en la física para calcular los efectos de las variables para un "sistema de sistemas" jerárquico. A menudo, los estudios que desean utilizar el análisis multivariable se estancan por la dimensionalidad del problema. Estas preocupaciones a menudo se alivian mediante el uso de modelos sustitutos , aproximaciones altamente precisas del código basado en la física. Dado que los modelos sustitutos toman la forma de una ecuación, se pueden evaluar muy rápidamente. Esto se convierte en un facilitador para los estudios de MVA a gran escala: si bien una simulación de Monte Carlo en todo el espacio de diseño es difícil con códigos basados en la física, se vuelve trivial cuando se evalúan modelos sustitutos, que a menudo toman la forma de ecuaciones de superficie de respuesta .

Tipos de análisis

En MVA se utilizan muchos modelos diferentes, cada uno con su propio tipo de análisis:

El análisis de varianza multivariado (MANOVA) extiende el análisis de varianza para cubrir casos donde hay más de una variable dependiente para analizar simultáneamente; consulte también Análisis de covarianza multivariado (MANCOVA).
La regresión multivariable intenta determinar una fórmula que pueda describir cómo los elementos de un vector de variables responden simultáneamente a los cambios en otros. En el caso de las relaciones lineales, los análisis de regresión se basan en formas del modelo lineal general . Algunos sugieren que la regresión multivariable es distinta de la regresión multivariable, pero esto es motivo de debate y no es siempre cierto en todos los campos científicos. ^[2]
El análisis de componentes principales (ACP) crea un nuevo conjunto de variables ortogonales que contienen la misma información que el conjunto original. Rota los ejes de variación para obtener un nuevo conjunto de ejes ortogonales, ordenados de manera que resuman proporciones decrecientes de la variación.
El análisis factorial es similar al PCA, pero permite al usuario extraer una cantidad específica de variables sintéticas, menos que el conjunto original, dejando la variación no explicada restante como error. Las variables extraídas se conocen como variables latentes o factores; se puede suponer que cada una de ellas explica la covariación en un grupo de variables observadas.
El análisis de correlación canónica encuentra relaciones lineales entre dos conjuntos de variables; es la versión generalizada (es decir, canónica) de la correlación bivariada ^[3] .
El análisis de redundancia (RDA) es similar al análisis de correlación canónica, pero permite al usuario derivar una cantidad específica de variables sintéticas de un conjunto de variables (independientes) que explican la mayor cantidad posible de varianza en otro conjunto (independiente). Es un análogo multivariado de la regresión . ^[4]
El análisis de correspondencias (AC), o promedio recíproco, encuentra (como el PCA) un conjunto de variables sintéticas que resumen el conjunto original. El modelo subyacente supone diferencias de chi-cuadrado entre los registros (casos).
Análisis de correspondencias canónico (o "restringido") (CCA) para resumir la variación conjunta en dos conjuntos de variables (como el análisis de redundancia); combinación de análisis de correspondencias y análisis de regresión multivariante. El modelo subyacente supone diferencias de chi-cuadrado entre registros (casos).
El escalamiento multidimensional comprende varios algoritmos para determinar un conjunto de variables sintéticas que representen mejor las distancias por pares entre registros. El método original es el análisis de coordenadas principales (PCoA, basado en PCA).
El análisis discriminante , o análisis de variables canónicas, intenta establecer si un conjunto de variables puede utilizarse para distinguir entre dos o más grupos de casos.
El análisis discriminante lineal (LDA) calcula un predictor lineal a partir de dos conjuntos de datos distribuidos normalmente para permitir la clasificación de nuevas observaciones.
Los sistemas de agrupamiento asignan objetos en grupos (llamados clústeres) de modo que los objetos (casos) del mismo clúster sean más similares entre sí que los objetos de clústeres diferentes.
La partición recursiva crea un árbol de decisiones que intenta clasificar correctamente a los miembros de la población según una variable dependiente dicotómica.
Las redes neuronales artificiales extienden los métodos de regresión y agrupamiento a modelos multivariados no lineales.
Se pueden utilizar gráficos estadísticos como recorridos, gráficos de coordenadas paralelas y matrices de dispersión para explorar datos multivariados.
Los modelos de ecuaciones simultáneas implican más de una ecuación de regresión, con diferentes variables dependientes, estimadas juntas.
La autorregresión vectorial implica regresiones simultáneas de varias variables de series de tiempo sobre sus propios valores rezagados y sobre los de las demás.
El análisis de curvas de respuesta principal (PRC) es un método basado en RDA que permite al usuario centrarse en los efectos del tratamiento a lo largo del tiempo corrigiendo los cambios en los tratamientos de control a lo largo del tiempo. ^[5]
La iconografía de correlaciones consiste en sustituir una matriz de correlaciones por un diagrama donde las correlaciones “notables” están representadas por una línea continua (correlación positiva), o una línea de puntos (correlación negativa).

Cómo manejar datos incompletos

Es muy común que en un conjunto de datos adquiridos experimentalmente falten los valores de algunos componentes de un punto de datos determinado . En lugar de descartar todo el punto de datos, es habitual "completar" los valores de los componentes faltantes, un proceso denominado " imputación ". ^[6]

Distribuciones de probabilidad importantes

Existe un conjunto de distribuciones de probabilidad que se utilizan en los análisis multivariados y que desempeñan un papel similar al conjunto correspondiente de distribuciones que se utilizan en el análisis univariado cuando la distribución normal es adecuada para un conjunto de datos. Estas distribuciones multivariadas son:

La distribución de Wishart inversa es importante en la inferencia bayesiana , por ejemplo, en la regresión lineal multivariante bayesiana . Además, la distribución T-cuadrada de Hotelling es una distribución multivariante que generaliza la distribución t de Student y se utiliza en las pruebas de hipótesis multivariantes .

Historia

El libro de texto de Anderson de 1958, Introducción al análisis estadístico multivariante , ^[7] educó a una generación de teóricos y estadísticos aplicados; el libro de Anderson enfatiza la prueba de hipótesis a través de pruebas de razón de verosimilitud y las propiedades de las funciones de potencia : admisibilidad , imparcialidad y monotonía . ^[8]^[9]

Anteriormente, el análisis de variables múltiples se analizaba únicamente en el contexto de las teorías estadísticas, debido al tamaño y la complejidad de los conjuntos de datos subyacentes y su alto consumo computacional. Con el espectacular crecimiento de la capacidad computacional, el análisis de variables múltiples ahora desempeña un papel cada vez más importante en el análisis de datos y tiene una amplia aplicación en los campos de la ómica .

Aplicaciones

Prueba de hipótesis multivariante
Reducción de dimensionalidad
Descubrimiento de estructura latente
Agrupamiento
Análisis de regresión multivariante
Análisis de clasificación y discriminación
Selección de variables
Análisis multidimensional
Escalamiento multidimensional
Minería de datos

Software y herramientas

Existe una enorme cantidad de paquetes de software y otras herramientas para el análisis multivariado, entre ellos:

JMP (software estadístico)
Minificha
Calculo
Programa de apoyo público
R ^[10]
SAS (software)
SciPy para Python
Programa estadístico SPSS
Estado
ESTADÍSTICA
El descifrador
Deformación PLS
SmartPLS
MATLAB
Reseñas
NCSS (software estadístico) incluye análisis multivariado.
Unscrambler® X es una herramienta de análisis multivariante.
SIMCA
DataPandit (aplicaciones SaaS gratuitas de Let's Excel Analytics Solutions)

Véase también

Referencias

^ ab Olkin, I.; Sampson, AR (1 de enero de 2001), "Análisis multivariado: descripción general", en Smelser, Neil J.; Baltes, Paul B. (eds.), Enciclopedia internacional de las ciencias sociales y del comportamiento , Pergamon, págs. 10240–10247, ISBN 9780080430768, consultado el 2 de septiembre de 2019
^ Hidalgo, B; Goodman, M (2013). "¿Regresión multivariable o multivariable?". Am J Public Health . 103 (1): 39–40. doi :10.2105/AJPH.2012.300897. PMC 3518362 . PMID 23153131.
^ Los analistas no sofisticados de problemas gaussianos bivariados pueden encontrar útil un método rudimentario pero preciso para medir con exactitud la probabilidad tomando simplemente la suma S de los cuadrados de los N residuos, restando la suma Sm como mínimo, dividiendo esta diferencia por Sm , multiplicando el resultado por ( N - 2) y tomando el anti-ln inverso de la mitad de ese producto.
^ Van Den Wollenberg, Arnold L. (1977). "Análisis de redundancia: una alternativa para el análisis de correlación canónica". Psychometrika . 42 (2): 207–219. doi :10.1007/BF02294050.
^ ter Braak, Cajo JF y Šmilauer, Petr (2012). Manual de referencia y guía del usuario de Canoco: software para ordenación (versión 5.0) , pág. 292. Microcomputer Power, Ithaca, NY.
^ JL Schafer (1997). Análisis de datos multivariados incompletos . Chapman & Hall/CRC. ISBN 978-1-4398-2186-2.
^ TW Anderson (1958) Introducción al análisis multivariante , Nueva York: Wiley ISBN 0471026409 ; 2.ª edición (1984) ISBN 0471889873 ; 3.ª edición (2003) ISBN 0471360910
^ Sen, Pranab Kumar ; Anderson, TW; Arnold, SF; Eaton, ML; Giri, NC; Gnanadesikan, R.; Kendall, MG; Kshirsagar, AM; et al. (junio de 1986). "Revisión: libros de texto contemporáneos sobre análisis estadístico multivariante: una evaluación panorámica y crítica". Revista de la Asociación Estadounidense de Estadística . 81 (394): 560–564. doi :10.2307/2289251. ISSN 0162-1459. JSTOR 2289251.(Páginas 560–561)
^ Schervish, Mark J. (noviembre de 1987). "Una revisión del análisis multivariante". Ciencia estadística . 2 (4): 396–413. doi : 10.1214/ss/1177013111 . ISSN 0883-4237. JSTOR 2245530.
^ CRAN tiene detalles sobre los paquetes disponibles para el análisis de datos multivariados

Lectura adicional

Johnson, Richard A.; Wichern, Dean W. (2007). Análisis estadístico multivariante aplicado (sexta edición). Prentice Hall. ISBN 978-0-13-187715-3.
KV Mardia ; JT Kent; JM Bibby (1979). Análisis multivariado . Academic Press. ISBN 0-12-471252-5.
A. Sen, M. Srivastava, Análisis de regresión: teoría, métodos y aplicaciones , Springer-Verlag, Berlín, 2011 (cuarta impresión).
Cook, Swayne (2007). Gráficos interactivos para análisis de datos.
Malakooti, B. (2013). Sistemas de producción y operaciones con objetivos múltiples. John Wiley & Sons.
TW Anderson, Introducción al análisis estadístico multivariante , Wiley, Nueva York, 1958.
KV Mardia; JT Kent y JM Bibby (1979). Análisis multivariado. Academic Press . ISBN 978-0124712522.(Enfoque de "probabilidad" a nivel MA)
Feinstein, AR (1996) Análisis multivariable . New Haven, CT: Yale University Press.
Hair, JF Jr. (1995) Análisis de datos multivariados con lecturas , 4.ª ed. Prentice-Hall.
Schafer, JL (1997) Análisis de datos multivariados incompletos . CRC Press. (Avanzado)
Sharma, S. (1996) Técnicas multivariadas aplicadas . Wiley. (Informal, aplicado)
Izenman, Alan J. (2008). Técnicas estadísticas multivariadas modernas: regresión, clasificación y aprendizaje de variedades. Springer Texts in Statistics. Nueva York: Springer-Verlag. ISBN 9780387781884 .
Tinsley, Howard EA; Brown, Steven D., eds. (2000). Manual de estadística multivariante aplicada y modelado matemático . Academic Press. doi :10.1016/B978-0-12-691360-6.X5000-9. ISBN . 978-0-12-691360-6.

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Estadística multivariante .

Statnotes: Temas de análisis multivariante, por G. David Garson
Mike Palmer: La página web de la ordenación
InsightsNow: creadores de ReportsNow, ProfilesNow y KnowledgeNow