Datos composicionales

En estadística , los datos compositivos son descripciones cuantitativas de las partes de un todo, que transmiten información relativa. Matemáticamente, los datos compositivos se representan mediante puntos en un simplex . Las mediciones que involucran probabilidades, proporciones, porcentajes y ppm pueden considerarse datos compositivos.

trama ternaria

Los datos de composición en tres variables se pueden representar mediante gráficos ternarios . El uso de un gráfico baricéntrico en tres variables representa gráficamente las proporciones de las tres variables como posiciones en un triángulo equilátero .

Espacio muestral simple

En general, John Aitchison definió los datos compositivos como proporciones de un todo en 1982. ^[1] En particular, un punto de datos compositivos (o composición para abreviar) puede representarse mediante un vector real con componentes positivos. El espacio muestral de datos compositivos es simplex:

{\mathcal {S}}^{D}=\left\{\mathbf {x} =[x_{1},x_{2},\dots ,x_{D}]\in \mathbb {R } ^{D}\,\left|\,x_{i}>0,i=1,2,\dots ,D;\sum _{i=1}^{D}x_{i}=\kappa \ bien bien\}.\

Una ilustración del simplex de Aitchison. Aquí, hay 3 partes, representan valores de diferentes proporciones. A, B, C, D y E son 5 composiciones diferentes dentro del simplex. A, B y C son todos equivalentes y D y E son equivalentes. ${\ Displaystyle x_ {1}, x_ {2}, x_ {3}}$

La única información viene dada por las relaciones entre componentes, por lo que la información de una composición se conserva al multiplicarla por cualquier constante positiva. Por lo tanto, siempre se puede suponer que el espacio muestral de datos compositivos es un simplex estándar, es decir . En este contexto, la normalización al simplex estándar se llama cierre y se denota por : $\kappa =1$ $\scriptstyle {\mathcal {C}}[\,\cdot \,]$

{\mathcal {C}}[x_{1},x_{2},\dots ,x_{D}]=\left[{\frac {x_{1}}{\sum _{i=1 }^{D}x_{i}}},{\frac {x_{2}}{\sum _{i=1}^{D}x_{i}}},\dots,{\frac {x_{ D}}{\sum _{i=1}^{D}x_{i}}}\right],\

donde D es el número de partes (componentes) y denota un vector de fila. $[\cdot ]$

Geometría de Aitchison

Al simplex se le puede dar la estructura de un espacio vectorial de varias maneras diferentes. La siguiente estructura del espacio vectorial se llama geometría de Aitchison o Aitchison simplex y tiene las siguientes operaciones:

Perturbación (suma de vectores)

x\oplus y=\left[{\frac {x_{1}y_{1}}{\sum _{i=1}^{D}x_{i}y_{i}}},{\ frac {x_{2}y_{2}}{\sum _{i=1}^{D}x_{i}y_{i}}},\dots,{\frac {x_{D}y_{D} }{\sum _{i=1}^{D}x_{i}y_{i}}}\right]=C[x_{1}y_{1},\ldots ,x_{D}y_{D} ]\qquad \forall x,y\in S^{D}

Potencia (multiplicación escalar)

\alpha \odot x=\left[{\frac {x_{1}^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\alpha }}} ,{\frac {x_{2}^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\alpha }}},\ldots ,{\frac {x_{D }^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\alpha }}}\right]=C[x_{1}^{\alpha },\ldots, x_{D}^{\alpha }]\qquad \forall x\in S^{D},\;\alpha \in \mathbb {R}

Producto Interno

\langle x,y\rangle ={\frac {1}{2D}}\sum _{i=1}^{D}\sum _{j=1}^{D}\log {\frac {x_{i}}{x_{j}}}\log {\frac {y_{i}}{y_{j}}}\qquad \forall x,y\in S^{D}

Solo con estas operaciones, es suficiente demostrar que el simplex de Aitchison forma un espacio producto interno euclidiano de dimensiones . La composición uniforme es el vector cero . $(D-1)$ $\left[{\frac {1}{D}},\dots ,{\frac {1}{D}}\right]$

Bases ortonormales

Dado que el simplex de Aitchison forma un espacio de Hilbert de dimensión finita, es posible construir bases ortonormales en el simplex. Cada composición se puede descomponer de la siguiente manera. $x$

x=\bigoplus _{i=1}^{D}x_{i}^{*}\odot e_{i}

donde forma una base ortonormal en el simplex. ^[2] Los valores son las coordenadas (ortonormales y cartesianas) con respecto a la base dada. Se denominan coordenadas isométricas de relación logarítmica . $e_{1},\ldots ,e_{D-1}$ $x_{i}^{*},i=1,2,\ldots ,D-1$ $x$ $(\operatorname {ilr} )$

Transformaciones lineales

Hay tres isomorfismos bien caracterizados que transforman del simplex de Aitchison al espacio real. Todas estas transformaciones satisfacen la linealidad y como se indica a continuación

Transformación de relación logarítmica aditiva

La transformada aditiva de relación logarítmica (alr) es un isomorfismo donde . Esto está dado por $\operatorname {alr} :S^{D}\rightarrow \mathbb {R} ^{D-1}$

\operatorname {alr} (x)=\left[\log {\frac {x_{1}}{x_{D}}}\cdots \log {\frac {x_{D-1}}{x_{D}}}\right]

La elección del componente denominador es arbitraria y podría ser cualquier componente especificado. Esta transformada se usa comúnmente en química con mediciones como el pH. Además, esta es la transformada más utilizada para la regresión logística multinomial . La transformada alr no es una isometría, lo que significa que las distancias en los valores transformados no serán equivalentes a las distancias en las composiciones originales en el símplex.

Transformación de relación logarítmica central

La transformada de relación logarítmica central (clr) es tanto un isomorfismo como una isometría donde $\operatorname {clr} :S^{D}\rightarrow U,\quad U\subset \mathbb {R} ^{D}$

\operatorname {clr} (x)=\left[\log {\frac {x_{1}}{g(x)}}\cdots \log {\frac {x_{D}}{g(x)}}\right]

¿Dónde está la media geométrica de ? La inversa de esta función también se conoce como función softmax . $g(x)$ $x$

Transformada de logratio isométrica

La transformada isométrica de relación logarítmica (ilr) es tanto un isomorfismo como una isometría donde $\operatorname {ilr} :S^{D}\rightarrow \mathbb {R} ^{D-1}$

\operatorname {ilr} (x)={\big [}\langle x,e_{1}\rangle ,\ldots ,\langle x,e_{D-1}\rangle {\big ]}

Hay varias formas de construir bases ortonormales, incluido el uso de la ortogonalización de Gram-Schmidt o la descomposición en valores singulares de datos transformados clr. Otra alternativa es construir contrastes de troncos a partir de un árbol bifurcado. Si nos dan un árbol bifurcado, podemos construir una base a partir de los nodos internos del árbol.

Una representación de un árbol en términos de sus componentes ortogonales. l representa un nodo interno, un elemento de la base ortonormal. Este es un precursor del uso del árbol como andamio para la transformación ilr.

Cada vector en la base se determinaría de la siguiente manera

e_{\ell }=C[\exp(\,\underbrace {0,\ldots ,0} _{k},\underbrace {a,\ldots ,a} _{r},\underbrace {b,\ldots ,b} _{s},\underbrace {0,\ldots ,0} _{t}\,)]

Los elementos dentro de cada vector se dan de la siguiente manera.

a={\frac {\sqrt {s}}{\sqrt {r(r+s)}}}\quad {\text{and}}\quad b={\frac {-{\sqrt {r}}}{\sqrt {s(r+s)}}}

donde está el número respectivo de puntas en los subárboles correspondientes que se muestran en la figura. Se puede demostrar que la base resultante es ortonormal ^[3] $k,r,s,t$

Una vez construida la base , la transformada ilr se puede calcular de la siguiente manera $\Psi$

\operatorname {ilr} (x)=\operatorname {clr} (x)\Psi ^{T}

donde cada elemento de los datos transformados ilr tiene la siguiente forma

b_{i}={\sqrt {\frac {rs}{r+s}}}\log {\frac {g(x_{R})}{g(x_{S})}}

donde y son el conjunto de valores correspondientes a las puntas de los subárboles y $x_{R}$ $x_{S}$ $R$ $S$

Ejemplos

En química , las composiciones se pueden expresar como concentraciones molares de cada componente. Como no se determina la suma de todas las concentraciones, se necesita la composición completa de D partes y, por lo tanto, se expresa como un vector de D concentraciones molares. Estas composiciones se pueden traducir a porcentaje en peso multiplicando cada componente por la constante apropiada.
En demografía , una ciudad puede ser un punto de datos compositivo en una muestra de ciudades; un pueblo en el que el 35% de la población es cristiana, el 55% es musulmana, el 6% es judía y el 4% restante son otros correspondería al cuádruple [0,35, 0,55, 0,06, 0,04]. Un conjunto de datos correspondería a una lista de ciudades.
En geología , una roca compuesta por diferentes minerales puede ser un punto de datos de composición en una muestra de rocas; una roca de la cual el 10% es el primer mineral, el 30% es el segundo y el 60% restante es el tercero correspondería al triple [0,1, 0,3, 0,6]. Un conjunto de datos contendría uno de esos tripletes para cada roca en una muestra de rocas.
En la secuenciación de alto rendimiento , los datos obtenidos generalmente se transforman en abundancias relativas, lo que los vuelve compositivos.
En probabilidad y estadística , una partición del espacio muestral en eventos disjuntos se describe mediante las probabilidades asignadas a dichos eventos. El vector de D probabilidades puede considerarse como una composición de D partes. A medida que suman uno, se puede suprimir una probabilidad y la composición queda completamente determinada.
En quimiometría , para la clasificación de aceites de petróleo. ^[4]
En una encuesta , las proporciones de personas que responden positivamente a algunos ítems diferentes se pueden expresar como porcentajes. Como la cantidad total se identifica como 100, el vector compositivo de D componentes se puede definir usando solo D − 1 componentes, asumiendo que el componente restante es el porcentaje necesario para que todo el vector sume 100.

Ver también

Notas

^ Aitchison, John (1982). "El análisis estadístico de datos composicionales". Revista de la Real Sociedad de Estadística. Serie B (Metodológica) . 44 (2): 139-177. doi :10.1111/j.2517-6161.1982.tb01195.x.
^ Egozcue et al.
^ Egozcue y Pawlowsky-Glahn 2005
^ Olea, Ricardo A.; Martín-Fernández, Josep A.; Craddock, William H. (2021). "Clasificación multivariada de los sistemas petroleros de petróleo crudo en el sureste de Texas, EE. UU., mediante análisis convencional y composicional de biomarcadores". En Advances in Compositional Data Analysis—Festschrift en honor a Vera-Pawlowsky-Glahn, Filzmoser, P., Hron, K., Palarea-Albaladejo, J., Martín-Fernández, JA, editores. Saltador : 303-327.

Referencias

Aitchison, J. (2011) [1986], The Statistical Analysis of Compositional Data , Monografías sobre estadística y probabilidad aplicada, Springer, ISBN 978-94-010-8324-9
van den Boogaart, K. Gerald; Tolosana-Delgado, Raimon (2013), Análisis de datos composicionales con R, Springer, ISBN 978-3-642-36809-7
Egozcue, Juan José; Pawlowsky-Glahn, Vera; Mateu-Figueras, Gloria; Barceló-Vidal, Carles (2003), "Transformaciones de logratio isométricas para análisis de datos composicionales", Geología matemática , 35 (3): 279–300, doi :10.1023/A:1023818214614, S2CID 122844634
Egozcue, Juan José; Pawlowsky-Glahn, Vera (2005), "Grupos de partes y sus equilibrios en el análisis de datos compositivos", Geología matemática , 37 (7): 795–828, Bibcode :2005MatGe..37..795E, doi :10.1007/s11004- 005-7381-9, S2CID 53061345
Pawlowsky-Glahn, Vera ; Egozcue, Juan José; Tolosana-Delgado, Raimon (2015), Modelado y análisis de datos composicionales , Wiley, doi :10.1002/9781119003144, ISBN 978-1-119-00314-4

enlaces externos

CoDaWeb – Sitio web de datos compositivos
Pawlowsky-Glahn, V.; Egozcue, JJ; Tolosana-Delgado, R. (2007). "Notas de la conferencia sobre análisis de datos compositivos". Universidad de Girona . hdl : 10256/297 .
Por qué y cómo deberían los geólogos utilizar el análisis de datos composicionales (wikibook)