Datos de composición

En estadística , los datos de composición son descripciones cuantitativas de las partes de un todo que transmiten información relativa. Matemáticamente, los datos de composición se representan mediante puntos en un símplex . Las mediciones que involucran probabilidades, proporciones, porcentajes y ppm pueden considerarse como datos de composición.

Trama ternaria

Los datos de composición de tres variables se pueden representar gráficamente mediante gráficos ternarios . El uso de un gráfico baricéntrico de tres variables representa gráficamente las proporciones de las tres variables como posiciones en un triángulo equilátero .

Espacio muestral simplicial

En general, John Aitchison definió los datos compositivos como proporciones de algún todo en 1982. ^[1] En particular, un punto de datos compositivos (o composición para abreviar) se puede representar mediante un vector real con componentes positivos. El espacio muestral de los datos compositivos es un símplex:

{\mathcal {S}}^{D}=\left\{\mathbf {x} =[x_{1},x_{2},\dots ,x_{D}]\in \mathbb {R} ^{D}\,\left|\,x_{i}>0,i=1,2,\dots ,D;\sum _{i=1}^{D}x_{i}=\kappa \right.\right\}.\

Ilustración del símplex de Aitchison. Aquí hay 3 partes que representan valores de diferentes proporciones. A, B, C, D y E son 5 composiciones diferentes dentro del símplex. A, B y C son todas equivalentes y D y E son equivalentes. $x_{1},x_{2},x_{3}$

La única información la proporcionan las proporciones entre los componentes, por lo que la información de una composición se conserva al multiplicarla por cualquier constante positiva. Por lo tanto, siempre se puede suponer que el espacio muestral de los datos de composición es un símplex estándar, es decir . En este contexto, la normalización al símplex estándar se denomina clausura y se denota por : $\kappa = 1$ $\scriptstyle {\mathcal {C}}[\,\cdot \,]$

{\mathcal {C}}[x_{1},x_{2},\puntos ,x_{D}]=\left[{\frac {x_{1}}{\suma _{i=1}^{D}x_{i}}},{\frac {x_{2}}{\suma _{i=1}^{D}x_{i}}},\puntos ,{\frac {x_{D}}{\suma _{i=1}^{D}x_{i}}}\right],\

donde D es el número de partes (componentes) y denota un vector fila. ${\estilo de visualización [\cdot ]}$

Geometría de Aitchison

Al símplex se le puede dar la estructura de un espacio vectorial de varias maneras diferentes. La siguiente estructura de espacio vectorial se denomina geometría de Aitchison o símplex de Aitchison y tiene las siguientes operaciones:

Perturbación (suma de vectores)

x\oplus y=\left[{\frac {x_{1}y_{1}}{\sum _{i=1}^{D}x_{i}y_{i}}},{\frac {x_{2}y_{2}}{\sum _{i=1}^{D}x_{i}y_{i}}},\puntos ,{\frac {x_{D}y_{D}}{\sum _{i=1}^{D}x_{i}y_{i}}}\right]=C[x_{1}y_{1},\ldots ,x_{D}y_{D}]\qquad \forall x,y\in S^{D}

Potenciación (multiplicación escalar)

\alpha \odot x=\left[{\frac {x_{1}^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\alpha }}},{\frac {x_{2}^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\alpha }}},\ldots ,{\frac {x_{D}^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\alpha }}}\right]=C[x_{1}^{\alpha },\ldots ,x_{D}^{\alpha }]\qquad \forall x\in S^{D},\;\alpha \in \mathbb {R}

Producto interior

\langle x,y\rangle ={\frac {1}{2D}}\suma _{i=1}^{D}\suma _{j=1}^{D}\log {\frac {x_{i}}{x_{j}}}\log {\frac {y_{i}}{y_{j}}}\qquad \forall x,y\in S^{D}

Dotado de esas operaciones, el símplex de Aitchison forma un espacio de producto interior euclidiano de dimensión - . La composición uniforme es el vector cero . ${\estilo de visualización (D-1)}$ $\left[{\frac {1}{D}},\dots ,{\frac {1}{D}}\right]$

Bases ortonormales

Dado que el símplex de Aitchison forma un espacio de Hilbert de dimensión finita, es posible construir bases ortonormales en el símplex. Toda composición puede descomponerse de la siguiente manera $x$

x=\bigoplus _{i=1}^{D}x_{i}^{*}\odot e_{i}

donde forma una base ortonormal en el símplex. ^[2] Los valores son las coordenadas (ortonormales y cartesianas) de con respecto a la base dada. Se denominan coordenadas de razón logarítmica isométricas . $e_{1},\ldots ,e_{D-1}$ $x_{i}^{*},i=1,2,\ldots ,D-1$ $x$ $(\operatorname {ilr} )$

Transformaciones lineales

Hay tres isomorfismos bien caracterizados que transforman el símplex de Aitchison en el espacio real. Todas estas transformaciones satisfacen la linealidad y, como se indica a continuación,

Transformación de razón logarítmica aditiva

La transformación de la razón logarítmica aditiva (alr) es un isomorfismo donde . Esto viene dado por $\operatorname {alr} :S^{D}\rightarrow \mathbb {R} ^{D-1}$

\operatorname {alr} (x)=\left[\log {\frac {x_{1}}{x_{D}}},\cdots ,\log {\frac {x_{D-1}}{x_{D}}}\right]

La elección del componente denominador es arbitraria y podría ser cualquier componente especificado. Esta transformación se utiliza habitualmente en química con mediciones como el pH. Además, es la transformación más utilizada para la regresión logística multinomial . La transformación alr no es una isometría, lo que significa que las distancias en los valores transformados no serán equivalentes a las distancias en las composiciones originales en el símplex.

Transformación de la relación logarítmica central

La transformación de la relación logarítmica central (clr) es a la vez un isomorfismo y una isometría donde $\operatorname {clr} :S^{D}\rightarrow U,\quad U\subset \mathbb {R} ^{D}$

\operatorname {clr} (x)=\left[\log {\frac {x_{1}}{g(x)}},\cdots ,\log {\frac {x_{D}}{g(x)}}\right]

¿Dónde está la media geométrica de ? La inversa de esta función también se conoce como función softmax . $g(x)$ $x$

Transformación de logración isométrica

La transformación de la razón logarítmica isométrica (ilr) es a la vez un isomorfismo y una isometría donde $\operatorname {ilr} :S^{D}\rightarrow \mathbb {R} ^{D-1}$

\operatorname {ilr} (x)={\big [}\langle x,e_{1}\rangle ,\ldots ,\langle x,e_{D-1}\rangle {\big ]}

Existen múltiples formas de construir bases ortonormales, entre ellas, la ortogonalización de Gram-Schmidt o la descomposición en valores singulares de los datos transformados por clr. Otra alternativa es construir contrastes logarítmicos a partir de un árbol bifurcado. Si se nos proporciona un árbol bifurcado, podemos construir una base a partir de los nodos internos del árbol.

Representación de un árbol en términos de sus componentes ortogonales. l representa un nodo interno, un elemento de la base ortonormal. Este es un precursor del uso del árbol como andamiaje para la transformación ilr

Cada vector de la base se determinaría de la siguiente manera

e_{\ell }=C[\exp(\,\underbrace {0,\ldots ,0} _{k},\underbrace {a,\ldots ,a} _{r},\underbrace {b,\ldots ,b} _{s},\underbrace {0,\ldots ,0} _{t}\,)]

Los elementos dentro de cada vector se dan de la siguiente manera

a={\frac {\sqrt {s}}{\sqrt {r(r+s)}}}\quad {\text{and}}\quad b={\frac {-{\sqrt {r}}}{\sqrt {s(r+s)}}}

donde son el número respectivo de puntas en los subárboles correspondientes que se muestran en la figura. Se puede demostrar que la base resultante es ortonormal ^[3] $k,r,s,t$

Una vez construida la base , la transformada ilr se puede calcular de la siguiente manera $\Psi$

\operatorname {ilr} (x)=\operatorname {clr} (x)\Psi ^{T}

donde cada elemento de los datos transformados ilr tiene la siguiente forma

b_{i}={\sqrt {\frac {rs}{r+s}}}\log {\frac {g(x_{R})}{g(x_{S})}}

donde y son el conjunto de valores correspondientes a las puntas en los subárboles y $x_{R}$ $x_{S}$ $R$ $S$

Ejemplos

En química , las composiciones se pueden expresar como concentraciones molares de cada componente. Como no se determina la suma de todas las concentraciones, se necesita la composición total de D partes y, por lo tanto, se expresa como un vector de D concentraciones molares. Estas composiciones se pueden traducir a porcentajes en peso multiplicando cada componente por la constante correspondiente.
En demografía , una ciudad puede ser un punto de datos compositivo en una muestra de ciudades; una ciudad en la que el 35% de la gente es cristiana, el 55% es musulmana, el 6% es judía y el 4% restante es de otras etnias correspondería al cuádruple [0,35, 0,55, 0,06, 0,04]. Un conjunto de datos correspondería a una lista de ciudades.
En geología , una roca compuesta de diferentes minerales puede ser un punto de datos de composición en una muestra de rocas; una roca de la cual el 10% es el primer mineral, el 30% es el segundo y el 60% restante es el tercero correspondería al triple [0,1, 0,3, 0,6]. Un conjunto de datos contendría un triple de este tipo para cada roca en una muestra de rocas.
En la secuenciación de alto rendimiento , los datos obtenidos normalmente se transforman en abundancias relativas, lo que los vuelve compositivos.
En probabilidad y estadística , una partición del espacio de muestreo en eventos disjuntos se describe mediante las probabilidades asignadas a dichos eventos. El vector de probabilidades D puede considerarse como una composición de D partes. A medida que se suman, se puede suprimir una probabilidad y la composición queda completamente determinada.
En quimiometría , para la clasificación de aceites de petróleo. ^[4]
En una encuesta , las proporciones de personas que responden positivamente a diferentes preguntas se pueden expresar como porcentajes. Como la cantidad total se identifica como 100, el vector de composición de D componentes se puede definir utilizando solo D − 1 componentes, suponiendo que el componente restante es el porcentaje necesario para que todo el vector sume 100.

Véase también

Notas

^ Aitchison, John (1982). "El análisis estadístico de datos compositivos". Revista de la Royal Statistical Society. Serie B (Metodológica) . 44 (2): 139–177. doi :10.1111/j.2517-6161.1982.tb01195.x.
^ Egozcue y col.
^ Egozcue y Pawlowsky-Glahn 2005
^ Olea, Ricardo A.; Martín-Fernández, Josep A.; Craddock, William H. (2021). "Clasificación multivariante de los sistemas petrolíferos de crudo en el sureste de Texas, EE. UU., utilizando análisis convencionales y composicionales de biomarcadores". En Advances in Compositional Data Analysis—Festschrift in honour of Vera-Pawlowsky-Glahn, Filzmoser, P., Hron, K., Palarea-Albaladejo, J., Martín-Fernández, JA, editores. Springer : 303−327.

Referencias

Aitchison, J. (2011) [1986], El análisis estadístico de datos compositivos , Monografías sobre estadística y probabilidad aplicada, Springer, ISBN 978-94-010-8324-9
van den Boogaart, K. Gerald; Tolosana-Delgado, Raimon (2013), Análisis de datos composicionales con R, Springer, ISBN 978-3-642-36809-7
Egozcue, Juan Jose; Pawlowsky-Glahn, Vera; Mateu-Figueras, Gloria; Barcelo-Vidal, Carles (2003), "Transformaciones de logratio isométricas para análisis de datos composicionales", Mathematical Geology , 35 (3): 279–300, doi :10.1023/A:1023818214614, S2CID 122844634
Egozcue, Juan Jose; Pawlowsky-Glahn, Vera (2005), "Grupos de partes y sus balances en el análisis de datos compositivos", Mathematical Geology , 37 (7): 795–828, Bibcode :2005MatGe..37..795E, doi :10.1007/s11004-005-7381-9, S2CID 53061345
Pawlowsky-Glahn, Vera ; Egozcue, Juan José; Tolosana-Delgado, Raimon (2015), Modelado y análisis de datos composicionales , Wiley, doi :10.1002/9781119003144, ISBN 978-1-119-00314-4

Enlaces externos

CoDaWeb – Sitio web de datos compositivos
Pawlowsky-Glahn, V.; Egozcue, JJ; Tolosana-Delgado, R. (2007). "Notas de la conferencia sobre análisis de datos compositivos". Universidad de Girona . hdl : 10256/297 .
Por qué y cómo deberían los geólogos utilizar el análisis de datos composicionales (wikibook)