stringtranslate.com

Datos de composición

En estadística , los datos de composición son descripciones cuantitativas de las partes de un todo que transmiten información relativa. Matemáticamente, los datos de composición se representan mediante puntos en un símplex . Las mediciones que involucran probabilidades, proporciones, porcentajes y ppm pueden considerarse como datos de composición.

Trama ternaria

Los datos de composición de tres variables se pueden representar gráficamente mediante gráficos ternarios . El uso de un gráfico baricéntrico de tres variables representa gráficamente las proporciones de las tres variables como posiciones en un triángulo equilátero .

Espacio muestral simple

En general, John Aitchison definió los datos compositivos como proporciones de algún todo en 1982. [1] En particular, un punto de datos compositivos (o composición para abreviar) se puede representar mediante un vector real con componentes positivos. El espacio muestral de los datos compositivos es un símplex:

Ilustración del símplex de Aitchison. Aquí hay 3 partes que representan valores de diferentes proporciones. A, B, C, D y E son 5 composiciones diferentes dentro del símplex. A, B y C son todas equivalentes y D y E son equivalentes.

La única información la proporcionan las proporciones entre los componentes, por lo que la información de una composición se conserva al multiplicarla por cualquier constante positiva. Por lo tanto, siempre se puede suponer que el espacio muestral de los datos de composición es un símplex estándar, es decir . En este contexto, la normalización al símplex estándar se denomina clausura y se denota por :

donde D es el número de partes (componentes) y denota un vector fila.

Geometría de Aitchison

Al símplex se le puede dar la estructura de un espacio vectorial de varias maneras diferentes. La siguiente estructura de espacio vectorial se denomina geometría de Aitchison o símplex de Aitchison y tiene las siguientes operaciones:

Perturbación (suma de vectores)
Potenciación (multiplicación escalar)
Producto interior

Dotado de esas operaciones, el símplex de Aitchison forma un espacio de producto interior euclidiano de dimensión - . La composición uniforme es el vector cero .

Bases ortonormales

Dado que el símplex de Aitchison forma un espacio de Hilbert de dimensión finita, es posible construir bases ortonormales en el símplex. Toda composición puede descomponerse de la siguiente manera

donde forma una base ortonormal en el símplex. [2] Los valores son las coordenadas (ortonormales y cartesianas) de con respecto a la base dada. Se denominan coordenadas de razón logarítmica isométricas .

Transformaciones lineales

Hay tres isomorfismos bien caracterizados que transforman el símplex de Aitchison en el espacio real. Todas estas transformaciones satisfacen la linealidad y, como se indica a continuación,

Transformación de razón logarítmica aditiva

La transformación de la razón logarítmica aditiva (alr) es un isomorfismo donde . Esto viene dado por

La elección del componente denominador es arbitraria y podría ser cualquier componente especificado. Esta transformación se utiliza habitualmente en química con mediciones como el pH. Además, es la transformación más utilizada para la regresión logística multinomial . La transformación alr no es una isometría, lo que significa que las distancias en los valores transformados no serán equivalentes a las distancias en las composiciones originales en el símplex.

Transformación de la relación logarítmica central

La transformación de la relación logarítmica central (clr) es a la vez un isomorfismo y una isometría donde

¿Dónde está la media geométrica de ? La inversa de esta función también se conoce como función softmax .

Transformación de logración isométrica

La transformación de la razón logarítmica isométrica (ilr) es a la vez un isomorfismo y una isometría donde

Existen múltiples formas de construir bases ortonormales, entre ellas, la ortogonalización de Gram-Schmidt o la descomposición en valores singulares de los datos transformados por clr. Otra alternativa es construir contrastes logarítmicos a partir de un árbol bifurcado. Si se nos proporciona un árbol bifurcado, podemos construir una base a partir de los nodos internos del árbol.

Representación de un árbol en términos de sus componentes ortogonales. l representa un nodo interno, un elemento de la base ortonormal. Este es un precursor del uso del árbol como andamiaje para la transformación ilr

Cada vector de la base se determinaría de la siguiente manera

Los elementos dentro de cada vector se dan de la siguiente manera

donde son el número respectivo de puntas en los subárboles correspondientes que se muestran en la figura. Se puede demostrar que la base resultante es ortonormal [3]

Una vez construida la base , la transformada ilr se puede calcular de la siguiente manera

donde cada elemento de los datos transformados ilr tiene la siguiente forma

donde y son el conjunto de valores correspondientes a las puntas en los subárboles y

Ejemplos

Véase también

Notas

  1. ^ Aitchison, John (1982). "El análisis estadístico de datos compositivos". Revista de la Royal Statistical Society. Serie B (Metodológica) . 44 (2): 139–177. doi :10.1111/j.2517-6161.1982.tb01195.x.
  2. ^ Egozcue y col.
  3. ^ Egozcue y Pawlowsky-Glahn 2005
  4. ^ Olea, Ricardo A.; Martín-Fernández, Josep A.; Craddock, William H. (2021). "Clasificación multivariante de los sistemas petrolíferos de crudo en el sureste de Texas, EE. UU., utilizando análisis convencionales y composicionales de biomarcadores". En Advances in Compositional Data Analysis—Festschrift in honour of Vera-Pawlowsky-Glahn, Filzmoser, P., Hron, K., Palarea-Albaladejo, J., Martín-Fernández, JA, editores. Springer : 303−327.

Referencias

Enlaces externos