stringtranslate.com

Datos composicionales

En estadística , los datos compositivos son descripciones cuantitativas de las partes de un todo, que transmiten información relativa. Matemáticamente, los datos compositivos se representan mediante puntos en un simplex . Las mediciones que involucran probabilidades, proporciones, porcentajes y ppm pueden considerarse datos compositivos.

trama ternaria

Los datos de composición en tres variables se pueden representar mediante gráficos ternarios . El uso de un gráfico baricéntrico en tres variables representa gráficamente las proporciones de las tres variables como posiciones en un triángulo equilátero .

Espacio muestral simple

En general, John Aitchison definió los datos compositivos como proporciones de un todo en 1982. [1] En particular, un punto de datos compositivos (o composición para abreviar) puede representarse mediante un vector real con componentes positivos. El espacio muestral de datos compositivos es simplex:

Una ilustración del simplex de Aitchison. Aquí, hay 3 partes, representan valores de diferentes proporciones. A, B, C, D y E son 5 composiciones diferentes dentro del simplex. A, B y C son todos equivalentes y D y E son equivalentes.

La única información viene dada por las relaciones entre componentes, por lo que la información de una composición se conserva al multiplicarla por cualquier constante positiva. Por lo tanto, siempre se puede suponer que el espacio muestral de datos compositivos es un simplex estándar, es decir . En este contexto, la normalización al simplex estándar se llama cierre y se denota por :

donde D es el número de partes (componentes) y denota un vector de fila.

Geometría de Aitchison

Al simplex se le puede dar la estructura de un espacio vectorial de varias maneras diferentes. La siguiente estructura del espacio vectorial se llama geometría de Aitchison o Aitchison simplex y tiene las siguientes operaciones:

Perturbación (suma de vectores)
Potencia (multiplicación escalar)
Producto Interno

Solo con estas operaciones, es suficiente demostrar que el simplex de Aitchison forma un espacio producto interno euclidiano de dimensiones . La composición uniforme es el vector cero .

Bases ortonormales

Dado que el simplex de Aitchison forma un espacio de Hilbert de dimensión finita, es posible construir bases ortonormales en el simplex. Cada composición se puede descomponer de la siguiente manera.

donde forma una base ortonormal en el simplex. [2] Los valores son las coordenadas (ortonormales y cartesianas) con respecto a la base dada. Se denominan coordenadas isométricas de relación logarítmica .

Transformaciones lineales

Hay tres isomorfismos bien caracterizados que transforman del simplex de Aitchison al espacio real. Todas estas transformaciones satisfacen la linealidad y como se indica a continuación

Transformación de relación logarítmica aditiva

La transformada aditiva de relación logarítmica (alr) es un isomorfismo donde . Esto está dado por

La elección del componente denominador es arbitraria y podría ser cualquier componente especificado. Esta transformada se usa comúnmente en química con mediciones como el pH. Además, esta es la transformada más utilizada para la regresión logística multinomial . La transformada alr no es una isometría, lo que significa que las distancias en los valores transformados no serán equivalentes a las distancias en las composiciones originales en el símplex.

Transformación de relación logarítmica central

La transformada de relación logarítmica central (clr) es tanto un isomorfismo como una isometría donde

¿Dónde está la media geométrica de ? La inversa de esta función también se conoce como función softmax .

Transformada de logratio isométrica

La transformada isométrica de relación logarítmica (ilr) es tanto un isomorfismo como una isometría donde

Hay varias formas de construir bases ortonormales, incluido el uso de la ortogonalización de Gram-Schmidt o la descomposición en valores singulares de datos transformados clr. Otra alternativa es construir contrastes de troncos a partir de un árbol bifurcado. Si nos dan un árbol bifurcado, podemos construir una base a partir de los nodos internos del árbol.

Una representación de un árbol en términos de sus componentes ortogonales. l representa un nodo interno, un elemento de la base ortonormal. Este es un precursor del uso del árbol como andamio para la transformación ilr.

Cada vector en la base se determinaría de la siguiente manera

Los elementos dentro de cada vector se dan de la siguiente manera.

donde está el número respectivo de puntas en los subárboles correspondientes que se muestran en la figura. Se puede demostrar que la base resultante es ortonormal [3]

Una vez construida la base , la transformada ilr se puede calcular de la siguiente manera

donde cada elemento de los datos transformados ilr tiene la siguiente forma

donde y son el conjunto de valores correspondientes a las puntas de los subárboles y

Ejemplos

Ver también

Notas

  1. ^ Aitchison, John (1982). "El análisis estadístico de datos composicionales". Revista de la Real Sociedad de Estadística. Serie B (Metodológica) . 44 (2): 139-177. doi :10.1111/j.2517-6161.1982.tb01195.x.
  2. ^ Egozcue et al.
  3. ^ Egozcue y Pawlowsky-Glahn 2005
  4. ^ Olea, Ricardo A.; Martín-Fernández, Josep A.; Craddock, William H. (2021). "Clasificación multivariada de los sistemas petroleros de petróleo crudo en el sureste de Texas, EE. UU., mediante análisis convencional y composicional de biomarcadores". En Advances in Compositional Data Analysis—Festschrift en honor a Vera-Pawlowsky-Glahn, Filzmoser, P., Hron, K., Palarea-Albaladejo, J., Martín-Fernández, JA, editores. Saltador : 303-327.

Referencias

enlaces externos