stringtranslate.com

Estadísticas direccionales

La estadística direccional (también estadística circular o estadística esférica ) es la subdisciplina de la estadística que se ocupa de direcciones ( vectores unitarios en el espacio euclidiano , R n ), ejes ( líneas que pasan por el origen en R n ) o rotaciones en R n . De manera más general, la estadística direccional se ocupa de observaciones en variedades compactas de Riemann, incluida la variedad de Stiefel .

La forma general de una proteína se puede parametrizar como una secuencia de puntos en la esfera unitaria . Se muestran dos vistas del histograma esférico de dichos puntos para una gran colección de estructuras de proteínas. El tratamiento estadístico de dichos datos se encuentra en el ámbito de las estadísticas direccionales. [1]

El hecho de que 0 grados y 360 grados sean ángulos idénticos , de modo que, por ejemplo, 180 grados no sea una media razonable de 2 grados y 358 grados, proporciona una ilustración de que se requieren métodos estadísticos especiales para el análisis de algunos tipos de datos (en este caso, datos angulares). Otros ejemplos de datos que pueden considerarse direccionales incluyen estadísticas que involucran períodos temporales (por ejemplo, hora del día, semana, mes, año, etc.), direcciones de brújula, ángulos diedros en moléculas, orientaciones, rotaciones, etc.

Distribuciones circulares

Cualquier función de densidad de probabilidad (fdp) en la línea se puede "envolver" alrededor de la circunferencia de un círculo de radio unitario. [2] Es decir, la fdp de la variable envuelta es

Este concepto se puede extender al contexto multivariado mediante una extensión de la suma simple a un número de sumas que cubren todas las dimensiones en el espacio de características: donde es el -ésimo vector base euclidiano.

Las siguientes secciones muestran algunas distribuciones circulares relevantes.

Distribución circular de von Mises

La distribución de von Mises es una distribución circular que, como cualquier otra distribución circular, puede considerarse como una envoltura de una determinada distribución de probabilidad lineal alrededor del círculo. La distribución de probabilidad lineal subyacente para la distribución de von Mises es matemáticamente intratable; sin embargo, para fines estadísticos, no hay necesidad de tratar con la distribución lineal subyacente. La utilidad de la distribución de von Mises es doble: es la más matemáticamente manejable de todas las distribuciones circulares, lo que permite un análisis estadístico más simple, y es una aproximación cercana a la distribución normal envuelta , que, análogamente a la distribución normal lineal, es importante porque es el caso límite para la suma de un gran número de pequeñas desviaciones angulares. De hecho, la distribución de von Mises a menudo se conoce como la distribución "normal circular" debido a su facilidad de uso y su estrecha relación con la distribución normal envuelta. [3]

La pdf de la distribución de von Mises es: donde es la función de Bessel modificada de orden 0.

Distribución uniforme circular

La función de densidad de probabilidad (pdf) de la distribución circular uniforme está dada por

También puede considerarse como el von Mises mencionado anteriormente.

Distribución normal envuelta

La función de densidad de probabilidad de la distribución normal envuelta (WN) es: donde μ y σ son la media y la desviación estándar de la distribución no envuelta, respectivamente, y es la función theta de Jacobi : donde y

Distribución de Cauchy envuelta

La pdf de la distribución de Cauchy envuelta (WC) es: donde es el factor de escala y es la posición del pico.

Distribución de Lévy envuelta

La función de densidad de probabilidad de la distribución de Lévy envuelta (WL) es: donde el valor del sumando se toma como cero cuando , es el factor de escala y es el parámetro de ubicación.

Distribución normal proyectada

La distribución normal proyectada es una distribución circular que representa la dirección de una variable aleatoria con distribución normal multivariante, obtenida por proyección radial de la variable sobre la esfera unitaria (n-1). Debido a esto, y a diferencia de otras distribuciones circulares comúnmente utilizadas, no es simétrica ni unimodal .

Distribuciones en variedades de dimensiones superiores

Tres conjuntos de puntos muestreados de diferentes distribuciones de Kent en la esfera.

También existen distribuciones en la esfera bidimensional (como la distribución de Kent [4] ), la esfera N -dimensional (la distribución de von Mises-Fisher [5] ) o el toro (la distribución bivariada de von Mises [6] ).

La distribución matricial de von Mises-Fisher [7] es una distribución en la variedad Stiefel y se puede utilizar para construir distribuciones de probabilidad sobre matrices de rotación . [8]

La distribución de Bingham es una distribución sobre ejes en N dimensiones, o equivalentemente, sobre puntos en la esfera de ( N  − 1) dimensiones con los antípodas identificados. [9] Por ejemplo, si N  = 2, los ejes son líneas no dirigidas a través del origen en el plano. En este caso, cada eje corta el círculo unitario en el plano (que es la esfera unidimensional) en dos puntos que son antípodas entre sí. Para N  = 4, la distribución de Bingham es una distribución sobre el espacio de cuaterniones unitarios ( versores ). Dado que un versor corresponde a una matriz de rotación, la distribución de Bingham para N  = 4 se puede utilizar para construir distribuciones de probabilidad sobre el espacio de rotaciones, al igual que la distribución Matrix-von Mises–Fisher.

Estas distribuciones se utilizan, por ejemplo, en geología , [10] cristalografía, [11] y bioinformática . [1] [12] [13]

Momentos

Los momentos vectoriales (o trigonométricos) brutos de una distribución circular se definen como

donde es cualquier intervalo de longitud , es la función de densidad de probabilidad de la distribución circular y . Como la integral es la unidad y el intervalo de integración es finito, se deduce que los momentos de cualquier distribución circular son siempre finitos y están bien definidos.

Los momentos de muestra se definen de forma análoga:

El vector resultante de la población, la longitud y el ángulo medio se definen en analogía con los parámetros de muestra correspondientes.

Además, las longitudes de los momentos superiores se definen como:

mientras que las partes angulares de los momentos superiores son simplemente . Las longitudes de todos los momentos estarán entre 0 y 1.

Medidas de localización y propagación

Se pueden definir varias medidas de tendencia central y dispersión estadística tanto para la población como para una muestra extraída de esa población. [3]

Tendencia central

La medida de ubicación más común es la media circular. La media circular de la población es simplemente el primer momento de la distribución, mientras que la media de la muestra es el primer momento de la muestra. La media de la muestra servirá como un estimador imparcial de la media de la población.

Cuando los datos están concentrados, la mediana y la moda pueden definirse por analogía con el caso lineal, pero para datos más dispersos o multimodales, estos conceptos no son útiles.

Dispersión

Las medidas más comunes de propagación circular son:

Distribución de la media

Dado un conjunto de N mediciones, el valor medio de z se define como:

que puede expresarse como

dónde

o, alternativamente como:

dónde

La distribución del ángulo medio ( ) para una función de densidad de probabilidad circular P ( θ ) vendrá dada por:

donde es sobre cualquier intervalo de longitud y la integral está sujeta a la restricción de que y son constantes, o, alternativamente, que y son constantes.

El cálculo de la distribución de la media para la mayoría de las distribuciones circulares no es analíticamente posible y, para realizar un análisis de varianza, se necesitan aproximaciones numéricas o matemáticas. [14]

El teorema del límite central se puede aplicar a la distribución de las medias de muestra. (artículo principal: Teorema del límite central para estadísticas direccionales ). Se puede demostrar [14] que la distribución de se aproxima a una distribución normal bivariada en el límite de un tamaño de muestra grande.

Pruebas de bondad de ajuste y significancia

Para datos cíclicos (por ejemplo, ¿se distribuyen uniformemente)?

Véase también

Referencias

  1. ^ ab Hamelryck, Thomas; Kent, John T.; Krogh, Anders (2006). "Hamelryck, T., Kent, J., Krogh, A. (2006) Muestreo de conformaciones proteínicas realistas utilizando sesgo estructural local. PLoS Comput. Biol., 2(9): e131". PLOS Computational Biology . 2 (9): e131. Bibcode :2006PLSCB...2..131H. doi : 10.1371/journal.pcbi.0020131 . PMC  1570370 . PMID  17002495.
  2. ^ Bahlmann, C., (2006), Características direccionales en el reconocimiento de escritura a mano en línea, Pattern Recognition, 39
  3. ^Por Fisher 1993.
  4. ^ Kent, J (1982) La distribución de Fisher-Bingham en la esfera. J Royal Stat Soc, 44, 71–80.
  5. ^ Fisher, RA (1953) Dispersión en una esfera. Proc. Roy. Soc. London Ser. A., 217, 295–305
  6. ^ Mardia, KM. Taylor; CC; Subramaniam, GK. (2007). "Bioinformática de proteínas y mezclas de distribuciones de von Mises bivariadas para datos angulares". Biometrics . 63 (2): 505–512. doi :10.1111/j.1541-0420.2006.00682.x. PMID  17688502. S2CID  14293602.
  7. ^ Pal, Subhadip; Sengupta, Subhajit; Mitra, Riten; Banerjee, Arunava (septiembre de 2020). "Prioridades conjugadas e inferencia posterior para la distribución matricial de Langevin en la variedad de Stiefel". Análisis bayesiano . 15 (3): 871–908. doi : 10.1214/19-BA1176 . ISSN  1936-0975. S2CID  209974627.
  8. ^ Downs (1972). "Estadísticas orientacionales". Biometrika . 59 (3): 665–676. doi :10.1093/biomet/59.3.665.
  9. ^ Bingham, C. (1974). "Una distribución simétrica antípoda en la esfera". Ann. Stat . 2 (6): 1201–1225. doi : 10.1214/aos/1176342874 .
  10. ^ Peel, D.; Whiten, W. J.; McLachlan, G. J. (2001). "Ajuste de mezclas de distribuciones de Kent para ayudar en la identificación de conjuntos conjuntos" (PDF) . J. Am. Stat. Assoc . 96 (453): 56–63. doi :10.1198/016214501750332974. S2CID  11667311.
  11. ^ Krieger Lassen, NC; Juul Jensen, D.; Conradsen, K. (1994). "Sobre el análisis estadístico de datos de orientación". Acta Crystallogr . A50 (6): 741–748. Código Bibliográfico :1994AcCrA..50..741K. doi :10.1107/S010876739400437X.
  12. ^ Kent, JT, Hamelryck, T. (2005). Uso de la distribución Fisher-Bingham en modelos estocásticos para la estructura de proteínas. En S. Barber, PD Baxter, KVMardia y RE Walls (Eds.), Biología cuantitativa, análisis de formas y wavelets, págs. 57-60. Leeds, Leeds University Press
  13. ^ Boomsma, Wouter; Mardia, Kanti V.; Taylor, Charles C.; Ferkinghoff-Borg, Jesper; Krogh, Anders; Hamelryck, Thomas (2008). "Un modelo generativo y probabilístico de la estructura local de las proteínas". Actas de la Academia Nacional de Ciencias . 105 (26): 8932–8937. Bibcode :2008PNAS..105.8932B. doi : 10.1073/pnas.0801715105 . PMC 2440424 . PMID  18579771. 
  14. ^ ab Jammalamadaka y Sengupta 2001.

Libros sobre estadística direccional