El hecho de que 0 grados y 360 grados sean ángulos idénticos , de modo que, por ejemplo, 180 grados no sea una media razonable de 2 grados y 358 grados, proporciona una ilustración de que se requieren métodos estadísticos especiales para el análisis de algunos tipos de datos (en este caso, datos angulares). Otros ejemplos de datos que pueden considerarse direccionales incluyen estadísticas que involucran períodos temporales (por ejemplo, hora del día, semana, mes, año, etc.), direcciones de brújula, ángulos diedros en moléculas, orientaciones, rotaciones, etc.
Distribuciones circulares
Cualquier función de densidad de probabilidad (fdp) en la línea se puede "envolver" alrededor de la circunferencia de un círculo de radio unitario. [2] Es decir, la fdp de la variable envuelta
es
Este concepto se puede extender al contexto multivariado mediante una extensión de la suma simple a un número de sumas que cubren todas las dimensiones en el espacio de características:
donde es el -ésimo vector base euclidiano.
Las siguientes secciones muestran algunas distribuciones circulares relevantes.
Distribución circular de von Mises
La distribución de von Mises es una distribución circular que, como cualquier otra distribución circular, puede considerarse como una envoltura de una determinada distribución de probabilidad lineal alrededor del círculo. La distribución de probabilidad lineal subyacente para la distribución de von Mises es matemáticamente intratable; sin embargo, para fines estadísticos, no hay necesidad de tratar con la distribución lineal subyacente. La utilidad de la distribución de von Mises es doble: es la más matemáticamente manejable de todas las distribuciones circulares, lo que permite un análisis estadístico más simple, y es una aproximación cercana a la distribución normal envuelta , que, análogamente a la distribución normal lineal, es importante porque es el caso límite para la suma de un gran número de pequeñas desviaciones angulares. De hecho, la distribución de von Mises a menudo se conoce como la distribución "normal circular" debido a su facilidad de uso y su estrecha relación con la distribución normal envuelta. [3]
La pdf de la distribución de von Mises es: donde es la función de Bessel modificada de orden 0.
Distribución uniforme circular
La función de densidad de probabilidad (pdf) de la distribución circular uniforme está dada por
También puede considerarse como el von Mises mencionado anteriormente.
Distribución normal envuelta
La función de densidad de probabilidad de la distribución normal envuelta (WN) es:
donde μ y σ son la media y la desviación estándar de la distribución no envuelta, respectivamente, y es la función theta de Jacobi : donde y
Distribución de Cauchy envuelta
La pdf de la distribución de Cauchy envuelta (WC) es:
donde es el factor de escala y es la posición del pico.
Distribución de Lévy envuelta
La función de densidad de probabilidad de la distribución de Lévy envuelta (WL) es:
donde el valor del sumando se toma como cero cuando , es el factor de escala y es el parámetro de ubicación.
Distribución normal proyectada
La distribución normal proyectada es una distribución circular que representa la dirección de una variable aleatoria con distribución normal multivariante, obtenida por proyección radial de la variable sobre la esfera unitaria (n-1). Debido a esto, y a diferencia de otras distribuciones circulares comúnmente utilizadas, no es simétrica ni unimodal .
Distribuciones en variedades de dimensiones superiores
La distribución de Bingham es una distribución sobre ejes en N dimensiones, o equivalentemente, sobre puntos en la esfera de ( N − 1) dimensiones con los antípodas identificados. [9] Por ejemplo, si N = 2, los ejes son líneas no dirigidas a través del origen en el plano. En este caso, cada eje corta el círculo unitario en el plano (que es la esfera unidimensional) en dos puntos que son antípodas entre sí. Para N = 4, la distribución de Bingham es una distribución sobre el espacio de cuaterniones unitarios ( versores ). Dado que un versor corresponde a una matriz de rotación, la distribución de Bingham para N = 4 se puede utilizar para construir distribuciones de probabilidad sobre el espacio de rotaciones, al igual que la distribución Matrix-von Mises–Fisher.
Los momentos vectoriales (o trigonométricos) brutos de una distribución circular se definen como
donde es cualquier intervalo de longitud , es la función de densidad de probabilidad de la distribución circular y . Como la integral es la unidad y el intervalo de integración es finito, se deduce que los momentos de cualquier distribución circular son siempre finitos y están bien definidos.
Los momentos de muestra se definen de forma análoga:
El vector resultante de la población, la longitud y el ángulo medio se definen en analogía con los parámetros de muestra correspondientes.
Además, las longitudes de los momentos superiores se definen como:
mientras que las partes angulares de los momentos superiores son simplemente . Las longitudes de todos los momentos estarán entre 0 y 1.
La medida de ubicación más común es la media circular. La media circular de la población es simplemente el primer momento de la distribución, mientras que la media de la muestra es el primer momento de la muestra. La media de la muestra servirá como un estimador imparcial de la media de la población.
Cuando los datos están concentrados, la mediana y la moda pueden definirse por analogía con el caso lineal, pero para datos más dispersos o multimodales, estos conceptos no son útiles.
Dispersión
Las medidas más comunes de propagación circular son:
Elvarianza circular . Para la muestra la varianza circular se define como:y para la poblaciónAmbas tendrán valores entre 0 y 1.
Eldesviación estándar circular con valores entre 0 e infinito. Esta definición de la desviación estándar (en lugar de la raíz cuadrada de la varianza) es útil porque, para una distribución normal envuelta, es un estimador de la desviación estándar de la distribución normal subyacente. Por lo tanto, permitirá que la distribución circular se estandarice como en el caso lineal, para valores pequeños de la desviación estándar. Esto también se aplica a la distribución de von Mises, que se aproxima mucho a la distribución normal envuelta. Nótese que para valores pequeños, tenemos.
ElDispersión circular con valores entre 0 e infinito. Esta medida de dispersión resulta útil en el análisis estadístico de varianza.
Distribución de la media
Dado un conjunto de N mediciones, el valor medio de z se define como:
que puede expresarse como
dónde
o, alternativamente como:
dónde
La distribución del ángulo medio ( ) para una función de densidad de probabilidad circular P ( θ ) vendrá dada por:
donde es sobre cualquier intervalo de longitud y la integral está sujeta a la restricción de que y son constantes, o, alternativamente, que y son constantes.
El cálculo de la distribución de la media para la mayoría de las distribuciones circulares no es analíticamente posible y, para realizar un análisis de varianza, se necesitan aproximaciones numéricas o matemáticas. [14]
^ ab Hamelryck, Thomas; Kent, John T.; Krogh, Anders (2006). "Hamelryck, T., Kent, J., Krogh, A. (2006) Muestreo de conformaciones proteínicas realistas utilizando sesgo estructural local. PLoS Comput. Biol., 2(9): e131". PLOS Computational Biology . 2 (9): e131. Bibcode :2006PLSCB...2..131H. doi : 10.1371/journal.pcbi.0020131 . PMC 1570370 . PMID 17002495.
^ Bahlmann, C., (2006), Características direccionales en el reconocimiento de escritura a mano en línea, Pattern Recognition, 39
^Por Fisher 1993.
^ Kent, J (1982) La distribución de Fisher-Bingham en la esfera. J Royal Stat Soc, 44, 71–80.
^ Fisher, RA (1953) Dispersión en una esfera. Proc. Roy. Soc. London Ser. A., 217, 295–305
^ Mardia, KM. Taylor; CC; Subramaniam, GK. (2007). "Bioinformática de proteínas y mezclas de distribuciones de von Mises bivariadas para datos angulares". Biometrics . 63 (2): 505–512. doi :10.1111/j.1541-0420.2006.00682.x. PMID 17688502. S2CID 14293602.
^ Pal, Subhadip; Sengupta, Subhajit; Mitra, Riten; Banerjee, Arunava (septiembre de 2020). "Prioridades conjugadas e inferencia posterior para la distribución matricial de Langevin en la variedad de Stiefel". Análisis bayesiano . 15 (3): 871–908. doi : 10.1214/19-BA1176 . ISSN 1936-0975. S2CID 209974627.
^ Bingham, C. (1974). "Una distribución simétrica antípoda en la esfera". Ann. Stat . 2 (6): 1201–1225. doi : 10.1214/aos/1176342874 .
^ Peel, D.; Whiten, W. J.; McLachlan, G. J. (2001). "Ajuste de mezclas de distribuciones de Kent para ayudar en la identificación de conjuntos conjuntos" (PDF) . J. Am. Stat. Assoc . 96 (453): 56–63. doi :10.1198/016214501750332974. S2CID 11667311.
^ Krieger Lassen, NC; Juul Jensen, D.; Conradsen, K. (1994). "Sobre el análisis estadístico de datos de orientación". Acta Crystallogr . A50 (6): 741–748. Código Bibliográfico :1994AcCrA..50..741K. doi :10.1107/S010876739400437X.
^ Kent, JT, Hamelryck, T. (2005). Uso de la distribución Fisher-Bingham en modelos estocásticos para la estructura de proteínas. En S. Barber, PD Baxter, KVMardia y RE Walls (Eds.), Biología cuantitativa, análisis de formas y wavelets, págs. 57-60. Leeds, Leeds University Press
^ Boomsma, Wouter; Mardia, Kanti V.; Taylor, Charles C.; Ferkinghoff-Borg, Jesper; Krogh, Anders; Hamelryck, Thomas (2008). "Un modelo generativo y probabilístico de la estructura local de las proteínas". Actas de la Academia Nacional de Ciencias . 105 (26): 8932–8937. Bibcode :2008PNAS..105.8932B. doi : 10.1073/pnas.0801715105 . PMC 2440424 . PMID 18579771.
Jammalamadaka, S. Rao; Sengupta, A. (2001). Temas de estadística circular. Nueva Jersey: World Scientific. ISBN 981-02-3778-2. Recuperado el 15 de mayo de 2011 .
Mardia, KV ; Jupp, P. (2000). Estadística direccional (2.ª ed.). John Wiley and Sons Ltd. ISBN 0-471-95333-4.