Estadística direccional

La estadística direccional (también estadística circular o estadística esférica) es la subdisciplina de la estadística que se ocupa de las direcciones (los vectores unitarios en el espacio euclídeo, Rn ), ejes (rectas desde el origen en Rn) o al movimiento de rotación en Rn.

El hecho de que 0 grados y 360 grados sean ángulos idénticos, de modo que, por ejemplo, 180 grados no sea una media coherente para 2 grados y 358 grados, ilustra que se requieren métodos estadísticos especiales para el análisis de algunos tipos de datos (en este caso caso, datos angulares).

Otros ejemplos de datos que pueden considerarse direccionales incluyen estadísticas que involucran períodos temporales (por ejemplo, horas del día, semanas, meses o años), direcciones de la brújula, ángulos diedros en moléculas, orientaciones o rotaciones entre otros.

[2]​ Es decir, la FDP de la variable envuelta es Este concepto se puede extender al contexto multivariado mediante una extensión de la suma simple a una cantidad de sumas

que cubren todas las dimensiones en el espacio de características: donde

Las siguientes secciones muestran algunas distribuciones circulares relevantes.

La distribución de probabilidad lineal subyacente para la distribución de von Mises es matemáticamente intratable; sin embargo, para fines estadísticos, no es necesario abordar la distribución lineal subyacente.

La utilidad de la distribución de von Mises es doble: es la más manejable matemáticamente de todas las distribuciones circulares, lo que permite un análisis estadístico más simple, y es una aproximación cercana a la distribución normal envuelta, que, de manera análoga a la distribución normal lineal, es importante porque es el caso límite para la suma de un gran número de pequeñas desviaciones angulares.

De hecho, la distribución de von Mises a menudo se conoce como distribución "normal circular" debido a su facilidad de uso y a su estrecha relación con la distribución normal envuelta (Fisher, 1993).

La distribución normal proyectada es una distribución circular que representa la dirección de una variable aleatoria con distribución normal multivariada, obtenida por proyección radial de la variable sobre la esfera unitaria (n-1).

Debido a esto, y a diferencia de otras distribuciones circulares comúnmente utilizadas, no es simétrica ni unimodal.

[7]​ La distribución de Bingham es una distribución sobre ejes en N dimensiones, o de manera equivalente, sobre puntos en la esfera (N − 1)-dimensional con las antípodas identificadas.

[8]​ Por ejemplo, si N = 2, los ejes son rectas no dirigidas que pasan por el origen en el plano.

En este caso, cada eje corta el círculo unitario en el plano (que es la esfera unidimensional) en dos puntos que son antípodas entre sí.

Estas distribuciones se utilizan, por ejemplo, en geología,[9]​ en cristalografía[10]​ y en bioinformática.

[1]​ [11]​ [12]​ Los momentos vectoriales sin procesar (o trigonométricos) de una distribución circular se definen como donde

es la unidad y el intervalo de integración es finito, se deduce que los momentos de cualquier distribución circular son siempre finitos y están bien definidos.

Los momentos muestrales se definen de manera análoga como: El vector resultante de la población, la longitud y el ángulo medio se definen en analogía con los parámetros de muestra correspondientes: Además, las longitudes de los momentos superiores se definen como: mientras que las partes angulares de los momentos superiores son solo

Las longitudes de todos los momentos estarán entre 0 y 1.

[13]​ La medida de ubicación más común es la media circular.

La media circular poblacional es simplemente el primer momento de la distribución, mientras que la media muestral es el primer momento de la muestra.

Cuando los datos están concentrados, la mediana y la moda pueden definirse por analogía con el caso lineal, pero para datos más dispersos o multimodales, estos conceptos no son útiles.

Por tanto, permitirá estandarizar la distribución circular como en el caso lineal, para valores pequeños de la desviación estándar.

Esto también se aplica a la distribución de von Mises, que se aproxima mucho a la distribución normal envuelta.

, el valor medio de z se define como: que puede expresarse como: donde o, alternativamente como: donde La distribución del ángulo medio (

) para una FDP circular P(θ) vendrá dada por: donde

y la integral está sujeta a la restricción de que

[14]​ El teorema del límite central se puede aplicar a la distribución de las medias muestrales.

(artículo principal: Teorema del límite central para estadísticas direccionales).

Para datos cíclicos (por ejemplo, si están distribuidos uniformemente):

La forma general de una proteína se puede parametrizar como una secuencia de puntos en la esfera unidad. Se muestran dos vistas del histograma esférico de dichos puntos para una gran colección de estructuras de proteínas. El tratamiento estadístico de dichos datos pertenece al ámbito de las estadísticas direccionales [ 1 ]
Tres conjuntos de puntos tomados de diferentes distribuciones de Kent en la esfera