stringtranslate.com

Distribución de von Mises-Fisher

En estadística direccional , la distribución de von Mises-Fisher (nombrada en honor a Richard von Mises y Ronald Fisher ) es una distribución de probabilidad en la esfera en . Si la distribución se reduce a la distribución de von Mises en el círculo .

Definición

La función de densidad de probabilidad de la distribución de von Mises-Fisher para el vector unitario aleatorio p -dimensional viene dada por:

donde y la constante de normalización es igual a

donde denota la función de Bessel modificada de primera especie en el orden . Si , la constante de normalización se reduce a

Los parámetros y se denominan parámetro de dirección media y parámetro de concentración , respectivamente. Cuanto mayor sea el valor de , mayor será la concentración de la distribución alrededor de la dirección media . La distribución es unimodal para , y es uniforme en la esfera para .

La distribución de von Mises-Fisher también se denomina distribución de Fisher . [1] [2] Se utilizó por primera vez para modelar la interacción de dipolos eléctricos en un campo eléctrico . [3] Se encuentran otras aplicaciones en geología , bioinformática y minería de textos .

Nota sobre la constante de normalización

En el libro de texto Directional Statistics [3] de Mardia y Jupp, la constante de normalización dada para la densidad de probabilidad de Von Mises Fisher es aparentemente diferente de la que se da aquí: . En ese libro, la constante de normalización se especifica como:

donde es la función gamma . Esto se resuelve observando que Mardia y Jupp dan la densidad "con respecto a la distribución uniforme", mientras que la densidad aquí se especifica de la manera habitual, con respecto a la medida de Lebesgue . La densidad (con respecto a la medida de Lebesgue) de la distribución uniforme es el recíproco del área de superficie de la (p-1)-esfera , de modo que la función de densidad uniforme está dada por la constante:

De lo cual se deduce que:

Si bien el valor de se derivó anteriormente a través del área de superficie, se puede obtener el mismo resultado estableciendo en la fórmula anterior para . Esto se puede hacer notando que la expansión en serie para dividida por tiene solo un término distinto de cero en . (Para evaluar ese término, se necesita usar la definición ).

Apoyo

El soporte de la distribución de Von Mises-Fisher es la hiperesfera , o más específicamente, la -esfera , denotada como

Se trata de una variedad -dimensional incrustada en un espacio euclidiano -dimensional .

Relación con la distribución normal

Partiendo de una distribución normal con covarianza isótropa y media de longitud , cuya función de densidad es:

La distribución de von Mises-Fisher se obtiene condicionando . Al expandir

y utilizando el hecho de que los dos primeros términos del lado derecho son fijos, la densidad de Von Mises-Fisher se recupera al recalcular la constante de normalización mediante la integración sobre la esfera unitaria. Si , obtenemos la distribución uniforme, con densidad .

Más sucintamente, la restricción de cualquier densidad normal multivariada isótropa a la hiperesfera unitaria, da una densidad de Von Mises-Fisher, hasta la normalización.

Esta construcción se puede generalizar comenzando con una distribución normal con una matriz de covarianza general, en cuyo caso el condicionamiento da como resultado la distribución de Fisher-Bingham .

Estimación de parámetros

Dirección media

Se extrae una serie de N vectores unitarios independientes a partir de una distribución de von Mises-Fisher. Las estimaciones de máxima verosimilitud de la dirección media son simplemente la media aritmética normalizada , una estadística suficiente : [3]

Parámetro de concentración

Utilice la función de Bessel modificada del primer tipo para definir

Entonces:

Así es la solución a

Una aproximación simple es (Sra, 2011)

Se puede obtener una inversión más precisa iterando el método de Newton unas cuantas veces.

Error estándar

Para N  ≥ 25, el error estándar esférico estimado de la dirección media de la muestra se puede calcular como: [4]

dónde

Es posible entonces aproximar un intervalo de confianza esférico (un cono de confianza ) con un ángulo semivertical:

dónde

Por ejemplo, para un cono de confianza del 95%, y por lo tanto

Valor esperado

El valor esperado de la distribución de Von Mises-Fisher no se encuentra en la hiperesfera unitaria, sino que tiene una longitud menor que uno. Esta longitud viene dada por como se definió anteriormente. Para una distribución de Von Mises-Fisher con dirección media y concentración , el valor esperado es:

.

Para , el valor esperado está en el origen. Para , la longitud del valor esperado es estrictamente entre cero y uno y es una función monótona ascendente de .

La media empírica ( promedio aritmético ) de una colección de puntos en la hiperesfera unitaria se comporta de manera similar, estando cerca del origen para datos muy dispersos y cerca de la esfera para datos concentrados. De hecho, para la distribución de Von Mises-Fisher, el valor esperado de la estimación de máxima verosimilitud basada en una colección de puntos es igual a la media empírica de esos puntos.

Entropía y divergencia KL

El valor esperado se puede utilizar para calcular la entropía diferencial y la divergencia KL .

La entropía diferencial de es:

donde los corchetes angulares indican la expectativa. Nótese que la entropía es una función de solamente.

La divergencia KL entre y es:

Transformación

Las distribuciones de von Mises-Fisher (VMF) están cerradas bajo transformadas lineales ortogonales. Sea una matriz -por- ortogonal . Sea y apliquemos la transformada lineal invertible: . La transformada inversa es , porque la inversa de una matriz ortogonal es su transpuesta : . El jacobiano de la transformada es , para el cual el valor absoluto de su determinante es 1, también debido a la ortogonalidad. Usando estos hechos y la forma de la densidad VMF, se deduce que:

Se puede verificar que como y son vectores unitarios, entonces por la ortogonalidad, también lo son y .

Generación de números pseudoaleatorios

Caso general

Ulrich [5] propuso un algoritmo para extraer muestras pseudoaleatorias de la distribución de Von Mises Fisher (VMF), que luego fue corregido por Wood. [6] Hornik y Grün [7] proponen una implementación en R y Pinzón y Jung describen una implementación rápida en Python . [8]

Para simular desde una distribución VMF en la unidad esférica dimensional , , con dirección media , estos algoritmos utilizan la siguiente descomposición radial-tangencial para un punto  :

donde vive en la subesfera unitaria de dimensión tangencial que está centrada en y perpendicular a ; mientras que . Para extraer una muestra de un VMF con parámetros y , debe extraerse de la distribución uniforme en la subesfera tangencial; y el componente radial, , debe extraerse independientemente de la distribución con densidad:

donde . La constante de normalización para esta densidad se puede verificar utilizando:

como se indica en el Apéndice 1 (A.3) en Estadísticas direccionales . [3] La extracción de las muestras de esta densidad mediante un algoritmo de muestreo de rechazo se explica en las referencias anteriores. Para extraer las muestras uniformes perpendiculares a , consulte el algoritmo en [8] o, de lo contrario, se puede utilizar una transformada de Householder como se explica en el Algoritmo 1 en [9] .

Esfera 3-D

Para generar un vector unitario tridimensional esférico pseudoaleatorio distribuido por Von Mises-Fisher [10] [11] en la esfera para un y dados , defina

¿Dónde está el ángulo polar, el ángulo azimutal y la distancia al centro de la esfera?

para el triplete pseudoaleatorio viene dado entonces por

donde se toma una muestra de la distribución uniforme continua con límite inferior y límite superior

y

donde se toma una muestra de la distribución uniforme continua estándar

Aquí se debe establecer cuándo y rotar para que coincida con cualquier otro deseado .

Distribución del ángulo polar

Para , el ángulo θ entre y satisface . Tiene la distribución

,

que puede evaluarse fácilmente como

.

Para el caso general, , la distribución para el coseno de este ángulo:

viene dada por , como se explicó anteriormente.

La distribución uniforme de la hiperesfera

Cuando , la distribución de Von Mises-Fisher, en se simplifica a la distribución uniforme en . La densidad es constante con valor . Se pueden generar muestras pseudoaleatorias generando muestras en a partir de la distribución normal multivariante estándar, seguida de la normalización a la norma unitaria.

Componente marginal de distribución uniforme

Para , sea cualquier componente de . La distribución marginal para tiene la densidad: [12] [13]

donde es la función beta . Esta distribución se puede entender mejor si se destaca su relación con la distribución beta :

donde la fórmula de duplicación de Legendre es útil para comprender las relaciones entre las constantes de normalización de las diversas densidades anteriores.

Téngase en cuenta que los componentes de no son independientes, de modo que la densidad uniforme no es el producto de las densidades marginales y no se puede ensamblar mediante un muestreo independiente de los componentes.

Distribución de productos punto

En el aprendizaje automático , especialmente en la clasificación de imágenes , las entradas a clasificar (por ejemplo, imágenes) a menudo se comparan utilizando la similitud de coseno , que es el producto escalar entre representaciones intermedias en forma de vectores unitarios (denominados incrustaciones ). La dimensionalidad suele ser alta, con al menos varios cientos. Las redes neuronales profundas que extraen incrustaciones para la clasificación deben aprender a dispersar las clases lo más posible e idealmente esto debería dar clases que estén distribuidas uniformemente en . [14] Para una mejor comprensión estadística de la similitud de coseno entre clases , puede ser útil la distribución de productos escalares entre vectores unitarios muestreados independientemente de la distribución uniforme.


Sean vectores unitarios en , muestreados independientemente de la distribución uniforme. Defina:

donde es el producto escalar y son versiones transformadas de este. Entonces la distribución para es la misma que la distribución del componente marginal dada anteriormente ; [13] la distribución para es beta simétrica y la distribución para es beta logística simétrica :

Las medias y varianzas son:

y

donde es la primera función poligamma . Las varianzas disminuyen, las distribuciones de las tres variables se vuelven más gaussianas y la aproximación final mejora a medida que aumenta la dimensionalidad, .

Generalizaciones

Matriz de Mises-Fisher

La distribución matricial de von Mises-Fisher (también conocida como distribución matricial de Langevin [15] [16] ) tiene la densidad

apoyado en la variedad Stiefel de p-marcos ortonormales , donde es una matriz real arbitraria . [17] [18]

Distribuciones de sierras

Ulrich, [5] al diseñar un algoritmo para el muestreo de la distribución VMF, hace uso de una familia de distribuciones nombradas en honor a John G. Saw y exploradas por él. [19] Una distribución Saw es una distribución en la -esfera, , con vector modal y concentración , y cuya función de densidad tiene la forma:

donde es una función no negativa y creciente; y donde es la constante de normalización. La descomposición radial-tangencial mencionada anteriormente se generaliza a la familia Saw y el componente radial tiene la densidad:

donde es la función beta. Observe también que el factor izquierdo de la densidad radial es el área de superficie de .

Al configurar , se recupera la distribución VMF.

Distribución de Rademacher ponderada

La definición de la distribución de von Mises-Fisher se puede ampliar para incluir también el caso en el que , de modo que el soporte es la hiperesfera de dimensión cero, que cuando se inserta en el espacio euclidiano unidimensional es el conjunto discreto, . La dirección media es y la concentración es . La función de masa de probabilidad, para es:

donde es la sigmoidea logística . El valor esperado es . En el caso uniforme, en , esta distribución degenera en la distribución de Rademacher .

Véase también

Referencias

  1. ^ Fisher, RA (1953). "Dispersión en una esfera". Proc. R. Soc. Lond. A . 217 (1130): 295–305. Código Bibliográfico :1953RSPSA.217..295F. doi :10.1098/rspa.1953.0064. S2CID  123166853.
  2. ^ Watson, GS (1980). "Distribuciones en el círculo y en la esfera". J. Appl. Probab . 19 : 265–280. doi :10.2307/3213566. JSTOR  3213566. S2CID  222325569.
  3. ^ abcd Mardia, Kanti ; Jupp, PE (1999). Estadísticas direccionales . John Wiley & Sons Ltd. ISBN 978-0-471-95333-3.
  4. ^ Embleton, NI Fisher, T. Lewis, BJJ (1993). Análisis estadístico de datos esféricos (1.ª edición). Cambridge: Cambridge University Press. Págs. 115-116. ISBN. 0-521-45699-1.{{cite book}}: CS1 maint: multiple names: authors list (link)
  5. ^ ab Ulrich, Gary (1984). "Generación informática de distribuciones en la esfera m". Applied Statistics . 33 (2): 158–163. doi :10.2307/2347441. JSTOR  2347441.
  6. ^ Wood, Andrew T (1994). "Simulación de la distribución de von Mises Fisher". Comunicaciones en Estadística - Simulación y Computación . 23 (1): 157–164. doi :10.1080/03610919408813161.
  7. ^ Hornik, Kurt; Grün, Bettina (2014). "movMF: Un paquete R para ajustar mezclas de distribuciones de von Mises-Fisher". Revista de software estadístico . 58 (10). doi : 10.18637/jss.v058.i10 . S2CID  13171102.
  8. ^ ab Pinzón, Carlos; Jung, Kangsoo (3 de marzo de 2023), Fast Python sampler for the von Mises Fisher distribution , consultado el 30 de marzo de 2023
  9. ^ De Cao, Nicola; Aziz, Wilker (13 de febrero de 2023). "La distribución esférica de potencia". arXiv : 2006.04437 [stat.ML].
  10. ^ Pakyuz-Charrier, Evren; Lindsay, Mark; Ogarko, Vitaliy; Giraud, Jeremie; Jessell, Mark (6 de abril de 2018). "Simulación de Monte Carlo para la estimación de incertidumbre en datos estructurales en modelado geológico tridimensional implícito, una guía para la selección y parametrización de la distribución de perturbaciones". Tierra sólida . 9 (2): 385–402. Bibcode :2018SolE....9..385P. doi : 10.5194/se-9-385-2018 . ISSN  1869-9510.
  11. ^ A., Wood, Andrew T. (1992). Simulación de la distribución de Von Mises Fisher. Centro de Matemáticas y sus Aplicaciones, Universidad Nacional de Australia. OCLC  221030477.{{cite book}}: CS1 maint: multiple names: authors list (link)
  12. ^ Gosmann, J; Eliasmith, C (2016). "Optimización de representaciones de punteros semánticos para procesamiento similar a símbolos en redes neuronales de punta". PLOS ONE . ​​11 (2): e0149928. Bibcode :2016PLoSO..1149928G. doi : 10.1371/journal.pone.0149928 . PMC 4762696 . PMID  26900931. 
  13. ^ ab Voelker, Aaron R.; Gosmann, Jan; Stewart, Terrence C. "Muestreo eficiente de vectores y coordenadas de la n-esfera y la n-bola" (PDF) . Centro de Neurociencia Teórica – Informe Técnico, 2017 . Consultado el 22 de abril de 2023 .
  14. ^ Wang, Tongzhou; Isola, Phillip (2020). "Comprensión del aprendizaje de representación contrastiva a través de la alineación y la uniformidad en la hiperesfera". Conferencia internacional sobre aprendizaje automático (ICML) . arXiv : 2005.10242 .
  15. ^ Pal, Subhadip; Sengupta, Subhajit; Mitra, Riten; Banerjee, Arunava (2020). "Prioridades conjugadas e inferencia posterior para la distribución matricial de Langevin en la variedad de Stiefel". Análisis bayesiano . 15 (3): 871–908. doi : 10.1214/19-BA1176 . ISSN  1936-0975.
  16. ^ Chikuse, Yasuko (1 de mayo de 2003). "Distribuciones de Langevin de matrices concentradas". Journal of Multivariate Analysis . 85 (2): 375–394. doi : 10.1016/S0047-259X(02)00065-9 . ISSN  0047-259X.
  17. ^ Jupp (1979). "Estimadores de máxima verosimilitud para las distribuciones matriciales de von Mises-Fisher y Bingham". Anales de Estadística . 7 (3): 599–606. doi : 10.1214/aos/1176344681 .
  18. ^ Downs (1972). "Estadísticas orientacionales". Biometrika . 59 (3): 665–676. doi :10.1093/biomet/59.3.665.
  19. ^ Saw, John G (1978). "Una familia de distribuciones en la esfera m y algunas pruebas de hipótesis". Biometrika . 65 (`): 69–73. doi :10.2307/2335278. JSTOR  2335278.

Lectura adicional