stringtranslate.com

Distribución de Dirichlet

En probabilidad y estadística , la distribución de Dirichlet (en honor a Peter Gustav Lejeune Dirichlet ), a menudo denominada , es una familia de distribuciones de probabilidad multivariadas continuas parametrizadas por un vector de reales positivos . Es una generalización multivariada de la distribución beta , [1] de ahí su nombre alternativo de distribución beta multivariada (MBD) . [2] Las distribuciones de Dirichlet se utilizan comúnmente como distribuciones previas en la estadística bayesiana y, de hecho, la distribución de Dirichlet es la prioritaria conjugada de la distribución categórica y la distribución multinomial .

La generalización de dimensión infinita de la distribución de Dirichlet es el proceso de Dirichlet .

Definiciones

Función de densidad de probabilidad

Ilustrando cómo cambia el logaritmo de la función de densidad cuando K  = 3 a medida que cambiamos el vector α de α  = (0.3, 0.3, 0.3) a (2.0, 2.0, 2.0), manteniendo todos los individuos iguales entre sí.

La distribución de Dirichlet de orden K  ≥ 2 con parámetros α 1 , ..., α K > 0 tiene una función de densidad de probabilidad con respecto a la medida de Lebesgue en el espacio euclidiano R K-1 dada por

donde pertenecen al estándar simplex , o en otras palabras:

La constante de normalización es la función beta multivariante , que se puede expresar en términos de la función gamma :

Apoyo

El soporte de la distribución de Dirichlet es el conjunto de vectores K -dimensionales cuyas entradas son números reales en el intervalo [0,1] tales que , es decir, la suma de las coordenadas es igual a 1. Estas pueden verse como las probabilidades de una Evento categórico de K -way . Otra forma de expresar esto es que el dominio de la distribución de Dirichlet es en sí mismo un conjunto de distribuciones de probabilidad , específicamente el conjunto de distribuciones discretas K -dimensionales . El término técnico para el conjunto de puntos que sustentan una distribución de Dirichlet de K dimensiones es el estándar abierto ( K  − 1)-simplex , [3] que es una generalización de un triángulo , incrustado en la siguiente dimensión superior. Por ejemplo, con K  = 3, el soporte es un triángulo equilátero incrustado en ángulo descendente en un espacio tridimensional, con vértices en (1,0,0), (0,1,0) y (0,0). ,1), es decir, tocando cada uno de los ejes de coordenadas en un punto a 1 unidad del origen.

Casos especiales

Un caso especial común es la distribución de Dirichlet simétrica , donde todos los elementos que componen el vector de parámetros tienen el mismo valor. El caso simétrico podría ser útil, por ejemplo, cuando se requiere una priorización de Dirichlet sobre los componentes, pero no existe un conocimiento previo que favorezca a un componente sobre otro. Dado que todos los elementos del vector de parámetros tienen el mismo valor, la distribución simétrica de Dirichlet se puede parametrizar mediante un único valor escalar α , llamado parámetro de concentración . En términos de α, la función de densidad tiene la forma

Cuando α =1 [1] , la distribución simétrica de Dirichlet es equivalente a una distribución uniforme sobre el estándar abierto ( K  − 1)-símplex , es decir, es uniforme en todos los puntos de su soporte . Esta distribución particular se conoce como distribución plana de Dirichlet . Los valores del parámetro de concentración superiores a 1 prefieren variables que sean distribuciones densas y uniformemente distribuidas, es decir, todos los valores dentro de una sola muestra son similares entre sí. Los valores del parámetro de concentración inferiores a 1 prefieren distribuciones dispersas, es decir, la mayoría de los valores dentro de una sola muestra estarán cerca de 0 y la gran mayoría de la masa se concentrará en unos pocos de los valores.

De manera más general, el vector de parámetros a veces se escribe como el producto de un parámetro de concentración ( escalar ) α y una medida base ( vectorial ) que se encuentra dentro del ( K  − 1)-simplex (es decir: sus coordenadas suman uno). El parámetro de concentración en este caso es mayor en un factor de K que el parámetro de concentración para una distribución simétrica de Dirichlet descrita anteriormente. Esta construcción se relaciona con el concepto de medida base cuando se analizan los procesos de Dirichlet y se utiliza a menudo en la literatura sobre modelado temático.

^ Si definimos el parámetro de concentración como la suma de los parámetros de Dirichlet para cada dimensión, la distribución de Dirichlet con parámetro de concentración K , la dimensión de la distribución, es la distribución uniforme en el ( K  − 1)-símplex.

Propiedades

Momentos

Dejar .

Dejar

Entonces [4] [5]

Además, si

La matriz es, por tanto, singular .

De manera más general, los momentos de variables aleatorias distribuidas por Dirichlet se pueden expresar de la siguiente manera. Porque , denota por su -ésimo poder de Hadamard . Entonces, [6]

donde la suma es sobre enteros no negativos con y es el polinomio de índice de ciclo del grupo simétrico de grado .

El análogo multivariado para los vectores se puede expresar [7] en términos de un patrón de color de los exponentes en el sentido del teorema de enumeración de Pólya .

Los casos particulares incluyen el cálculo simple [8]

Modo

La moda de la distribución es [9] el vector ( x 1 , ..., x K ) con

Distribuciones marginales

Las distribuciones marginales son distribuciones beta : [10]

Conjugado a categórico o multinomial

La distribución de Dirichlet es la distribución previa conjugada de la distribución categórica (una distribución de probabilidad discreta genérica con un número determinado de resultados posibles) y la distribución multinomial (la distribución sobre los recuentos observados de cada categoría posible en un conjunto de observaciones distribuidas categóricamente). Esto significa que si un punto de datos tiene una distribución categórica o multinomial, y la distribución previa del parámetro de la distribución (el vector de probabilidades que genera el punto de datos) se distribuye como un Dirichlet, entonces la distribución posterior del parámetro también es una Dirichlet. Intuitivamente, en tal caso, a partir de lo que sabemos sobre el parámetro antes de observar el punto de datos, podemos actualizar nuestro conocimiento en función del punto de datos y terminar con una nueva distribución de la misma forma que la anterior. Esto significa que podemos actualizar sucesivamente nuestro conocimiento de un parámetro incorporando nuevas observaciones una a una, sin encontrarnos con dificultades matemáticas.

Formalmente, esto se puede expresar de la siguiente manera. Dado un modelo

entonces se cumple lo siguiente:

Esta relación se utiliza en la estadística bayesiana para estimar el parámetro subyacente p de una distribución categórica dada una colección de N muestras. Intuitivamente, podemos ver el vector hiperprior α como pseudocuentas , es decir, como una representación del número de observaciones en cada categoría que ya hemos visto. Luego simplemente sumamos los recuentos de todas las nuevas observaciones (el vector c ) para derivar la distribución posterior.

En los modelos de mezcla bayesianos y otros modelos bayesianos jerárquicos con componentes de mezcla, las distribuciones de Dirichlet se utilizan comúnmente como distribuciones previas para las variables categóricas que aparecen en los modelos. Consulte la sección sobre aplicaciones a continuación para obtener más información.

Relación con la distribución multinomial de Dirichlet

En un modelo en el que se coloca una distribución previa de Dirichlet sobre un conjunto de observaciones con valores categóricos , la distribución conjunta marginal de las observaciones (es decir, la distribución conjunta de las observaciones, con el parámetro anterior marginado ) es una distribución multinomial de Dirichlet . Esta distribución juega un papel importante en los modelos bayesianos jerárquicos , porque al hacer inferencias sobre dichos modelos utilizando métodos como el muestreo de Gibbs o el Bayes variacional , las distribuciones previas de Dirichlet a menudo quedan marginadas. Consulte el artículo sobre esta distribución para obtener más detalles.

entropía

Si X es una variable aleatoria, la entropía diferencial de X (en unidades nat ) es [11]

¿Dónde está la función digamma ?

La siguiente fórmula se puede utilizar para derivar la entropía diferencial anterior. Dado que las funciones son estadísticas suficientes de la distribución de Dirichlet, las identidades diferenciales de la familia exponencial se pueden usar para obtener una expresión analítica para la expectativa de (ver ecuación (2.62) en [12] ) y su matriz de covarianza asociada:

y

donde es la función digamma , es la función trigamma y es el delta de Kronecker .

El espectro de información de Rényi para valores distintos de viene dado por [13]

y la entropía de la información es el límite hasta 1.

Otra medida interesante relacionada es la entropía de un vector categórico discreto (uno de K binario) con distribución de probabilidad-masa , es decir ,. La entropía de información condicional de , dada es

Esta función de es una variable aleatoria escalar. Si tiene una distribución de Dirichlet simétrica con all , el valor esperado de la entropía (en unidades nat ) es [14]

Agregación

Si

entonces, si las variables aleatorias con subíndices i y j se eliminan del vector y se reemplazan por su suma,

Esta propiedad de agregación se puede utilizar para derivar la distribución marginal mencionada anteriormente.

Neutralidad

Si , entonces se dice que el vector  X es neutro [15] en el sentido de que X K es independiente de [3] donde

y de manera similar para eliminar cualquiera de . Observe que cualquier permutación de X también es neutral (una propiedad que no poseen las muestras extraídas de una distribución de Dirichlet generalizada ). [dieciséis]

Combinando esto con la propiedad de agregación se deduce que X j + ... + X K es independiente de . De hecho, es cierto, además, para la distribución de Dirichlet, que para , el par y los dos vectores y , vistos como triples de vectores aleatorios normalizados, son mutuamente independientes . El resultado análogo es válido para la partición de los índices {1,2,..., K } en cualquier otro par de subconjuntos no singleton.

Función característica

La función característica de la distribución de Dirichlet es una forma confluente de la serie hipergeométrica de Lauricella . Phillips lo da como [17]

dónde

La suma se realiza sobre números enteros no negativos y . Phillips continúa afirmando que esta forma es "inconveniente para el cálculo numérico" y ofrece una alternativa en términos de una integral de trayectoria compleja :

donde L denota cualquier camino en el plano complejo que se origina en , rodea en dirección positiva todas las singularidades del integrando y regresa a .

Desigualdad

La función de densidad de probabilidad juega un papel clave en una desigualdad multifuncional que implica varios límites para la distribución de Dirichlet. [18]

Distribuciones relacionadas

Para K distribuciones Gamma distribuidas independientemente :

tenemos: [19] : 402 

Aunque los X i s no son independientes entre sí, se puede ver que se generan a partir de un conjunto de K variables aleatorias gamma independientes . [19] : 594  Desafortunadamente, dado que la suma V se pierde al formar X (de hecho, se puede demostrar que V es estocásticamente independiente de X ), no es posible recuperar las variables aleatorias gamma originales solo a partir de estos valores. Sin embargo, debido a que es más sencillo trabajar con variables aleatorias independientes, esta reparametrización aún puede ser útil para pruebas sobre propiedades de la distribución de Dirichlet.

Prior conjugado de la distribución de Dirichlet

Debido a que la distribución de Dirichlet es una distribución familiar exponencial , tiene una prioridad conjugada. El prior conjugado es de la forma: [20]

Aquí hay un vector real K -dimensional y es un parámetro escalar. El dominio de está restringido al conjunto de parámetros para los cuales se puede normalizar la función de densidad no normalizada anterior. La condición (necesaria y suficiente) es: [21]

La propiedad de conjugación se puede expresar como

si [ anterior : ] y [ observación : ] entonces [ posterior : ].

En la literatura publicada no existe ningún algoritmo práctico para generar muestras de manera eficiente .

Ocurrencia y aplicaciones

Modelos bayesianos

Las distribuciones de Dirichlet se utilizan con mayor frecuencia como distribución previa de variables categóricas o variables multinomiales en modelos de mezcla bayesianos y otros modelos bayesianos jerárquicos . (En muchos campos, como en el procesamiento del lenguaje natural , las variables categóricas a menudo se denominan de manera imprecisa "variables multinomiales". Es poco probable que tal uso cause confusión, como cuando las distribuciones de Bernoulli y las distribuciones binomiales comúnmente se combinan).

La inferencia sobre modelos bayesianos jerárquicos a menudo se realiza utilizando el muestreo de Gibbs y, en tal caso, las instancias de la distribución de Dirichlet generalmente se marginan del modelo integrando la variable aleatoria de Dirichlet . Esto hace que las diversas variables categóricas extraídas de la misma variable aleatoria de Dirichlet se correlacionen, y la distribución conjunta sobre ellas asume una distribución multinomial de Dirichlet , condicionada a los hiperparámetros de la distribución de Dirichlet (los parámetros de concentración ). Una de las razones para hacer esto es que el muestreo de Gibbs de la distribución multinomial de Dirichlet es extremadamente fácil; consulte ese artículo para obtener más información.


Interpretaciones intuitivas de los parámetros.

El parámetro de concentración

Las distribuciones de Dirichlet se utilizan muy a menudo como distribuciones previas en la inferencia bayesiana . El tipo más simple y quizás más común de Dirichlet prior es la distribución de Dirichlet simétrica, donde todos los parámetros son iguales. Esto corresponde al caso en el que no se tiene información previa para favorecer un componente sobre cualquier otro. Como se describió anteriormente, el valor único α al que se establecen todos los parámetros se denomina parámetro de concentración . Si el espacio muestral de la distribución de Dirichlet se interpreta como una distribución de probabilidad discreta , entonces, intuitivamente, se puede considerar que el parámetro de concentración determina qué tan "concentrada" está la masa de probabilidad de la distribución de Dirichlet en su centro, lo que lleva a muestras con masa dispersa casi por igual. entre todos los componentes, es decir, con un valor muy inferior a 1, la masa estará muy concentrada en unos pocos componentes, y el resto casi no tendrá masa, y con un valor muy superior a 1, la masa estará casi dispersa por igual entre todos los componentes. Consulte el artículo sobre el parámetro de concentración para obtener más información.

corte de hilo

Un ejemplo de uso de la distribución de Dirichlet es si uno quisiera cortar cuerdas (cada una con una longitud inicial de 1,0) en K piezas con diferentes longitudes, donde cada pieza tenía una longitud promedio designada, pero permitiendo cierta variación en los tamaños relativos de las piezas. Recuerde que los valores especifican las longitudes medias de los trozos de cuerda cortados resultantes de la distribución. La varianza alrededor de esta media varía inversamente con .

Ejemplo de distribución de Dirichlet (1/2,1/3,1/6)

La urna de Pólya

Considere una urna que contiene bolas de K colores diferentes. Inicialmente, la urna contiene α 1 bolas de color 1, α 2 bolas de color 2, y así sucesivamente. Ahora realiza N extracciones de la urna, donde después de cada extracción, la bola se vuelve a colocar en la urna con una bola adicional del mismo color. En el límite cuando N se acerca al infinito, las proporciones de bolas de diferentes colores en la urna se distribuirán como Dir( α 1 ,..., α K ). [22]

Para una prueba formal, tenga en cuenta que las proporciones de las bolas de diferentes colores forman una martingala acotada con valor K [0,1] , por lo tanto, según el teorema de convergencia de la martingala , estas proporciones convergen casi con seguridad y en promedio a un vector aleatorio limitante. Para ver que este vector limitante tiene la distribución de Dirichlet anterior, verifique que todos los momentos mixtos concuerden.

Cada extracción de la urna modifica la probabilidad de sacar una bola de cualquier color de la urna en el futuro. Esta modificación disminuye con el número de extracciones, ya que el efecto relativo de agregar una nueva bola a la urna disminuye a medida que la urna acumula un número creciente de bolas.


Generación de variables aleatorias

De la distribución gamma

Con una fuente de variables aleatorias distribuidas por gamma, se puede muestrear fácilmente un vector aleatorio de la distribución de Dirichlet K -dimensional con parámetros . Primero, extraiga K muestras aleatorias independientes de distribuciones Gamma , cada una con densidad

y luego establecer

[Prueba]

La distribución conjunta de las variables gamma muestreadas independientemente, está dada por el producto:

A continuación, se utiliza un cambio de variables, parametrizando en términos de y , y se realiza un cambio de variables de tal manera que . Cada una de las variables y así mismo . Se debe entonces utilizar la fórmula de cambio de variables, en la que se encuentra la transformación jacobiana. Escribiendo y explícitamente como función de x, se obtiene El jacobiano ahora parece

El determinante se puede evaluar observando que permanece sin cambios si se suman múltiplos de una fila a otra fila y sumando cada una de las primeras filas K-1 a la fila inferior para obtener

que se puede expandir alrededor de la fila inferior para obtener el valor determinante . Sustituyendo x en la función de densidad de probabilidad conjunta e incluyendo el determinante jacobiano, se obtiene:

dónde . El lado derecho puede reconocerse como el producto de un pdf de Dirichlet para y un pdf gamma para . La forma del producto muestra que las variables Dirichlet y gamma son independientes, por lo que esta última se puede integrar simplemente omitiéndola, para obtener:

Lo que equivale a

con apoyo

A continuación se muestra un código Python de ejemplo para dibujar la muestra:

params  =  [ a1 ,  a2 ,  ... ,  ak ] muestra  =  [ aleatorio . variable gamma ( a ,  1 )  para  a  en  parámetros ] muestra  =  [ v  /  suma ( muestra )  para  v  en  muestra ]

Esta formulación es correcta independientemente de cómo se parametricen las distribuciones Gamma (forma/escala versus forma/velocidad) porque son equivalentes cuando la escala y la velocidad son iguales a 1,0.

De distribuciones beta marginales

Un algoritmo menos eficiente [23] se basa en que las distribuciones marginales y condicionales univariadas sean beta y procede de la siguiente manera. Simular desde

Luego simule en orden, de la siguiente manera. Para , simular desde

y deja

Finalmente, establezca

Este procedimiento iterativo se corresponde estrechamente con la intuición de "cortar hilos" descrita anteriormente.

A continuación se muestra un código Python de ejemplo para dibujar la muestra:

params  =  [ a1 ,  a2 ,  ... ,  ak ] xs  =  [ aleatorio . betavariante ( params [ 0 ],  suma ( params [ 1 :]))] para  j  en el  rango ( 1 ,  len ( params )  -  1 ):  phi  =  aleatorio . betavariante ( params [ j ],  suma ( params [ j  +  1  :]))  xs . agregar (( 1  -  suma ( xs ))  *  phi ) xs . agregar ( 1  -  suma ( xs ))

Cuando cada alfa es 1

Cuando α 1 = ... = α K = 1 , se puede encontrar una muestra de la distribución extrayendo aleatoriamente un conjunto de valores K − 1 de forma independiente y uniforme del intervalo [0, 1] , sumando los valores 0 y 1 a el conjunto para que tenga valores K + 1 , ordenar el conjunto y calcular la diferencia entre cada par de valores de orden adyacente, para obtener x 1 , ..., x K .

Cuando cada alfa es 1/2 y relación con la hiperesfera

Cuando α 1 = ... = α K = 1/2 , se puede encontrar una muestra de la distribución extrayendo aleatoriamente valores de K independientemente de la distribución normal estándar, elevando al cuadrado estos valores y normalizándolos dividiéndolos por su suma, para dar x 1 , ..., x K .

Un punto ( x 1 , ..., x K ) se puede extraer uniformemente al azar de la hiperesfera de dimensiones ( K −1 ) (que es la superficie de una hiperbola de dimensiones K ) mediante un procedimiento similar. Dibuje aleatoriamente valores de K independientemente de la distribución normal estándar y normalice estos valores de coordenadas dividiendo cada uno por la constante que es la raíz cuadrada de la suma de sus cuadrados.

Ver también

Referencias

  1. ^ S. Kotz; N. Balakrishnan; NL Johnson (2000). Distribuciones multivariadas continuas. Volumen 1: Modelos y aplicaciones . Nueva York: Wiley. ISBN 978-0-471-18387-7.(Capítulo 49: Distribuciones de Dirichlet y Dirichlet invertida)
  2. ^ Olkin, Ingram; Rubin, Herman (1964). "Distribuciones Beta multivariadas y propiedades de independencia de la distribución Wishart". Los anales de la estadística matemática . 35 (1): 261–269. doi : 10.1214/aoms/1177703748 . JSTOR  2238036.
  3. ^ ab Bela A. Frigyik; Amol Kapila; Maya R. Gupta (2010). "Introducción a la Distribución Dirichlet y Procesos Relacionados" (PDF) . Departamento de Ingeniería Eléctrica de la Universidad de Washington. Archivado desde el original (Informe técnico UWEETR-2010-006) el 19 de febrero de 2015.
  4. ^ Ec. (49.9) en la página 488 de Kotz, Balakrishnan & Johnson (2000). Distribuciones multivariadas continuas. Volumen 1: Modelos y Aplicaciones. Nueva York: Wiley.
  5. ^ Balakrish V. B. (2005). ""Capítulo 27. Distribución de Dirichlet"". Introducción a las distribuciones estadísticas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. p. 274.ISBN 978-0-471-42798-8.
  6. ^ Dello Schiavo, Lorenzo (2019). "Funcionales característicos de las medidas de Dirichlet". Electrón. J. Probab . 24 : 1–38. doi : 10.1214/19-EJP371 – vía Proyecto Euclid.
  7. ^ Dello Schiavo, Lorenzo; Quattrocchi, Filippo (2023). "Momentos de Dirichlet multivariados y una fórmula de muestreo policromática de Ewens". arXiv : 2309.11292 [matemáticas.PR].
  8. ^ Hoffmann, hasta. "Momentos del reparto de Dirichlet". Archivado desde el original el 14 de febrero de 2016 . Consultado el 14 de febrero de 2016 .
  9. ^ Christopher M. Bishop (17 de agosto de 2006). Reconocimiento de patrones y aprendizaje automático. Saltador. ISBN 978-0-387-31073-2.
  10. ^ Farrow, Malcolm. "Estadísticas bayesianas MAS3301" (PDF) . Universidad de Newcastle . Consultado el 10 de abril de 2013 .
  11. ^ Lin, Jiayu (2016). Sobre la distribución de Dirichlet (PDF) . Kingston, Canadá: Queen's University. págs. § 2.4.9.
  12. ^ Nguyen, Duy. "UNA INTRODUCCIÓN EN PROFUNDIDAD A LA NOTA VARIACIONAL DE BAYES". SSRN  4541076 . Consultado el 15 de agosto de 2023 .
  13. ^ Canción, Kai-Sheng (2001). "Información de Rényi, probabilidad logarítmica y una medida de distribución intrínseca". Revista de planificación e inferencia estadística . 93 (325). Elsevier: 51–69. doi :10.1016/S0378-3758(00)00169-5.
  14. ^ Nemenman, Ilya; Shafee, Fariel; Bialek, William (2002). Entropía e inferencia, revisada (PDF) . NIPS 14., ecuación. 8
  15. ^ Connor, Robert J.; Mosimann, James E (1969). "Conceptos de independencia de proporciones con una generalización de la distribución de Dirichlet". Revista de la Asociación Estadounidense de Estadística . 64 (325). Asociación Estadounidense de Estadística: 194–206. doi :10.2307/2283728. JSTOR  2283728.
  16. ^ Véase Kotz, Balakrishnan & Johnson (2000), sección 8.5, "Generalización de Connor y Mosimann", págs.
  17. ^ Phillips, PCB (1988). "La función característica de la distribución F de Dirichlet y multivariada" (PDF) . Documento de debate de la Fundación Cowles 865 .
  18. ^ Grinshpan, AZ (2017). "Una desigualdad para múltiples convoluciones con respecto a la medida de probabilidad de Dirichlet". Avances en Matemática Aplicada . 82 (1): 102-119. doi : 10.1016/j.aam.2016.08.001 .
  19. ^ ab Devroye, Luc (1986). Generación de variables aleatorias no uniformes. Springer-Verlag. ISBN 0-387-96305-7.
  20. ^ Lefkimmiatis, Stamatios; Maragós, Petros; Papandreou, George (2009). "Inferencia bayesiana en modelos multiescala para la estimación de la intensidad de Poisson: aplicaciones a la eliminación de ruido de imágenes limitada por fotones". Transacciones IEEE sobre procesamiento de imágenes . 18 (8): 1724-1741. Código Bib : 2009ITIP...18.1724L. doi :10.1109/TIP.2009.2022008. PMID  19414285. S2CID  859561.
  21. ^ Andreoli, Jean-Marc (2018). "Un conjugado previo a la distribución de Dirichlet". arXiv : 1811.05266 [cs.LG].
  22. ^ Blackwell, David; MacQueen, James B. (1973). "Distribuciones de Ferguson a través de esquemas de urnas Polya". Ana. Estadística . 1 (2): 353–355. doi : 10.1214/aos/1176342372 .
  23. ^ A. Gelman; JB Carlín; HS Popa; DB Rubin (2003). Análisis de datos bayesianos (2ª ed.). Chapman y Hall/CRC. págs.582. ISBN 1-58488-388-X.

enlaces externos