El soporte de la distribución de Dirichlet es el conjunto de vectores K -dimensionales cuyas entradas son números reales en el intervalo [0,1] tales que , es decir, la suma de las coordenadas es igual a 1. Estos pueden verse como las probabilidades de un evento categórico de K -vías . Otra forma de expresar esto es que el dominio de la distribución de Dirichlet es en sí mismo un conjunto de distribuciones de probabilidad , específicamente el conjunto de distribuciones discretas K -dimensionales . El término técnico para el conjunto de puntos en el soporte de una distribución de Dirichlet K -dimensional es el estándar abierto ( K − 1)-símplex , [3] que es una generalización de un triángulo , incrustado en la siguiente dimensión superior. Por ejemplo, con K = 3, el soporte es un triángulo equilátero incrustado en forma de ángulo hacia abajo en el espacio tridimensional, con vértices en (1,0,0), (0,1,0) y (0,0,1), es decir, tocando cada uno de los ejes de coordenadas en un punto a 1 unidad del origen.
Casos especiales
Un caso especial común es la distribución de Dirichlet simétrica , donde todos los elementos que componen el vector de parámetros tienen el mismo valor. El caso simétrico puede ser útil, por ejemplo, cuando se requiere una distribución previa de Dirichlet sobre los componentes, pero no hay conocimiento previo que favorezca a un componente sobre otro. Dado que todos los elementos del vector de parámetros tienen el mismo valor, la distribución de Dirichlet simétrica se puede parametrizar mediante un único valor escalar α , llamado parámetro de concentración . En términos de α, la función de densidad tiene la forma
Cuando α = 1 [1] , la distribución de Dirichlet simétrica es equivalente a una distribución uniforme sobre el estándar abierto ( K − 1)-símplex , es decir, es uniforme sobre todos los puntos en su soporte . Esta distribución particular se conoce como distribución de Dirichlet plana . Los valores del parámetro de concentración superiores a 1 prefieren distribuciones densas y uniformemente distribuidas, es decir, todos los valores dentro de una sola muestra son similares entre sí. Los valores del parámetro de concentración inferiores a 1 prefieren distribuciones dispersas, es decir, la mayoría de los valores dentro de una sola muestra estarán cerca de 0 y la gran mayoría de la masa se concentrará en unos pocos valores.
En términos más generales, el vector de parámetros se escribe a veces como el producto de un parámetro de concentración ( escalar ) α y una medida base ( vectorial ) donde se encuentra dentro del ( K − 1)-símplex (es decir: sus coordenadas suman uno). El parámetro de concentración en este caso es mayor por un factor de K que el parámetro de concentración para una distribución de Dirichlet simétrica descrita anteriormente. Esta construcción se relaciona con el concepto de una medida base cuando se analizan los procesos de Dirichlet y se utiliza a menudo en la literatura sobre modelado de temas.
^ Si definimos el parámetro de concentración como la suma de los parámetros de Dirichlet para cada dimensión, la distribución de Dirichlet con parámetro de concentración K , la dimensión de la distribución, es la distribución uniforme en el ( K − 1)-símplex.
De manera más general, los momentos de las variables aleatorias distribuidas según Dirichlet se pueden expresar de la siguiente manera. Para , denotamos por su -ésima potencia de Hadamard . Entonces, [6]
El análogo multivariado para vectores se puede expresar [7] en términos de un patrón de color de los exponentes en el sentido del teorema de enumeración de Pólya .
Los casos particulares incluyen el cálculo simple [8]
Modo
La moda de la distribución es [9] el vector ( x 1 , ..., x K ) con
La distribución de Dirichlet es la distribución previa conjugada de la distribución categórica (una distribución de probabilidad discreta genérica con un número dado de resultados posibles) y la distribución multinomial (la distribución sobre los recuentos observados de cada categoría posible en un conjunto de observaciones distribuidas categóricamente). Esto significa que si un punto de datos tiene una distribución categórica o multinomial, y la distribución previa del parámetro de la distribución (el vector de probabilidades que genera el punto de datos) se distribuye como una distribución de Dirichlet, entonces la distribución posterior del parámetro también es una distribución de Dirichlet. Intuitivamente, en tal caso, a partir de lo que sabemos sobre el parámetro antes de observar el punto de datos, podemos actualizar nuestro conocimiento en función del punto de datos y terminar con una nueva distribución de la misma forma que la anterior. Esto significa que podemos actualizar sucesivamente nuestro conocimiento de un parámetro incorporando nuevas observaciones una a la vez, sin encontrarnos con dificultades matemáticas.
Formalmente, esto se puede expresar de la siguiente manera: Dado un modelo
Entonces se cumple lo siguiente:
Esta relación se utiliza en las estadísticas bayesianas para estimar el parámetro subyacente p de una distribución categórica dada una colección de N muestras. Intuitivamente, podemos ver el vector hiperprior α como pseudocounts , es decir, como la representación del número de observaciones en cada categoría que ya hemos visto. Luego, simplemente agregamos los recuentos de todas las nuevas observaciones (el vector c ) para derivar la distribución posterior.
La siguiente fórmula para se puede utilizar para derivar la entropía diferencial anterior. Dado que las funciones son las estadísticas suficientes de la distribución de Dirichlet, las identidades diferenciales de la familia exponencial se pueden utilizar para obtener una expresión analítica para la esperanza de (véase la ecuación (2.62) en [12] ) y su matriz de covarianza asociada:
El espectro de información de Rényi para valores distintos de está dado por [13]
y la entropía de la información es el límite que tiende a 1.
Otra medida interesante relacionada es la entropía de un vector categórico discreto (binario de uno de K) con distribución de probabilidad-masa , es decir, . La entropía de información condicional de , dada es
Esta función de es una variable aleatoria escalar. Si tiene una distribución de Dirichlet simétrica con todos los , el valor esperado de la entropía (en unidades naturales ) es [14]
Agregación
Si
entonces, si las variables aleatorias con subíndices i y j se eliminan del vector y se reemplazan por su suma,
Esta propiedad de agregación se puede utilizar para derivar la distribución marginal mencionada anteriormente.
Neutralidad
Si , entonces se dice que el vector X es neutro [15] en el sentido de que X K es independiente de [3] donde
y de manera similar para eliminar cualquiera de . Observe que cualquier permutación de X también es neutral (una propiedad que no poseen las muestras extraídas de una distribución de Dirichlet generalizada ). [16]
Combinando esto con la propiedad de agregación se deduce que X j + ... + X K es independiente de . De hecho, es cierto, además, para la distribución de Dirichlet, que para , el par , y los dos vectores y , vistos como triples de vectores aleatorios normalizados, son mutuamente independientes . El resultado análogo es cierto para la partición de los índices {1,2,..., K } en cualquier otro par de subconjuntos no singleton.
La suma se realiza sobre números enteros no negativos y . Phillips continúa afirmando que esta forma es "inconveniente para el cálculo numérico" y ofrece una alternativa en términos de una integral de trayectoria compleja :
donde L denota cualquier camino en el plano complejo que se origina en , rodea en dirección positiva todas las singularidades del integrando y regresa a .
Desigualdad
La función de densidad de probabilidad juega un papel clave en una desigualdad multifuncional que implica varios límites para la distribución de Dirichlet. [18]
Aunque las X i no son independientes entre sí, se puede ver que se generan a partir de un conjunto de K variables aleatorias gamma independientes . [19] : 594 Desafortunadamente, dado que la suma V se pierde al formar X (de hecho, se puede demostrar que V es estocásticamente independiente de X ), no es posible recuperar las variables aleatorias gamma originales a partir de estos valores solos. Sin embargo, debido a que es más simple trabajar con variables aleatorias independientes, esta reparametrización aún puede ser útil para pruebas sobre propiedades de la distribución de Dirichlet.
Prior conjugado de la distribución de Dirichlet
Debido a que la distribución de Dirichlet es una distribución familiar exponencial, tiene una distribución conjugada a priori. La distribución conjugada a priori tiene la forma: [20]
Aquí hay un vector real de dimensión K y es un parámetro escalar. El dominio de está restringido al conjunto de parámetros para los cuales se puede normalizar la función de densidad no normalizada anterior. La condición (necesaria y suficiente) es: [21]
La propiedad de conjugación se puede expresar como
si [ prior : ] y [ observación : ] entonces [ posterior : ].
En la literatura publicada no existe un algoritmo práctico para generar eficientemente muestras de .
La inferencia sobre modelos bayesianos jerárquicos se realiza a menudo utilizando el muestreo de Gibbs y, en tal caso, las instancias de la distribución de Dirichlet suelen marginarse del modelo mediante la integración de la variable aleatoria de Dirichlet . Esto hace que las diversas variables categóricas extraídas de la misma variable aleatoria de Dirichlet se correlacionen y la distribución conjunta sobre ellas asuma una distribución multinomial de Dirichlet , condicionada a los hiperparámetros de la distribución de Dirichlet (los parámetros de concentración ). Una de las razones para hacer esto es que el muestreo de Gibbs de la distribución multinomial de Dirichlet es extremadamente fácil; consulte ese artículo para obtener más información.
Interpretaciones intuitivas de los parámetros
El parámetro de concentración
Las distribuciones de Dirichlet se utilizan muy a menudo como distribuciones previas en la inferencia bayesiana . El tipo más simple y quizás el más común de distribución previa de Dirichlet es la distribución de Dirichlet simétrica, donde todos los parámetros son iguales. Esto corresponde al caso en el que no se tiene información previa para favorecer un componente sobre cualquier otro. Como se describió anteriormente, el valor único α al que se fijan todos los parámetros se denomina parámetro de concentración . Si el espacio muestral de la distribución de Dirichlet se interpreta como una distribución de probabilidad discreta , entonces intuitivamente se puede pensar que el parámetro de concentración determina cuán "concentrada" está la masa de probabilidad de la distribución de Dirichlet en su centro, lo que lleva a muestras con masa dispersa casi por igual entre todos los componentes, es decir, con un valor mucho menor que 1, la masa estará altamente concentrada en unos pocos componentes, y todos los demás casi no tendrán masa, y con un valor mucho mayor que 1, la masa se dispersará casi por igual entre todos los componentes. Consulte el artículo sobre el parámetro de concentración para obtener más información.
Corte de cuerdas
Un ejemplo de uso de la distribución de Dirichlet es si uno quisiera cortar cuerdas (cada una de longitud inicial 1.0) en K trozos con diferentes longitudes, donde cada trozo tuviera una longitud promedio designada, pero permitiendo cierta variación en los tamaños relativos de los trozos. Recuerde que Los valores especifican las longitudes medias de los trozos cortados de cuerda resultantes de la distribución. La varianza alrededor de esta media varía inversamente con .
Consideremos una urna que contiene bolas de K colores diferentes. Inicialmente, la urna contiene α 1 bolas del color 1, α 2 bolas del color 2, y así sucesivamente. Ahora realice N extracciones de la urna, donde después de cada extracción, la bola se coloca nuevamente en la urna con una bola adicional del mismo color. En el límite, cuando N se acerca al infinito, las proporciones de bolas de diferentes colores en la urna se distribuirán como Dir( α 1 ,..., α K ). [22]
Para una prueba formal, observe que las proporciones de las bolas de diferentes colores forman una martingala acotada con valor K [0,1] , por lo tanto, por el teorema de convergencia de la martingala , estas proporciones convergen casi con seguridad y en promedio a un vector aleatorio límite. Para ver que este vector límite tiene la distribución de Dirichlet anterior, verifique que todos los momentos mixtos concuerden.
Cada extracción de la urna modifica la probabilidad de extraer una bola de cualquier color de la urna en el futuro. Esta modificación disminuye con el número de extracciones, ya que el efecto relativo de añadir una nueva bola a la urna disminuye a medida que la urna acumula un número creciente de bolas.
Generación de variables aleatorias
De la distribución gamma
Con una fuente de variables aleatorias distribuidas en Gamma, se puede muestrear fácilmente un vector aleatorio de la distribución de Dirichlet K -dimensional con parámetros . Primero, extraiga K muestras aleatorias independientes de distribuciones Gamma, cada una con densidad
y luego establecer
[Prueba]
La distribución conjunta de las variables gamma muestreadas independientemente, , viene dada por el producto:
A continuación, se utiliza un cambio de variables, parametrizando en términos de y , y se realiza un cambio de variables de tal que . Cada una de las variables y asimismo . A continuación, se debe utilizar la fórmula de cambio de variables, en la que es la transformación jacobiana. Al escribir y explícitamente como una función de x, se obtiene
La jacobiana ahora se ve así
El determinante se puede evaluar observando que permanece inalterado si se suman múltiplos de una fila a otra fila, y agregando cada una de las primeras K-1 filas a la fila inferior para obtener
que se puede desarrollar sobre la fila inferior para obtener el valor del determinante . Sustituyendo x en la función de densidad de probabilidad conjunta e incluyendo el determinante jacobiano, se obtiene:
donde . El lado derecho puede reconocerse como el producto de una función de densidad de probabilidad de Dirichlet para y una función de densidad de probabilidad gamma para . La forma del producto muestra que las variables de Dirichlet y gamma son independientes, por lo que la última puede integrarse simplemente omitiendola, para obtener:
Lo cual es equivalente a
con apoyo
A continuación se muestra un ejemplo de código Python para dibujar la muestra:
params = [ a1 , a2 , ... , ak ] muestra = [ random . gammavariate ( a , 1 ) para a en params ] muestra = [ v / suma ( muestra ) para v en muestra ]
Esta formulación es correcta independientemente de cómo se parametricen las distribuciones Gamma (forma/escala vs. forma/tasa) porque son equivalentes cuando la escala y la tasa son iguales a 1,0.
De distribuciones beta marginales
Un algoritmo menos eficiente [23] se basa en que las distribuciones marginales y condicionales univariadas son beta y procede de la siguiente manera. Simular a partir de
Luego simula en orden, de la siguiente manera. Para , simula desde
y dejar
Por último, establezca
Este procedimiento iterativo corresponde estrechamente a la intuición de "corte de cuerdas" descrita anteriormente.
A continuación se muestra un ejemplo de código Python para dibujar la muestra:
Cuando α 1 = ... = α K = 1 , se puede encontrar una muestra de la distribución extrayendo aleatoriamente un conjunto de K − 1 valores de forma independiente y uniforme del intervalo [0, 1] , agregando los valores 0 y 1 al conjunto para que tenga K + 1 valores, ordenando el conjunto y calculando la diferencia entre cada par de valores adyacentes en orden, para obtener x 1 , ..., x K .
Cuando cada alfa es 1/2 y relación con la hiperesfera
Cuando α 1 = ... = α K = 1/2 , se puede encontrar una muestra de la distribución extrayendo aleatoriamente valores K independientemente de la distribución normal estándar, elevando al cuadrado estos valores y normalizándolos dividiéndolos por su suma, para obtener x 1 , ..., x K .
Se puede extraer un punto ( x 1 , ..., x K ) de manera uniforme y aleatoria de la hiperesfera ( K −1 )-dimensional (que es la superficie de una hiperesfera K -dimensional ) mediante un procedimiento similar. Extraiga aleatoriamente valores K independientemente de la distribución normal estándar y normalice estos valores de coordenadas dividiendo cada uno por la constante que es la raíz cuadrada de la suma de sus cuadrados.
^ S. Kotz; N. Balakrishnan; NL Johnson (2000). Distribuciones multivariadas continuas. Volumen 1: Modelos y aplicaciones . Nueva York: Wiley. ISBN 978-0-471-18387-7.(Capítulo 49: Distribuciones de Dirichlet y Dirichlet invertida)
^ Olkin, Ingram; Rubin, Herman (1964). "Distribuciones beta multivariadas y propiedades de independencia de la distribución Wishart". Anales de estadística matemática . 35 (1): 261–269. doi : 10.1214/aoms/1177703748 . JSTOR 2238036.
^ ab Bela A. Frigyik; Amol Kapila; Maya R. Gupta (2010). "Introducción a la distribución de Dirichlet y procesos relacionados" (PDF) . Departamento de Ingeniería Eléctrica de la Universidad de Washington. Archivado desde el original (Informe técnico UWEETR-2010-006) el 19 de febrero de 2015.
^ Ec. (49.9) en la página 488 de Kotz, Balakrishnan y Johnson (2000). Distribuciones multivariadas continuas. Volumen 1: Modelos y aplicaciones. Nueva York: Wiley.
^ Balakrish V. B. (2005). ""Capítulo 27. Distribución de Dirichlet"". Una introducción a las distribuciones estadísticas . Hoboken, NJ: John Wiley & Sons, Inc. p. 274. ISBN978-0-471-42798-8.
^ Dello Schiavo, Lorenzo (2019). "Funcionales característicos de las medidas de Dirichlet". Electron. J. Probab . 24 : 1–38. arXiv : 1810.09790 . doi : 10.1214/19-EJP371 – vía Project Euclid.
^ Dello Schiavo, Lorenzo; Quattrocchi, Filippo (2023). "Momentos de Dirichlet multivariados y una fórmula de muestreo policromática de Ewens". arXiv : 2309.11292 [matemáticas.PR].
^ Hoffmann, Till. «Momentos de la distribución de Dirichlet». Archivado desde el original el 14 de febrero de 2016. Consultado el 14 de febrero de 2016 .
^ Christopher M. Bishop (17 de agosto de 2006). Reconocimiento de patrones y aprendizaje automático. Springer. ISBN978-0-387-31073-2.
^ Farrow, Malcolm. "MAS3301 Bayesian Statistics" (PDF) . Universidad de Newcastle . Consultado el 10 de abril de 2013 .
^ Lin, Jiayu (2016). Sobre la distribución de Dirichlet (PDF) . Kingston, Canadá: Queen's University. pp. § 2.4.9.
^ Nguyen, Duy. "UNA INTRODUCCIÓN EN PROFUNDIDAD A LA NOTA VARIACIONAL DE BAYES". SSRN 4541076 . Consultado el 15 de agosto de 2023 .
^ Song, Kai-Sheng (2001). "Información de Rényi, log-verosimilitud y una medida de distribución intrínseca". Revista de planificación e inferencia estadística . 93 (325). Elsevier: 51–69. doi :10.1016/S0378-3758(00)00169-5.
^ Nemenman, Ilya; Shafee, Fariel; Bialek, William (2002). Entropía e inferencia, revisitada (PDF) . NIPS 14., ecuación 8
^ Connor, Robert J.; Mosimann, James E (1969). "Conceptos de independencia para proporciones con una generalización de la distribución de Dirichlet". Revista de la Asociación Estadounidense de Estadística . 64 (325). Asociación Estadounidense de Estadística: 194–206. doi :10.2307/2283728. JSTOR 2283728.
^ Véase Kotz, Balakrishnan y Johnson (2000), Sección 8.5, "Generalización de Connor y Mosimann", págs. 519-521.
^ Phillips, PCB (1988). "La función característica de la distribución F de Dirichlet y multivariada" (PDF) . Documento de debate de la Fundación Cowles n.º 865 .
^ Grinshpan, AZ (2017). "Una desigualdad para convoluciones múltiples con respecto a la medida de probabilidad de Dirichlet". Avances en Matemáticas Aplicadas . 82 (1): 102–119. doi : 10.1016/j.aam.2016.08.001 .
^ de Devroye, Luc (1986). Generación de variables aleatorias no uniformes. Springer-Verlag. ISBN0-387-96305-7.
^ Lefkimmiatis, Stamatios; Maragos, Petros; Papandreou, George (2009). "Inferencia bayesiana en modelos multiescala para estimación de intensidad de Poisson: aplicaciones a la eliminación de ruido de imágenes limitada por fotones". IEEE Transactions on Image Processing . 18 (8): 1724–1741. Bibcode :2009ITIP...18.1724L. doi :10.1109/TIP.2009.2022008. PMID 19414285. S2CID 859561.
^ Andreoli, Jean-Marc (2018). "Una distribución previa conjugada para la distribución de Dirichlet". arXiv : 1811.05266 [cs.LG].
^ Blackwell, David; MacQueen, James B. (1973). "Distribuciones de Ferguson a través de esquemas de urnas de Polya". Ann. Stat . 1 (2): 353–355. doi : 10.1214/aos/1176342372 .
^ A. Gelman; JB Carlin; HS Stern; DB Rubin (2003). Análisis de datos bayesianos (2.ª ed.). Chapman & Hall/CRC. págs. 582. ISBN1-58488-388-X.
Cómo estimar los parámetros de la distribución compuesta de Dirichlet (distribución de Pólya) utilizando la expectativa-maximización (EM)
Luc Devroye. "Generación de variables aleatorias no uniformes" . Consultado el 19 de octubre de 2019 .
Medidas aleatorias de Dirichlet, método de construcción a través de variables aleatorias de Poisson compuestas y propiedades de intercambiabilidad de la distribución gamma resultante
SciencesPo: Paquete R que contiene funciones para simular parámetros de la distribución de Dirichlet.