stringtranslate.com

Distribución multinomial de Dirichlet

En teoría de probabilidad y estadística , la distribución multinomial de Dirichlet es una familia de distribuciones de probabilidad multivariadas discretas sobre un soporte finito de números enteros no negativos. También se denomina distribución multinomial compuesta de Dirichlet ( DCM ) o distribución multivariada de Pólya (en honor a George Pólya ). Es una distribución de probabilidad compuesta , donde un vector de probabilidad p se extrae de una distribución de Dirichlet con vector de parámetros , y una observación se extrae de una distribución multinomial con vector de probabilidad p y número de ensayos n . El vector de parámetros de Dirichlet captura la creencia previa sobre la situación y puede verse como un pseudoconteo: observaciones de cada resultado que ocurren antes de que se recopilen los datos reales. La composición corresponde a un esquema de urna de Pólya . Se encuentra con frecuencia en estadística bayesiana , aprendizaje automático , métodos empíricos de Bayes y estadística clásica como una distribución multinomial sobredispersa .

Se reduce a la distribución categórica como un caso especial cuando n  = 1. También se aproxima a la distribución multinomial arbitrariamente bien para α grande . La distribución multinomial de Dirichlet es una extensión multivariada de la distribución beta-binomial , ya que las distribuciones multinomial y de Dirichlet son versiones multivariadas de la distribución binomial y las distribuciones beta , respectivamente.

Especificación

Multinomio de Dirichlet como distribución compuesta

La distribución de Dirichlet es una distribución conjugada de la distribución multinomial. Este hecho conduce a una distribución compuesta analíticamente manejable . Para un vector aleatorio de recuentos de categorías , distribuido de acuerdo con una distribución multinomial , la distribución marginal se obtiene integrando sobre la distribución para p , que puede considerarse como un vector aleatorio que sigue una distribución de Dirichlet:

lo que da como resultado la siguiente fórmula explícita:

donde se define como la suma . Otra forma de esta misma distribución compuesta, escrita de manera más compacta en términos de la función beta , B , es la siguiente:

La última forma enfatiza el hecho de que las categorías de conteo cero pueden ignorarse en el cálculo, un hecho útil cuando el número de categorías es muy grande y escaso (por ejemplo, el conteo de palabras en los documentos).

Obsérvese que la función de densidad de probabilidad es la distribución beta-binomial cuando . También se puede demostrar que se aproxima a la distribución multinomial a medida que se acerca al infinito. El parámetro regula el grado de sobredispersión o ráfaga de actividad en relación con la multinomial. Las opciones alternativas para denotar encontradas en la literatura son S y A.

Multinomio de Dirichlet como modelo de urna

La distribución multinomial de Dirichlet también puede motivarse a través de un modelo de urna para valores enteros positivos del vector , conocido como el modelo de urna de Polya . Específicamente, imagine una urna que contiene bolas de colores numerados para el i-ésimo color, donde se realizan extracciones aleatorias. Cuando se extrae una bola al azar y se observa, se devuelven dos bolas del mismo color a la urna. Si esto se realiza veces, entonces la probabilidad de observar el vector aleatorio de recuentos de colores es una distribución multinomial de Dirichlet con parámetros y . Si las extracciones aleatorias son con reemplazo simple (no se agregan bolas por encima de la bola observada a la urna), entonces la distribución sigue una distribución multinomial y si las extracciones aleatorias se realizan sin reemplazo, la distribución sigue una distribución hipergeométrica multivariada .

Propiedades

Momentos

Una vez más, sea y sea , entonces el número esperado de veces que se observó el resultado i en n ensayos es

La matriz de covarianza es la siguiente. Cada entrada diagonal es la varianza de una variable aleatoria distribuida en forma beta-binomial y, por lo tanto, es

Las entradas fuera de la diagonal son las covarianzas :

para i , j distintos.

Todas las covarianzas son negativas porque para n fijo , un aumento en un componente de un vector multinomial de Dirichlet requiere una disminución en otro componente.

Esta es una matriz semidefinida positiva K × K de rango K  − 1.

Las entradas de la matriz de correlación correspondiente son

El tamaño de la muestra desaparece de esta expresión.

Cada uno de los k componentes por separado tiene una distribución beta-binomial.

El soporte de la distribución multinomial de Dirichlet es el conjunto

Su número de elementos es

Notación matricial

En notación matricial,

y

con p T = la transpuesta del vector fila del vector columna p . Dejando

, podemos escribir alternativamente

El parámetro se conoce como correlación "intraclase" o "intragrupo". Es esta correlación positiva la que da lugar a la sobredispersión en relación con la distribución multinomial.

Agregación

Si

entonces, si las variables aleatorias con subíndices i y j se eliminan del vector y se reemplazan por su suma [ cita requerida ] ,

Esta propiedad de agregación se puede utilizar para derivar la distribución marginal de .

Función de verosimilitud

Conceptualmente, estamos haciendo N extracciones independientes de una distribución categórica con K categorías. Representemos las extracciones independientes como variables categóricas aleatorias para . Denotemos la cantidad de veces que se ha visto una categoría particular (para ) entre todas las variables categóricas como , y . Entonces, tenemos dos puntos de vista separados sobre este problema:

  1. Un conjunto de variables categóricas .
  2. Una única variable con valor vectorial , distribuida según una distribución multinomial .

El primer caso es un conjunto de variables aleatorias que especifican cada resultado individual , mientras que el segundo es una variable que especifica el número de resultados de cada una de las K categorías. La distinción es importante, ya que los dos casos tienen distribuciones de probabilidad correspondientemente diferentes.

El parámetro de la distribución categórica es donde es la probabilidad de extraer el valor ; es asimismo el parámetro de la distribución multinomial . En lugar de especificarlo directamente, le damos una distribución previa conjugada , y por lo tanto se extrae de una distribución de Dirichlet con vector de parámetros .

Al integrar , obtenemos una distribución compuesta. Sin embargo, la forma de la distribución es diferente según el punto de vista que adoptemos.

Para un conjunto de resultados individuales

Distribución conjunta

Para las variables categóricas , la distribución conjunta marginal se obtiene integrando :

lo que da como resultado la siguiente fórmula explícita:

¿Dónde está la función gamma , con

Nótese la ausencia del coeficiente multinomial debido a que la fórmula trata sobre la probabilidad de una secuencia de variables categóricas en lugar de una probabilidad sobre los recuentos dentro de cada categoría.

Aunque las variables no aparecen explícitamente en la fórmula anterior, entran a través de los valores. [ aclaración necesaria ]

Distribución condicional

Otra fórmula útil, particularmente en el contexto del muestreo de Gibbs , pregunta cuál es la densidad condicional de una variable dada , condicionada a todas las demás variables (que denotaremos como ). Resulta que tiene una forma extremadamente simple:

donde especifica el número de recuentos de la categoría vistos en todas las variables distintas de .

Puede resultar útil mostrar cómo derivar esta fórmula. En general, las distribuciones condicionales son proporcionales a las distribuciones conjuntas correspondientes , por lo que simplemente comenzamos con la fórmula anterior para la distribución conjunta de todos los valores y luego eliminamos cualquier factor que no dependa del particular en cuestión. Para ello, utilizamos la notación definida anteriormente y

También utilizamos el hecho de que

Entonces:

En general, no es necesario preocuparse por la constante de normalización al momento de derivar las ecuaciones para distribuciones condicionales. La constante de normalización se determinará como parte del algoritmo para el muestreo de la distribución (ver Distribución categórica#Muestreo ). Sin embargo, cuando la distribución condicional se escribe en la forma simple anterior, resulta que la constante de normalización asume una forma simple:

Por eso

Esta fórmula está estrechamente relacionada con el proceso del restaurante chino , que resulta de tomar el límite como .

En una red bayesiana

En una red bayesiana más grande en la que las distribuciones categóricas (o las llamadas "multinomiales") ocurren con distribuciones previas de Dirichlet como parte de una red más grande, todas las distribuciones previas de Dirichlet se pueden colapsar siempre que los únicos nodos que dependen de ellas sean distribuciones categóricas. El colapso ocurre para cada nodo de distribución de Dirichlet por separado de los demás, y ocurre independientemente de cualquier otro nodo que pueda depender de las distribuciones categóricas. También ocurre independientemente de si las distribuciones categóricas dependen de nodos adicionales a las distribuciones previas de Dirichlet (aunque en tal caso, esos otros nodos deben permanecer como factores condicionantes adicionales). Esencialmente, todas las distribuciones categóricas que dependen de un nodo de distribución de Dirichlet dado se conectan en una única distribución conjunta multinomial de Dirichlet definida por la fórmula anterior. La distribución conjunta como se define de esta manera dependerá de los padres de los nodos de la distribución previa de Dirichlet integrados, así como de cualquier padre de los nodos categóricos que no sean los propios nodos de la distribución previa de Dirichlet.

En las siguientes secciones, analizamos distintas configuraciones que se encuentran comúnmente en las redes bayesianas. Repetimos la densidad de probabilidad de arriba y la definimos usando el símbolo :

Priores de Dirichlet múltiples con el mismo hiperprior

Imaginemos que tenemos un modelo jerárquico como el siguiente:

En casos como este, tenemos múltiples priores de Dirichlet, cada uno de los cuales genera una cierta cantidad de observaciones categóricas (posiblemente una cantidad diferente para cada prior). El hecho de que todos dependan del mismo hiperprior, incluso si se trata de una variable aleatoria como la anterior, no hace ninguna diferencia. El efecto de integrar un prior de Dirichlet vincula las variables categóricas asociadas a ese prior, cuya distribución conjunta simplemente hereda cualquier factor condicionante del prior de Dirichlet. El hecho de que múltiples priores puedan compartir un hiperprior no hace ninguna diferencia:

donde es simplemente la colección de variables categóricas que dependen de d anterior .

En consecuencia, la distribución de probabilidad condicional puede escribirse de la siguiente manera:

donde significa específicamente el número de variables entre el conjunto , excluyéndose a sí mismo, que tienen el valor .

Es necesario contar únicamente las variables que tienen el valor k y que están vinculadas entre sí con la variable en cuestión por tener el mismo valor anterior. No queremos contar ninguna otra variable que también tenga el valor k .

Priores de Dirichlet múltiples con el mismo hiperprior, con hijos dependientes

Imaginemos ahora un modelo jerárquico un poco más complicado como el siguiente:

Este modelo es igual al anterior, pero además, cada una de las variables categóricas tiene una variable secundaria que depende de ella. Esto es típico de un modelo mixto .

Nuevamente, en la distribución conjunta, sólo las variables categóricas que dependen del mismo prior están vinculadas en un único multinomial de Dirichlet:

La distribución condicional de las variables categóricas que dependen únicamente de sus padres y ancestros tendría la misma forma que la anterior en el caso más simple. Sin embargo, en el muestreo de Gibbs es necesario determinar la distribución condicional de un nodo dado que depende no sólo de sus padres y ancestros, como por ejemplo, sino de todos los demás parámetros.

La expresión simplificada para la distribución condicional se deriva de la expresión anterior simplemente reescribiendo la expresión para la probabilidad conjunta y eliminando los factores constantes. Por lo tanto, la misma simplificación se aplicaría en una expresión de probabilidad conjunta más grande como la de este modelo, compuesta por densidades multinomiales de Dirichlet más factores para muchas otras variables aleatorias que dependen de los valores de las variables categóricas.

Esto produce lo siguiente:

Aquí aparece directamente la densidad de probabilidad de . Para realizar un muestreo aleatorio sobre , calcularíamos las probabilidades no normalizadas para todas las K posibilidades de utilizando la fórmula anterior, luego las normalizaríamos y procederíamos de manera normal utilizando el algoritmo descrito en el artículo sobre distribución categórica .

En términos correctos, el factor adicional que aparece en la distribución condicional no se deriva de la especificación del modelo, sino directamente de la distribución conjunta. Esta distinción es importante cuando se consideran modelos en los que un nodo dado con un padre con prioridad de Dirichlet tiene múltiples hijos dependientes, en particular cuando esos hijos dependen entre sí (por ejemplo, si comparten un padre que está colapsado). Esto se analiza más adelante.

Priores de Dirichlet múltiples con pertenencia a priori cambiante

Ahora imaginemos que tenemos un modelo jerárquico como el siguiente:

Aquí tenemos una situación complicada en la que tenemos múltiples priores de Dirichlet como antes y un conjunto de variables categóricas dependientes, pero la relación entre los priores y las variables dependientes no es fija, a diferencia de antes. En cambio, la elección de qué prior usar depende de otra variable categórica aleatoria. Esto ocurre, por ejemplo, en los modelos de temas, y de hecho los nombres de las variables anteriores están destinados a corresponderse con los de la asignación de Dirichlet latente . En este caso, el conjunto es un conjunto de palabras, cada una de las cuales se extrae de uno de los temas posibles, donde cada tema es un prior de Dirichlet sobre un vocabulario de palabras posibles, que especifica la frecuencia de diferentes palabras en el tema. Sin embargo, la pertenencia al tema de una palabra dada no es fija; más bien, se determina a partir de un conjunto de variables latentes . Hay una variable latente por palabra, una variable categórica -dimensional que especifica el tema al que pertenece la palabra.

En este caso, todas las variables que dependen de una determinada variable anterior se vinculan entre sí (es decir, se correlacionan ) en un grupo, como antes; específicamente, todas las palabras que pertenecen a un tema determinado están vinculadas. En este caso, sin embargo, la pertenencia al grupo cambia, en el sentido de que las palabras no están fijadas a un tema determinado, sino que el tema depende del valor de una variable latente asociada con la palabra. Sin embargo, la definición de la densidad multinomial de Dirichlet no depende en realidad del número de variables categóricas en un grupo (es decir, el número de palabras en el documento generado a partir de un tema determinado), sino solo de los recuentos de cuántas variables en el grupo tienen un valor determinado (es decir, entre todos los tokens de palabras generados a partir de un tema determinado, cuántos de ellos son una palabra determinada). Por lo tanto, todavía podemos escribir una fórmula explícita para la distribución conjunta:

Aquí utilizamos la notación para denotar el número de tokens de palabras cuyo valor es el símbolo de palabra v y que pertenecen al tema k .

La distribución condicional todavía tiene la misma forma:

Aquí nuevamente, solo se vinculan las variables categóricas de las palabras que pertenecen a un tema dado (aunque este vínculo dependerá de las asignaciones de las variables latentes) y, por lo tanto, los recuentos de palabras deben ser solo sobre las palabras generadas por un tema dado. De ahí el símbolo , que es el recuento de tokens de palabras que tienen el símbolo de palabra v , pero solo entre los generados por el tema k , y excluyendo la palabra misma cuya distribución se está describiendo.

(La razón por la que es necesario excluir la palabra en sí, y por la que incluso tiene sentido, es que en un contexto de muestreo de Gibbs , volvemos a muestrear repetidamente los valores de cada variable aleatoria, después de haber recorrido y muestreado todas las variables anteriores. Por lo tanto, la variable ya tendrá un valor, y necesitamos excluir este valor existente de los diversos recuentos que utilizamos).

Un ejemplo combinado: modelos de temas LDA

Ahora mostramos cómo combinar algunos de los escenarios anteriores para demostrar cómo realizar una muestra de Gibbs de un modelo del mundo real, específicamente un modelo de tema de asignación de Dirichlet latente suavizado (LDA) .

El modelo es el siguiente:

Básicamente, combinamos los tres escenarios anteriores: tenemos variables categóricas que dependen de múltiples priores que comparten un hiperprior; tenemos variables categóricas con hijos dependientes (las identidades temáticas de la variable latente ); y tenemos variables categóricas con membresía cambiante en múltiples priores que comparten un hiperprior. En el modelo LDA estándar, las palabras se observan completamente y, por lo tanto, nunca necesitamos volver a muestrearlas. (Sin embargo, el muestreo de Gibbs también sería posible si solo se observaran algunas o ninguna de las palabras. En tal caso, querríamos inicializar la distribución sobre las palabras de alguna manera razonable, por ejemplo, a partir de la salida de algún proceso que genere oraciones, como un modelo de traducción automática , para que las distribuciones de variables latentes posteriores resultantes tengan algún sentido).

Usando las fórmulas anteriores, podemos escribir directamente las probabilidades condicionales:

Aquí hemos definido los recuentos de forma más explícita para separar claramente los recuentos de palabras y los recuentos de temas:

Al igual que en el escenario anterior con variables categóricas con hijos dependientes, la probabilidad condicional de esos hijos dependientes aparece en la definición de la probabilidad condicional del padre. En este caso, cada variable latente tiene solo una palabra de hijo dependiente, por lo que solo aparece uno de esos términos. (Si hubiera varios hijos dependientes, todos tendrían que aparecer en la probabilidad condicional del padre, independientemente de si hubiera superposición entre diferentes padres y los mismos hijos, es decir, independientemente de si los hijos dependientes de un padre determinado también tienen otros padres. En un caso en el que un hijo tiene varios padres, la probabilidad condicional para ese hijo aparece en la definición de probabilidad condicional de cada uno de sus padres).

La definición anterior especifica únicamente la probabilidad condicional no normalizada de las palabras, mientras que la probabilidad condicional del tema requiere la probabilidad real (es decir, normalizada). Por lo tanto, tenemos que normalizar sumando todos los símbolos de las palabras:

dónde

También vale la pena hacer otro punto en detalle, que concierne al segundo factor mencionado anteriormente en la probabilidad condicional. Recuerde que la distribución condicional en general se deriva de la distribución conjunta, y se simplifica eliminando los términos que no dependen del dominio de la condicional (la parte del lado izquierdo de la barra vertical). Cuando un nodo tiene hijos dependientes, habrá uno o más factores en la distribución conjunta que dependen de . Por lo general , hay un factor para cada nodo dependiente, y tiene la misma función de densidad que la distribución que aparece en la definición matemática. Sin embargo, si un nodo dependiente también tiene otro padre (un co-padre), y ese co-padre se colapsa, entonces el nodo se volverá dependiente de todos los demás nodos que comparten ese co-padre, y en lugar de múltiples términos para cada uno de esos nodos, la distribución conjunta tendrá solo un término conjunto. Tenemos exactamente esa situación aquí. Aunque solo tiene un hijo , ese hijo tiene un co-padre de Dirichlet que hemos colapsado, lo que induce un multinomio de Dirichlet sobre todo el conjunto de nodos .

En este caso, ocurre que esta cuestión no plantea mayores problemas, precisamente por la relación biunívoca entre y . Podemos reescribir la distribución conjunta de la siguiente manera:

donde en el conjunto (es decir, el conjunto de nodos excluyendo ), ninguno de los nodos tiene como padre a . Por lo tanto, se puede eliminar como factor condicionante (línea 2), lo que significa que se puede eliminar todo el factor de la distribución condicional (línea 3).

Un segundo ejemplo: agrupamiento de documentos Naive Bayes

Aquí hay otro modelo, con un conjunto diferente de problemas. Se trata de una implementación de un modelo Naive Bayes no supervisado para la agrupación de documentos. Es decir, nos gustaría clasificar documentos en múltiples categorías (por ejemplo, " spam " o "no spam", o "artículo de revista científica", "artículo de periódico sobre finanzas", "artículo de periódico sobre política", "carta de amor") en función del contenido textual. Sin embargo, no conocemos ya la categoría correcta de ningún documento; en cambio, queremos agruparlos en función de sus similitudes mutuas. (Por ejemplo, un conjunto de artículos científicos tenderá a ser similar entre sí en el uso de palabras, pero muy diferente de un conjunto de cartas de amor). Este es un tipo de aprendizaje no supervisado . (La misma técnica se puede utilizar para realizar un aprendizaje semisupervisado , es decir, cuando conocemos la categoría correcta de una fracción de los documentos y nos gustaría utilizar este conocimiento para ayudar a agrupar los documentos restantes).

El modelo es el siguiente:

En muchos sentidos, este modelo es muy similar al modelo de temas LDA descrito anteriormente, pero supone un tema por documento en lugar de un tema por palabra, y que el documento consta de una mezcla de temas. Esto se puede ver claramente en el modelo anterior, que es idéntico al modelo LDA, excepto que solo hay una variable latente por documento en lugar de una por palabra. Una vez más, suponemos que estamos colapsando todos los priores de Dirichlet.

La probabilidad condicional de una palabra dada es casi idéntica al caso de LDA. Una vez más, todas las palabras generadas por la misma prior de Dirichlet son interdependientes. En este caso, esto significa las palabras de todos los documentos que tienen una etiqueta dada; nuevamente, esto puede variar según las asignaciones de etiquetas, pero lo único que nos importa son los recuentos totales. Por lo tanto:

dónde

Sin embargo, existe una diferencia crítica en la distribución condicional de las variables latentes para las asignaciones de etiquetas, que es que una variable de etiqueta dada tiene múltiples nodos secundarios en lugar de solo uno, en particular, los nodos para todas las palabras en el documento de la etiqueta. Esto se relaciona estrechamente con la discusión anterior sobre el factor que surge de la distribución conjunta. En este caso, la distribución conjunta debe tomarse sobre todas las palabras en todos los documentos que contienen una asignación de etiqueta igual al valor de , y tiene el valor de una distribución multinomial de Dirichlet. Además, no podemos reducir esta distribución conjunta a una distribución condicional sobre una sola palabra. En cambio, podemos reducirla solo a una distribución condicional conjunta más pequeña sobre las palabras en el documento para la etiqueta en cuestión y, por lo tanto, no podemos simplificarla utilizando el truco anterior que produce una suma simple del recuento esperado y el anterior. Aunque de hecho es posible reescribirlo como un producto de tales sumas individuales, el número de factores es muy grande y no es claramente más eficiente que calcular directamente la probabilidad de la distribución multinomial de Dirichlet.

Distribuciones relacionadas

La versión unidimensional de la distribución multinomial de Dirichlet se conoce como distribución Beta-binomial .

La distribución multinomial de Dirichlet tiene una relación con la distribución binomial negativa análoga a la relación de la distribución multinomial con la distribución de Poisson . [2]

Usos

La distribución multinomial de Dirichlet se utiliza en la clasificación y agrupamiento automatizado de documentos , la genética , la economía , el modelado de combate y el marketing cuantitativo.

Véase también

Referencias

Citas

  1. ^ abcd Glüsenkamp, ​​T. (2018). "Tratamiento probabilístico de la incertidumbre a partir del tamaño finito de datos de Monte Carlo ponderados". EPJ Plus . 133 (6): 218. arXiv : 1712.01293 . Código Bibliográfico :2018EPJP..133..218G. doi :10.1140/epjp/i2018-12042-x. S2CID  125665629.
  2. ^ Teorema 1 de Zhou, M. (2018). "Análisis factorial binomial negativo bayesiano no paramétrico". Análisis bayesiano . 13 (4): 1065–1093. arXiv : 1604.07464 . doi : 10.1214/17-BA1070 .

Fuentes