stringtranslate.com

Distribución multinomial de Dirichlet

En teoría de la probabilidad y estadística , la distribución multinomial de Dirichlet es una familia de distribuciones de probabilidad multivariadas discretas sobre un soporte finito de números enteros no negativos. También se le llama distribución multinomial compuesta de Dirichlet ( DCM ) o distribución multivariada de Pólya (en honor a George Pólya ). Es una distribución de probabilidad compuesta , donde un vector de probabilidad p se extrae de una distribución de Dirichlet con un vector de parámetros , y una observación se extrae de una distribución multinomial con un vector de probabilidad p y un número de ensayos n . El vector de parámetros de Dirichlet captura la creencia previa sobre la situación y puede verse como un pseudorecuento: observaciones de cada resultado que ocurren antes de que se recopilen los datos reales. La composición corresponde al esquema de una urna de Pólya . Se encuentra con frecuencia en la estadística bayesiana , el aprendizaje automático , los métodos empíricos de Bayes y la estadística clásica como una distribución multinomial sobredispersada .

Se reduce a la distribución categórica como un caso especial cuando n  = 1. También se aproxima arbitrariamente bien a la distribución multinomial para α grande . El multinomial de Dirichlet es una extensión multivariada de la distribución beta-binomial , ya que las distribuciones multinomial y Dirichlet son versiones multivariadas de la distribución binomial y las distribuciones beta , respectivamente.

Especificación

Multinomial de Dirichlet como distribución compuesta

La distribución de Dirichlet es una distribución conjugada de la distribución multinomial. Este hecho conduce a una distribución de compuestos analíticamente manejable . Para un vector aleatorio de recuentos de categorías , distribuido según una distribución multinomial , la distribución marginal se obtiene integrando la distribución para p , que puede considerarse como un vector aleatorio que sigue una distribución de Dirichlet:

lo que resulta en la siguiente fórmula explícita:

donde se define como la suma . Otra forma para esta misma distribución compuesta, escrita de manera más compacta en términos de la función beta , B , es la siguiente:

La última forma enfatiza el hecho de que las categorías de conteo cero pueden ignorarse en el cálculo, un hecho útil cuando el número de categorías es muy grande y escaso (por ejemplo, conteos de palabras en documentos).

Observe que la fdp es la distribución Beta-binomial cuando . También se puede demostrar que se acerca a la distribución multinomial cuando se acerca al infinito. El parámetro gobierna el grado de sobredispersión o ráfaga en relación con el multinomial. Las opciones alternativas para denotar que se encuentran en la literatura son S y A.

Multinomial de Dirichlet como modelo de urna

La distribución multinomial de Dirichlet también se puede motivar mediante un modelo de urna para valores enteros positivos del vector , conocido como modelo de urna de Polya . Específicamente, imaginemos una urna que contiene bolas de colores numeradas para el iésimo color, donde se realizan sorteos al azar. Cuando se extrae y observa una bola al azar, se devuelven dos bolas del mismo color a la urna. Si esto se realiza varias veces, entonces la probabilidad de observar el vector aleatorio de recuentos de colores es un multinomial de Dirichlet con parámetros y . Si los sorteos aleatorios son con reemplazo simple (no se agregan a la urna bolas por encima de la bola observada), entonces la distribución sigue una distribución multinomial y si los sorteos aleatorios se realizan sin reemplazo, la distribución sigue una distribución hipergeométrica multivariada .

Propiedades

Momentos

Una vez más, sea y sea , entonces el número esperado de veces que se observó el resultado i en n ensayos es

La matriz de covarianza es la siguiente. Cada entrada diagonal es la varianza de una variable aleatoria distribuida beta-binomialmente y, por lo tanto, es

Las entradas fuera de la diagonal son las covarianzas :

para i , j distintos.

Todas las covarianzas son negativas porque para n fijo , un aumento en un componente de un vector multinomial de Dirichlet requiere una disminución en otro componente.

Esta es una matriz semidefinida positiva K × K de rango K  − 1.

Las entradas de la matriz de correlación correspondiente son

El tamaño de la muestra queda fuera de esta expresión.

Cada uno de los k componentes por separado tiene una distribución beta-binomial.

El soporte de la distribución multinomial de Dirichlet es el conjunto

Su número de elementos es

Notación matricial

En notación matricial,

y

con p T = el vector fila transpuesto del vector columna p . dejando

, podemos escribir alternativamente

El parámetro se conoce como correlación "intra clase" o "intra grupo". Es esta correlación positiva la que da lugar a una sobredispersión en relación con la distribución multinomial.

Agregación

Si

entonces, si las variables aleatorias con subíndices i y j se eliminan del vector y se reemplazan por su suma [ cita necesaria ] ,

Esta propiedad de agregación se puede utilizar para derivar la distribución marginal de .

función de probabilidad

Conceptualmente, estamos haciendo N extracciones independientes de una distribución categórica con K categorías. Representemos los sorteos independientes como variables categóricas aleatorias para . Denotemos el número de veces que se ha visto una categoría particular (para ) entre todas las variables categóricas como , y . Entonces, tenemos dos puntos de vista separados sobre este problema:

  1. Un conjunto de variables categóricas .
  2. Una única variable con valor vectorial , distribuida según una distribución multinomial .

El primer caso es un conjunto de variables aleatorias que especifican cada resultado individual , mientras que el segundo es una variable que especifica el número de resultados de cada una de las K categorías. La distinción es importante, ya que los dos casos tienen correspondientemente diferentes distribuciones de probabilidad.

El parámetro de la distribución categórica es dónde está la probabilidad de extraer valor ; es también el parámetro de la distribución multinomial . En lugar de especificarlo directamente, le damos una distribución previa conjugada y, por lo tanto, se extrae de una distribución de Dirichlet con un vector de parámetros .

Integrando , obtenemos una distribución compuesta. Sin embargo, la forma de la distribución es diferente según el punto de vista que adoptemos.

Para un conjunto de resultados individuales

Distribución conjunta

Para variables categóricas , la distribución conjunta marginal se obtiene integrando :

lo que resulta en la siguiente fórmula explícita:

¿Dónde está la función gamma , con

Tenga en cuenta la ausencia del coeficiente multinomial debido a que la fórmula trata sobre la probabilidad de una secuencia de variables categóricas en lugar de una probabilidad en los recuentos dentro de cada categoría.

Aunque las variables no aparecen explícitamente en la fórmula anterior, entran a través de los valores. [ se necesita aclaración ]

Distribución condicional

Otra fórmula útil, particularmente en el contexto del muestreo de Gibbs , pregunta cuál es la densidad condicional de una variable dada, condicionada a todas las demás variables (que denotaremos ). Resulta tener una forma extremadamente simple:

donde especifica el número de recuentos de categoría vistos en todas las variables excepto .

Puede resultar útil mostrar cómo derivar esta fórmula. En general, las distribuciones condicionales son proporcionales a las correspondientes distribuciones conjuntas , por lo que simplemente comenzamos con la fórmula anterior para la distribución conjunta de todos los valores y luego eliminamos cualquier factor que no dependa del particular en cuestión. Para hacer esto, hacemos uso de la notación definida anteriormente, y

También utilizamos el hecho de que

Entonces:

En general, no es necesario preocuparse por la constante de normalización al momento de derivar las ecuaciones para distribuciones condicionales. La constante de normalización se determinará como parte del algoritmo de muestreo de la distribución (consulte Distribución categórica#Muestreo ). Sin embargo, cuando la distribución condicional se escribe en la forma simple anterior, resulta que la constante de normalización asume una forma simple:

Por eso

Esta fórmula está estrechamente relacionada con el proceso del restaurante chino , que resulta de tomar el límite como .

En una red bayesiana

En una red bayesiana más grande en la que se producen distribuciones categóricas (o las llamadas "multinomiales") con distribuciones anteriores de Dirichlet como parte de una red más grande, todas las distribuciones anteriores de Dirichlet se pueden colapsar siempre que los únicos nodos que dependen de ellos sean distribuciones categóricas. El colapso ocurre para cada nodo de distribución de Dirichlet por separado de los demás, y ocurre independientemente de cualquier otro nodo que pueda depender de las distribuciones categóricas. También ocurre independientemente de si las distribuciones categóricas dependen de nodos adicionales a los anteriores de Dirichlet (aunque en tal caso, esos otros nodos deben permanecer como factores condicionantes adicionales). Esencialmente, todas las distribuciones categóricas que dependen de un nodo de distribución de Dirichlet determinado se conectan en una única distribución conjunta multinomial de Dirichlet definida por la fórmula anterior. La distribución conjunta definida de esta manera dependerá de los padres de los nodos anteriores de Dirichlet integrados, así como de cualquier padre de los nodos categóricos distintos de los propios nodos anteriores de Dirichlet.

En las siguientes secciones, analizamos diferentes configuraciones que se encuentran comúnmente en las redes bayesianas. Repetimos la densidad de probabilidad desde arriba y la definimos usando el símbolo :

Múltiples antecedentes de Dirichlet con el mismo hiperprior

Imaginemos que tenemos un modelo jerárquico de la siguiente manera:

En casos como este, tenemos múltiples antecedentes de Dirichet, cada uno de los cuales genera una cierta cantidad de observaciones categóricas (posiblemente un número diferente para cada anterior). El hecho de que todos dependan del mismo hiperprior, incluso si se trata de una variable aleatoria como arriba, no hace ninguna diferencia. El efecto de integrar un prior de Dirichlet vincula las variables categóricas adjuntas a ese prior, cuya distribución conjunta simplemente hereda cualquier factor condicionante del prior de Dirichlet. El hecho de que varios antecedentes puedan compartir un hiperprior no hace ninguna diferencia:

donde es simplemente la colección de variables categóricas que dependen de d anterior .

En consecuencia, la distribución de probabilidad condicional se puede escribir de la siguiente manera:

donde específicamente significa el número de variables del conjunto , excluyéndose a sí misma, que tienen el valor .

Es necesario contar sólo las variables que tienen el valor k y que están ligadas a la variable en cuestión por tener la misma prioridad. No queremos contar ninguna otra variable que también tenga el valor k .

Múltiples antecedentes de Dirichlet con el mismo hiperprior, con hijos dependientes

Ahora imagine un modelo jerárquico un poco más complicado como el siguiente:

Este modelo es el mismo que el anterior, pero además, cada una de las variables categóricas tiene una variable secundaria que depende de ella. Esto es típico de un modelo mixto .

Nuevamente, en la distribución conjunta, solo las variables categóricas que dependen del mismo prior están vinculadas en un único multinomio de Dirichlet:

La distribución condicional de las variables categóricas que dependen únicamente de sus padres y antepasados ​​tendría la misma forma que la anterior en el caso más simple. Sin embargo, en el muestreo de Gibbs es necesario determinar la distribución condicional de un nodo dado que depende no sólo de ancestros como sino de todos los demás parámetros.

La expresión simplificada para la distribución condicional se obtiene arriba simplemente reescribiendo la expresión para la probabilidad conjunta y eliminando factores constantes. Por lo tanto, la misma simplificación se aplicaría en una expresión de probabilidad conjunta más grande como la de este modelo, compuesta por densidades multinomiales de Dirichlet más factores para muchas otras variables aleatorias que dependen de los valores de las variables categóricas.

Esto produce lo siguiente:

Aquí la densidad de probabilidad de aparece directamente. Para realizar un muestreo aleatorio sobre , calcularíamos las probabilidades no normalizadas para todas las K posibilidades de usar la fórmula anterior, luego las normalizaríamos y procederíamos normalmente usando el algoritmo descrito en el artículo sobre distribución categórica .

Hablando correctamente, el factor adicional que aparece en la distribución condicional no se deriva de la especificación del modelo sino directamente de la distribución conjunta. Esta distinción es importante cuando se consideran modelos en los que un nodo determinado con un padre anterior a Dirichlet tiene múltiples hijos dependientes, particularmente cuando esos hijos dependen entre sí (por ejemplo, si comparten un padre que está colapsado). Esto se analiza más a continuación.

Múltiples antecedentes de Dirichlet con membresía anterior cambiante

Ahora imaginemos que tenemos un modelo jerárquico como el siguiente:

Aquí tenemos una situación complicada en la que tenemos múltiples antecedentes de Dirichlet como antes y un conjunto de variables categóricas dependientes, pero la relación entre los antecedentes y las variables dependientes no es fija, a diferencia de antes. En cambio, la elección de cuál antes de su uso depende de otra variable categórica aleatoria. Esto ocurre, por ejemplo, en los modelos temáticos y, de hecho, los nombres de las variables anteriores deben corresponder a los de la asignación latente de Dirichlet . En este caso, el conjunto es un conjunto de palabras, cada una de las cuales se extrae de uno de los temas posibles, donde cada tema es un Dirichlet previo a un vocabulario de palabras posibles, especificando la frecuencia de diferentes palabras en el tema. Sin embargo, la pertenencia al tema de una palabra determinada no es fija; más bien, se determina a partir de un conjunto de variables latentes . Hay una variable latente por palabra, una variable categórica dimensional que especifica el tema al que pertenece la palabra.

En este caso, todas las variables que dependen de un tema anterior determinado están unidas (es decir, correlacionadas ) en un grupo, como antes; específicamente, todas las palabras que pertenecen a un tema determinado están vinculadas. En este caso, sin embargo, la pertenencia al grupo cambia, en el sentido de que las palabras no están fijadas a un tema determinado sino que el tema depende del valor de una variable latente asociada con la palabra. Sin embargo, la definición de la densidad multinomial de Dirichlet en realidad no depende del número de variables categóricas en un grupo (es decir, el número de palabras en el documento generado a partir de un tema determinado), sino sólo de la cantidad de variables en el grupo tiene un valor determinado (es decir, entre todos los tokens de palabras generados a partir de un tema determinado, cuántos de ellos son una palabra determinada). Por tanto, todavía podemos escribir una fórmula explícita para la distribución conjunta:

Aquí usamos la notación para indicar el número de tokens de palabras cuyo valor es el símbolo de palabra v y que pertenecen al tema k .

La distribución condicional todavía tiene la misma forma:

Aquí nuevamente, sólo se vinculan las variables categóricas de las palabras que pertenecen a un tema determinado (aunque este vínculo dependerá de las asignaciones de las variables latentes) y, por lo tanto, el recuento de palabras debe abarcar únicamente las palabras generadas por un tema determinado. De ahí el símbolo , que es el recuento de tokens de palabras que tienen el símbolo de palabra v , pero solo entre los generados por el tema k , y excluyendo la palabra misma cuya distribución se describe.

(La razón por la que es necesario excluir la palabra en sí, y por la que incluso tiene sentido, es que en un contexto de muestreo de Gibbs , volvemos a muestrear repetidamente los valores de cada variable aleatoria, después de haber analizado y muestreado todas las variables anteriores. De ahí la La variable ya tendrá un valor y debemos excluir este valor existente de los distintos recuentos que utilizamos).

Un ejemplo combinado: modelos temáticos LDA

Ahora mostramos cómo combinar algunos de los escenarios anteriores para demostrar cómo Gibbs toma muestras de un modelo del mundo real, específicamente un modelo de tema de asignación latente de Dirichlet (LDA) suavizado .

El modelo es el siguiente:

Básicamente, combinamos los tres escenarios anteriores: tenemos variables categóricas que dependen de múltiples antecedentes que comparten un hiperprior; tenemos variables categóricas con hijos dependientes (la variable latente identidades temáticas); y tenemos variables categóricas con membresía cambiante en múltiples antecedentes que comparten un hiperprior. En el modelo LDA estándar, las palabras se observan completamente y, por lo tanto, nunca necesitamos volver a muestrearlas. (Sin embargo, el muestreo de Gibbs sería igualmente posible si sólo se observara alguna o ninguna de las palabras. En tal caso, querríamos inicializar la distribución sobre las palabras de alguna manera razonable, por ejemplo, a partir de la salida de algún proceso que genere oraciones. , como un modelo de traducción automática , para que las distribuciones de variables latentes posteriores resultantes tengan algún sentido).

Usando las fórmulas anteriores, podemos escribir las probabilidades condicionales directamente:

Aquí hemos definido los recuentos de forma más explícita para separar claramente los recuentos de palabras y los recuentos de temas:

Como en el escenario anterior con variables categóricas con hijos dependientes, la probabilidad condicional de esos hijos dependientes aparece en la definición de la probabilidad condicional de los padres. En este caso, cada variable latente tiene solo una palabra secundaria dependiente, por lo que solo aparece uno de esos términos. (Si hubiera varios hijos dependientes, todos tendrían que aparecer en la probabilidad condicional de los padres, independientemente de si hubo superposición entre diferentes padres y los mismos hijos, es decir, independientemente de si los hijos dependientes de un padre determinado también tienen otros padres. En En un caso en el que un niño tiene varios padres, la probabilidad condicional de ese niño aparece en la definición de probabilidad condicional de cada uno de sus padres.)

La definición anterior especifica sólo la probabilidad condicional no normalizada de las palabras, mientras que la probabilidad condicional del tema requiere la probabilidad real (es decir, normalizada). Por lo tanto, tenemos que normalizar sumando todos los símbolos de palabras:

dónde

También vale la pena hacer otro comentario en detalle, que se refiere al segundo factor mencionado anteriormente en la probabilidad condicional. Recuerde que la distribución condicional en general se deriva de la distribución conjunta y se simplifica eliminando términos que no dependen del dominio del condicional (la parte del lado izquierdo de la barra vertical). Cuando un nodo tiene hijos dependientes, habrá uno o más factores en la distribución conjunta que dependerán de . Generalmente hay un factor para cada nodo dependiente y tiene la misma función de densidad que la distribución que aparece en la definición matemática. Sin embargo, si un nodo dependiente también tiene otro padre (un co-padre), y ese co-padre se colapsa, entonces el nodo se volverá dependiente de todos los demás nodos que comparten ese co-padre, y en lugar de múltiples términos para cada uno de estos nodos, la distribución conjunta tendrá solo un término conjunto. Tenemos exactamente esa situación aquí. Aunque solo tiene un hijo , ese niño tiene un co-padre de Dirichlet que hemos colapsado, lo que induce un multinomial de Dirichlet en todo el conjunto de nodos .

Sucede en este caso que este tema no causa mayores problemas, precisamente por la relación uno a uno entre y . Podemos reescribir la distribución conjunta de la siguiente manera:

donde en el conjunto (es decir, el conjunto de nodos excluyendo ), ninguno de los nodos tiene como padre. Por lo tanto, puede eliminarse como factor condicionante (línea 2), lo que significa que todo el factor puede eliminarse de la distribución condicional (línea 3).

Un segundo ejemplo: agrupación de documentos Naive Bayes

He aquí otro modelo, con un conjunto diferente de cuestiones. Esta es una implementación de un modelo Naive Bayes no supervisado para la agrupación de documentos. Es decir, nos gustaría clasificar los documentos en múltiples categorías (por ejemplo, " spam " o "no spam", o "artículo de revista científica", "artículo de periódico sobre finanzas", "artículo de periódico sobre política", "carta de amor") basado en contenido textual. Sin embargo, aún no conocemos la categoría correcta de ningún documento; en cambio, queremos agruparlos en función de similitudes mutuas. (Por ejemplo, un conjunto de artículos científicos tenderán a ser similares entre sí en el uso de palabras, pero muy diferentes de un conjunto de cartas de amor). Este es un tipo de aprendizaje no supervisado . (Se puede utilizar la misma técnica para realizar aprendizaje semisupervisado , es decir, cuando conocemos la categoría correcta de alguna fracción de los documentos y nos gustaría utilizar este conocimiento para ayudar a agrupar los documentos restantes).

El modelo es el siguiente:

En muchos sentidos, este modelo es muy similar al modelo de temas LDA descrito anteriormente, pero asume un tema por documento en lugar de un tema por palabra, con un documento que consta de una combinación de temas. Esto se puede ver claramente en el modelo anterior, que es idéntico al modelo LDA excepto que solo hay una variable latente por documento en lugar de una por palabra. Una vez más, asumimos que estamos colapsando todos los antecedentes de Dirichlet.

La probabilidad condicional de una palabra determinada es casi idéntica al caso LDA. Una vez más, todas las palabras generadas por el mismo Dirichlet anterior son interdependientes. En este caso, esto significa las palabras de todos los documentos que tienen una etiqueta determinada; nuevamente, esto puede variar según las asignaciones de etiquetas, pero lo único que nos importa es el recuento total. Por eso:

dónde

Sin embargo, existe una diferencia crítica en la distribución condicional de las variables latentes para las asignaciones de etiquetas, que es que una variable de etiqueta determinada tiene varios nodos secundarios en lugar de solo uno, en particular, los nodos para todas las palabras en el documento de la etiqueta. Esto se relaciona estrechamente con la discusión anterior sobre el factor que surge de la distribución conjunta. En este caso, la distribución conjunta debe abarcar todas las palabras de todos los documentos que contienen una asignación de etiqueta igual al valor de y tiene el valor de una distribución multinomial de Dirichlet. Además, no podemos reducir esta distribución conjunta a una distribución condicional sobre una sola palabra. Más bien, podemos reducirlo solo a una distribución condicional conjunta más pequeña sobre las palabras en el documento para la etiqueta en cuestión y, por lo tanto, no podemos simplificarlo usando el truco anterior que produce una suma simple del recuento esperado y el anterior. Aunque de hecho es posible reescribirlo como un producto de dichas sumas individuales, el número de factores es muy grande y no es claramente más eficiente que calcular directamente la probabilidad de distribución multinomial de Dirichlet.

Distribuciones relacionadas

La versión unidimensional de la distribución multinomial de Dirichlet se conoce como distribución Beta-binomial .

La distribución multinomial de Dirichlet tiene una relación con la distribución binomial negativa análoga a la relación de la distribución multinomial con la distribución de Poisson . [2]

Usos

La distribución multinomial de Dirichlet se utiliza en clasificación y agrupación automatizada de documentos, genética , economía , modelado de combate y marketing cuantitativo.

Ver también

Referencias

Citas

  1. ^ abcd Glüsenkamp, ​​T. (2018). "Tratamiento probabilístico de la incertidumbre a partir del tamaño finito de datos ponderados de Monte Carlo". EPJ Plus . 133 (6): 218. arXiv : 1712.01293 . Código Bib : 2018EPJP..133..218G. doi :10.1140/epjp/i2018-12042-x. S2CID  125665629.
  2. ^ Teorema 1 de Zhou, M. (2018). "Análisis de factores binomiales negativos bayesianos no paramétricos". Análisis bayesiano . 13 (4): 1065–1093. arXiv : 1604.07464 . doi : 10.1214/17-BA1070 .

Fuentes