stringtranslate.com

Distribución categórica

En teoría de probabilidad y estadística , una distribución categórica (también llamada distribución de Bernoulli generalizada , distribución multinoulli [1] ) es una distribución de probabilidad discreta que describe los posibles resultados de una variable aleatoria que puede tomar una de K categorías posibles, con la probabilidad de cada categoría especificada por separado. No hay un orden subyacente innato de estos resultados, pero a menudo se adjuntan etiquetas numéricas para mayor comodidad al describir la distribución (por ejemplo, 1 a K ). La distribución categórica K -dimensional es la distribución más general sobre un evento de K -vías; cualquier otra distribución discreta sobre un espacio muestral de tamaño K es un caso especial. Los parámetros que especifican las probabilidades de cada resultado posible están restringidos solo por el hecho de que cada uno debe estar en el rango de 0 a 1, y todos deben sumar 1.

La distribución categórica es la generalización de la distribución de Bernoulli para una variable aleatoria categórica , es decir, para una variable discreta con más de dos resultados posibles, como el lanzamiento de un dado . Por otro lado, la distribución categórica es un caso especial de la distribución multinomial , ya que da las probabilidades de los resultados potenciales de un solo sorteo en lugar de múltiples sorteos.

Terminología

En ocasiones, la distribución categórica se denomina "distribución discreta". Sin embargo, esto no se refiere propiamente a una familia particular de distribuciones, sino a una clase general de distribuciones .

En algunos campos, como el aprendizaje automático y el procesamiento del lenguaje natural , las distribuciones categóricas y multinomiales se confunden, y es común hablar de una "distribución multinomial" cuando una "distribución categórica" ​​sería más precisa. [2] Este uso impreciso se debe al hecho de que a veces es conveniente expresar el resultado de una distribución categórica como un vector "1 de K " (un vector con un elemento que contiene un 1 y todos los demás elementos que contienen un 0) en lugar de como un número entero en el rango de 1 a K ; en esta forma, una distribución categórica es equivalente a una distribución multinomial para una sola observación (ver más abajo).

Sin embargo, la combinación de las distribuciones categóricas y multinomiales puede conducir a problemas. Por ejemplo, en una distribución multinomial de Dirichlet , que surge comúnmente en los modelos de procesamiento del lenguaje natural (aunque no generalmente con este nombre) como resultado del muestreo de Gibbs colapsado donde las distribuciones de Dirichlet se colapsan fuera de un modelo bayesiano jerárquico , es muy importante distinguir la distribución categórica de la multinomial. La distribución conjunta de las mismas variables con la misma distribución multinomial de Dirichlet tiene dos formas diferentes dependiendo de si se caracteriza como una distribución cuyo dominio es sobre nodos categóricos individuales o sobre recuentos de nodos de estilo multinomial en cada categoría particular (similar a la distinción entre un conjunto de nodos distribuidos de Bernoulli y un solo nodo distribuido binomial ). Ambas formas tienen funciones de masa de probabilidad (PMF) de aspecto muy similar , que hacen referencia a recuentos de nodos de estilo multinomial en una categoría. Sin embargo, el PMF de estilo multinomial tiene un factor adicional, un coeficiente multinomial , que es una constante igual a 1 en el PMF de estilo categórico. Confundir los dos puede conducir fácilmente a resultados incorrectos en entornos donde este factor adicional no es constante con respecto a las distribuciones de interés. El factor es frecuentemente constante en los condicionales completos utilizados en el muestreo de Gibbs y las distribuciones óptimas en los métodos variacionales .

Formulación de distribuciones

Una distribución categórica es una distribución de probabilidad discreta cuyo espacio muestral es el conjunto de k elementos identificados individualmente. Es la generalización de la distribución de Bernoulli para una variable aleatoria categórica .

En una formulación de la distribución, el espacio muestral se considera una secuencia finita de números enteros. Los números enteros exactos utilizados como etiquetas no son importantes; pueden ser {0, 1, ..., k  − 1} o {1, 2, ..., k } o cualquier otro conjunto arbitrario de valores. En las siguientes descripciones, utilizamos {1, 2, ..., k } por conveniencia, aunque esto no coincide con la convención para la distribución de Bernoulli , que utiliza {0, 1}. En este caso, la función de masa de probabilidad f es:

donde , representa la probabilidad de ver el elemento i y .

Otra formulación que parece más compleja pero que facilita las manipulaciones matemáticas es la siguiente, utilizando el corchete de Iverson : [3]

donde se evalúa como 1 si , 0 en caso contrario. Esta formulación tiene varias ventajas, por ejemplo:

Otra formulación hace explícita la conexión entre las distribuciones categórica y multinomial al tratar la distribución categórica como un caso especial de la distribución multinomial en el que el parámetro n de la distribución multinomial (el número de elementos muestreados) se fija en 1. En esta formulación, el espacio muestral puede considerarse como el conjunto de vectores aleatorios x codificados como 1 de K [4] de dimensión k que tienen la propiedad de que exactamente un elemento tiene el valor 1 y los demás tienen el valor 0. El elemento particular que tiene el valor 1 indica qué categoría se ha elegido. La función de masa de probabilidad f en esta formulación es:

donde representa la probabilidad de ver el elemento i y . Esta es la formulación adoptada por Bishop . [4] [nota 1]

Propiedades

Las probabilidades posibles para la distribución categórica con son las 2-simplex , insertas en el espacio 3.
donde I es la función indicadora . Entonces Y tiene una distribución que es un caso especial de la distribución multinomial con parámetro . La suma de variables aleatorias independientes e idénticamente distribuidas Y construidas a partir de una distribución categórica con parámetro se distribuye multinomialmente con parámetros y

Inferencia bayesiana utilizando prior conjugado

En estadística bayesiana , la distribución de Dirichlet es la distribución previa conjugada de la distribución categórica (y también de la distribución multinomial ). Esto significa que en un modelo que consiste en un punto de datos que tiene una distribución categórica con un vector de parámetros desconocido p , y (en el estilo bayesiano estándar) elegimos tratar este parámetro como una variable aleatoria y darle una distribución previa definida usando una distribución de Dirichlet , entonces la distribución posterior del parámetro, después de incorporar el conocimiento obtenido de los datos observados, también es una distribución de Dirichlet. Intuitivamente, en tal caso, a partir de lo que se sabe sobre el parámetro antes de observar el punto de datos, el conocimiento puede actualizarse en función del punto de datos, produciendo una nueva distribución de la misma forma que la anterior. Como tal, el conocimiento de un parámetro puede actualizarse sucesivamente incorporando nuevas observaciones una a la vez, sin encontrarse con dificultades matemáticas.

Formalmente, esto se puede expresar de la siguiente manera: Dado un modelo

Entonces se cumple lo siguiente: [2]

Esta relación se utiliza en las estadísticas bayesianas para estimar el parámetro subyacente p de una distribución categórica dada una colección de N muestras. Intuitivamente, podemos ver el vector hiperprior α como pseudocounts , es decir, como la representación del número de observaciones en cada categoría que ya hemos visto. Luego, simplemente agregamos los recuentos de todas las nuevas observaciones (el vector c ) para derivar la distribución posterior.

Otra intuición proviene del valor esperado de la distribución posterior (véase el artículo sobre la distribución de Dirichlet ):

Esto indica que la probabilidad esperada de ver una categoría i entre las diversas distribuciones discretas generadas por la distribución posterior es simplemente igual a la proporción de ocurrencias de esa categoría que se observan realmente en los datos, incluidos los pseudoconteos en la distribución anterior. Esto tiene mucho sentido intuitivo: si, por ejemplo, hay tres categorías posibles y la categoría 1 se observa en los datos observados el 40 % del tiempo, se esperaría, en promedio, ver la categoría 1 también el 40 % del tiempo en la distribución posterior.

(Esta intuición ignora el efecto de la distribución previa. Además, la posterior es una distribución sobre distribuciones . La distribución posterior en general describe el parámetro en cuestión, y en este caso el parámetro en sí es una distribución de probabilidad discreta , es decir, la distribución categórica real que generó los datos. Por ejemplo, si 3 categorías en la proporción 40:5:55 están en los datos observados, entonces ignorando el efecto de la distribución previa, se esperaría que el parámetro verdadero, es decir, la distribución verdadera subyacente que generó nuestros datos observados, tuviera el valor promedio de (0.40, 0.05, 0.55), que es de hecho lo que revela la posterior. Sin embargo, la distribución verdadera podría ser en realidad (0.35, 0.07, 0.58) o (0.42, 0.04, 0.54) o varias otras posibilidades cercanas. La cantidad de incertidumbre involucrada aquí está especificada por la varianza de la posterior, que está controlada por el número total de observaciones: cuantos más datos se observen, menor será la incertidumbre sobre el parámetro verdadero).

(Técnicamente, el parámetro anterior debería verse como la representación de observaciones anteriores de la categoría . Entonces, el parámetro posterior actualizado representa observaciones posteriores. Esto refleja el hecho de que una distribución de Dirichlet con tiene una forma completamente plana - esencialmente, una distribución uniforme sobre el símplex de posibles valores de p . Lógicamente, una distribución plana de este tipo representa una ignorancia total, que corresponde a ninguna observación de ningún tipo. Sin embargo, la actualización matemática del posterior funciona bien si ignoramos el término y simplemente pensamos en el vector α como la representación directa de un conjunto de pseudocuentas. Además, hacer esto evita el problema de interpretar valores menores que 1.)

Estimación de MAP

La estimación máxima a posteriori del parámetro p en el modelo anterior es simplemente la moda de la distribución de Dirichlet posterior , es decir, [2]

En muchas aplicaciones prácticas, la única forma de garantizar la condición que se debe establecer para todos los i .

Probabilidad marginal

En el modelo anterior, la probabilidad marginal de las observaciones (es decir, la distribución conjunta de las observaciones, con el parámetro anterior marginado ) es una distribución multinomial de Dirichlet : [2]

Esta distribución desempeña un papel importante en los modelos bayesianos jerárquicos , ya que al realizar inferencias sobre dichos modelos utilizando métodos como el muestreo de Gibbs o el Bayes variacional , las distribuciones a priori de Dirichlet suelen quedar marginadas. Consulte el artículo sobre esta distribución para obtener más detalles.

Distribución predictiva posterior

La distribución predictiva posterior de una nueva observación en el modelo anterior es la distribución que adoptaría una nueva observación dado el conjunto de N observaciones categóricas. Como se muestra en el artículo sobre la distribución multinomial de Dirichlet , tiene una forma muy simple: [2]

Existen diversas relaciones entre esta fórmula y las anteriores:

La razón de la equivalencia entre la probabilidad predictiva posterior y el valor esperado de la distribución posterior de p se hace evidente al volver a examinar la fórmula anterior. Como se explica en el artículo sobre la distribución predictiva posterior , la fórmula para la probabilidad predictiva posterior tiene la forma de un valor esperado tomado con respecto a la distribución posterior:

La línea crucial anterior es la tercera. La segunda se desprende directamente de la definición de valor esperado. La tercera línea es particular de la distribución categórica y se desprende del hecho de que, en la distribución categórica específicamente, el valor esperado de ver un valor particular i está especificado directamente por el parámetro asociado p i . La cuarta línea es simplemente una reescritura de la tercera en una notación diferente, utilizando la notación anterior para una expectativa tomada con respecto a la distribución posterior de los parámetros.

Observe los puntos de datos uno por uno y considere cada vez su probabilidad predictiva antes de observar el punto de datos y actualizar la posterior. Para cualquier punto de datos dado, la probabilidad de que ese punto asuma una categoría dada depende de la cantidad de puntos de datos que ya están en esa categoría. En este escenario, si una categoría tiene una alta frecuencia de aparición, entonces es más probable que nuevos puntos de datos se unan a esa categoría, enriqueciéndola aún más. Este tipo de escenario a menudo se denomina modelo de apego preferencial (o "los ricos se vuelven más ricos"). Este modelo modela muchos procesos del mundo real y, en tales casos, las elecciones realizadas por los primeros puntos de datos tienen una influencia enorme en el resto de los puntos de datos.

Distribución condicional posterior

En el muestreo de Gibbs , normalmente es necesario extraer de distribuciones condicionales en redes bayesianas multivariables donde cada variable está condicionada a todas las demás. En redes que incluyen variables categóricas con valores a priori de Dirichlet (por ejemplo, modelos de mezcla y modelos que incluyen componentes de mezcla), las distribuciones de Dirichlet a menudo se "colapsan" ( marginan ) de la red, lo que introduce dependencias entre los diversos nodos categóricos que dependen de un valor a priori dado (específicamente, su distribución conjunta es una distribución multinomial de Dirichlet ). Una de las razones para hacer esto es que, en tal caso, la distribución de un nodo categórico dados los demás es exactamente la distribución predictiva posterior de los nodos restantes.

Es decir, para un conjunto de nodos , si el nodo en cuestión se denota como y el resto como , entonces

donde es el número de nodos que tienen la categoría i entre los nodos distintos del nodo n .

Muestreo

Hay varios métodos , pero la forma más común de tomar muestras de una distribución categórica utiliza un tipo de muestreo por transformada inversa :

Supongamos que una distribución se expresa como "proporcional a" alguna expresión, con una constante de normalización desconocida . Antes de tomar muestras, se preparan algunos valores de la siguiente manera:

  1. Calcule el valor no normalizado de la distribución para cada categoría.
  2. Súmalos y divide cada valor por esta suma, para normalizarlos .
  3. Imponer algún tipo de orden en las categorías (por ejemplo, mediante un índice que vaya de 1 a k , donde k es el número de categorías).
  4. Convierte los valores en una función de distribución acumulativa (CDF) reemplazando cada valor con la suma de todos los valores anteriores. Esto se puede hacer en un tiempo O(k) . El valor resultante para la primera categoría será 0.

Luego, cada vez que sea necesario muestrear un valor:

  1. Elija un número distribuido uniformemente entre 0 y 1.
  2. Localizar el mayor número en la CDF cuyo valor sea menor o igual al número recién elegido. Esto se puede hacer en tiempo O(log(k)) , mediante búsqueda binaria .
  3. Devuelve la categoría correspondiente a este valor CDF.

Si es necesario extraer muchos valores de la misma distribución categórica, el siguiente enfoque es más eficiente: extrae n muestras en un tiempo O(n) (suponiendo que se utiliza una aproximación O(1) para extraer valores de la distribución binomial [6] ).

función draw_categorical(n) // donde n es el número de muestras a extraer de la distribución categórica r = 1 s = 0 para i de 1 a k // donde k es el número de categorías v = extraer de una distribución binomial (n, p[i] / r) // donde p[i] es la probabilidad de la categoría i para j de 1 a v z[s++] = i // donde z es una matriz en la que se almacenan los resultados n = n - v r = r - p[i] barajar (reordenar aleatoriamente) los elementos en z volver z

Muestreo mediante la distribución de Gumbel

En el aprendizaje automático es típico parametrizar la distribución categórica, a través de una representación sin restricciones en , cuyos componentes están dados por:

donde es cualquier constante real. Dada esta representación, se puede recuperar utilizando la función softmax , que luego se puede muestrear utilizando las técnicas descritas anteriormente. Sin embargo, existe un método de muestreo más directo que utiliza muestras de la distribución de Gumbel . [7] Sea k extracciones independientes de la distribución de Gumbel estándar, entonces

será una muestra de la distribución categórica deseada. (Si es una muestra de la distribución uniforme estándar , entonces es una muestra de la distribución estándar de Gumbel).

Véase también

Distribuciones relacionadas

Notas

  1. ^ Sin embargo, Bishop no utiliza explícitamente el término distribución categórica.

Referencias

  1. ^ Murphy, KP (2012). Aprendizaje automático: una perspectiva probabilística , pág. 35. MIT press. ISBN  0262018020 .
  2. ^ abcdef Minka, T. (2003) Inferencia bayesiana, entropía y distribución multinomial. Informe técnico Microsoft Research.
  3. ^ Minka, T. (2003), op. cit. Minka utiliza la función delta de Kronecker , similar pero menos general que el corchete de Iverson .
  4. ^ ab Bishop, C. (2006) Reconocimiento de patrones y aprendizaje automático , Springer. ISBN 0-387-31073-8
  5. ^ Johnson, NL, Kotz, S., Balakrishnan, N. (1997) Distribuciones multivariadas discretas , Wiley. ISBN 0-471-12844-9 (p. 105) 
  6. ^ Agresti, A., Introducción al análisis de datos categóricos, Wiley-Interscience, 2007, ISBN 978-0-471-22618-5 , págs. 25 
  7. ^ Adams, Ryan. "El truco de Gumbel-Max para distribuciones discretas".