stringtranslate.com

Distribución categórica

En teoría de probabilidad y estadística , una distribución categórica (también llamada distribución de Bernoulli generalizada , distribución multinoulli [1] ) es una distribución de probabilidad discreta que describe los posibles resultados de una variable aleatoria que puede tomar una de K categorías posibles, con la probabilidad de cada categoría especificada por separado. No existe un orden subyacente innato de estos resultados, pero a menudo se adjuntan etiquetas numéricas para facilitar la descripción de la distribución (por ejemplo, 1 a K ). La distribución categórica K -dimensional es la distribución más general sobre un evento K -way; cualquier otra distribución discreta sobre un espacio muestral de tamaño K es un caso especial. Los parámetros que especifican las probabilidades de cada resultado posible están limitados únicamente por el hecho de que cada uno debe estar en el rango de 0 a 1 y todos deben sumar 1.

La distribución categórica es la generalización de la distribución de Bernoulli para una variable aleatoria categórica , es decir, para una variable discreta con más de dos resultados posibles, como por ejemplo la tirada de un dado . Por otro lado, la distribución categórica es un caso especial de la distribución multinomial , ya que proporciona las probabilidades de resultados potenciales de un solo sorteo en lugar de múltiples sorteos.

Terminología

Ocasionalmente, la distribución categórica se denomina "distribución discreta". Sin embargo, esto propiamente no se refiere a una familia particular de distribuciones sino a una clase general de distribuciones .

En algunos campos, como el aprendizaje automático y el procesamiento del lenguaje natural , las distribuciones categóricas y multinomiales se combinan, y es común hablar de una "distribución multinomial" cuando una "distribución categórica" ​​sería más precisa. [2] Este uso impreciso se debe al hecho de que a veces es conveniente expresar el resultado de una distribución categórica como un vector "1 de K " (un vector con un elemento que contiene un 1 y todos los demás elementos que contienen un 0). en lugar de como un número entero en el rango de 1 a K ; De esta forma, una distribución categórica es equivalente a una distribución multinomial para una sola observación (ver más abajo).

Sin embargo, combinar las distribuciones categóricas y multinomiales puede generar problemas. Por ejemplo, en una distribución multinomial de Dirichlet , que surge comúnmente en los modelos de procesamiento del lenguaje natural (aunque generalmente no con este nombre) como resultado del muestreo de Gibbs colapsado donde las distribuciones de Dirichlet se colapsan a partir de un modelo bayesiano jerárquico , es muy importante distinguir categórico de multinomial. La distribución conjunta de las mismas variables con la misma distribución multinomial de Dirichlet tiene dos formas diferentes dependiendo de si se caracteriza como una distribución cuyo dominio es sobre nodos categóricos individuales o sobre recuentos de nodos de estilo multinomial en cada categoría particular (similar a la distinción entre un conjunto de nodos distribuidos por Bernoulli y un único nodo distribuido binomial ). Ambas formas tienen funciones de masa de probabilidad (PMF) de aspecto muy similar , que hacen referencia a recuentos de nodos de estilo multinomial en una categoría. Sin embargo, la PMF de estilo multinomial tiene un factor adicional, un coeficiente multinomial , que es una constante igual a 1 en la PMF de estilo categórico. Confundir ambos puede conducir fácilmente a resultados incorrectos en entornos donde este factor adicional no es constante con respecto a las distribuciones de interés. El factor es frecuentemente constante en los condicionales completos utilizados en el muestreo de Gibbs y en las distribuciones óptimas en los métodos variacionales .

Formular distribuciones

Una distribución categórica es una distribución de probabilidad discreta cuyo espacio muestral es el conjunto de k elementos identificados individualmente. Es la generalización de la distribución de Bernoulli para una variable aleatoria categórica .

En una formulación de la distribución, el espacio muestral se considera una secuencia finita de números enteros. Los números enteros exactos utilizados como etiquetas no son importantes; podrían ser {0, 1, ..., k  − 1} o {1, 2, ..., k } o cualquier otro conjunto arbitrario de valores. En las siguientes descripciones, usamos {1, 2, ..., k } por conveniencia, aunque esto no está de acuerdo con la convención de la distribución de Bernoulli , que usa {0, 1}. En este caso, la función de masa de probabilidad f es:

donde , representa la probabilidad de ver el elemento i y .

Otra formulación que parece más compleja pero que facilita las manipulaciones matemáticas es la siguiente, utilizando el corchete de Iverson : [3]

donde se evalúa como 1 si , 0 en caso contrario. Hay varias ventajas de esta formulación, por ejemplo:

Otra formulación más hace explícita la conexión entre las distribuciones categórica y multinomial al tratar la distribución categórica como un caso especial de la distribución multinomial en el que el parámetro n de la distribución multinomial (el número de elementos muestreados) se fija en 1. En esta formulación , el espacio muestral puede considerarse como el conjunto de vectores aleatorios x codificados [4] 1 de K de dimensión k que tienen la propiedad de que exactamente un elemento tiene el valor 1 y los demás tienen el valor 0. El elemento particular que tiene el valor 1 indica qué categoría se ha elegido. La función de masa de probabilidad f en esta formulación es:

donde representa la probabilidad de ver el elemento i y . Esta es la formulación adoptada por Bishop . [4] [nota 1]

Propiedades

Las posibles probabilidades para la distribución categórica con son 2-simplex , incrustadas en 3 espacios.
donde I es la función indicadora . Entonces Y tiene una distribución que es un caso especial de la distribución multinomial con parámetro . La suma de variables aleatorias independientes e idénticamente distribuidas Y construidas a partir de una distribución categórica con parámetro tiene una distribución multinomial con parámetros y

Inferencia bayesiana usando conjugado previo

En estadística bayesiana , la distribución de Dirichlet es la distribución previa conjugada de la distribución categórica (y también la distribución multinomial ). Esto significa que en un modelo que consta de un punto de datos que tiene una distribución categórica con un vector de parámetro desconocido p , y (en estilo bayesiano estándar) elegimos tratar este parámetro como una variable aleatoria y darle una distribución previa definida usando una distribución de Dirichlet . entonces la distribución posterior del parámetro, después de incorporar el conocimiento adquirido a partir de los datos observados, también es un Dirichlet. Intuitivamente, en tal caso, a partir de lo que se sabe sobre el parámetro antes de observar el punto de datos, el conocimiento puede actualizarse en función del punto de datos, generando una nueva distribución de la misma forma que la anterior. De este modo, el conocimiento de un parámetro puede actualizarse sucesivamente incorporando nuevas observaciones una a una, sin encontrar dificultades matemáticas.

Formalmente, esto se puede expresar de la siguiente manera. Dado un modelo

entonces se cumple lo siguiente: [2]

Esta relación se utiliza en la estadística bayesiana para estimar el parámetro subyacente p de una distribución categórica dada una colección de N muestras. Intuitivamente, podemos ver el vector hiperprior α como pseudocuentas , es decir, como una representación del número de observaciones en cada categoría que ya hemos visto. Luego simplemente sumamos los recuentos de todas las nuevas observaciones (el vector c ) para derivar la distribución posterior.

Más intuición proviene del valor esperado de la distribución posterior (ver el artículo sobre la distribución de Dirichlet ):

Esto dice que la probabilidad esperada de ver una categoría i entre las diversas distribuciones discretas generadas por la distribución posterior es simplemente igual a la proporción de ocurrencias de esa categoría realmente observadas en los datos, incluidos los pseudoconteos en la distribución anterior. Esto tiene mucho sentido intuitivo: si, por ejemplo, hay tres categorías posibles y la categoría 1 se ve en los datos observados el 40% del tiempo, uno esperaría, en promedio, ver la categoría 1 el 40% del tiempo en la distribución posterior también.

(Esta intuición ignora el efecto de la distribución anterior. Además, la distribución posterior es una distribución sobre distribuciones . La distribución posterior en general describe el parámetro en cuestión y, en este caso, el parámetro en sí es una distribución de probabilidad discreta , es decir, la distribución categórica real. distribución que generó los datos. Por ejemplo, si hay 3 categorías en la proporción 40:5:55 en los datos observados, entonces se ignora el efecto de la distribución anterior, el parámetro verdadero, es decir, la distribución subyacente verdadera que generó nuestros datos observados. – se esperaría que tuviera el valor promedio de (0.40,0.05,0.55), que es de hecho lo que revela la distribución posterior. Sin embargo, la verdadera distribución podría ser en realidad (0.35,0.07,0.58) o (0.42,0.04,0.54) o. varias otras posibilidades cercanas. La cantidad de incertidumbre involucrada aquí está especificada por la varianza del posterior, que está controlada por el número total de observaciones: cuantos más datos se observen, menor será la incertidumbre sobre el parámetro verdadero).

(Técnicamente, en realidad se debe considerar que el parámetro anterior representa observaciones anteriores de categoría . Luego, el parámetro posterior actualizado representa observaciones posteriores. Esto refleja el hecho de que una distribución de Dirichlet tiene una forma completamente plana, esencialmente, una distribución uniforme sobre el simplex de posibles valores de p Lógicamente, una distribución plana de este tipo representa una ignorancia total, que no corresponde a observaciones de ningún tipo. Sin embargo, la actualización matemática del posterior funciona bien si ignoramos el término y simplemente pensamos en el vector α como directamente. representar un conjunto de pseudocuentas. Además, hacer esto evita el problema de interpretar valores menores que 1.)

Estimación de mapa

La estimación máxima a posteriori del parámetro p en el modelo anterior es simplemente la moda de la distribución de Dirichlet posterior , es decir, [2]

En muchas aplicaciones prácticas, la única forma de garantizar la condición es establecerla para todos i .

probabilidad marginal

En el modelo anterior, la probabilidad marginal de las observaciones (es decir, la distribución conjunta de las observaciones, con el parámetro anterior marginado ) es una distribución multinomial de Dirichlet : [2]

Esta distribución juega un papel importante en los modelos bayesianos jerárquicos , porque al hacer inferencias sobre dichos modelos utilizando métodos como el muestreo de Gibbs o el Bayes variacional , las distribuciones previas de Dirichlet a menudo quedan marginadas. Consulte el artículo sobre esta distribución para obtener más detalles.

Distribución predictiva posterior

La distribución predictiva posterior de una nueva observación en el modelo anterior es la distribución que tomaría una nueva observación dado el conjunto de N observaciones categóricas. Como se muestra en el artículo sobre distribución multinomial de Dirichlet , tiene una forma muy simple: [2]

Existen varias relaciones entre esta fórmula y las anteriores:

La razón de la equivalencia entre la probabilidad predictiva posterior y el valor esperado de la distribución posterior de p es evidente al reexaminar la fórmula anterior. Como se explica en el artículo sobre distribución predictiva posterior , la fórmula para la probabilidad predictiva posterior tiene la forma de un valor esperado tomado con respecto a la distribución posterior:

La línea crucial anterior es la tercera. El segundo se deriva directamente de la definición de valor esperado. La tercera línea es particular de la distribución categórica y se deriva del hecho de que, específicamente en la distribución categórica, el valor esperado de ver un valor particular i está directamente especificado por el parámetro asociado pi . La cuarta línea es simplemente una reescritura de la tercera en una notación diferente, usando la notación más arriba para una expectativa tomada con respecto a la distribución posterior de los parámetros.

Observe los puntos de datos uno por uno y cada vez considere su probabilidad predictiva antes de observar el punto de datos y actualizar el posterior. Para cualquier punto de datos dado, la probabilidad de que ese punto asuma una categoría determinada depende del número de puntos de datos que ya están en esa categoría. En este escenario, si una categoría tiene una alta frecuencia de aparición, es más probable que se unan nuevos puntos de datos a esa categoría, enriqueciendo aún más la misma categoría. Este tipo de escenario a menudo se denomina modelo de apego preferencial (o "los ricos se hacen más ricos"). Esto modela muchos procesos del mundo real y, en tales casos, las elecciones realizadas por los primeros puntos de datos tienen una influencia enorme en el resto de los puntos de datos.

Distribución condicional posterior

En el muestreo de Gibbs , normalmente es necesario recurrir a distribuciones condicionales en redes Bayes de múltiples variables donde cada variable está condicionada a todas las demás. En redes que incluyen variables categóricas con antecedentes de Dirichlet (por ejemplo, modelos mixtos y modelos que incluyen componentes mixtos), las distribuciones de Dirichlet a menudo se "colapsan" ( marginan ) de la red, lo que introduce dependencias entre los diversos nodos categóricos que dependen de un anterior determinado. (Específicamente, su distribución conjunta es una distribución multinomial de Dirichlet ). Una de las razones para hacer esto es que en tal caso, la distribución de un nodo categórico dados los demás es exactamente la distribución predictiva posterior de los nodos restantes.

Es decir, para un conjunto de nodos , si el nodo en cuestión se denota como y el resto como , entonces

donde es el número de nodos que tienen categoría i entre los nodos distintos del nodo n .

Muestreo

Hay varios métodos , pero la forma más común de muestrear a partir de una distribución categórica utiliza un tipo de muestreo por transformación inversa :

Supongamos que una distribución se expresa como "proporcional a" alguna expresión, con una constante de normalización desconocida . Antes de tomar muestras, se preparan algunos valores de la siguiente manera:

  1. Calcule el valor no normalizado de la distribución para cada categoría.
  2. Resúmelos y divide cada valor por esta suma, para normalizarlos .
  3. Imponga algún tipo de orden a las categorías (por ejemplo, mediante un índice que vaya de 1 a k , donde k es el número de categorías).
  4. Convierta los valores a una función de distribución acumulativa (CDF) reemplazando cada valor con la suma de todos los valores anteriores. Esto se puede hacer en el tiempo O(k) . El valor resultante para la primera categoría será 0.

Luego, cada vez que sea necesario muestrear un valor:

  1. Elija un número distribuido uniformemente entre 0 y 1.
  2. Ubique el mayor número en el CDF cuyo valor sea menor o igual al número que acaba de elegir. Esto se puede hacer en el tiempo O(log(k)) , mediante búsqueda binaria .
  3. Devuelve la categoría correspondiente a este valor CDF.

Si es necesario extraer muchos valores de la misma distribución categórica, el siguiente enfoque es más eficiente. Extrae n muestras en tiempo O(n) (suponiendo que se utiliza una aproximación O(1) para extraer valores de la distribución binomial [6] ).

función draw_categorical(n) // donde n es el número de muestras a extraer de la distribución categórica r = 1 s = 0 para i de 1 a k // donde k es el número de categorías v = extraer de una distribución binomial(n, p[i] / r) // donde p[i] es la probabilidad de la categoría i para j de 1 a v z[s++] = i // donde z es una matriz en la que se almacenan los resultados norte = norte - v r = r - p[yo] mezclar (reordenar aleatoriamente) los elementos en z regresar z

Muestreo a través de la distribución Gumbel.

En el aprendizaje automático es típico parametrizar la distribución categórica, mediante una representación sin restricciones en , cuyos componentes vienen dados por:

¿Dónde hay una constante real? Dada esta representación, se puede recuperar usando la función softmax , que luego se puede muestrear usando las técnicas descritas anteriormente. Sin embargo, existe un método de muestreo más directo que utiliza muestras de la distribución de Gumbel . [7] Sean k extracciones independientes de la distribución estándar de Gumbel, entonces

será una muestra de la distribución categórica deseada. (Si es una muestra de la distribución uniforme estándar , entonces es una muestra de la distribución estándar de Gumbel).

Ver también

Distribuciones relacionadas

Notas

  1. ^ Sin embargo, Bishop no utiliza explícitamente el término distribución categórica.

Referencias

  1. ^ Murphy, KP (2012). Aprendizaje automático: una perspectiva probabilística , p. 35. Prensa del MIT. ISBN  0262018020 .
  2. ^ abcdef Minka, T. (2003) Inferencia bayesiana, entropía y distribución multinomial. Informe técnico Microsoft Research.
  3. ^ Minka, T. (2003), op. cit. Minka utiliza la función delta de Kronecker , similar pero menos general que el soporte de Iverson .
  4. ^ ab Bishop, C. (2006) Reconocimiento de patrones y aprendizaje automático , Springer. ISBN 0-387-31073-8
  5. ^ Johnson, NL, Kotz, S., Balakrishnan, N. (1997) Distribuciones multivariadas discretas , Wiley. ISBN 0-471-12844-9 (pág.105) 
  6. ^ Agresti, A., Introducción al análisis de datos categóricos, Wiley-Interscience, 2007, ISBN 978-0-471-22618-5 , págs.25 
  7. ^ Adams, Ryan. "El truco de Gumbel-Max para distribuciones discretas".