En teoría de la probabilidad , los procesos de Dirichlet (por la distribución asociada con Peter Gustav Lejeune Dirichlet ) son una familia de procesos estocásticos cuyas realizaciones son distribuciones de probabilidad . En otras palabras, un proceso de Dirichlet es una distribución de probabilidad cuyo rango es en sí mismo un conjunto de distribuciones de probabilidad. Se utiliza a menudo en la inferencia bayesiana para describir el conocimiento previo sobre la distribución de variables aleatorias : qué tan probable es que las variables aleatorias se distribuyan de acuerdo con una u otra distribución particular.
Por ejemplo, una bolsa de 100 dados del mundo real es una función de masa de probabilidad aleatoria (función masa de probabilidad aleatoria): para obtener una muestra de esta función masa de probabilidad aleatoria, se coloca la mano en la bolsa y se saca un dado, es decir, se extrae una función masa de probabilidad. Una bolsa de dados fabricada mediante un proceso rudimentario hace 100 años probablemente tendrá probabilidades que se desvíen enormemente de la función masa de probabilidad uniforme, mientras que una bolsa de dados de última generación que se utiliza en los casinos de Las Vegas puede tener imperfecciones apenas perceptibles. Podemos modelar la aleatoriedad de las funciones masa de probabilidad con la distribución de Dirichlet. [1]
El proceso de Dirichlet se especifica mediante una distribución base y un número real positivo llamado parámetro de concentración (también conocido como parámetro de escala). La distribución base es el valor esperado del proceso, es decir, el proceso de Dirichlet dibuja distribuciones "alrededor" de la distribución base de la misma manera que una distribución normal dibuja números reales alrededor de su media. Sin embargo, incluso si la distribución base es continua , las distribuciones extraídas del proceso de Dirichlet son casi con seguridad discretas . El parámetro de escala especifica cuán fuerte es esta discretización: en el límite de , las realizaciones están todas concentradas en un solo valor, mientras que en el límite de las realizaciones se vuelven continuas. Entre los dos extremos, las realizaciones son distribuciones discretas con cada vez menos concentración a medida que aumenta.
El proceso de Dirichlet también puede considerarse como la generalización de dimensión infinita de la distribución de Dirichlet . De la misma manera que la distribución de Dirichlet es la distribución conjugada previa de la distribución categórica , el proceso de Dirichlet es la distribución conjugada previa de distribuciones discretas infinitas y no paramétricas . Una aplicación particularmente importante de los procesos de Dirichlet es como distribución de probabilidad previa en modelos de mezcla infinita .
El proceso Dirichlet fue introducido formalmente por Thomas S. Ferguson en 1973. [2] Desde entonces se ha aplicado en minería de datos y aprendizaje automático , entre otros para el procesamiento del lenguaje natural , la visión artificial y la bioinformática .
Los procesos de Dirichlet se utilizan habitualmente cuando se modelan datos que tienden a repetir valores anteriores en un modelo denominado "los ricos se hacen más ricos". En concreto, supongamos que la generación de valores se puede simular mediante el siguiente algoritmo.
a) Con probabilidad, extraiga de .
b) Con probabilidad establecida , donde es el número de observaciones previas de .
(Formalmente, donde denota el número de elementos del conjunto).
Al mismo tiempo, otro modelo común para los datos es que se supone que las observaciones son independientes y se distribuyen de manera idéntica (iid) de acuerdo con alguna distribución (aleatoria) . El objetivo de introducir los procesos de Dirichlet es poder describir el procedimiento descrito anteriormente en este modelo iid.
Las observaciones en el algoritmo no son independientes , ya que tenemos que considerar los resultados anteriores al generar el siguiente valor. Sin embargo, son intercambiables . Este hecho se puede demostrar calculando la distribución de probabilidad conjunta de las observaciones y notando que la fórmula resultante solo depende de qué valores ocurren entre las observaciones y cuántas repeticiones tiene cada una. Debido a esta intercambiabilidad, se aplica el teorema de representación de De Finetti e implica que las observaciones son condicionalmente independientes dada una distribución (latente) . Esta es una variable aleatoria en sí misma y tiene una distribución. Esta distribución (sobre distribuciones) se llama proceso de Dirichlet ( ). En resumen, esto significa que obtenemos un procedimiento equivalente al algoritmo anterior:
En la práctica, sin embargo, es imposible trazar una distribución concreta , ya que su especificación requiere una cantidad infinita de información. Este es un fenómeno común en el contexto de las estadísticas no paramétricas bayesianas , donde una tarea típica es aprender distribuciones en espacios de funciones, que involucran efectivamente una cantidad infinita de parámetros. La idea clave es que en muchas aplicaciones las distribuciones de dimensión infinita aparecen solo como un dispositivo computacional intermedio y no son necesarias ni para la especificación inicial de creencias previas ni para la formulación de la inferencia final.
Dado un conjunto medible S , una distribución de probabilidad base H y un número real positivo , el proceso de Dirichlet es un proceso estocástico cuya trayectoria de muestra (o realización , es decir, una secuencia infinita de variables aleatorias extraídas del proceso) es una distribución de probabilidad sobre S , de modo que se cumple lo siguiente. Para cualquier partición finita medible de S , denotada ,
donde denota la distribución de Dirichlet y la notación significa que la variable aleatoria tiene la distribución .
Existen varias visiones equivalentes del proceso de Dirichlet. Además de la definición formal anterior, el proceso de Dirichlet se puede definir implícitamente a través del teorema de De Finetti como se describe en la primera sección; esto a menudo se llama el proceso del restaurante chino . Una tercera alternativa es el proceso de rotura de palos , que define el proceso de Dirichlet de manera constructiva al escribir una distribución muestreada del proceso como , donde son muestras de la distribución base , es una función indicadora centrada en (cero en todas partes excepto en ) y se definen mediante un esquema recursivo que toma muestras repetidamente de la distribución beta .
Una metáfora ampliamente utilizada para el proceso de Dirichlet se basa en el llamado proceso del restaurante chino . La metáfora es la siguiente:
Imaginemos un restaurante chino en el que entran clientes. Un nuevo cliente se sienta en una mesa con una probabilidad proporcional al número de clientes que ya están sentados allí. Además, un cliente abre una nueva mesa con una probabilidad proporcional al parámetro de escala . Después de que entran infinitos clientes, se obtiene una distribución de probabilidad sobre infinitas mesas para elegir. Esta distribución de probabilidad sobre las mesas es una muestra aleatoria de las probabilidades de las observaciones extraídas de un proceso de Dirichlet con parámetro de escala .
Si se asocian los datos extraídos de la medida base con cada tabla, la distribución resultante sobre el espacio muestral es una muestra aleatoria de un proceso de Dirichlet. El proceso del restaurante chino está relacionado con el esquema de muestreo de urnas de Pólya , que produce muestras de distribuciones finitas de Dirichlet.
Como los clientes se sientan en una mesa con una probabilidad proporcional al número de clientes que ya están sentados en la mesa, se pueden deducir dos propiedades del DP:
Un tercer enfoque del proceso de Dirichlet es el llamado proceso de ruptura de palitos. Conceptualmente, esto implica romper y descartar repetidamente una fracción aleatoria (muestreada de una distribución Beta) de un "palillo" que inicialmente tiene una longitud de 1. Recuerde que los valores extraídos de un proceso de Dirichlet son distribuciones sobre un conjunto . Como se señaló anteriormente, la distribución extraída es discreta con una probabilidad de 1. En el proceso de ruptura de palitos, usamos explícitamente la discreción y damos la función de masa de probabilidad de esta distribución discreta (aleatoria) como:
donde es la función indicadora que evalúa a cero en todas partes, excepto en . Dado que esta distribución es aleatoria en sí misma, su función de masa está parametrizada por dos conjuntos de variables aleatorias: las ubicaciones y las probabilidades correspondientes . A continuación, presentamos sin pruebas cuáles son estas variables aleatorias.
Las posiciones son independientes y se distribuyen de forma idéntica según , la distribución base del proceso de Dirichlet. Las probabilidades se dan mediante un procedimiento similar a la rotura de un palo de longitud unitaria (de ahí el nombre):
donde son variables aleatorias independientes con la distribución beta . La semejanza con 'romper un palo' se puede ver al considerar como la longitud de un trozo de palo. Comenzamos con un palo de longitud unitaria y en cada paso rompemos una porción del palo restante de acuerdo con y asignamos este trozo roto a . La fórmula se puede entender al notar que después de que los primeros k − 1 valores tienen sus porciones asignadas, la longitud del resto del palo es y este trozo se rompe de acuerdo con y se asigna a .
Cuanto más pequeño sea, menos restos quedarán para los valores posteriores (en promedio), lo que dará lugar a distribuciones más concentradas.
El proceso de ruptura de barras es similar a la construcción donde se toman muestras secuencialmente de distribuciones beta marginales para generar una muestra de una distribución de Dirichlet . [4]
Otra forma de visualizar el proceso de Dirichlet y el proceso de los restaurantes chinos es mediante un esquema de urna de Pólya modificado, a veces llamado esquema de muestreo de Blackwell-MacQueen . Imaginemos que empezamos con una urna llena de bolas negras. Luego procedemos de la siguiente manera:
La distribución resultante sobre los colores es la misma que la distribución sobre las mesas en el proceso del restaurante chino. Además, cuando extraemos una bola negra, si en lugar de generar un nuevo color, elegimos un valor aleatorio de una distribución base y usamos ese valor para etiquetar la nueva bola, la distribución resultante sobre las etiquetas será la misma que la distribución sobre los valores en un proceso de Dirichlet.
El proceso de Dirichlet se puede utilizar como distribución previa para estimar la distribución de probabilidad que genera los datos. En esta sección, consideramos el modelo
La distribución del proceso de Dirichlet satisface la conjugación previa , la consistencia posterior y el teorema de Bernstein-von Mises . [5]
En este modelo, la distribución posterior es nuevamente un proceso de Dirichlet. Esto significa que el proceso de Dirichlet es una distribución previa conjugada para este modelo. La distribución posterior está dada por
donde se define a continuación.
Si adoptamos la perspectiva frecuentista de la probabilidad, creemos que existe una distribución de probabilidad verdadera que generó los datos. Entonces resulta que el proceso de Dirichlet es consistente en la topología débil , lo que significa que para cada vecindad débil de , la probabilidad posterior de converge a .
Para interpretar los conjuntos creíbles como conjuntos de confianza, se necesita un teorema de Bernstein-von Mises . En el caso del proceso de Dirichlet, comparamos la distribución posterior con el proceso empírico . Supongamos que es una clase -Donsker, es decir
para algún puente browniano . Supongamos también que existe una función tal que tal que , entonces, casi con seguridad
Esto implica que los conjuntos creíbles que usted construye son conjuntos de confianza asintóticos, y la inferencia bayesiana basada en el proceso de Dirichlet es también una inferencia frecuentista asintóticamente válida.
Para entender qué son los procesos de Dirichlet y el problema que resuelven, consideramos el ejemplo de la agrupación de datos . Es una situación común que se suponga que los puntos de datos se distribuyen de manera jerárquica, donde cada punto de datos pertenece a un grupo (elegido aleatoriamente) y los miembros de un grupo se distribuyen aleatoriamente dentro de ese grupo.
Por ejemplo, nos podría interesar saber cómo votará la gente sobre una serie de cuestiones en unas próximas elecciones. Un modelo razonable para esta situación podría ser clasificar a cada votante como liberal, conservador o moderado y luego modelar el evento de que un votante diga "Sí" a una determinada cuestión como una variable aleatoria de Bernoulli con la probabilidad dependiendo del grupo político al que pertenece. Al observar cómo se emitieron los votos en años anteriores sobre piezas legislativas similares, se podría ajustar un modelo predictivo utilizando un algoritmo de agrupamiento simple como k -means . Ese algoritmo, sin embargo, requiere saber de antemano el número de grupos que generaron los datos. En muchas situaciones, no es posible determinar esto con antelación, e incluso cuando podemos suponer razonablemente un número de grupos, nos gustaría poder comprobar esta suposición. Por ejemplo, en el ejemplo de votación anterior, la división en liberal, conservador y moderado podría no estar lo suficientemente ajustada; atributos como la religión, la clase o la raza también podrían ser críticos para modelar el comportamiento de los votantes, lo que daría lugar a más grupos en el modelo.
Como otro ejemplo, nos podría interesar modelar las velocidades de las galaxias usando un modelo simple asumiendo que las velocidades están agrupadas, por ejemplo asumiendo que cada velocidad está distribuida de acuerdo con la distribución normal , donde la observación n pertenece al n cúmulo de galaxias con velocidad esperada común. En este caso, está lejos de ser obvio cómo determinar a priori cuántos cúmulos (de velocidades comunes) debería haber y cualquier modelo para esto sería altamente sospechoso y debería ser verificado contra los datos. Al usar un proceso de Dirichlet a priori para la distribución de los medios de cúmulos, evitamos la necesidad de especificar explícitamente de antemano cuántos cúmulos hay, aunque el parámetro de concentración todavía lo controla implícitamente.
Consideremos este ejemplo con más detalle. Un primer modelo ingenuo es presuponer que existen grupos de velocidades distribuidas normalmente con varianza fija conocida común . Denotando el evento de que la observación n está en el grupo n, podemos escribir este modelo como:
Es decir, asumimos que los datos pertenecen a grupos distintos con medias y que esa es la probabilidad previa (desconocida) de que un punto de datos pertenezca al grupo n.º. Asumimos que no tenemos información inicial que distinga los grupos, que se captura mediante la distribución previa simétrica . Aquí denota la distribución de Dirichlet y denota un vector de longitud donde cada elemento es 1. Además, asignamos distribuciones previas independientes e idénticas a cada una de las medias de los grupos, donde puede ser cualquier distribución paramétrica con parámetros denotados como . Los hiperparámetros y se toman como constantes fijas conocidas, elegidas para reflejar nuestras creencias previas sobre el sistema. Para comprender la conexión con las distribuciones previas del proceso de Dirichlet, reescribimos este modelo en una forma equivalente pero más sugerente:
En lugar de imaginar que a cada punto de datos se le asigna primero un grupo y luego se extrae de la distribución asociada a ese grupo, ahora pensamos que cada observación está asociada con un parámetro extraído de alguna distribución discreta con apoyo en las medias. Es decir, ahora estamos tratando el como extraído de la distribución aleatoria y nuestra información previa se incorpora al modelo por la distribución sobre distribuciones .
Ahora nos gustaría ampliar este modelo para que funcione sin especificar previamente un número fijo de clústeres . Matemáticamente, esto significa que nos gustaría seleccionar una distribución previa aleatoria donde los valores de las medias de los clústeres se distribuyan nuevamente de forma independiente según y la distribución sobre sea simétrica sobre el conjunto infinito de clústeres. Esto es exactamente lo que se logra con el modelo:
Con esto en la mano podemos entender mejor los méritos computacionales del proceso de Dirichlet. Supongamos que quisiéramos extraer observaciones del modelo ingenuo con exactamente clústeres. Un algoritmo simple para hacer esto sería extraer valores de de , una distribución de y luego para cada observación muestrear independientemente el clúster con probabilidad y el valor de la observación de acuerdo con . Es fácil ver que este algoritmo no funciona en el caso en que permitimos clústeres infinitos porque esto requeriría muestrear un parámetro dimensional infinito . Sin embargo, todavía es posible muestrear observaciones . Por ejemplo, se puede usar la representación del restaurante chino que se describe a continuación y calcular la probabilidad de los clústeres usados y de un nuevo clúster a crear. Esto evita tener que especificar explícitamente . Otras soluciones se basan en un truncamiento de clústeres: se introduce un límite superior (alto) para el número real de clústeres y los números de clústeres superiores al límite inferior se tratan como un clúster.
Ajustar el modelo descrito anteriormente en base a los datos observados significa encontrar la distribución posterior sobre las probabilidades de los conglomerados y sus medias asociadas. En el caso de dimensión infinita, obviamente es imposible escribir la distribución posterior explícitamente. Sin embargo, es posible extraer muestras de esta distribución posterior utilizando un muestreador de Gibbs modificado . [6] Este es el hecho crítico que hace que la distribución previa del proceso de Dirichlet sea útil para la inferencia .
Los procesos de Dirichlet se utilizan con frecuencia en las estadísticas no paramétricas bayesianas . "No paramétrico" aquí no significa un modelo sin parámetros, sino un modelo en el que las representaciones crecen a medida que se observan más datos. Los modelos no paramétricos bayesianos han ganado considerable popularidad en el campo del aprendizaje automático debido a la flexibilidad mencionada anteriormente, especialmente en el aprendizaje no supervisado . En un modelo no paramétrico bayesiano, las distribuciones previa y posterior no son distribuciones paramétricas, sino procesos estocásticos. [7] El hecho de que la distribución de Dirichlet sea una distribución de probabilidad en el símplex de conjuntos de números no negativos que suman uno la convierte en una buena candidata para modelar distribuciones sobre distribuciones o distribuciones sobre funciones. Además, la naturaleza no paramétrica de este modelo lo convierte en un candidato ideal para problemas de agrupamiento en los que se desconoce de antemano el número concreto de agrupamientos. Además, el proceso de Dirichlet también se ha utilizado para desarrollar una mezcla de modelos expertos, en el contexto de algoritmos de aprendizaje supervisado (configuraciones de regresión o clasificación). Por ejemplo, mezclas de expertos en procesos gaussianos, donde el número de expertos necesarios debe inferirse a partir de los datos. [8] [9]
Como los datos extraídos de un proceso de Dirichlet son discretos, un uso importante es como probabilidad previa en modelos de mezcla infinita . En este caso, es el conjunto paramétrico de distribuciones de componentes. Por lo tanto, el proceso generativo consiste en que se extrae una muestra de un proceso de Dirichlet y, para cada punto de datos, a su vez, se extrae un valor de esta distribución de muestra y se utiliza como distribución de componentes para ese punto de datos. El hecho de que no haya límite para la cantidad de componentes distintos que se pueden generar hace que este tipo de modelo sea apropiado para el caso en que la cantidad de componentes de la mezcla no esté bien definida de antemano. Por ejemplo, el modelo de mezcla infinita de gaussianas, [10] así como los modelos de regresión de mezcla asociados, por ejemplo [11]
La naturaleza infinita de estos modelos también los hace adecuados a aplicaciones de procesamiento del lenguaje natural , donde a menudo es deseable tratar el vocabulario como un conjunto infinito y discreto.
El proceso de Dirichlet también se puede utilizar para pruebas de hipótesis no paramétricas, es decir, para desarrollar versiones no paramétricas bayesianas de las pruebas de hipótesis no paramétricas clásicas, por ejemplo , la prueba de signos , la prueba de suma de rangos de Wilcoxon , la prueba de rangos con signo de Wilcoxon , etc. Por ejemplo, se han desarrollado versiones no paramétricas bayesianas de la prueba de suma de rangos de Wilcoxon y la prueba de rangos con signo de Wilcoxon utilizando el proceso de Dirichlet impreciso , un proceso de Dirichlet de ignorancia previa. [ cita requerida ]