stringtranslate.com

Asignación latente de Dirichlet

En el procesamiento del lenguaje natural , la asignación de Dirichlet latente ( LDA ) es una red bayesiana (y, por lo tanto, un modelo estadístico generativo ) para modelar temas extraídos automáticamente en corpus textuales. La LDA es un ejemplo de un modelo de tópicos bayesiano . En este, las observaciones (por ejemplo, palabras) se recopilan en documentos y la presencia de cada palabra es atribuible a uno de los tópicos del documento. Cada documento contendrá una pequeña cantidad de tópicos.

Historia

En el contexto de la genética de poblaciones , el LDA fue propuesto por JK Pritchard , M. Stephens y P. Donnelly en 2000. [1] [2]

LDA fue aplicado en el aprendizaje automático por David Blei , Andrew Ng y Michael I. Jordan en 2003. [3]

Descripción general

Biología evolutiva y biomedicina

En biología evolutiva y biomedicina, el modelo se utiliza para detectar la presencia de variación genética estructurada en un grupo de individuos. El modelo supone que los alelos que portan los individuos en estudio tienen su origen en varias poblaciones existentes o pasadas. El modelo y varios algoritmos de inferencia permiten a los científicos estimar las frecuencias de los alelos en esas poblaciones de origen y el origen de los alelos que portan los individuos en estudio. Las poblaciones de origen se pueden interpretar ex post en términos de varios escenarios evolutivos. En los estudios de asociación , la detección de la presencia de estructura genética se considera un paso preliminar necesario para evitar la confusión .

Psicología clínica, salud mental y ciencias sociales

En la investigación en psicología clínica, el LDA se ha utilizado para identificar temas comunes de autoimágenes que experimentan los jóvenes en situaciones sociales. [4] Otros científicos sociales han utilizado el LDA para examinar grandes conjuntos de datos temáticos de debates en las redes sociales (por ejemplo, tuits sobre medicamentos recetados). [5]

Musicología

En el contexto de la musicología computacional , LDA se ha utilizado para descubrir estructuras tonales en diferentes corpus. [6]

Aprendizaje automático

Una aplicación de LDA en el aprendizaje automático (específicamente, el descubrimiento de temas , un subproblema del procesamiento del lenguaje natural ) es descubrir temas en una colección de documentos y luego clasificar automáticamente cualquier documento individual dentro de la colección en términos de cuán "relevante" es para cada uno de los temas descubiertos. Se considera que un tema es un conjunto de términos (es decir, palabras o frases individuales) que, tomados en conjunto, sugieren un tema compartido.

Por ejemplo, en una colección de documentos relacionada con animales domésticos, los términos dog (perro) , spaniel (spaniel) , beagle (beagle) , golden retriever ( perro ), puppy (cachorro ), bark (ladrido ) y woof (guau) sugerirían un tema relacionado con DOG ( perro) , mientras que los términos cat (gato) , siamese (siamés ), Maine coon (coon de Maine) , tabby (tabi) , manx (manx ), meow (maullido) , purr ( ronroneo ) y kitten (gato) sugerirían un tema relacionado con CAT (gato). Puede haber muchos más temas en la colección (por ejemplo, relacionados con la dieta, el aseo, la atención médica, el comportamiento, etc.) que no analizamos por simplicidad. ( Las palabras vacías muy comunes en un idioma (por ejemplo, "the", "an", "that", "are", "is", etc.) no discriminarían entre temas y generalmente se filtran mediante el preprocesamiento antes de que se realice LDA. El preprocesamiento también convierte los términos a sus formas léxicas "raíz" (por ejemplo, "barks", "barking" y "barked" se convertirían en "bark").

Si la colección de documentos es lo suficientemente grande, LDA descubrirá dichos conjuntos de términos (es decir, temas) basándose en la coocurrencia de términos individuales, aunque la tarea de asignar una etiqueta significativa a un tema individual (es decir, que todos los términos estén relacionados con DOG) depende del usuario y, a menudo, requiere conocimientos especializados (por ejemplo, para la recopilación de documentos técnicos). El enfoque LDA supone que:

  1. El contenido semántico de un documento se compone de la combinación de uno o más términos de uno o más temas.
  2. Ciertos términos son ambiguos y pertenecen a más de un tema, con diferente probabilidad. (Por ejemplo, el término adiestramiento puede aplicarse tanto a perros como a gatos, pero es más probable que se refiera a los perros, que se utilizan como animales de trabajo o participan en competiciones de obediencia o habilidad). Sin embargo, en un documento, la presencia de términos vecinos específicos (que pertenecen a un solo tema) desambiguará su uso.
  3. La mayoría de los documentos contienen solo una cantidad relativamente pequeña de temas. En la colección, por ejemplo, los temas individuales aparecen con diferentes frecuencias. Es decir, tienen una distribución de probabilidad, de modo que es más probable que un documento determinado contenga algunos temas que otros.
  4. Dentro de un tema, ciertos términos se utilizarán con mucha más frecuencia que otros. En otras palabras, los términos dentro de un tema también tendrán su propia distribución de probabilidad.

Cuando se emplea el aprendizaje automático LDA, ambos conjuntos de probabilidades se calculan durante la fase de entrenamiento, utilizando métodos bayesianos y un algoritmo de maximización de expectativas .

El LDA es una generalización del enfoque más antiguo del análisis semántico latente probabilístico (pLSA). El modelo pLSA es equivalente al LDA bajo una distribución previa de Dirichlet uniforme. [7] El pLSA se basa únicamente en los dos primeros supuestos anteriores y no se preocupa por el resto. Si bien ambos métodos son similares en principio y requieren que el usuario especifique la cantidad de temas que se descubrirán antes del inicio del entrenamiento (como con la agrupación de K-medias ), el LDA tiene las siguientes ventajas sobre el pLSA:

Modelo

Notación de placa que representa el modelo LDA

Con la notación de placas , que se utiliza a menudo para representar modelos gráficos probabilísticos (PGM), las dependencias entre las distintas variables se pueden capturar de forma concisa. Los cuadros son "placas" que representan réplicas, que son entidades repetidas. La placa exterior representa documentos, mientras que la placa interior representa las posiciones de palabras repetidas en un documento determinado; cada posición está asociada con una elección de tema y palabra. Los nombres de las variables se definen de la siguiente manera:

M denota el número de documentos
N es el número de palabras en un documento determinado (el documento i tiene palabras)
α es el parámetro del prior de Dirichlet en las distribuciones de temas por documento
β es el parámetro del prior de Dirichlet sobre la distribución de palabras por tema
¿Cuál es la distribución del tema para el documento i?
¿Es la distribución de palabras para el tema k?
¿Es el tema de la j -ésima palabra del documento i?
Es la palabra específica.
Notación de placas para LDA con distribuciones de tema-palabra distribuidas según Dirichlet

El hecho de que W esté en gris significa que las palabras son las únicas variables observables y las otras variables son variables latentes . Como se propuso en el artículo original, [3] se puede utilizar una distribución previa de Dirichlet dispersa para modelar la distribución tema-palabra, siguiendo la intuición de que la distribución de probabilidad sobre las palabras de un tema está sesgada, de modo que solo un pequeño conjunto de palabras tiene alta probabilidad. El modelo resultante es la variante más ampliamente aplicada de LDA en la actualidad. La notación de placa para este modelo se muestra a la derecha, donde denota el número de temas y son vectores dimensionales que almacenan los parámetros de las distribuciones tema-palabra distribuidas por Dirichlet ( es el número de palabras en el vocabulario).

Resulta útil pensar en las entidades representadas por y como matrices creadas al descomponer la matriz documento-palabra original que representa el corpus de documentos que se está modelando. En esta perspectiva, consta de filas definidas por documentos y columnas definidas por temas, mientras que consta de filas definidas por temas y columnas definidas por palabras. Por lo tanto, se refiere a un conjunto de filas o vectores, cada uno de los cuales es una distribución sobre palabras, y se refiere a un conjunto de filas, cada uno de los cuales es una distribución sobre temas.

Proceso generativo

Para inferir realmente los temas de un corpus, imaginamos un proceso generativo mediante el cual se crean los documentos, de modo que podamos inferirlos o aplicarles ingeniería inversa. Imaginamos el proceso generativo de la siguiente manera. Los documentos se representan como mezclas aleatorias sobre temas latentes, donde cada tema se caracteriza por una distribución sobre todas las palabras. LDA supone el siguiente proceso generativo para un corpus que consta de documentos, cada uno de ellos de longitud :

1. Elija , donde y es una distribución de Dirichlet con un parámetro simétrico que normalmente es escaso ( )

2. Elija , donde y normalmente es escaso

3. Para cada una de las posiciones de las palabras , donde , y

(a) Elija un tema
(b) Elige una palabra

(Tenga en cuenta que la distribución multinomial aquí se refiere a la distribución multinomial con un solo ensayo, que también se conoce como distribución categórica ).

Las longitudes se tratan como independientes de todas las demás variables generadoras de datos ( y ). El subíndice suele omitirse, como en los diagramas de placas que se muestran aquí.

Definición

Una descripción formal de LDA es la siguiente:

Podemos entonces describir matemáticamente las variables aleatorias de la siguiente manera:

Inferencia

Aprender las distintas distribuciones (el conjunto de temas, sus probabilidades de palabras asociadas, el tema de cada palabra y la mezcla particular de temas de cada documento) es un problema de inferencia estadística .

Simulación de Monte Carlo

El artículo original de Pritchard et al. [1] utilizó la aproximación de la distribución posterior mediante simulación de Monte Carlo. Las técnicas de inferencia propuestas alternativamente incluyen el muestreo de Gibbs . [8]

Bayes variacional

El artículo original de ML utilizó una aproximación de Bayes variacional de la distribución posterior . [3]

Maximización de probabilidad

Una optimización directa de la probabilidad con un algoritmo de relajación de bloques demuestra ser una alternativa rápida al MCMC. [9]

Número desconocido de poblaciones/temas

En la práctica, el número óptimo de poblaciones o temas no se conoce de antemano. Se puede estimar mediante la aproximación de la distribución posterior con el método Monte Carlo de cadena de Markov con saltos reversibles . [10]

Enfoques alternativos

Los enfoques alternativos incluyen la propagación de expectativas . [11]

Las investigaciones recientes se han centrado en acelerar la inferencia de la asignación de Dirichlet latente para respaldar la captura de una cantidad masiva de temas en una gran cantidad de documentos. La ecuación de actualización del muestreador de Gibbs colapsado mencionado en la sección anterior tiene una escasez natural dentro de ella que se puede aprovechar. Intuitivamente, dado que cada documento solo contiene un subconjunto de temas y una palabra también solo aparece en un subconjunto de temas , la ecuación de actualización anterior podría reescribirse para aprovechar esta escasez. [12]

En esta ecuación, tenemos tres términos, de los cuales dos son escasos y el otro es pequeño. Los llamamos términos y respectivamente. Ahora, si normalizamos cada término sumando todos los tópicos, obtenemos:

Aquí, podemos ver que es una suma de los temas que aparecen en el documento , y también es una suma dispersa de los temas a los que se asigna una palabra en todo el corpus. por otro lado, es denso pero debido a los pequeños valores de & , el valor es muy pequeño en comparación con los otros dos términos.

Ahora, al muestrear un tema, si muestreamos una variable aleatoria de manera uniforme de , podemos verificar en qué grupo cae nuestra muestra. Dado que es pequeño, es muy poco probable que caigamos en este grupo; sin embargo, si caemos en este grupo, muestrear un tema lleva tiempo (igual que el muestreador de Gibbs colapsado original). Sin embargo, si caemos en los otros dos grupos, solo necesitamos verificar un subconjunto de temas si mantenemos un registro de los temas dispersos. Un tema se puede muestrear del grupo en el tiempo, y un tema se puede muestrear del grupo en el tiempo donde y denota la cantidad de temas asignados al documento actual y al tipo de palabra actual respectivamente.

Tenga en cuenta que después de muestrear cada tema, la actualización de estos grupos se realiza mediante operaciones aritméticas básicas.

Aspectos de los detalles computacionales

A continuación se presenta la derivación de las ecuaciones para el muestreo de Gibbs colapsado , lo que significa que s y s se integrarán. Para simplificar, en esta derivación se supone que todos los documentos tienen la misma longitud . La derivación es igualmente válida si las longitudes de los documentos varían.

Según el modelo, la probabilidad total del modelo es:

donde las variables en negrita indican la versión vectorial de las variables. Primero, y deben integrarse.

Todos los s son independientes entre sí y lo mismo para todos los s. Por lo tanto, podemos tratar cada uno por separado. Ahora nos centraremos solo en la parte.

Podemos centrarnos en uno solo como los siguientes:

En realidad, es la parte oculta del modelo del documento. Ahora reemplazamos las probabilidades en la ecuación anterior por la expresión de distribución verdadera para escribir la ecuación explícita.

Sea la cantidad de tokens de palabras en el documento con el mismo símbolo de palabra (la palabra en el vocabulario) asignado al tema. Por lo tanto, es tridimensional. Si alguna de las tres dimensiones no está limitada a un valor específico, usamos un punto entre paréntesis para indicarlo. Por ejemplo, indica la cantidad de tokens de palabras en el documento asignados al tema. Por lo tanto, la parte más a la derecha de la ecuación anterior se puede reescribir como:

Así que la fórmula de integración se puede cambiar a:

La ecuación dentro de la integración tiene la misma forma que la distribución de Dirichlet . Según la distribución de Dirichlet ,

De este modo,

Ahora nos centraremos en la parte. En realidad, la derivación de la parte es muy similar a la parte. Aquí solo enumeramos los pasos de la derivación:

Para mayor claridad, aquí escribimos la ecuación final con ambos y integrados:

El objetivo del muestreo de Gibbs es aproximar la distribución de . Como es invariable para cualquiera de Z, las ecuaciones de muestreo de Gibbs se pueden derivar directamente de . El punto clave es derivar la siguiente probabilidad condicional:

donde denota la variable oculta del token de palabra en el documento. Y además asumimos que el símbolo de palabra es la palabra en el vocabulario. denota todos los s excepto . Tenga en cuenta que el muestreo de Gibbs solo necesita muestrear un valor para , de acuerdo con la probabilidad anterior, no necesitamos el valor exacto de

pero las razones entre las probabilidades que pueden tomar valor. Por lo tanto, la ecuación anterior se puede simplificar como:

Finalmente, sea el mismo significado que pero con la función gamma excluida. La ecuación anterior se puede simplificar aún más aprovechando la propiedad de la función gamma . Primero dividimos la suma y luego la volvemos a fusionar para obtener una suma independiente de , que se puede descartar:

Tenga en cuenta que la misma fórmula se deriva en el artículo sobre la distribución multinomial de Dirichlet , como parte de una discusión más general sobre la integración de valores a priori de la distribución de Dirichlet a partir de una red bayesiana .

Problemas relacionados

Modelos relacionados

El modelado de temas es una solución clásica al problema de recuperación de información utilizando datos vinculados y tecnología de web semántica. [13] Los modelos y técnicas relacionados son, entre otros, la indexación semántica latente , el análisis de componentes independientes , la indexación semántica latente probabilística , la factorización matricial no negativa y la distribución Gamma-Poisson .

El modelo LDA es altamente modular y por lo tanto puede extenderse fácilmente. El principal campo de interés es modelar las relaciones entre temas. Esto se logra utilizando otra distribución en el símplex en lugar del Dirichlet. El modelo de temas correlacionados [14] sigue este enfoque, induciendo una estructura de correlación entre temas utilizando la distribución normal logística en lugar del Dirichlet. Otra extensión es el LDA jerárquico (hLDA), [15] donde los temas se unen en una jerarquía utilizando el proceso de restaurante chino anidado , cuya estructura se aprende a partir de los datos. El LDA también se puede extender a un corpus en el que un documento incluye dos tipos de información (por ejemplo, palabras y nombres), como en el modelo LDA-dual. [16] Las extensiones no paramétricas del LDA incluyen el modelo de mezcla de procesos Dirichlet jerárquico , que permite que el número de temas sea ilimitado y se aprenda a partir de los datos.

Como se señaló anteriormente, pLSA es similar a LDA. El modelo LDA es esencialmente la versión bayesiana del modelo pLSA. La formulación bayesiana tiende a funcionar mejor en conjuntos de datos pequeños porque los métodos bayesianos pueden evitar el sobreajuste de los datos. Para conjuntos de datos muy grandes, los resultados de los dos modelos tienden a converger. Una diferencia es que pLSA utiliza una variable para representar un documento en el conjunto de entrenamiento. Entonces, en pLSA, cuando se presenta un documento que el modelo no ha visto antes, fijamos —la probabilidad de palabras bajo temas— para que sea la aprendida del conjunto de entrenamiento y usamos el mismo algoritmo EM para inferir —la distribución de temas bajo . Blei sostiene que este paso es hacer trampa porque esencialmente estás reajustando el modelo a los nuevos datos.

Modelos espaciales

En biología evolutiva, suele ser natural suponer que las ubicaciones geográficas de los individuos observados aportan cierta información sobre su ascendencia. Esta es la razón de ser de varios modelos para datos genéticos georreferenciados. [10] [17]

Se han utilizado variaciones de LDA para colocar automáticamente imágenes naturales en categorías, como "dormitorio" o "bosque", tratando una imagen como un documento y pequeños fragmentos de la imagen como palabras; [18] una de las variaciones se llama asignación de Dirichlet latente espacial. [19]

Véase también

Referencias

  1. ^ ab Pritchard, JK; Stephens, M.; Donnelly, P. (junio de 2000). "Inferencia de la estructura de la población utilizando datos de genotipos de múltiples loci". Genética . 155 (2): págs . doi :10.1093/genetics/155.2.945. ISSN  0016-6731. PMC  1461096 . PMID  10835412.
  2. ^ Falush, D.; Stephens, M.; Pritchard, JK (2003). "Inferencia de la estructura de la población utilizando datos de genotipos de múltiples loci: loci vinculados y frecuencias de alelos correlacionados". Genética . 164 (4): págs . doi :10.1093/genetics/164.4.1567. PMC 1462648 . PMID  12930761. 
  3. ^ abc Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (enero de 2003). Lafferty, John (ed.). "Asignación de Dirichlet latente". Journal of Machine Learning Research . 3 (4–5): págs. 993–1022. doi :10.1162/jmlr.2003.3.4-5.993. Archivado desde el original el 1 de mayo de 2012 . Consultado el 19 de diciembre de 2006 .
  4. ^ Chiu, Kin; Clark, David; Leigh, Eleanor (julio de 2022). "Caracterización de la imaginería mental negativa en la ansiedad social adolescente". Terapia cognitiva e investigación . 46 (5): 956–966. doi :10.1007/s10608-022-10316-x. PMC 9492563 . PMID  36156987. 
  5. ^ Parker, Maria A.; Valdez, Danny; Rao, Varun K.; Eddens, Katherine S.; Agley, Jon (2023). "Resultados e implicaciones metodológicas de la epidemiología digital de las referencias a medicamentos recetados entre los usuarios de Twitter: análisis de asignación de Dirichlet latente (LDA)". Revista de investigación médica en Internet . 25 (1): e48405. doi : 10.2196/48405 . PMC 10422173 . PMID  37505795. S2CID  260246078. 
  6. ^ Lieck, Robert; Moss, Fabian C.; Rohrmeier, Martin (octubre de 2020). "El modelo de difusión tonal". Transacciones de la Sociedad Internacional para la Recuperación de Información Musical . 3 (1): págs . doi : 10.5334/tismir.46 . S2CID  225158478.
  7. ^ Girolami, Mark; Kaban, A. (2003). Sobre una equivalencia entre PLSI y LDA . Actas de SIGIR 2003. Nueva York: Association for Computing Machinery. ISBN 1-58113-646-3.
  8. ^ Griffiths, Thomas L.; Steyvers, Mark (6 de abril de 2004). "Encontrar temas científicos". Actas de la Academia Nacional de Ciencias . 101 (Supl. 1): 5228–5235. Bibcode :2004PNAS..101.5228G. doi : 10.1073/pnas.0307752101 . PMC 387300 . PMID  14872004. 
  9. ^ Alexander, David H.; Novembre, John; Lange, Kenneth (2009). "Estimación rápida basada en modelos de la ascendencia en individuos no relacionados". Genome Research . 19 (9): 1655–1664. doi :10.1101/gr.094052.109. PMC 2752134 . PMID  19648217. 
  10. ^ ab Guillot, G.; Estoup, A.; Mortier, F.; Cosson, J. (2005). "Un modelo estadístico espacial para la genética del paisaje". Genética . 170 (3): págs . doi :10.1534/genetics.104.033803. PMC 1451194 . PMID  15520263. 
  11. ^ Minka, Thomas; Lafferty, John (2002). Propagación de expectativas para el modelo de aspecto generativo (PDF) . Actas de la 18.ª Conferencia sobre incertidumbre en inteligencia artificial. San Francisco, CA: Morgan Kaufmann. ISBN 1-55860-897-4.
  12. ^ Yao, Limin; Mimno, David; McCallum, Andrew (2009). Métodos eficientes para la inferencia de modelos de temas en colecciones de documentos en tiempo real . 15.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos.
  13. ^ Lamba, Manika; Madhusudhan, Margam (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi :10.1007/s11192-019-03137-5. S2CID  174802673.
  14. ^ Blei, David M.; Lafferty, John D. (2005). "Modelos de temas correlacionados" (PDF) . Avances en sistemas de procesamiento de información neuronal . 18 .
  15. ^ Blei, David M.; Jordan, Michael I .; Griffiths, Thomas L.; Tenenbaum, Joshua B (2004). Modelos temáticos jerárquicos y el proceso de restaurante chino anidado (PDF) . Avances en sistemas de procesamiento de información neuronal 16: Actas de la conferencia de 2003. MIT Press. ISBN 0-262-20152-6.
  16. ^ Shu, Liangcai; Long, Bo; Meng, Weiyi (2009). Un modelo de tema latente para la resolución completa de entidades (PDF) . 25.ª Conferencia internacional IEEE sobre ingeniería de datos (ICDE 2009).
  17. ^ Guillot, G.; Leblois, R.; Coulon, A.; Frantz, A. (2009). "Métodos estadísticos en genética espacial". Molecular Ecology . 18 (23): págs . doi : 10.1111/j.1365-294X.2009.04410.x . PMID  19878454.
  18. ^ Li, Fei-Fei; Perona, Pietro. "Un modelo jerárquico bayesiano para el aprendizaje de categorías de escenas naturales". Actas de la Conferencia de la IEEE Computer Society de 2005 sobre visión artificial y reconocimiento de patrones (CVPR'05) . 2 : 524–531.
  19. ^ Wang, Xiaogang; Grimson, Eric (2007). "Asignación espacial latente de Dirichlet" (PDF) . Actas de la Conferencia de sistemas de procesamiento de información neuronal (NIPS) .

Enlaces externos