Asignación de Pachinko

En el aprendizaje automático y el procesamiento del lenguaje natural , el modelo de asignación de pachinko (PAM) es un modelo de temas . Los modelos de temas son un conjunto de algoritmos para descubrir la estructura temática oculta de una colección de documentos. ^[1] El algoritmo mejora los modelos de temas anteriores, como la asignación de Dirichlet latente (LDA), al modelar las correlaciones entre temas además de las correlaciones de palabras que constituyen los temas. PAM proporciona más flexibilidad y mayor poder expresivo que la asignación de Dirichlet latente. ^[2] Si bien se describió e implementó por primera vez en el contexto del procesamiento del lenguaje natural, el algoritmo puede tener aplicaciones en otros campos, como la bioinformática . El modelo recibe su nombre de las máquinas de pachinko , un juego popular en Japón, en el que las bolas de metal rebotan alrededor de una colección compleja de bolos hasta que caen en varios contenedores en la parte inferior. ^[3]

Historia

La asignación Pachinko fue descrita por primera vez por Wei Li y Andrew McCallum en 2006. ^[3] La idea fue extendida con la asignación Pachinko jerárquica por Li, McCallum y David Mimno en 2007. ^[4] En 2007, McCallum y sus colegas propusieron un prior bayesiano no paramétrico para PAM basado en una variante del proceso Dirichlet jerárquico (HDP). ^[2] El algoritmo ha sido implementado en el paquete de software MALLET publicado por el grupo de McCallum en la Universidad de Massachusetts Amherst .

Modelo

PAM conecta palabras en V y temas en T con un gráfico acíclico dirigido arbitrario (DAG), donde los nodos de tema ocupan los niveles interiores y las hojas son palabras.

La probabilidad de generar un corpus completo es el producto de las probabilidades de cada documento: ^[3]

$P(\mathbf {D} |\alpha )=\prod _{d}P(d|\alpha )$

Véase también

Indexación semántica latente probabilística (PLSI), uno de los primeros modelos de temas de Thomas Hofmann en 1999. ^[5]
Asignación de Dirichlet latente , una generalización de PLSI desarrollada por David Blei , Andrew Ng y Michael Jordan en 2002, que permite que los documentos tengan una mezcla de temas. ^[6]
MALLET , una biblioteca Java de código abierto que implementa la asignación de Pachinko.

Referencias

^ Blei, David. «Modelado de temas». Archivado desde el original el 2 de octubre de 2012. Consultado el 4 de octubre de 2012 .
^ ab Li, Wei; Blei, David; McCallum, Andrew (2007). "Asignación de Pachinko Bayes no paramétrica". arXiv : 1206.5270 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ abc Li, Wei; McCallum, Andrew (2006). "Pachinko mapping: DAG-structured mixed models of topic correlations" (PDF) . Actas de la 23.ª conferencia internacional sobre aprendizaje automático - ICML '06 . págs. 577–584. doi :10.1145/1143844.1143917. ISBN . 1595933832. Número de identificación del sujeto 13160178.
^ Mimno, David; Li, Wei; McCallum, Andrew (2007). "Mezclas de temas jerárquicos con asignación de Pachinko" (PDF) . Actas de la 24.ª conferencia internacional sobre aprendizaje automático . págs. 633–640. doi :10.1145/1273496.1273576. ISBN . 9781595937933.S2CID6045658 .{{cite book}}: Mantenimiento CS1: fecha y año ( enlace )
^ Hofmann, Thomas (1999). "Probabilistic Latent Semantic Indexing" (PDF) . Actas de la vigésimo segunda conferencia anual internacional SIGIR sobre investigación y desarrollo en recuperación de información . Archivado desde el original (PDF) el 14 de diciembre de 2010.
^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I ; Lafferty, John (enero de 2003). "Asignación de Dirichlet latente". Journal of Machine Learning Research . 3 : págs. 993–1022. Archivado desde el original el 1 de mayo de 2012. Consultado el 19 de julio de 2010 .

Enlaces externos

Mezclas de temas jerárquicos con asignación de Pachinko, una grabación de vídeo de David Mimno presentando HPAM en 2007.