En el aprendizaje automático y el procesamiento del lenguaje natural , el modelo de asignación de pachinko (PAM) es un modelo de temas . Los modelos de temas son un conjunto de algoritmos para descubrir la estructura temática oculta de una colección de documentos. [1] El algoritmo mejora los modelos de temas anteriores, como la asignación de Dirichlet latente (LDA), al modelar las correlaciones entre temas además de las correlaciones de palabras que constituyen los temas. PAM proporciona más flexibilidad y mayor poder expresivo que la asignación de Dirichlet latente. [2] Si bien se describió e implementó por primera vez en el contexto del procesamiento del lenguaje natural, el algoritmo puede tener aplicaciones en otros campos, como la bioinformática . El modelo recibe su nombre de las máquinas de pachinko , un juego popular en Japón, en el que las bolas de metal rebotan alrededor de una colección compleja de bolos hasta que caen en varios contenedores en la parte inferior. [3]
La asignación Pachinko fue descrita por primera vez por Wei Li y Andrew McCallum en 2006. [3] La idea fue ampliada con la asignación Pachinko jerárquica por Li, McCallum y David Mimno en 2007. [4] En 2007, McCallum y sus colegas propusieron un prior bayesiano no paramétrico para PAM basado en una variante del proceso Dirichlet jerárquico (HDP). [2] El algoritmo ha sido implementado en el paquete de software MALLET publicado por el grupo de McCallum en la Universidad de Massachusetts Amherst .
PAM conecta palabras en V y temas en T con un gráfico acíclico dirigido arbitrario (DAG), donde los nodos de tema ocupan los niveles interiores y las hojas son palabras.
La probabilidad de generar un corpus completo es el producto de las probabilidades de cada documento: [3]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )