stringtranslate.com

Proceso de Dirichlet jerárquico

En estadística y aprendizaje automático , el proceso Dirichlet jerárquico ( HDP ) es un enfoque bayesiano no paramétrico para agrupar datos agrupados . [1] [2] Utiliza un proceso Dirichlet para cada grupo de datos, con los procesos Dirichlet para todos los grupos compartiendo una distribución base que se extrae a su vez de un proceso Dirichlet. Este método permite que los grupos compartan la fuerza estadística al compartir clústeres entre grupos. La distribución base que se extrae de un proceso Dirichlet es importante, porque las extracciones de un proceso Dirichlet son medidas de probabilidad atómica, y los átomos aparecerán en todos los procesos Dirichlet a nivel de grupo. Dado que cada átomo corresponde a un clúster, los clústeres se comparten entre todos los grupos. Fue desarrollado por Yee Whye Teh , Michael I. Jordan , Matthew J. Beal y David Blei y publicado en el Journal of the American Statistical Association en 2006, [1] como una formalización y generalización del modelo infinito oculto de Markov publicado en 2002. [3]

Modelo

Esta descripción del modelo se obtiene de [1] El HDP es un modelo para datos agrupados. Esto significa que los elementos de datos se encuentran en múltiples grupos distintos. Por ejemplo, en un modelo de temas , las palabras se organizan en documentos, y cada documento está formado por una bolsa (grupo) de palabras (elementos de datos). Al indexar grupos por , supongamos que cada grupo consta de elementos de datos .

El HDP está parametrizado por una distribución base que rige la distribución a priori sobre los elementos de datos y una serie de parámetros de concentración que rigen la cantidad a priori de grupos y la cantidad de compartición entre grupos. El grupo n está asociado con una medida de probabilidad aleatoria cuya distribución se determina mediante un proceso de Dirichlet:

donde es el parámetro de concentración asociado al grupo, y es la distribución base compartida por todos los grupos. A su vez, la distribución base común se distribuye según el proceso de Dirichlet:

con parámetro de concentración y distribución de base . Finalmente, para relacionar los procesos de Dirichlet con los datos observados, cada elemento de datos se asocia con un parámetro latente :

La primera línea indica que cada parámetro tiene una distribución previa dada por , mientras que la segunda línea indica que cada elemento de datos tiene una distribución parametrizada por su parámetro asociado. El modelo resultante anterior se denomina modelo de mezcla HDP, donde HDP hace referencia al conjunto de procesos de Dirichlet vinculados jerárquicamente y el modelo de mezcla hace referencia a la forma en que los procesos de Dirichlet se relacionan con los elementos de datos.

Para entender cómo la HDP implementa un modelo de agrupamiento y cómo los grupos se comparten entre grupos, recuerde que los datos extraídos de un proceso de Dirichlet son medidas de probabilidad atómica con probabilidad uno. Esto significa que la distribución de base común tiene una forma que se puede escribir como:

donde hay un número infinito de átomos, , suponiendo que la distribución de base general tiene un soporte infinito. Cada átomo está asociado con una masa . Las masas tienen que sumar uno ya que es una medida de probabilidad. Como es en sí misma la distribución de base para los procesos de Dirichlet específicos del grupo, cada uno tendrá átomos dados por los átomos de , y puede escribirse en la forma:

De este modo, el conjunto de átomos se comparte entre todos los grupos, y cada grupo tiene sus propias masas atómicas específicas. Si relacionamos esta representación con los datos observados, vemos que cada elemento de datos se describe mediante un modelo de mezcla:

donde los átomos desempeñan el papel de los parámetros de los componentes de la mezcla, mientras que las masas desempeñan el papel de las proporciones de mezcla. En conclusión, cada grupo de datos se modela utilizando un modelo de mezcla, con componentes de mezcla compartidos entre todos los grupos, pero las proporciones de mezcla son específicas del grupo. En términos de agrupamiento, podemos interpretar cada componente de la mezcla como un modelo de un grupo de elementos de datos, con grupos compartidos entre todos los grupos, y cada grupo, con sus propias proporciones de mezcla, compuestas por diferentes combinaciones de grupos.

Aplicaciones

El modelo de mezcla HDP es una generalización no paramétrica natural de la asignación de Dirichlet latente , donde el número de temas puede ser ilimitado y aprenderse de los datos. [1] Aquí cada grupo es un documento que consiste en una bolsa de palabras, cada grupo es un tema y cada documento es una mezcla de temas. El HDP también es un componente central del modelo oculto infinito de Markov, [3] que es una generalización no paramétrica del modelo oculto de Markov que permite que el número de estados sea ilimitado y se aprenda a partir de los datos. [1] [4]

Generalizaciones

El HDP se puede generalizar en varias direcciones. Los procesos de Dirichlet se pueden reemplazar por procesos de Pitman-Yor y procesos Gamma , lo que da como resultado el proceso Pitman-Yor jerárquico y el proceso Gamma jerárquico. La jerarquía puede ser más profunda, con múltiples niveles de grupos organizados en una jerarquía. Tal disposición se ha explotado en el memorizador de secuencias, un modelo no paramétrico bayesiano para secuencias que tiene una jerarquía de múltiples niveles de procesos Pitman-Yor. Además, el modelo de aprendizaje multidominio bayesiano (BMDL) deriva representaciones latentes dependientes del dominio de datos de recuento sobredispersos basados ​​en la factorización binomial negativa jerárquica para la subtipificación precisa del cáncer incluso si el número de muestras para un tipo de cáncer específico es pequeño. [5]

Véase también

Referencias

  1. ^ abcde Teh, YW; Jordan, MI; Beal, MJ; Blei, DM (2006). "Procesos jerárquicos de Dirichlet" (PDF) . Revista de la Asociación Estadounidense de Estadística . 101 (476): págs. 1566–1581. CiteSeerX  10.1.1.5.9094 . doi :10.1198/016214506000000302. S2CID  7934949.
  2. ^ Teh, YW; Jordan, MI (2010). Modelos no paramétricos bayesianos jerárquicos con aplicaciones (PDF) . Cambridge University Press . págs. 158–207. CiteSeerX 10.1.1.157.9451 . doi :10.1017/CBO9780511802478.006. ISBN  9780511802478. {{cite book}}: |journal=ignorado ( ayuda )
  3. ^ ab Beal, MJ, Ghahramani, Z. y Rasmussen, CE (2002). "El modelo infinito oculto de Markov" (PDF). Avances en sistemas de procesamiento de información neuronal 14:577–585. Cambridge, MA: MIT Press.
  4. ^ Fox, Emily B. , et al. "Un HDP-HMM pegajoso con aplicación a la diarización de hablantes". The Annals of Applied Statistics (2011): 1020-1056.
  5. ^ Hajiramezanali, E. y Dadaneh, SZ y Karbalayghareh, A. y Zhou, Z. y Qian, X. "Aprendizaje multidominio bayesiano para el descubrimiento de subtipos de cáncer a partir de datos de recuento de secuenciación de próxima generación" (PDF). 32.ª Conferencia sobre sistemas de procesamiento de información neuronal (NIPS 2018), Montreal, Canadá.