stringtranslate.com

modelo de tema

En estadística y procesamiento del lenguaje natural , un modelo de tema es un tipo de modelo estadístico para descubrir los "temas" abstractos que ocurren en una colección de documentos. El modelado de temas es una herramienta de extracción de textos de uso frecuente para descubrir estructuras semánticas ocultas en el cuerpo de un texto. Intuitivamente, dado que un documento trata sobre un tema en particular, uno esperaría que determinadas palabras aparecieran en el documento con mayor o menor frecuencia: "perro" y "hueso" aparecerán con mayor frecuencia en documentos sobre perros, "gato" y "miau". aparecerá en documentos sobre gatos, y "el" y "es" aparecerán aproximadamente por igual en ambos. Un documento suele abordar varios temas en diferentes proporciones; por lo tanto, en un documento que trata 10% sobre gatos y 90% sobre perros, probablemente habría aproximadamente 9 veces más palabras de perros que de gatos. Los "temas" producidos por las técnicas de modelado de temas son grupos de palabras similares. Un modelo de temas captura esta intuición en un marco matemático, que permite examinar un conjunto de documentos y descubrir, con base en las estadísticas de las palabras de cada uno, cuáles podrían ser los temas y cuál es el equilibrio de temas de cada documento.

Los modelos temáticos también se conocen como modelos temáticos probabilísticos, que se refieren a algoritmos estadísticos para descubrir las estructuras semánticas latentes de un cuerpo de texto extenso. En la era de la información, la cantidad de material escrito que encontramos cada día simplemente supera nuestra capacidad de procesamiento. Los modelos de temas pueden ayudar a organizar y ofrecernos información para comprender grandes colecciones de cuerpos de texto no estructurados. Desarrollados originalmente como una herramienta de extracción de textos, los modelos temáticos se han utilizado para detectar estructuras instructivas en datos como información genética, imágenes y redes. También tienen aplicaciones en otros campos como la bioinformática [1] y la visión por ordenador . [2]

Historia

Papadimitriou, Raghavan, Tamaki y Vempala describieron uno de los primeros modelos temáticos en 1998. [3] Otro, llamado análisis semántico latente probabilístico (PLSA), fue creado por Thomas Hofmann en 1999. [4] Asignación latente de Dirichlet (LDA), Quizás el modelo temático más común actualmente en uso es una generalización de PLSA. Desarrollado por David Blei , Andrew Ng y Michael I. Jordan en 2002, LDA introduce distribuciones previas dispersas de Dirichlet sobre las distribuciones documento-tema y tema-palabra, codificando la intuición de que los documentos cubren una pequeña cantidad de temas y que los temas a menudo usan una pequeña cantidad. número de palabras. [5] Otros modelos de temas son generalmente extensiones de LDA, como la asignación de Pachinko , que mejora LDA al modelar correlaciones entre temas además de las correlaciones de palabras que constituyen temas. El análisis de árbol latente jerárquico (HLTA) es una alternativa a LDA, que modela la coocurrencia de palabras utilizando un árbol de variables latentes y los estados de las variables latentes, que corresponden a grupos suaves de documentos, se interpretan como temas.

Animación del proceso de detección de temas en una matriz documento-palabra mediante biclustering . Cada columna corresponde a un documento, cada fila a una palabra. Una celda almacena la frecuencia de una palabra en un documento, y las celdas oscuras indican frecuencias altas de palabras. Este procedimiento agrupa documentos que utilizan palabras similares, ya que agrupa palabras que aparecen en un conjunto similar de documentos. A estos grupos de palabras se les llama temas. Los modelos temáticos más habituales, como LDA, sólo agrupan documentos, basándose en un mecanismo más sofisticado y probabilístico.

Modelos temáticos para información contextual.

Los enfoques para la información temporal incluyen la determinación de Block y Newman de la dinámica temporal de los temas en la Pennsylvania Gazette durante 1728-1800. Griffiths y Steyvers utilizaron modelos de temas en resúmenes de la revista PNAS para identificar temas que aumentaron o disminuyeron en popularidad entre 1991 y 2001, mientras que Lamba y Madhusushan [6] utilizaron modelos de temas en artículos de investigación de texto completo recuperados de la revista DJLIT de 1981 a 2018. En el campo de la biblioteconomía y las ciencias de la información, Lamba y Madhusudhan [6] [7] [8] [9] aplicaron modelos temáticos en diferentes recursos indios, como artículos de revistas y tesis y recursos electrónicos (ETD). Nelson [10] ha estado analizando cambios en temas a lo largo del tiempo en el Richmond Times-Dispatch para comprender los cambios y continuidades sociales y políticos en Richmond durante la Guerra Civil estadounidense . Yang, Torget y Mihalcea aplicaron métodos de modelado de temas a periódicos desde 1829 hasta 2008. Mimno utilizó el modelado de temas con 24 revistas sobre filología clásica y arqueología que abarcan 150 años para observar cómo los temas de las revistas cambian con el tiempo y cómo las revistas se vuelven más diferentes o similares a lo largo del tiempo.

Yin et al. [11] introdujo un modelo temático para documentos distribuidos geográficamente, donde las posiciones de los documentos se explican por regiones latentes que se detectan durante la inferencia.

Chang y Blei [12] incluyeron información de red entre documentos vinculados en el modelo de tema relacional, para modelar los vínculos entre sitios web.

El modelo autor-tema de Rosen-Zvi et al. [13] modela los temas asociados con los autores de documentos para mejorar la detección de temas para documentos con información de autoría.

HLTA se aplicó a una colección de artículos de investigación recientes publicados en los principales lugares de IA y aprendizaje automático. El modelo resultante se llama The AI ​​Tree. Los temas resultantes se utilizan para indexar los artículos en aipano.cse.ust.hk para ayudar a los investigadores a rastrear las tendencias de investigación e identificar artículos para leer, y ayudar a los organizadores de conferencias y editores de revistas a identificar revisores para sus presentaciones.

Para mejorar los aspectos cualitativos y la coherencia de los temas generados, algunos investigadores han explorado la eficacia de las "puntuaciones de coherencia", o de otro modo cómo los grupos (es decir, temas) extraídos por computadora se alinean con un punto de referencia humano. [14] [15] Las puntuaciones de coherencia son métricas para optimizar la cantidad de temas que se extraerán de un corpus de documentos. [dieciséis]

Algoritmos

En la práctica, los investigadores intentan ajustar los parámetros apropiados del modelo al corpus de datos utilizando una de varias heurísticas para un ajuste de máxima probabilidad. Un estudio realizado por D. Blei describe este conjunto de algoritmos. [17] Varios grupos de investigadores comenzando con Papadimitriou et al. [3] han intentado diseñar algoritmos con garantías demostrables. Suponiendo que los datos fueron realmente generados por el modelo en cuestión, intentan diseñar algoritmos que probablemente encuentren el modelo que se utilizó para crear los datos. Las técnicas utilizadas aquí incluyen la descomposición de valores singulares (SVD) y el método de los momentos . En 2012 , se introdujo un algoritmo basado en factorización matricial no negativa (NMF) que también se generaliza a modelos temáticos con correlaciones entre temas. [18]

En 2017, se aprovechó la red neuronal en el modelado de temas para hacerla más rápida en la inferencia, [19] que se ha extendido a la versión débilmente supervisada. [20]

En 2018 se propuso un nuevo enfoque para los modelos temáticos: se basa en el modelo de bloques estocástico . [21]

Debido al reciente desarrollo del LLM, el modelado de temas ha aprovechado el LLM mediante la integración contextual [22] y el ajuste fino. [23]

Aplicaciones de modelos temáticos.

A la biomedicina cuantitativa

Los modelos temáticos también se utilizan en otros contextos. A modo de ejemplo, surgieron usos de modelos temáticos en biología y investigación bioinformática. [24] Recientemente se han utilizado modelos temáticos para extraer información de un conjunto de datos de muestras genómicas de cánceres. [25] En este caso los temas son variables biológicas latentes que deben inferirse.

Al análisis de la música y la creatividad.

Los modelos temáticos se pueden utilizar para el análisis de señales continuas como la música. Por ejemplo, se utilizaron para cuantificar cómo los estilos musicales cambian con el tiempo e identificar la influencia de artistas específicos en la creación musical posterior. [26]

Ver también

Referencias

  1. ^ Blei, David (abril de 2012). "Modelos temáticos probabilísticos". Comunicaciones de la ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID  753304.
  2. ^ Cao, Liangliang y Li Fei-Fei. "Modelo de tema latente espacialmente coherente para la segmentación y clasificación simultánea de objetos y escenas". 2007 IEEE 11ª Conferencia Internacional sobre Visión por Computadora. IEEE, 2007.
  3. ^ ab Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Indización semántica latente". Actas del decimoséptimo simposio ACM SIGACT-SIGMOD-SIGART sobre principios de los sistemas de bases de datos - PODS '98 . págs. 159-168. doi :10.1145/275487.275505. ISBN 978-0897919968. S2CID  1479546. Archivado desde el original (Posdata) el 9 de mayo de 2013 . Consultado el 17 de abril de 2012 .{{cite book}}: Mantenimiento CS1: fecha y año ( enlace )
  4. ^ Hofmann, Thomas (1999). "Indización semántica latente probabilística" (PDF) . Actas de la vigésima segunda conferencia internacional anual SIGIR sobre investigación y desarrollo en recuperación de información . Archivado desde el original (PDF) el 14 de diciembre de 2010.
  5. ^ Blei, David M.; Ng, Andrés Y.; Jordania, Michael I ; Lafferty, John (enero de 2003). "Asignación latente de Dirichlet". Revista de investigación sobre aprendizaje automático . 3 : 993–1022. doi :10.1162/jmlr.2003.3.4-5.993.
  6. ^ ab Lamba, Manika junio (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi :10.1007/s11192-019-03137-5. ISSN  0138-9130. S2CID  174802673.
  7. ^ Lamba, Manika junio (2019). "Etiquetado de metadatos y modelado de predicción: estudio de caso de DESIDOC Journal of Library and Information Technology (2008-2017)". Bibliotecas digitales mundiales . 12 : 33–89. doi :10.18329/09757597/2019/12103 (inactivo el 31 de enero de 2024). ISSN  0975-7597.{{cite journal}}: Mantenimiento CS1: DOI inactivo a partir de enero de 2024 ( enlace )
  8. ^ Lamba, Manika mayo (2019). "Modelado de autor-tema de DESIDOC Journal of Library and Information Technology (2008-2017), India". Filosofía y práctica bibliotecaria .
  9. ^ Lamba, Manika septiembre (2018). Etiquetado de metadatos de tesis de biblioteconomía y ciencias de la información: Shodhganga (2013-2017) (PDF) . ETD2018: Más allá de los límites de los Bordes y los Océanos. Taiwán, Taipei.
  10. ^ Nelson, Rob. "Minando el despacho". Minando el despacho . Laboratorio de becas digitales, Universidad de Richmond . Consultado el 26 de marzo de 2021 .
  11. ^ Yin, Zhijun (2011). "Descubrimiento y comparación de temas geográficos". Actas de la vigésima conferencia internacional sobre la World Wide Web . págs. 247-256. doi :10.1145/1963405.1963443. ISBN 9781450306324. S2CID  17883132.{{cite book}}: Mantenimiento CS1: fecha y año ( enlace )
  12. ^ Chang, Jonathan (2009). "Modelos de temas relacionales para redes de documentos" (PDF) . Aistatas . 9 : 81–88.
  13. ^ Rosen-Zvi, Michal (2004). "El modelo autor-tema para autores y documentos". Actas de la XX Conferencia sobre la incertidumbre en la inteligencia artificial : 487–494. arXiv : 1207.4169 .
  14. ^ Nikolenko, Sergey (2017). "Modelado de temas para estudios cualitativos". Revista de ciencias de la información . 43 : 88-102. doi :10.1177/0165551515617393. S2CID  30657489.
  15. ^ Reverter-Rambaldi, Marcel (2022). Modelado de temas en datos espontáneos del habla (tesis de honores). Universidad Nacional de Australia. doi :10.25911/M1YF-ZF55.
  16. ^ Newman, David (2010). "Evaluación automática de la coherencia del tema". Tecnologías del lenguaje humano: Conferencia anual de 2010 del capítulo norteamericano de la Asociación de Lingüística Computacional : 100–108.
  17. ^ Blei, David M. (abril de 2012). "Introducción a los modelos temáticos probabilísticos" (PDF) . Com. ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID  753304.
  18. ^ Sanjeev Arora; Rong Ge; Ankur Moitra (abril de 2012). "Modelos de temas de aprendizaje: yendo más allá de la SVD". arXiv : 1204.1956 [cs.LG].
  19. ^ Miao, Yishu; Grefenstette, Eduardo; Blunsom, Phil (2017). "Descubrimiento de temas latentes discretos con inferencia variacional neuronal". Actas de la 34ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 2410–2419.
  20. ^ Xu, Weijie; Jiang, Xiaoyu; Sengamedu Hanumantha Rao, Srinivasan; Iannacci, Francisco; Zhao, Jinjin (2023). "vONTSS: modelado de temas neuronales semisupervisado basado en vMF con transporte óptimo". Hallazgos de la Asociación de Lingüística Computacional: ACL 2023 . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional: 4433–4457. arXiv : 2307.01226 . doi :10.18653/v1/2023.findings-acl.271.
  21. ^ Martín Gerlach; Tiago Pexioto; Eduardo Altmann (2018). "Un enfoque de red para modelos temáticos". Avances científicos . 4 (7): eaaq1360. arXiv : 1708.01677 . Código Bib : 2018SciA....4.1360G. doi :10.1126/sciadv.aaq1360. PMC 6051742 . PMID  30035215. 
  22. ^ Bianchi, Federico; Terragni, Silvia; Hovy, Dirk (2021). "La formación previa es un tema candente: la incorporación de documentos contextualizados mejora la coherencia del tema". Actas de la 59ª Reunión Anual de la Asociación de Lingüística Computacional y la 11ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (Volumen 2: Artículos breves) . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional. págs. 759–766. doi :10.18653/v1/2021.acl-short.96.
  23. ^ Xu, Weijie; Hu, Wenxiang; Wu, Fanyou; Sengamedu, Srinivasan (2023). "DeTiME: modelado de temas mejorado por difusión utilizando un LLM basado en codificador-decodificador". Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2023 . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606.
  24. ^ Liu, L.; Tang, L.; et al. (2016). "Una descripción general del modelado temático y sus aplicaciones actuales en bioinformática". SpringerPlus . 5 (1): 1608. doi : 10.1186/s40064-016-3252-8 . PMC 5028368 . PMID  27652181. S2CID  16712827. 
  25. ^ Valle, F.; Osella, M.; Caselle, M. (2020). "Un análisis de modelado de temas de datos transcriptómicos de cáncer de mama y pulmón de TCGA". Cánceres . 12 (12): 3799. doi : 10.3390/cánceres12123799 . PMC 7766023 . PMID  33339347. S2CID  229325007. 
  26. ^ Shalit, Uri; Weinshall, Dafna; Chechik, Gal (13 de mayo de 2013). "Modelado de la influencia musical con modelos temáticos". Actas de la 30ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 244–252.

Otras lecturas

enlaces externos