En estadística y procesamiento del lenguaje natural , un modelo de temas es un tipo de modelo estadístico para descubrir los "temas" abstractos que aparecen en una colección de documentos. El modelado de temas es una herramienta de minería de textos que se utiliza con frecuencia para descubrir estructuras semánticas ocultas en el cuerpo de un texto. Intuitivamente, dado que un documento trata sobre un tema en particular, se esperaría que aparecieran palabras particulares en el documento con mayor o menor frecuencia: "perro" y "hueso" aparecerán con mayor frecuencia en documentos sobre perros, "gato" y "miau" aparecerán en documentos sobre gatos, y "el" y "es" aparecerán aproximadamente por igual en ambos. Un documento generalmente trata sobre múltiples temas en diferentes proporciones; por lo tanto, en un documento que trata en un 10 % sobre gatos y en un 90 % sobre perros, probablemente habría aproximadamente 9 veces más palabras relacionadas con perros que con gatos. Los "temas" producidos por las técnicas de modelado de temas son grupos de palabras similares. Un modelo de temas captura esta intuición en un marco matemático, que permite examinar un conjunto de documentos y descubrir, basándose en las estadísticas de las palabras de cada uno, cuáles podrían ser los temas y cuál es el balance de temas de cada documento.
Los modelos de temas también se conocen como modelos de temas probabilísticos, que se refieren a algoritmos estadísticos para descubrir las estructuras semánticas latentes de un extenso cuerpo de texto. En la era de la información, la cantidad de material escrito que encontramos cada día simplemente supera nuestra capacidad de procesamiento. Los modelos de temas pueden ayudar a organizar y ofrecer información para que comprendamos grandes colecciones de cuerpos de texto no estructurados. Originalmente desarrollados como una herramienta de minería de texto, los modelos de temas se han utilizado para detectar estructuras instructivas en datos como información genética, imágenes y redes. También tienen aplicaciones en otros campos como la bioinformática [1] y la visión artificial [2] .
Historia
Un modelo de tema temprano fue descrito por Papadimitriou, Raghavan, Tamaki y Vempala en 1998. [3] Otro, llamado análisis semántico latente probabilístico (PLSA), fue creado por Thomas Hofmann en 1999. [4] La asignación de Dirichlet latente (LDA), quizás el modelo de tema más común actualmente en uso, es una generalización de PLSA. Desarrollado por David Blei , Andrew Ng y Michael I. Jordan en 2002, LDA introduce distribuciones previas de Dirichlet dispersas sobre distribuciones de documento-tema y tema-palabra, codificando la intuición de que los documentos cubren una pequeña cantidad de temas y que los temas a menudo usan una pequeña cantidad de palabras. [5] Otros modelos de temas son generalmente extensiones de LDA, como la asignación Pachinko , que mejora LDA al modelar correlaciones entre temas además de las correlaciones de palabras que constituyen los temas. El análisis de árboles latentes jerárquicos (HLTA) es una alternativa al LDA, que modela la coocurrencia de palabras utilizando un árbol de variables latentes y los estados de las variables latentes, que corresponden a grupos blandos de documentos, se interpretan como temas.
Modelos de temas para información de contexto
Los enfoques para la información temporal incluyen la determinación de Block y Newman de la dinámica temporal de los temas en el Pennsylvania Gazette durante 1728-1800. Griffiths y Steyvers utilizaron el modelado de temas en resúmenes de la revista PNAS para identificar temas que aumentaron o disminuyeron en popularidad entre 1991 y 2001, mientras que Lamba y Madhusushan [6] utilizaron el modelado de temas en artículos de investigación de texto completo recuperados de la revista DJLIT de 1981 a 2018. En el campo de la bibliotecología y la ciencia de la información, Lamba y Madhusudhan [6] [7] [8] [9] aplicaron el modelado de temas en diferentes recursos indios como artículos de revistas y tesis y recursos electrónicos (ETD). Nelson [10] ha estado analizando el cambio en los temas a lo largo del tiempo en el Richmond Times-Dispatch para comprender los cambios y continuidades sociales y políticas en Richmond durante la Guerra Civil estadounidense . Yang, Torget y Mihalcea aplicaron métodos de modelado de temas a periódicos desde 1829 hasta 2008. Mimno utilizó el modelado de temas con 24 revistas sobre filología clásica y arqueología que abarcan 150 años para observar cómo los temas en las revistas cambian con el tiempo y cómo las revistas se vuelven más diferentes o similares con el tiempo.
Yin et al. [11] introdujeron un modelo de temas para documentos distribuidos geográficamente, donde las posiciones de los documentos se explican mediante regiones latentes que se detectan durante la inferencia.
Chang y Blei [12] incluyeron información de red entre documentos vinculados en el modelo de temas relacionales, para modelar los vínculos entre sitios web.
El modelo autor-tema de Rosen-Zvi et al. [13] modela los temas asociados con los autores de los documentos para mejorar la detección de temas para documentos con información de autoría.
Se aplicó HLTA a una colección de artículos de investigación recientes publicados en los principales foros de IA y aprendizaje automático. El modelo resultante se llama The AI Tree. Los temas resultantes se utilizan para indexar los artículos en aipano.cse.ust.hk para ayudar a los investigadores a rastrear las tendencias de investigación e identificar artículos para leer, y ayudar a los organizadores de conferencias y editores de revistas a identificar revisores para presentaciones.
Para mejorar los aspectos cualitativos y la coherencia de los temas generados, algunos investigadores han explorado la eficacia de los "puntajes de coherencia", o de lo contrario, cómo los grupos extraídos por computadora (es decir, los temas) se alinean con un punto de referencia humano. [14] [15] Los puntajes de coherencia son métricas para optimizar la cantidad de temas a extraer de un corpus de documentos. [16]
Algoritmos
En la práctica, los investigadores intentan ajustar los parámetros del modelo apropiados al corpus de datos utilizando una de varias heurísticas para el ajuste de máxima verosimilitud. Una encuesta realizada por D. Blei describe este conjunto de algoritmos. [17]
Varios grupos de investigadores, comenzando con Papadimitriou et al. [3], han intentado diseñar algoritmos con garantías demostrables. Suponiendo que los datos fueron realmente generados por el modelo en cuestión, intentan diseñar algoritmos que probablemente encuentren el modelo que se utilizó para crear los datos. Las técnicas utilizadas aquí incluyen la descomposición en valores singulares (SVD) y el método de momentos . En 2012, se introdujo un algoritmo basado en la factorización matricial no negativa (NMF) que también se generaliza a modelos de temas con correlaciones entre temas. [18]
En 2017, se han utilizado redes neuronales en el modelado de temas para acelerar la inferencia, [19] de la que se ha ampliado la versión débilmente supervisada. [20]
Debido al reciente desarrollo de LLM, el modelado de temas ha aprovechado LLM a través de la integración contextual [22] y el ajuste fino. [23]
Aplicaciones de los modelos de tópicos
Hacia la biomedicina cuantitativa
Los modelos de tópicos también se utilizan en otros contextos. Por ejemplo, han surgido usos de modelos de tópicos en la investigación biológica y bioinformática. [24] Recientemente, los modelos de tópicos se han utilizado para extraer información de conjuntos de datos de muestras genómicas de cánceres. [25]
En este caso, los tópicos son variables biológicas latentes que se deben inferir.
Al análisis de la música y la creatividad.
Los modelos temáticos se pueden utilizar para el análisis de señales continuas como la música. Por ejemplo, se utilizaron para cuantificar cómo cambian los estilos musicales a lo largo del tiempo e identificar la influencia de artistas específicos en la creación musical posterior. [26]
^ Blei, David (abril de 2012). "Modelos de tópicos probabilísticos". Comunicaciones de la ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID 753304.
^ Cao, Liangliang y Li Fei-Fei. "Modelo de tema latente espacialmente coherente para la segmentación y clasificación simultánea de objetos y escenas". 11.ª Conferencia Internacional sobre Visión por Computador del IEEE de 2007. IEEE, 2007.
^ ab Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Indexación semántica latente". Actas del decimoséptimo simposio ACM SIGACT-SIGMOD-SIGART sobre Principios de sistemas de bases de datos - PODS '98 . págs. 159-168. doi :10.1145/275487.275505. ISBN978-0897919968. S2CID 1479546. Archivado desde el original (Postscript) el 9 de mayo de 2013. Consultado el 17 de abril de 2012 .
^ Hofmann, Thomas (1999). "Probabilistic Latent Semantic Indexing" (PDF) . Actas de la vigésimo segunda conferencia anual internacional SIGIR sobre investigación y desarrollo en recuperación de información . Archivado desde el original (PDF) el 14 de diciembre de 2010.
^ ab Lamba, Manika jun (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi :10.1007/s11192-019-03137-5. ISSN 0138-9130. S2CID 174802673.
^ Lamba, Manika jun (2019). "Etiquetado de metadatos y modelado de predicción: estudio de caso de DESIDOC Journal of Library and Information Technology (2008-2017)". Bibliotecas Digitales Mundiales . 12 : 33–89. doi :10.18329/09757597/2019/12103 (inactivo 2024-09-18). ISSN 0975-7597.{{cite journal}}: CS1 maint: DOI inactivo a partir de septiembre de 2024 ( enlace )
^ Lamba, Manika May (2019). "Modelado autor-tema de DESIDOC Journal of Library and Information Technology (2008-2017), India". Filosofía y práctica bibliotecaria .
^ Lamba, Manika septiembre (2018). Etiquetado de metadatos de tesis de biblioteconomía y ciencias de la información: Shodhganga (2013-2017) (PDF) . ETD2018: Más allá de los límites de los Bordes y los Océanos. Taiwán, Taipei.
^ Nelson, Rob. "Explotando el despacho". Explotando el despacho . Digital Scholarship Lab, Universidad de Richmond . Consultado el 26 de marzo de 2021 .
^ Yin, Zhijun (2011). "Descubrimiento y comparación de temas geográficos". Actas de la 20.ª conferencia internacional sobre la World Wide Web . pp. 247–256. doi :10.1145/1963405.1963443. ISBN9781450306324. Número de identificación del sujeto 17883132.
^ Chang, Jonathan (2009). "Modelos de temas relacionales para redes de documentos" (PDF) . Aistats . 9 : 81–88.
^ Rosen-Zvi, Michal (2004). "El modelo autor-tema para autores y documentos". Actas de la 20.ª Conferencia sobre incertidumbre en inteligencia artificial : 487–494. arXiv : 1207.4169 .
^ Nikolenko, Sergey (2017). "Modelado de temas para estudios cualitativos". Revista de Ciencias de la Información . 43 : 88–102. doi :10.1177/0165551515617393. S2CID 30657489.
^ Reverter-Rambaldi, Marcel (2022). Modelado de temas en datos de habla espontánea (tesis de honor). Universidad Nacional de Australia. doi :10.25911/M1YF-ZF55.
^ Newman, David (2010). "Evaluación automática de la coherencia de temas". Tecnologías del lenguaje humano: Conferencia anual de 2010 del Capítulo norteamericano de la Asociación de lingüística computacional : 100–108.
^ Blei, David M. (abril de 2012). "Introducción a los modelos probabilísticos de tópicos" (PDF) . Comm. ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID 753304.
^ Sanjeev Arora; Rong Ge; Ankur Moitra (abril de 2012). "Modelos de temas de aprendizaje: más allá de la SVD". arXiv : 1204.1956 [cs.LG].
^ Miao, Yishu; Grefenstette, Edward; Blunsom, Phil (2017). "Descubrimiento de temas latentes discretos con inferencia variacional neuronal". Actas de la 34.ª Conferencia internacional sobre aprendizaje automático . PMLR: 2410–2419. arXiv : 1706.00359 .
^ Xu, Weijie; Jiang, Xiaoyu; Sengamedu Hanumantha Rao, Srinivasan; Iannacci, Francis; Zhao, Jinjin (2023). "vONTSS: modelado de temas neuronales semisupervisado basado en vMF con transporte óptimo". Hallazgos de la Asociación de Lingüística Computacional: ACL 2023. Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional: 4433–4457. arXiv : 2307.01226 . doi :10.18653/v1/2023.findings-acl.271.
^ Martin Gerlach; Tiago Pexioto; Eduardo Altmann (2018). "Un enfoque de red para los modelos de tópicos". Science Advances . 4 (7): eaaq1360. arXiv : 1708.01677 . Bibcode :2018SciA....4.1360G. doi :10.1126/sciadv.aaq1360. PMC 6051742 . PMID 30035215.
^ Bianchi, Federico; Terragni, Silvia; Hovy, Dirk (2021). "El preentrenamiento es un tema candente: las incrustaciones de documentos contextualizadas mejoran la coherencia del tema". Actas de la 59.ª Reunión Anual de la Asociación de Lingüística Computacional y la 11.ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (Volumen 2: Artículos breves) . Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional. págs. 759–766. doi :10.18653/v1/2021.acl-short.96.
^ Xu, Weijie; Hu, Wenxiang; Wu, Fanyou; Sengamedu, Srinivasan (2023). "DeTiME: modelado de temas mejorado por difusión utilizando LLM basado en codificador-decodificador". Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2023. Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional: 9040–9057. arXiv : 2310.15296 . doi :10.18653/v1/2023.findings-emnlp.606.
^ Liu, L.; Tang, L.; et al. (2016). "Una descripción general del modelado de temas y sus aplicaciones actuales en bioinformática". SpringerPlus . 5 (1): 1608. doi : 10.1186/s40064-016-3252-8 . PMC 5028368 . PMID 27652181. S2CID 16712827.
^ Valle, F.; Osella, M.; Caselle, M. (2020). "Un análisis de modelado de temas de datos transcriptómicos de cáncer de mama y pulmón de TCGA". Cánceres . 12 (12): 3799. doi : 10.3390/cancers12123799 . PMC 7766023 . PMID 33339347. S2CID 229325007.
^ Shalit, Uri; Weinshall, Daphna; Chechik, Gal (13 de mayo de 2013). "Modelado de la influencia musical con modelos temáticos". Actas de la 30.ª Conferencia internacional sobre aprendizaje automático . PMLR: 244–252.
Lectura adicional
Steyvers, Mark; Griffiths, Tom (2007). "Modelos de tópicos probabilísticos". En Landauer, T.; McNamara, D.; Dennis, S.; et al. (eds.). Manual de análisis semántico latente (PDF) . Psychology Press. ISBN 978-0-8058-5418-3. Archivado desde el original (PDF) el 24 de junio de 2013.
Blei, DM; Lafferty, JD (2009). "Modelos de temas" (PDF) .
Blei, D.; Lafferty, J. (2007). "Un modelo de tópicos correlacionados de la ciencia ". Anales de Estadística Aplicada . 1 (1): 17–35. arXiv : 0708.3601 . doi :10.1214/07-AOAS114. S2CID 8872108.
Mimno, D. (abril de 2012). "Historiografía computacional: minería de datos en un siglo de revistas clásicas" (PDF) . Revista sobre informática y patrimonio cultural . 5 (1): 1–19. doi :10.1145/2160165.2160168. S2CID 12153151.
Marwick, Ben (2013). "Descubrimiento de cuestiones emergentes y controversias en antropología mediante minería de texto, modelado de temas y análisis de redes sociales de contenido de microblogs". En Yanchang, Zhao; Yonghua, Cen (eds.). Aplicaciones de minería de datos con R . Elsevier. págs. 63–93.
Jockers, M. 2010 ¿Quién es tu compañero de blog DH?: Cómo combinar el día a día de los blogueros DH con modelos de temas Matthew L. Jockers, publicado el 19 de marzo de 2010
Drouin, J. 2011 Incursión en el modelado de temas Archivo Proust eclesiástico. Publicado el 17 de marzo de 2011
Templeton, C. 2011 Modelado temático en las humanidades: una descripción general Blog sobre humanidades del Instituto de Tecnología de Maryland. Publicado el 1 de agosto de 2011
Griffiths, T.; Steyvers, M. (2004). "Encontrar temas científicos". Actas de la Academia Nacional de Ciencias . 101 (Supl. 1): 5228–35. Bibcode :2004PNAS..101.5228G. doi : 10.1073/pnas.0307752101 . PMC 387300 . PMID 14872004.
Yang, T., A. Torget y R. Mihalcea (2011) Topic Modeling on Historical Newspapers (Modelado de temas en periódicos históricos). Actas del 5.º taller ACL-HLT sobre tecnología lingüística para el patrimonio cultural, las ciencias sociales y las humanidades. The Association for Computational Linguistics (Asociación para la lingüística computacional), Madison, Wisconsin, páginas 96–104.
Block, S. (enero de 2006). "Hacer más con la digitalización: una introducción al modelado de temas de fuentes estadounidenses tempranas". Common-place the Interactive Journal of Early American Life . 6 (2).
Newman, D.; Block, S. (marzo de 2006). "Descomposición temática probabilística de un periódico del siglo XVIII" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología . 57 (5): 753–767. doi :10.1002/asi.20342. S2CID 1484286.
Enlaces externos
Mimno, David. "Bibliografía sobre modelado de temas".
Brett, Megan R. "Modelado de temas: una introducción básica". Revista de humanidades digitales.
Modelos de temas aplicados a noticias y reseñas en línea Video de una presentación de Google Tech Talk a cargo de Alice Oh sobre modelado de temas con LDA
Modelado de la ciencia: modelos temáticos dinámicos de investigación académica Vídeo de una presentación de Google Tech Talk a cargo de David M. Blei
Modelos de temas automatizados en ciencia política Vídeo de una presentación de Brandon Stewart en el taller Tools for Text, 14 de junio de 2010
Shawn Graham, Ian Milligan y Scott Weingart "Introducción a Topic Modeling y MALLET". The Programming Historian. Archivado desde el original el 28 de agosto de 2014. Consultado el 29 de mayo de 2014 .
Blei, David M. "Material introductorio y software"
Código, demostración: ejemplo de uso de LDA para modelado de temas