En estadística y procesamiento del lenguaje natural , un modelo de tema es un tipo de modelo estadístico para descubrir los "temas" abstractos que ocurren en una colección de documentos. El modelado de temas es una herramienta de extracción de textos de uso frecuente para descubrir estructuras semánticas ocultas en el cuerpo de un texto. Intuitivamente, dado que un documento trata sobre un tema en particular, uno esperaría que determinadas palabras aparecieran en el documento con mayor o menor frecuencia: "perro" y "hueso" aparecerán con mayor frecuencia en documentos sobre perros, "gato" y "miau". aparecerá en documentos sobre gatos, y "el" y "es" aparecerán aproximadamente por igual en ambos. Un documento suele abordar varios temas en diferentes proporciones; por lo tanto, en un documento que trata 10% sobre gatos y 90% sobre perros, probablemente habría aproximadamente 9 veces más palabras de perros que de gatos. Los "temas" producidos por las técnicas de modelado de temas son grupos de palabras similares. Un modelo de temas captura esta intuición en un marco matemático, que permite examinar un conjunto de documentos y descubrir, con base en las estadísticas de las palabras de cada uno, cuáles podrían ser los temas y cuál es el equilibrio de temas de cada documento.
Los modelos temáticos también se conocen como modelos temáticos probabilísticos, que se refieren a algoritmos estadísticos para descubrir las estructuras semánticas latentes de un cuerpo de texto extenso. En la era de la información, la cantidad de material escrito que encontramos cada día simplemente supera nuestra capacidad de procesamiento. Los modelos de temas pueden ayudar a organizar y ofrecernos información para comprender grandes colecciones de cuerpos de texto no estructurados. Desarrollados originalmente como una herramienta de extracción de textos, los modelos temáticos se han utilizado para detectar estructuras instructivas en datos como información genética, imágenes y redes. También tienen aplicaciones en otros campos como la bioinformática [1] y la visión por ordenador . [2]
Historia
Papadimitriou, Raghavan, Tamaki y Vempala describieron uno de los primeros modelos temáticos en 1998. [3] Otro, llamado análisis semántico latente probabilístico (PLSA), fue creado por Thomas Hofmann en 1999. [4] Asignación latente de Dirichlet (LDA), Quizás el modelo temático más común actualmente en uso es una generalización de PLSA. Desarrollado por David Blei , Andrew Ng y Michael I. Jordan en 2002, LDA introduce distribuciones previas dispersas de Dirichlet sobre las distribuciones documento-tema y tema-palabra, codificando la intuición de que los documentos cubren una pequeña cantidad de temas y que los temas a menudo usan una pequeña cantidad. número de palabras. [5] Otros modelos de temas son generalmente extensiones de LDA, como la asignación de Pachinko , que mejora LDA al modelar correlaciones entre temas además de las correlaciones de palabras que constituyen temas. El análisis de árbol latente jerárquico (HLTA) es una alternativa a LDA, que modela la coocurrencia de palabras utilizando un árbol de variables latentes y los estados de las variables latentes, que corresponden a grupos suaves de documentos, se interpretan como temas.
Modelos temáticos para información contextual.
Los enfoques para la información temporal incluyen la determinación de Block y Newman de la dinámica temporal de los temas en la Pennsylvania Gazette durante 1728-1800. Griffiths y Steyvers utilizaron modelos de temas en resúmenes de la revista PNAS para identificar temas que aumentaron o disminuyeron en popularidad entre 1991 y 2001, mientras que Lamba y Madhusushan [6] utilizaron modelos de temas en artículos de investigación de texto completo recuperados de la revista DJLIT de 1981 a 2018. En el campo de la biblioteconomía y las ciencias de la información, Lamba y Madhusudhan [6] [7] [8] [9] aplicaron modelos temáticos en diferentes recursos indios, como artículos de revistas y tesis y recursos electrónicos (ETD). Nelson [10] ha estado analizando cambios en temas a lo largo del tiempo en el Richmond Times-Dispatch para comprender los cambios y continuidades sociales y políticos en Richmond durante la Guerra Civil estadounidense . Yang, Torget y Mihalcea aplicaron métodos de modelado de temas a periódicos desde 1829 hasta 2008. Mimno utilizó el modelado de temas con 24 revistas sobre filología clásica y arqueología que abarcan 150 años para observar cómo los temas de las revistas cambian con el tiempo y cómo las revistas se vuelven más diferentes o similares a lo largo del tiempo.
Yin et al. [11] introdujo un modelo temático para documentos distribuidos geográficamente, donde las posiciones de los documentos se explican por regiones latentes que se detectan durante la inferencia.
Chang y Blei [12] incluyeron información de red entre documentos vinculados en el modelo de tema relacional, para modelar los vínculos entre sitios web.
El modelo autor-tema de Rosen-Zvi et al. [13] modela los temas asociados con los autores de documentos para mejorar la detección de temas para documentos con información de autoría.
HLTA se aplicó a una colección de artículos de investigación recientes publicados en los principales lugares de IA y aprendizaje automático. El modelo resultante se llama The AI Tree. Los temas resultantes se utilizan para indexar los artículos en aipano.cse.ust.hk para ayudar a los investigadores a rastrear las tendencias de investigación e identificar artículos para leer, y ayudar a los organizadores de conferencias y editores de revistas a identificar revisores para sus presentaciones.
Para mejorar los aspectos cualitativos y la coherencia de los temas generados, algunos investigadores han explorado la eficacia de las "puntuaciones de coherencia", o de otro modo cómo los grupos (es decir, temas) extraídos por computadora se alinean con un punto de referencia humano. [14] [15] Las puntuaciones de coherencia son métricas para optimizar la cantidad de temas que se extraerán de un corpus de documentos. [dieciséis]
Algoritmos
En la práctica, los investigadores intentan ajustar los parámetros apropiados del modelo al corpus de datos utilizando una de varias heurísticas para un ajuste de máxima probabilidad. Un estudio realizado por D. Blei describe este conjunto de algoritmos. [17]
Varios grupos de investigadores comenzando con Papadimitriou et al. [3] han intentado diseñar algoritmos con garantías demostrables. Suponiendo que los datos fueron realmente generados por el modelo en cuestión, intentan diseñar algoritmos que probablemente encuentren el modelo que se utilizó para crear los datos. Las técnicas utilizadas aquí incluyen la descomposición de valores singulares (SVD) y el método de los momentos . En 2012 , se introdujo un algoritmo basado en factorización matricial no negativa (NMF) que también se generaliza a modelos temáticos con correlaciones entre temas. [18]
En 2017, se aprovechó la red neuronal en el modelado de temas para hacerla más rápida en la inferencia, [19] que se ha extendido a la versión débilmente supervisada. [20]
Debido al reciente desarrollo del LLM, el modelado de temas ha aprovechado el LLM mediante la integración contextual [22] y el ajuste fino. [23]
Aplicaciones de modelos temáticos.
A la biomedicina cuantitativa
Los modelos temáticos también se utilizan en otros contextos. A modo de ejemplo, surgieron usos de modelos temáticos en biología y investigación bioinformática. [24] Recientemente se han utilizado modelos temáticos para extraer información de un conjunto de datos de muestras genómicas de cánceres. [25]
En este caso los temas son variables biológicas latentes que deben inferirse.
Al análisis de la música y la creatividad.
Los modelos temáticos se pueden utilizar para el análisis de señales continuas como la música. Por ejemplo, se utilizaron para cuantificar cómo los estilos musicales cambian con el tiempo e identificar la influencia de artistas específicos en la creación musical posterior. [26]
^ Blei, David (abril de 2012). "Modelos temáticos probabilísticos". Comunicaciones de la ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID 753304.
^ Cao, Liangliang y Li Fei-Fei. "Modelo de tema latente espacialmente coherente para la segmentación y clasificación simultánea de objetos y escenas". 2007 IEEE 11ª Conferencia Internacional sobre Visión por Computadora. IEEE, 2007.
^ ab Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Indización semántica latente". Actas del decimoséptimo simposio ACM SIGACT-SIGMOD-SIGART sobre principios de los sistemas de bases de datos - PODS '98 . págs. 159-168. doi :10.1145/275487.275505. ISBN978-0897919968. S2CID 1479546. Archivado desde el original (Posdata) el 9 de mayo de 2013 . Consultado el 17 de abril de 2012 .{{cite book}}: Mantenimiento CS1: fecha y año ( enlace )
^ Hofmann, Thomas (1999). "Indización semántica latente probabilística" (PDF) . Actas de la vigésima segunda conferencia internacional anual SIGIR sobre investigación y desarrollo en recuperación de información . Archivado desde el original (PDF) el 14 de diciembre de 2010.
^ ab Lamba, Manika junio (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi :10.1007/s11192-019-03137-5. ISSN 0138-9130. S2CID 174802673.
^ Lamba, Manika junio (2019). "Etiquetado de metadatos y modelado de predicción: estudio de caso de DESIDOC Journal of Library and Information Technology (2008-2017)". Bibliotecas digitales mundiales . 12 : 33–89. doi :10.18329/09757597/2019/12103 (inactivo el 31 de enero de 2024). ISSN 0975-7597.{{cite journal}}: Mantenimiento CS1: DOI inactivo a partir de enero de 2024 ( enlace )
^ Lamba, Manika mayo (2019). "Modelado de autor-tema de DESIDOC Journal of Library and Information Technology (2008-2017), India". Filosofía y práctica bibliotecaria .
^ Lamba, Manika septiembre (2018). Etiquetado de metadatos de tesis de biblioteconomía y ciencias de la información: Shodhganga (2013-2017) (PDF) . ETD2018: Más allá de los límites de los Bordes y los Océanos. Taiwán, Taipei.
^ Nelson, Rob. "Minando el despacho". Minando el despacho . Laboratorio de becas digitales, Universidad de Richmond . Consultado el 26 de marzo de 2021 .
^ Yin, Zhijun (2011). "Descubrimiento y comparación de temas geográficos". Actas de la vigésima conferencia internacional sobre la World Wide Web . págs. 247-256. doi :10.1145/1963405.1963443. ISBN9781450306324. S2CID 17883132.{{cite book}}: Mantenimiento CS1: fecha y año ( enlace )
^ Chang, Jonathan (2009). "Modelos de temas relacionales para redes de documentos" (PDF) . Aistatas . 9 : 81–88.
^ Rosen-Zvi, Michal (2004). "El modelo autor-tema para autores y documentos". Actas de la XX Conferencia sobre la incertidumbre en la inteligencia artificial : 487–494. arXiv : 1207.4169 .
^ Nikolenko, Sergey (2017). "Modelado de temas para estudios cualitativos". Revista de ciencias de la información . 43 : 88-102. doi :10.1177/0165551515617393. S2CID 30657489.
^ Reverter-Rambaldi, Marcel (2022). Modelado de temas en datos espontáneos del habla (tesis de honores). Universidad Nacional de Australia. doi :10.25911/M1YF-ZF55.
^ Newman, David (2010). "Evaluación automática de la coherencia del tema". Tecnologías del lenguaje humano: Conferencia anual de 2010 del capítulo norteamericano de la Asociación de Lingüística Computacional : 100–108.
^ Blei, David M. (abril de 2012). "Introducción a los modelos temáticos probabilísticos" (PDF) . Com. ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID 753304.
^ Sanjeev Arora; Rong Ge; Ankur Moitra (abril de 2012). "Modelos de temas de aprendizaje: yendo más allá de la SVD". arXiv : 1204.1956 [cs.LG].
^ Miao, Yishu; Grefenstette, Eduardo; Blunsom, Phil (2017). "Descubrimiento de temas latentes discretos con inferencia variacional neuronal". Actas de la 34ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 2410–2419.
^ Xu, Weijie; Jiang, Xiaoyu; Sengamedu Hanumantha Rao, Srinivasan; Iannacci, Francisco; Zhao, Jinjin (2023). "vONTSS: modelado de temas neuronales semisupervisado basado en vMF con transporte óptimo". Hallazgos de la Asociación de Lingüística Computacional: ACL 2023 . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional: 4433–4457. arXiv : 2307.01226 . doi :10.18653/v1/2023.findings-acl.271.
^ Martín Gerlach; Tiago Pexioto; Eduardo Altmann (2018). "Un enfoque de red para modelos temáticos". Avances científicos . 4 (7): eaaq1360. arXiv : 1708.01677 . Código Bib : 2018SciA....4.1360G. doi :10.1126/sciadv.aaq1360. PMC 6051742 . PMID 30035215.
^ Bianchi, Federico; Terragni, Silvia; Hovy, Dirk (2021). "La formación previa es un tema candente: la incorporación de documentos contextualizados mejora la coherencia del tema". Actas de la 59ª Reunión Anual de la Asociación de Lingüística Computacional y la 11ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (Volumen 2: Artículos breves) . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional. págs. 759–766. doi :10.18653/v1/2021.acl-short.96.
^ Xu, Weijie; Hu, Wenxiang; Wu, Fanyou; Sengamedu, Srinivasan (2023). "DeTiME: modelado de temas mejorado por difusión utilizando un LLM basado en codificador-decodificador". Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2023 . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606.
^ Liu, L.; Tang, L.; et al. (2016). "Una descripción general del modelado temático y sus aplicaciones actuales en bioinformática". SpringerPlus . 5 (1): 1608. doi : 10.1186/s40064-016-3252-8 . PMC 5028368 . PMID 27652181. S2CID 16712827.
^ Valle, F.; Osella, M.; Caselle, M. (2020). "Un análisis de modelado de temas de datos transcriptómicos de cáncer de mama y pulmón de TCGA". Cánceres . 12 (12): 3799. doi : 10.3390/cánceres12123799 . PMC 7766023 . PMID 33339347. S2CID 229325007.
^ Shalit, Uri; Weinshall, Dafna; Chechik, Gal (13 de mayo de 2013). "Modelado de la influencia musical con modelos temáticos". Actas de la 30ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 244–252.
Otras lecturas
Steyvers, Marcos; Griffiths, Tom (2007). "Modelos temáticos probabilísticos". En Landauer, T.; McNamara, D; Dennis, S.; et al. (eds.). Manual de análisis semántico latente (PDF) . Prensa de Psicología. ISBN 978-0-8058-5418-3. Archivado desde el original (PDF) el 24 de junio de 2013.
Blei, D.; Lafferty, J. (2007). "Un modelo temático correlacionado de la ciencia ". Anales de Estadística Aplicada . 1 (1): 17–35. arXiv : 0708.3601 . doi :10.1214/07-AOAS114. S2CID 8872108.
Mimno, D. (abril de 2012). "Historiografía computacional: minería de datos en un siglo de revistas clásicas" (PDF) . Revista de Informática y Patrimonio Cultural . 5 (1): 1–19. doi :10.1145/2160165.2160168. S2CID 12153151.
Marwick, Ben (2013). "Descubrimiento de cuestiones emergentes y controversias en antropología mediante minería de textos, modelado de temas y análisis de contenido de microblogs en redes sociales". En Yanchang, Zhao; Yonghua, Cen (eds.). Aplicaciones de minería de datos con R. Elsevier. págs. 63–93.
Jockers, M. 2010 ¿Quién es tu compañero de blog de bateador designado? Hacer coincidir el día de los blogueros de bateador designado con el modelado de temas Matthew L. Jockers, publicado el 19 de marzo de 2010
Drouin, J. 2011 Incursión en el modelado de temas del Archivo Eclesiástico Proust. publicado el 17 de marzo de 2011
Templeton, C. 2011 Modelado de temas en humanidades: descripción general Blog del Instituto de Tecnología en Humanidades de Maryland. publicado el 1 de agosto de 2011
Griffiths, T.; Steyvers, M. (2004). "Encontrar temas científicos". Procedimientos de la Academia Nacional de Ciencias . 101 (Suplemento 1): 5228–35. Código Bib : 2004PNAS..101.5228G. doi : 10.1073/pnas.0307752101 . PMC 387300 . PMID 14872004.
Yang, T., A Torget y R. Mihalcea (2011) Modelado de temas en periódicos históricos. Actas del quinto taller ACL-HLT sobre tecnología del lenguaje para el patrimonio cultural, las ciencias sociales y las humanidades. La Asociación de Lingüística Computacional, Madison, WI. páginas 96–104.
Block, S. (enero de 2006). "Hacer más con la digitalización: una introducción al modelado temático de las primeras fuentes estadounidenses". Lugar común, la revista interactiva de la vida estadounidense temprana . 6 (2).
Newman, D.; Block, S. (marzo de 2006). "Descomposición temática probabilística de un periódico del siglo XVIII" (PDF) . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 57 (5): 753–767. doi :10.1002/asi.20342. S2CID 1484286.
enlaces externos
Mimnó, David. "Bibliografía sobre modelado de temas".
Brett, Megan R. "Modelado de temas: una introducción básica". Revista de Humanidades Digitales.
Modelos de temas aplicados a reseñas y noticias en línea Vídeo de una presentación de Google Tech Talk realizada por Alice Oh sobre el modelado de temas con LDA
Modelado de la ciencia: modelos temáticos dinámicos de investigación académica Vídeo de una presentación de Google Tech Talk realizada por David M. Blei
Modelos de temas automatizados en ciencias políticas Vídeo de una presentación de Brandon Stewart en el taller Herramientas para texto, 14 de junio de 2010
Shawn Graham, Ian Milligan y Scott Weingart "Introducción al modelado de temas y MALLET". El historiador de la programación. Archivado desde el original el 28 de agosto de 2014 . Consultado el 29 de mayo de 2014 .
Blei, David M. "Material introductorio y software"
código, demostración: ejemplo del uso de LDA para modelado de temas