Red de coocurrencia

La red de coocurrencia , a veces denominada red semántica , ^[1] es un método para analizar texto que incluye una visualización gráfica de relaciones potenciales entre personas , organizaciones, conceptos, organismos biológicos como bacterias ^[2] u otras entidades representadas en escritos. material. La generación y visualización de redes de coocurrencia se ha vuelto práctica con la llegada del texto almacenado electrónicamente compatible con la minería de texto .

A modo de definición, las redes de coocurrencia son la interconexión colectiva de términos basada en su presencia emparejada dentro de una unidad de texto específica. Las redes se generan conectando pares de términos utilizando un conjunto de criterios que definen la coocurrencia. Por ejemplo, se puede decir que los términos A y B “co-ocurren” si ambos aparecen en un artículo en particular. Otro artículo puede contener los términos B y C. Vincular A con B y B con C crea una red de coexistencia de estos tres términos. Las reglas para definir la coocurrencia dentro de un corpus de texto se pueden establecer según los criterios deseados. Por ejemplo, un criterio más estricto para la coocurrencia puede requerir que aparezcan un par de términos en la misma oración . Se descubrió que las redes de coocurrencia son particularmente útiles para analizar textos grandes y big data , al identificar los temas y temas principales (como en una gran cantidad de publicaciones en redes sociales), revelando sesgos en el texto (como sesgos en la cobertura de noticias). ), o incluso mapear un campo de investigación completo. ^[3]

Métodos y desarrollo.

El proceso de construcción de redes de co-ocurrencia incluye identificar palabras clave en el texto, calcular las frecuencias de co-ocurrencias y analizar las redes para encontrar palabras centrales y grupos de temas en la red. ^[4]

Se pueden crear redes de coocurrencia para cualquier lista de términos (cualquier diccionario ) en relación con cualquier colección de textos (cualquier corpus de texto ). Los pares de términos concurrentes pueden denominarse “vecinos” y a menudo se agrupan en “vecindarios” en función de sus interconexiones. Los términos individuales pueden tener varios vecinos. Los vecindarios pueden conectarse entre sí a través de al menos un término individual o pueden permanecer desconectados.

Los términos individuales, dentro del contexto de la minería de textos, se representan simbólicamente como cadenas de texto . En el mundo real, la entidad identificada por un término normalmente tiene varias representaciones simbólicas. Por lo tanto, es útil considerar los términos representados por un símbolo primario y hasta varios símbolos alternativos sinónimos . La aparición de un término individual se establece buscando cada una de las representaciones simbólicas conocidas del término. El proceso puede ampliarse mediante algoritmos NLP ( procesamiento del lenguaje natural ) que interrogan segmentos de texto en busca de posibles alternativas como el orden de las palabras , el espaciado y la separación de palabras . La PNL también se puede utilizar para identificar la estructura de una oración y categorizar cadenas de texto según la gramática (por ejemplo, categorizar una cadena de texto como un sustantivo basándose en una cadena de texto anterior que se sabe que es un artículo ).

La representación gráfica de redes de coocurrencia permite visualizarlas y hacer inferencias sobre las relaciones entre entidades en el dominio representado por el diccionario de términos aplicado al corpus de texto. Una visualización significativa normalmente requiere simplificaciones de la red. Por ejemplo, las redes se pueden dibujar de manera que el número de vecinos que se conectan a cada término sea limitado. Los criterios para limitar a los vecinos podrían basarse en el número absoluto de coocurrencias o en criterios más sutiles como la “probabilidad” de coocurrencia o la presencia de un término descriptivo intermedio.

Los aspectos cuantitativos de la estructura subyacente de una red de coocurrencia también pueden ser informativos, como el número total de conexiones entre entidades, la agrupación de entidades que representan subdominios, la detección de sinónimos, ^[6] , etc.

Aplicaciones y uso

Algunas aplicaciones prácticas del enfoque de coocurrencia están disponibles para el público a través de Internet . PubGene es un ejemplo de una aplicación que aborda los intereses de la comunidad biomédica al presentar redes basadas en la coexistencia de términos relacionados con la genética tal como aparecen en los registros de MEDLINE . ^[7]^[8] CoreMine Medical de PubGene se ha utilizado en estudios que relacionan genes/proteínas con fármacos potencialmente eficaces y candidatos a fármacos en la esclerosis múltiple, ^[9] fibrosis, ^[10] y hepatitis. ^[11] CoreMine Medical también se utilizó en un estudio de genes implicados en el trastorno de estrés postraumático. ^[12]

El sitio web NameBase es un ejemplo de cómo se pueden inferir las relaciones humanas examinando redes construidas a partir de la coexistencia de nombres personales en periódicos y otros textos (como en Ozgur et al. ^[13] ).

Las redes de información también se utilizan para facilitar los esfuerzos por organizar y centrar la información disponible públicamente con fines de inteligencia y aplicación de la ley (la llamada " inteligencia de fuente abierta " u OSINT). Las técnicas relacionadas incluyen redes de cocitación, así como el análisis de hipervínculos y estructura de contenido en Internet (como en el análisis de sitios web relacionados con el terrorismo ^[14] ).

Ver también

Referencias

^ Segev, Elad (2021). Análisis de redes semánticas en ciencias sociales. Londres: Routledge. ISBN 9780367636524.
^ Freilich, Shiri; Kreimer, Anat; Meilijson, Isaac; Gophna, Uri; Sharan, rodado; Ruppin, Eytan (27 de febrero de 2010). "La organización a gran escala de la red bacteriana de interacciones ecológicas de coocurrencia". Investigación de ácidos nucleicos . 38 (12): 3857–3868. doi : 10.1093/nar/gkq118. ISSN 1362-4962. PMC 2896517 . PMID 20194113.
^ Segev, Elad (2021). Análisis de redes semánticas en ciencias sociales. Londres: Routledge. ISBN 9780367636524.
^ Segev, Elad (2020). "Análisis de redes textuales: detección de temas y sesgos predominantes en las noticias internacionales y las redes sociales". Brújula de Sociología . 14 (4). doi :10.1111/soc4.12779. S2CID 212890998.
^ Liu, Yang; Qu, Xiaodong; Elser, James J.; Peng, Wenqi; Zhang, Min; Ren, Ze; Zhang, Haiping; Zhang, Yuhang; Yang, Hua (2019). "Impacto de los gradientes de estequiometría y nutrientes en los conjuntos microbianos en el lago Erhai y sus corrientes de entrada". Agua . 11 (8): 1711. doi : 10.3390/w11081711 .
^ Cohen, soy; Hersh, WR; Dubái, C; Spackman, K (2005). "Uso de una estructura de red de coocurrencia para extraer nombres sinónimos de genes y proteínas de resúmenes de MEDLINE". Bioinformática BMC . 6 (1): 103. doi : 10.1186/1471-2105-6-103 . ISSN 1471-2105. PMC 1090552 . PMID 15847682.
^ Jenssen, Tor-Kristian; Laegreid, Astrid; Komorowski, enero; Hovig, Eivind (1 de mayo de 2001). "Una red bibliográfica de genes humanos para el análisis de alto rendimiento de la expresión génica". Genética de la Naturaleza . 28 (1): 21–28. doi :10.1038/ng0501-21. ISSN 1061-4036. PMID 11326270. S2CID 8889284.
^ Grivell, L. (1 de marzo de 2002). "Exploración del biblioma: ¿buscar una aguja en un pajar?: Se necesitan nuevas herramientas informáticas para escanear eficazmente la creciente cantidad de literatura científica en busca de información útil". Informes EMBO . 3 (3): 200–203. doi : 10.1093/embo-reports/kvf059. ISSN 1469-221X. PMC 1084023 . PMID 11882534.
^ Dadashkhan, Sadaf; Seyed Amir, Mirmotalebisohi; Poursheykhi, Hossein; Sameni, Marzieh; Ghani, Sepideh; Abbasi, Maryam; Kalantari, Sima; Zali, Hakimeh (2023). "Descifrar genes cruciales en la patogénesis de la esclerosis múltiple y la reutilización de fármacos: un enfoque de biología de sistemas". J Proteómica . 280 (104890). doi :10.1016/j.jprot.2023.104890. PMID 36966969.
^ Wilson, Ava C; Chiles, Joe; Ashish, Shah; Chanda, Diptiman; Kumar, Preeti L; Mobley, James A; Neptuno, Enid R; Thannickal, Víctor J; McDonald, Merry-Lynn N (2022). "El análisis bioinformático integrado identifica genes regulados por TGFβ1 nuevos y establecidos modulados por fármacos antifibróticos". Representante de ciencia . 12 (1): 3080. Código bibliográfico : 2022NatSR..12.3080W. doi :10.1038/s41598-022-07151-1. PMC 8866468 . PMID 35197532.
^ Li, Shenghao; Hao, Liyuan; Hu, Xiaoyu; Li, Luya (2023). "Un estudio sistemático sobre el tratamiento del carcinoma hepatocelular relacionado con la hepatitis B con fármacos basados en bioinformática y farmacología de red inversa de objetivos clave y verificación experimental". Cáncer Agente Infectante . 18 (1): 41. doi : 10.1186/s13027-023-00520-z . PMC 10315056 . PMID 37393234.
^ Bian, Yao-Yao; Yang, Li-Li; Zhang, Bin; Li, Wen; Li, Zheng-Jun; Li, Wen-Lin; Zeng, Li (2020). "Identificación de genes clave implicados en el trastorno de estrés postraumático: evidencia de análisis bioinformáticos". Psiquiatría Mundial J. 10 (12): 286–298. doi : 10.5498/wjp.v10.i12.286 . PMC 7754529 . PMID 33392005.
^ Ozgur A, Cetin B, Bingol H: “Red de coocurrencia de Reuters News” (15 de diciembre de 2007) https://arxiv.org/abs/0712.2491
^ Yilu Zhou; Reid, E.; Jialun Qin; Hsinchun Chen; Guanpi Lai (22 de mayo de 2018). "Grupos extremistas nacionales estadounidenses en la Web: análisis de enlaces y contenidos". Sistemas inteligentes IEEE . 20 (5): 44–51. doi :10.1109/MIS.2005.96. S2CID 15687907.

Liu, Chua TS (2001). "Construcción de una red de perceptrones semánticos para la detección de temas". Actas de la 39ª Reunión Anual de la Asociación de Lingüística Computacional : 378–385. doi : 10.3115/1073012.1073061 .

Wikimedia Commons tiene medios relacionados con las redes de coocurrencia .