La red de coocurrencia , a veces denominada red semántica , [1] es un método para analizar texto que incluye una visualización gráfica de posibles relaciones entre personas , organizaciones, conceptos, organismos biológicos como bacterias [2] u otras entidades representadas en material escrito. La generación y visualización de redes de coocurrencia se ha vuelto práctica con la llegada del texto almacenado electrónicamente compatible con la minería de texto .
Por definición, las redes de coocurrencia son la interconexión colectiva de términos en función de su presencia pareada dentro de una unidad de texto específica. Las redes se generan conectando pares de términos utilizando un conjunto de criterios que definen la coocurrencia. Por ejemplo, se puede decir que los términos A y B "coocurren" si ambos aparecen en un artículo en particular. Otro artículo puede contener los términos B y C. Vincular A con B y B con C crea una red de coocurrencia de estos tres términos. Las reglas para definir la coocurrencia dentro de un corpus de texto se pueden establecer de acuerdo con los criterios deseados. Por ejemplo, un criterio más estricto para la coocurrencia puede requerir que un par de términos aparezcan en la misma oración . Se descubrió que las redes de coocurrencia eran particularmente útiles para analizar textos grandes y macrodatos , al identificar los temas y tópicos principales (como en una gran cantidad de publicaciones en las redes sociales), revelar sesgos en el texto (como sesgos en la cobertura de noticias) o incluso mapear un campo de investigación completo. [3]
El proceso de construcción de redes de coocurrencia incluye la identificación de palabras clave en el texto, el cálculo de las frecuencias de coocurrencia y el análisis de las redes para encontrar palabras centrales y grupos de temas en la red. [4]
Se pueden crear redes de coocurrencia para cualquier lista de términos (cualquier diccionario ) en relación con cualquier colección de textos (cualquier corpus de texto ). Los pares de términos coocurrentes se pueden llamar “vecinos” y estos a menudo se agrupan en “vecindarios” en función de sus interconexiones. Los términos individuales pueden tener varios vecinos. Los vecindarios pueden conectarse entre sí a través de al menos un término individual o pueden permanecer desconectados.
Los términos individuales se representan simbólicamente, en el contexto de la minería de texto, como cadenas de texto . En el mundo real, la entidad identificada por un término normalmente tiene varias representaciones simbólicas. Por lo tanto, es útil considerar que los términos están representados por un símbolo primario y hasta varios símbolos alternativos sinónimos . La aparición de un término individual se establece buscando cada representación simbólica conocida del término. El proceso se puede ampliar a través de algoritmos de procesamiento del lenguaje natural (NLP ) que interrogan segmentos de texto para posibles alternativas como el orden de las palabras , el espaciado y la separación de palabras . El NLP también se puede utilizar para identificar la estructura de las oraciones y categorizar cadenas de texto según la gramática (por ejemplo, categorizar una cadena de texto como un sustantivo basándose en una cadena de texto precedente que se sabe que es un artículo ).
La representación gráfica de las redes de coocurrencia permite visualizarlas y extraer inferencias sobre las relaciones entre entidades en el dominio representado por el diccionario de términos aplicado al corpus de texto. Una visualización significativa normalmente requiere simplificaciones de la red. Por ejemplo, las redes pueden dibujarse de manera que el número de vecinos que se conectan a cada término sea limitado. Los criterios para limitar los vecinos pueden basarse en el número absoluto de coocurrencias o en criterios más sutiles como la “probabilidad” de coocurrencia o la presencia de un término descriptivo intermedio.
Los aspectos cuantitativos de la estructura subyacente de una red de coocurrencia también podrían ser informativos, como el número total de conexiones entre entidades, la agrupación de entidades que representan subdominios, la detección de sinónimos, [6] etc.
Algunas aplicaciones prácticas del enfoque de coocurrencia están disponibles para el público a través de Internet . PubGene es un ejemplo de una aplicación que aborda los intereses de la comunidad biomédica al presentar redes basadas en la coocurrencia de términos relacionados con la genética tal como aparecen en los registros de MEDLINE . [7] [8] CoreMine Medical de PubGene se ha utilizado en estudios que relacionan genes/proteínas con fármacos potencialmente eficaces y candidatos a fármacos en la esclerosis múltiple, [9] fibrosis, [10] y hepatitis. [11] CoreMine Medical también se utilizó en un estudio de genes implicados en el trastorno de estrés postraumático. [12]
El sitio web NameBase es un ejemplo de cómo se pueden inferir las relaciones humanas al examinar redes construidas a partir de la coocurrencia de nombres personales en periódicos y otros textos (como en Ozgur et al. [13] ).
Las redes de información también se utilizan para facilitar los esfuerzos por organizar y concentrar la información disponible públicamente con fines de inteligencia y aplicación de la ley (la denominada " inteligencia de fuentes abiertas " u OSINT). Las técnicas relacionadas incluyen las redes de cocitación, así como el análisis de la estructura de hipervínculos y contenidos en Internet (como en el análisis de sitios web relacionados con el terrorismo [14] ).