Similitud semántica

La similitud semántica es una métrica definida sobre un conjunto de documentos o términos, donde la idea de distancia entre elementos se basa en la semejanza de su significado o contenido semántico ^{[ cita requerida ]} en contraposición a la similitud lexicográfica . Se trata de herramientas matemáticas utilizadas para estimar la fuerza de la relación semántica entre unidades de lenguaje, conceptos o instancias, a través de una descripción numérica obtenida de acuerdo con la comparación de información que respalda su significado o describe su naturaleza. ^[1]^[2] El término similitud semántica a menudo se confunde con parentesco semántico. El parentesco semántico incluye cualquier relación entre dos términos, mientras que la similitud semántica solo incluye relaciones "es un" . ^[3] Por ejemplo, "coche" es similar a "autobús", pero también está relacionado con "carretera" y "conducir".

Computacionalmente, la similitud semántica puede estimarse definiendo una similitud topológica , mediante el uso de ontologías para definir la distancia entre términos/conceptos. Por ejemplo, una métrica ingenua para la comparación de conceptos ordenados en un conjunto parcialmente ordenado y representados como nodos de un grafo acíclico dirigido (por ejemplo, una taxonomía ), sería el camino más corto que une los dos nodos de concepto. Con base en análisis de texto, la relación semántica entre unidades de lenguaje (por ejemplo, palabras, oraciones) también puede estimarse utilizando medios estadísticos como un modelo de espacio vectorial para correlacionar palabras y contextos textuales de un corpus de texto adecuado . La evaluación de las medidas de similitud/relación semántica propuestas se evalúa a través de dos formas principales. La primera se basa en el uso de conjuntos de datos diseñados por expertos y compuestos de pares de palabras con estimación del grado de similitud/relación semántica. La segunda forma se basa en la integración de las medidas dentro de aplicaciones específicas como recuperación de información, sistemas de recomendación, procesamiento del lenguaje natural, etc.

Terminología

El concepto de similitud semántica es más específico que el de relación semántica , ya que este último incluye conceptos como antonimia y meronimia , mientras que la similitud no. ^[4] Sin embargo, gran parte de la literatura utiliza estos términos indistintamente, junto con términos como distancia semántica. En esencia, similitud semántica, distancia semántica y relación semántica significan: "¿Cuánto tiene que ver el término A con el término B?". La respuesta a esta pregunta suele ser un número entre −1 y 1, o entre 0 y 1, donde 1 significa una similitud extremadamente alta.

Visualización

Una forma intuitiva de visualizar la similitud semántica de los términos es agrupando los términos que están estrechamente relacionados y espaciando más los que están distantemente relacionados. Esto también es común en la práctica para los mapas mentales y los mapas conceptuales .

Una forma más directa de visualizar la similitud semántica de dos elementos lingüísticos se puede ver con el enfoque de plegado semántico . En este enfoque, un elemento lingüístico, como un término o un texto, se puede representar generando un píxel para cada una de sus características semánticas activas en, por ejemplo, una cuadrícula de 128 x 128. Esto permite una comparación visual directa de la semántica de dos elementos comparando representaciones de imágenes de sus respectivos conjuntos de características.

Aplicaciones

En informática biomédica

Las medidas de similitud semántica se han aplicado y desarrollado en ontologías biomédicas. ^[5]^[6] Se utilizan principalmente para comparar genes y proteínas en función de la similitud de sus funciones ^[7] en lugar de su similitud de secuencia , pero también se están extendiendo a otras bioentidades, como las enfermedades. ^[8]

Estas comparaciones se pueden realizar utilizando herramientas disponibles gratuitamente en la web:

ProteInOn se puede utilizar para encontrar proteínas interactuantes, encontrar términos GO asignados y calcular la similitud semántica funcional de las proteínas UniProt y para obtener el contenido de información y calcular la similitud semántica funcional de los términos GO. ^[9]
CMPSim proporciona una medida de similitud funcional entre compuestos químicos y vías metabólicas utilizando medidas de similitud semántica basadas en ChEBI . ^[10]
CESSM proporciona una herramienta para la evaluación automatizada de medidas de similitud semántica basadas en GO. ^[11]

En geoinformática

La similitud también se aplica en geoinformática para encontrar características geográficas o tipos de características similares: ^[12]

El servidor de similitud SIM-DL ^[13] se puede utilizar para calcular similitudes entre conceptos almacenados en ontologías de tipos de características geográficas.
La calculadora de similitud se puede utilizar para calcular qué tan relacionados están dos conceptos geográficos en la ontología Geo-Net-PT. ^[14]^[15]
La red semántica OSM ^[16] se puede utilizar para calcular la similitud semántica de las etiquetas en OpenStreetMap . ^[17]

En lingüística computacional

Varias métricas utilizan WordNet , una base de datos léxica de palabras en inglés construida manualmente. A pesar de las ventajas de contar con supervisión humana en la construcción de la base de datos, dado que las palabras no se aprenden automáticamente, la base de datos no puede medir la relación entre términos de varias palabras y vocabulario no incremental. ^[4]^[18]

En el procesamiento del lenguaje natural

El procesamiento del lenguaje natural (PLN) es un campo de la informática y la lingüística. El análisis de sentimientos, la comprensión del lenguaje natural y la traducción automática (traducir automáticamente texto de un idioma humano a otro) son algunas de las principales áreas en las que se utiliza. Por ejemplo, al conocer un recurso de información en Internet, suele ser de interés inmediato encontrar recursos similares. La Web semántica proporciona extensiones semánticas para encontrar datos similares por contenido y no solo por descriptores arbitrarios. ^[19]^[20]^[21]^[22]^[23]^[24]^[25]^[26]^{[27] Los métodos} de aprendizaje profundo se han convertido en una forma precisa de medir la similitud semántica entre dos pasajes de texto, en los que cada pasaje se integra primero en una representación vectorial continua. ^[28]^[29]^[30]

En la correspondencia de ontologías

La similitud semántica juega un papel crucial en la alineación de ontologías , que tiene como objetivo establecer correspondencias entre entidades de diferentes ontologías. Implica cuantificar el grado de similitud entre conceptos o términos utilizando la información presente en la ontología para cada entidad, como etiquetas, descripciones y relaciones jerárquicas con otras entidades. Las métricas tradicionales utilizadas en la correspondencia de ontologías se basan en una similitud léxica entre las características de las entidades, como el uso de la distancia de Levenshtein para medir la distancia de edición entre las etiquetas de las entidades. ^[31] Sin embargo, es difícil capturar la similitud semántica entre entidades utilizando estas métricas. Por ejemplo, al comparar dos ontologías que describen conferencias, las entidades "Contribución" y "Artículo" pueden tener una alta similitud semántica ya que comparten el mismo significado. No obstante, debido a sus diferencias léxicas, la similitud lexicográfica por sí sola no puede establecer esta alineación. Para capturar estas similitudes semánticas, se están adoptando incrustaciones en la correspondencia de ontologías. ^[32] Al codificar las relaciones semánticas y la información contextual, las incrustaciones permiten el cálculo de puntuaciones de similitud entre entidades en función de la proximidad de sus representaciones vectoriales en el espacio de incrustación. Este enfoque permite una correspondencia eficiente y precisa de ontologías, ya que las incrustaciones pueden modelar diferencias semánticas en la denominación de entidades, como la homonimia, al asignar diferentes incrustaciones a la misma palabra en función de diferentes contextos. ^[32]

Medidas

Similitud topológica

Básicamente, existen dos tipos de enfoques que calculan la similitud topológica entre conceptos ontológicos:

Basados en bordes: que utilizan los bordes y sus tipos como fuente de datos;
Basado en nodos: en el que las principales fuentes de datos son los nodos y sus propiedades.

Otras medidas calculan la similitud entre instancias ontológicas:

Por pares: mide la similitud funcional entre dos instancias combinando las similitudes semánticas de los conceptos que representan
Groupwise: calcula la similitud directamente sin combinar las similitudes semánticas de los conceptos que representan

Algunos ejemplos:

Basado en el borde

Pekar y otros ^[33]
Cheng y Cline ^[34]
Wu y otros ^[35]
Del Pozo et al. ^[36]
IntelliGO: Benabderrahmane et al. ^[6]

Basado en nodos

Resnik ^[37]
- Basado en la noción de contenido de información . El contenido de información de un concepto (término o palabra) es el logaritmo de la probabilidad de encontrar el concepto en un corpus dado.
- Solo considera el contenido de información del subsumidor común más bajo (lcs). Un subsumidor común más bajo es un concepto en una taxonomía léxica (por ejemplo, WordNet), que tiene la distancia más corta entre los dos conceptos comparados. Por ejemplo, animal y mamífero son ambos subsumidores de gato y perro, pero mamífero es subsumidor inferior que animal para ellos.
Lino ^[38]
- basado en la similitud de Resnik.
- considera el contenido de información del subsumidor común más bajo (lcs) y los dos conceptos comparados.
Maguitman, Menczer , Roinestad y Vespignani ^[39]
- Generaliza la similitud de Lin con ontologías arbitrarias (gráficos).
Jiang y Conrath ^[40]
- basado en la similitud de Resnik.
- Considera el contenido de información del subsumidor común más bajo (lcs) y los dos conceptos comparados para calcular la distancia entre ambos conceptos. La distancia se utiliza posteriormente para calcular la medida de similitud.
Alinear, desambiguar y caminar: recorridos aleatorios en redes semánticas ^[41]

Contenido basado en nodos y relaciones

aplicable a la ontología
considerar propiedades (contenido) de los nodos
considerar tipos (contenido) de relaciones
basado en eTVSM ^[42]
basado en la similitud de Resnik ^[43]

Por pares

máximo de las similitudes por pares
Promedio compuesto en el que solo se consideran los pares con mejor coincidencia (promedio de mejor coincidencia)

Grupo por grupo

Índice de Jaccard

Similitud estadística

Los métodos de similitud estadística se pueden aprender a partir de datos o pueden predefinirse. El aprendizaje de similitudes a menudo puede superar a las medidas de similitud predefinidas. En términos generales, estos métodos construyen un modelo estadístico de documentos y lo utilizan para estimar la similitud.

LSA ( análisis semántico latente ): ^[44]^[45] (+) basado en vectores, agrega vectores para medir términos de varias palabras; (−) vocabulario no incremental, tiempos de preprocesamiento largos
PMI ( información mutua puntual ): (+) vocabulario extenso, porque utiliza cualquier motor de búsqueda (como Google); (−) no puede medir la relación entre oraciones o documentos completos
SOC-PMI ( información mutua puntual de coocurrencia de segundo orden ): (+) ordena listas de palabras vecinas importantes de un corpus grande; (−) no puede medir la relación entre oraciones o documentos completos
GLSA (análisis semántico latente generalizado): (+) basado en vectores, agrega vectores para medir términos de varias palabras; (−) vocabulario no incremental, tiempos de preprocesamiento prolongados
ICAN (construcción incremental de una red asociativa): (+) medida incremental basada en red, buena para difundir la activación, tiene en cuenta la relación de segundo orden; (−) no puede medir la relación entre términos de varias palabras, tiempos de preprocesamiento largos
NGD ( distancia normalizada de Google ): (+) vocabulario amplio, porque utiliza cualquier motor de búsqueda (como Google); (−) puede medir la relación entre oraciones o documentos completos, pero cuanto más grande sea la oración o el documento, más ingenio se requiere (Cilibrasi y Vitanyi, 2007). ^[46]
TSS (similaridad semántica de Twitter): ^[47] vocabulario amplio, ya que utiliza tweets en línea de Twitter para calcular la similitud. Tiene una alta resolución temporal que permite capturar eventos de alta frecuencia. Código abierto
NCD ( distancia de compresión normalizada )
ESA ( análisis semántico explícito ) basado en Wikipedia y el ODP
SSA (análisis semántico saliente) ^[48] que indexa términos utilizando conceptos salientes encontrados en su contexto inmediato.
n° de Wikipedia (noW), ^[49] inspirado en el juego Six Degrees of Wikipedia, ^[50] es una métrica de distancia basada en la estructura jerárquica de Wikipedia. Primero se construye un gráfico acíclico dirigido y luego se emplea el algoritmo de ruta más corta de Dijkstra para determinar el valor noW entre dos términos como la distancia geodésica entre los temas correspondientes (es decir, los nodos) en el gráfico.
VGEM (generación vectorial de un espacio semántico multidimensional definido explícitamente): ^[51] (+) vocabulario incremental, puede comparar términos de varias palabras (−) el rendimiento depende de la elección de dimensiones específicas
Rango Sim
NASARI: ^[52] Representaciones de vectores dispersos construidas mediante la aplicación de la distribución hipergeométrica sobre el corpus de Wikipedia en combinación con la taxonomía de BabelNet. La similitud entre idiomas también es posible actualmente gracias a la extensión multilingüe y unificada. ^[53]

Similitud basada en semántica

Paso de marcadores: al combinar la descomposición léxica para la creación automatizada de ontologías y el paso de marcadores, el enfoque de Fähndrich et al. introduce un nuevo tipo de medida de similitud semántica. ^[54] Aquí, los marcadores se pasan desde los dos conceptos objetivo que llevan una cantidad de activación. Esta activación puede aumentar o disminuir dependiendo del peso de las relaciones con las que están conectados los conceptos. Esto combina enfoques basados en bordes y nodos e incluye razonamiento conexionista con información simbólica.
Medida de similitud semántica basada en el subsumidor común bueno (GCS) ^[55]

Redes de similitud semántica

Una red de similitud semántica (SSN) es una forma especial de red semántica diseñada para representar conceptos y su similitud semántica. Su principal contribución es reducir la complejidad del cálculo de distancias semánticas. Bendeck (2004, 2008) introdujo el concepto de redes de similitud semántica (SSN) como la especialización de una red semántica para medir la similitud semántica a partir de representaciones ontológicas. ^[56] Las implementaciones incluyen el manejo de información genética.

Patrones de oro

Los investigadores han recopilado conjuntos de datos con juicios de similitud sobre pares de palabras, que se utilizan para evaluar la plausibilidad cognitiva de las medidas computacionales. El estándar de oro hasta el día de hoy es una antigua lista de 65 palabras en la que los humanos han juzgado la similitud de las palabras. ^[57]^[58]

RG65 ^[59]
MC30 ^[60]
PalabraSim353 ^[61]

Véase también

Analogía
Análisis de componentes
Coherencia (lingüística)
Distancia de Levenshtein
Diferencial semántico
Red de similitud semántica
Extracción de terminología
Word2vec
tf-idf – Estimación de la importancia de una palabra en un documento

Referencias

^ Harispe S.; Ranwez S.; Janaqi S.; Montmain J. (2015). "Similitud semántica a partir del análisis del lenguaje natural y de la ontología". Synthesis Lectures on Human Language Technologies . 8 (1): 1–254. arXiv : 1704.05295 . doi :10.2200/S00639ED1V01Y201504HLT027. S2CID 17428739.
^ Feng Y.; Bagheri E.; Ensan F.; Jovanovic J. (2017). "El estado del arte en la relación semántica: un marco para la comparación". Knowledge Engineering Review . 32 : 1–30. doi :10.1017/S0269888917000029. S2CID 52172371.
^ A. Ballatore; M. Bertolotto; DC Wilson (2014). "Una línea base evaluativa para la relación y similitud geosemántica". GeoInformatica . 18 (4): 747–767. arXiv : 1402.3371 . Código Bibliográfico :2014arXiv1402.3371B. doi :10.1007/s10707-013-0197-8. S2CID 17474023.
^ ab Budanitsky, Alexander; Hirst, Graeme (2001). "Distancia semántica en WordNet: una evaluación experimental y orientada a la aplicación de cinco medidas" (PDF) . Taller sobre WordNet y otros recursos léxicos, Segunda reunión del Capítulo norteamericano de la Asociación de Lingüística Computacional . Pittsburgh.
^ Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). "Análisis de similitud semántica de datos proteicos: evaluación con características y problemas biológicos". Briefings in Bioinformatics . 13 (5): 569–585. doi : 10.1093/bib/bbr066 . PMID 22138322.
^ ab Benabderrahmane, Sidahmed; Smail Tabbone, Malika; Poch, Olivier; Napoli, Amedeo; Devignes, Marie-Domonique. (2010). "IntelliGO: una nueva medida de similitud semántica basada en vectores que incluye el origen de la anotación". BMC Bioinformatics . 11 : 588. doi : 10.1186/1471-2105-11-588 . PMC 3098105 . PMID 21122125.
^ Chicco, D; Masseroli, M (2015). "Paquete de software para predicción de anotaciones de genes y proteínas y búsqueda de similitud". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 12 (4): 837–843. doi :10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID 26357324. S2CID 14714823.
^ Köhler, S; Schulz, MH; Krawitz, P; Bauer, S; Dolken, S; Ott, CE; Mundlos, C; Horn, D; et al. (2009). "Diagnóstico clínico en genética humana con búsquedas de similitud semántica en ontologías". American Journal of Human Genetics . 85 (4): 457–64. doi :10.1016/j.ajhg.2009.09.003. PMC 2756558 . PMID 19800049.
^ "Proteína Encendida".
^ "Simulación CMPS".
^ "CESMO".
^ Janowicz, K.; Raubal, M.; Kuhn, W. (2011). "La semántica de la similitud en la recuperación de información geográfica". Revista de ciencia de la información espacial . 2 (2): 29–57. doi : 10.5311/josis.2011.2.3 .
^ Algoritmo, implementación y aplicación del servidor de similitud SIM-DL . Segunda Conferencia Internacional sobre Semántica Geoespacial (GEOS 2007). Apuntes de clase en Ciencias de la Computación. 2007. pp. 128–145. CiteSeerX 10.1.1.172.5544 .
^ "Calculadora de similitud Geo-Net-PT".
^ "Geo-Red-PT".
^ "Red semántica OSM". Wiki OSM.
^ A. Ballatore; DC Wilson; M. Bertolotto. "Extracción de conocimiento geográfico y similitud semántica en OpenStreetMap" (PDF) . Sistemas de información y conocimiento : 61–81.
^ Kaur, I. y Hornof, AJ (2005). "Una comparación de LSA, wordNet y PMI-IR para predecir el comportamiento de clic del usuario". Actas de la Conferencia SIGCHI sobre factores humanos en sistemas informáticos . págs. 51–60. doi :10.1145/1054972.1054980. ISBN 978-1-58113-998-3. Número de identificación del sujeto 14347026.
^ Métodos de aprendizaje basados en similitudes para la Web Semántica (C. d'Amato, Tesis Doctoral)
^ Gracia, J. y Mena, E. (2008). "Medida basada en la Web de la Relación Semántica" (PDF) . Actas de la 9.ª Conferencia Internacional sobre Ingeniería de Sistemas de Información Web (WISE '08) : 136–150.
^ Raveendranathan, P. (2005). Identificación de conjuntos de palabras relacionadas en la World Wide Web. Tesis de maestría en ciencias, Universidad de Minnesota Duluth.
^ Wubben, S. (2008). Utilización de la estructura de enlace libre para calcular la relación semántica. En ILK Research Group Technical Report Series, n.° 08-01, 2008.
^ Juvina, I., van Oostendorp, H., Karbor, P. y Pauw, B. (2005). Hacia el modelado de la información contextual en la navegación web. En BG Bara y L. Barsalou y M. Bucciarelli (Eds.), 27.ª Reunión Anual de la Cognitive Science Society, CogSci2005 (pp. 1078–1083). Austin, Tx: The Cognitive Science Society, Inc.
^ Navigli, R., Lapata, M. (2007). Graph Connectivity Measures for Unsupervised Word Sense Disambiguation, Actas de la 20.ª Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI 2007), Hyderabad, India, 6 al 12 de enero de 2007, págs. 1683-1688.
^ Pirolli, P. (2005). "Análisis racionales de la búsqueda de información en la Web". Cognitive Science . 29 (3): 343–373. doi : 10.1207/s15516709cog0000_20 . PMID 21702778.
^ Pirolli, P. y Fu, W.-T. (2003). "SNIF-ACT: Un modelo de búsqueda de información en la World Wide Web". Lecture Notes in Computer Science . Vol. 2702. págs. 45–54. CiteSeerX 10.1.1.6.1506 . doi :10.1007/3-540-44963-9_8. ISBN 978-3-540-40381-4.
^ Turney, P. (2001). Minería de sinónimos en la Web: PMI versus LSA en TOEFL. En L. De Raedt y P. Flach (Eds.), Actas de la Duodécima Conferencia Europea sobre Aprendizaje Automático (ECML-2001) (pp. 491–502). Friburgo, Alemania.
^ Reimers, Nils; Gurevych, Iryna (noviembre de 2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas". Actas de la Conferencia de 2019 sobre métodos empíricos en procesamiento del lenguaje natural y la 9.ª Conferencia conjunta internacional sobre procesamiento del lenguaje natural (EMNLP-IJCNLP) . Hong Kong, China: Asociación de Lingüística Computacional. págs. 3982–3992. arXiv : 1908.10084 . doi : 10.18653/v1/D19-1410 .
^ Mueller, Jonas; Thyagarajan, Aditya (5 de marzo de 2016). "Arquitecturas recurrentes siamesas para el aprendizaje de la similitud de oraciones". Trigésima Conferencia AAAI sobre Inteligencia Artificial . 30 . doi : 10.1609/aaai.v30i1.10350 . S2CID 16657628.
^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Russ R; Zemel, Richard; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015), Cortes, C.; Lawrence, ND; Lee, DD; Sugiyama, M. (eds.), "Skip-Thought Vectors" (PDF) , Advances in Neural Information Processing Systems 28 , Curran Associates, Inc., págs. 3294–3302 , consultado el 13 de marzo de 2020
^ Cheatham, Michelle; Hitzler, Pascal (2013). "Métricas de similitud de cadenas para la alineación de ontologías". En Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). Ingeniería avanzada de sistemas de información . La web semántica – ISWC 2013. Apuntes de clase en informática. Vol. 7908. Berlín, Heidelberg: Springer. págs. 294–309. doi : 10.1007/978-3-642-41338-4_19 . ISBN . 978-3-642-41338-4.S2CID 18372966 .
^ ab Sousa, G., Lima, R. y Trojahn, C. (2022). Una mirada al aprendizaje de la representación en la correspondencia de ontologías. OM@ISWC .
^ Pekar, Viktor; Staab, Steffen (2002). Aprendizaje de taxonomía . Actas de la 19.ª conferencia internacional sobre lingüística computacional. Vol. 1. págs. 1–7. doi :10.3115/1072228.1072318.
^ Cheng, J; Cline, M; Martin, J; Finkelstein, D; Awad, T; Kulp, D; Siani-Rose, MA (2004). "Un algoritmo de agrupamiento basado en el conocimiento impulsado por Gene Ontology". Journal of Biopharmaceutical Statistics . 14 (3): 687–700. doi :10.1081/BIP-200025659. PMID 15468759. S2CID 25224811.
^ Wu, H; Su, Z; Mao, F; Olman, V; Xu, Y (2005). "Predicción de módulos funcionales basada en análisis comparativo del genoma y aplicación de Gene Ontology". Nucleic Acids Research . 33 (9): 2822–37. doi :10.1093/nar/gki573. PMC 1130488 . PMID 15901854.
^ Del Pozo, Ángela; Pazos, Florencio; Valencia, Alfonso (2008). "Definición de distancias funcionales sobre ontología genética". Bioinformática BMC . 9 : 50. doi : 10.1186/1471-2105-9-50 . PMC 2375122 . PMID 18221506.
^ Philip Resnik (1995). Chris S. Mellish (ed.). "Uso del contenido de la información para evaluar la similitud semántica en una taxonomía". Actas de la 14.ª Conferencia conjunta internacional sobre inteligencia artificial (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg/9511007 . Código Bibliográfico :1995cmp.lg...11007R. CiteSeerX 10.1.1.41.6956 .
^ Dekang Lin. 1998. Una definición de similitud basada en la teoría de la información. En Actas de la Decimoquinta Conferencia Internacional sobre Aprendizaje Automático (ICML '98), Jude W. Shavlik (Ed.). Morgan Kaufmann Publishers Inc., San Francisco, CA, EE. UU., 296–304
^ Ana Gabriela Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani: Detección algorítmica de similitud semántica. WWW 2005: 107–116
^ JJ Jiang y DW Conrath. Similitud semántica basada en estadísticas de corpus y taxonomía léxica. En la Conferencia internacional sobre investigación en lingüística computacional (ROCLING X), páginas 9008+, septiembre de 1997
^ MT Pilehvar, D. Jurgens y R. Navigli. Alinear, desambiguar y caminar: un enfoque unificado para medir la similitud semántica. Actas de la 51.ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2013), Sofía, Bulgaria, 4 al 9 de agosto de 2013, págs. 1341-1351.
^ Dong, Hai (2009). "Un modelo híbrido de medida de similitud de conceptos para el entorno de ontología". En camino hacia sistemas de Internet significativos: talleres OTM 2009. Apuntes de clase en informática. Vol. 5872. págs. 848–857. Código Bibliográfico :2009LNCS.5872..848D. doi :10.1007/978-3-642-05290-3_103. ISBN: 978-3-642-05289-7.
^ Dong, Hai (2011). "Un modelo de similitud semántica consciente del contexto para entornos ontológicos". Concurrencia y computación: práctica y experiencia . 23 (2): 505–524. doi :10.1002/cpe.1652. S2CID 412845.
^ Landauer, TK; Dumais, ST (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" (PDF) . Psychological Review . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . doi :10.1037/0033-295x.104.2.211. S2CID 1144461.
^ Landauer, TK; Foltz, PW y Laham, D. (1998). "Introducción al análisis semántico latente" (PDF) . Procesos del discurso . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi :10.1080/01638539809545028. S2CID 16625196.
^ "Distancia de similitud de Google".
^ Carrillo, F.; Cecchi, GA; Sigman, M.; Slezak, DF (2015). "Dinámicas distribuidas rápidas de redes semánticas a través de las redes sociales" (PDF) . Inteligencia computacional y neurociencia . 2015 : 712835. doi : 10.1155/2015/712835 . PMC 4449913 . PMID 26074953.
^ "Samer Hassan" (PDF) .^{[ enlace muerto ]}
^ Wilson Wong; Wei Liu; Mohammed Bennamoun (noviembre de 2006). Similitudes sin características para la agrupación de términos utilizando hormigas que recorren árboles. PCAR '06: Actas del simposio internacional de 2006 sobre agentes cognitivos prácticos y robots. págs. 177–191. doi :10.1145/1232425.1232448.
^ "6 grados de Wikipedia". The Chronicle of Higher Education . The Wired Campus. 28 de mayo de 2008. Archivado desde el original el 30 de mayo de 2008.
^ VD Veksler; Ryan Z. Govostes (2008). "Definición de las dimensiones del espacio semántico humano" (PDF) .
^ J. Camacho-Collados; MT Pilehvar; R. Navigli (2015). NASARI: un nuevo enfoque para una representación semánticamente consciente de elementos (PDF) . Actas del Capítulo norteamericano de la Asociación de Lingüística Computacional (NAACL 2015). Denver, EE. UU., págs. 567–577.
^ J. Camacho-Collados; MT Pilehvar; R. Navigli (27–29 de julio de 2015). Una representación semántica multilingüe unificada de conceptos (PDF) . Actas de la 53.ª reunión anual de la Asociación de Lingüística Computacional (ACL 2015). Pekín, China. págs. 741–751.
^ Fähndrich J.; Weber S.; Ahrndt S. (2016). "Diseño y uso de una medida de similitud semántica para la interoperabilidad entre agentes". En Klusch M.; Unland R.; Shehory O.; Pokahr A.; Ahrndt S. (eds.). Tecnologías de sistemas multiagente . MATES 2016. Apuntes de clase en informática. Vol. 9872. Springer.Disponible en versión de autor
^ C. d'Amato; S. Staab; N. Fanizzi (2008). "Sobre la influencia de las ontologías de la lógica descriptiva en la similitud conceptual". Ingeniería del conocimiento: práctica y patrones . págs. 48–63. doi :10.1007/978-3-540-87696-0_7.
^ Bendeck, F. (2008). Plataforma de correspondencia semántica de flujo de trabajo WSM-P, tesis doctoral, Universidad de Trier, Alemania . Editorial Dr. Hut. ASIN 3899638549.
^ Rubenstein, Herbert y John B. Goodenough. Correlatos contextuales de la sinonimia. Communications of the ACM, 8(10):627–633, 1965.
^ Para obtener una lista de conjuntos de datos y una descripción general del estado del arte, consulte https://www.aclweb.org/.
^ Rubenstein, Herbert; Goodenough, John B. (1 de octubre de 1965). "Correlatos contextuales de la sinonimia". Comunicaciones de la ACM . 8 (10): 627–633. doi : 10.1145/365628.365657 . S2CID 18309234.
^ Miller, George A.; Charles, Walter G. (1 de enero de 1991). "Correlatos contextuales de similitud semántica". Lenguaje y procesos cognitivos . 6 (1): 1–28. doi :10.1080/01690969108406936. ISSN 0169-0965.
^ "Colocar la búsqueda en contexto". ACM Transactions on Information Systems . 20 : 116–131. 1 de enero de 2002. CiteSeerX 10.1.1.29.1912 . doi :10.1145/503104.503110. S2CID 12956853.

Fuentes

Chicco, D; Masseroli, M (2015). "Paquete de software para predicción de anotaciones de genes y proteínas y búsqueda de similitud". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 12 (4): 837–843. doi :10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID 26357324. S2CID 14714823.
Cilibrasi, RL y Vitanyi, PMB (2007). "La distancia de similitud de Google". IEEE Trans. Conocimiento e ingeniería de datos . 19 (3): 370–383. arXiv : cs/0412098 . doi :10.1109/TKDE.2007.48. S2CID 59777.
Dumais, S (2003). "Enfoques basados en datos para el acceso a la información". Cognitive Science . 27 (3): 491–524. doi : 10.1207/s15516709cog2703_7 .
Gabrilovich, E. y Markovitch, S. (2007). Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis, Actas de la 20.ª Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI), Hyderabad, India, enero de 2007.
Lee, MD, Pincombe, B., y Welsh, M. (2005). Una evaluación empírica de modelos de similitud de documentos de texto. En BG Bara y L. Barsalou y M. Bucciarelli (Eds.), 27.° Encuentro Anual de la Cognitive Science Society, CogSci2005 (pp. 1254–1259). Austin, Tx: The Cognitive Science Society, Inc.
Lemaire, B., y Denhiére, G. (2004). Construcción incremental de una red asociativa a partir de un corpus. En KD Forbus y D. Gentner y T. Regier (Eds.), 26.ª Reunión Anual de la Sociedad de Ciencias Cognitivas, CogSci2004. Hillsdale, NJ: Lawrence Erlbaum Publisher.
Lindsey, R.; Veksler, V. D.; Grintsvayg, A.; Gray, WD (2007). "Los efectos de la selección de corpus en la medición de la relación semántica" (PDF) . Actas de la 8.ª Conferencia internacional sobre modelado cognitivo, Ann Arbor, MI .
Navigli, R., Lapata, M. (2010). "Un estudio experimental de la conectividad de grafos para la desambiguación no supervisada del sentido de las palabras". IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, págs. 678–692.
Veksler, VD y Gray, WD (2006). "Selección de casos de prueba para evaluar medidas de distancia semántica" (PDF) . Actas de la 28.ª reunión anual de la Cognitive Science Society, CogSci2006 .
Wong, W., Liu, W. y Bennamoun, M. (2008) Agrupamiento de datos sin características. En: M. Song y Y. Wu; Manual de investigación sobre tecnologías de minería de texto y web; IGI Global. ISBN 978-1-59904-990-8 (el uso de NGD y noW para el agrupamiento de términos y URI)

Enlaces externos

Lista de literatura relacionada

Artículos de encuesta

Artículo de conferencia : C. d'Amato, S. Staab, N. Fanizzi. 2008. Sobre la influencia de las ontologías de lógica descriptiva en la similitud conceptual. En Actas de la 16.ª conferencia internacional sobre ingeniería del conocimiento: práctica y patrones. Páginas 48 a 63. Acitrezza, Italia, Springer-Verlag
Artículo de revista sobre el tema más general de la relación, que también incluye la similitud: Z. Zhang, A. Gentile, F. Ciravegna. 2013. Avances recientes en métodos de relación semántica léxica: una encuesta. Natural Language Engineering 19 (4), 411–479, Cambridge University Press
Libro : S. Harispe, S. Ranwez, S. Janaqi, J. Montmain. 2015. Similitud semántica a partir del análisis del lenguaje natural y de la ontología, Morgan & Claypool Publishers.