Similitud semántica

La similitud semántica es una métrica definida sobre un conjunto de documentos o términos, donde la idea de distancia entre elementos se basa en la semejanza de su significado o contenido semántico ^{[ cita necesaria ]} en contraposición a la similitud lexicográfica . Son herramientas matemáticas utilizadas para estimar la fuerza de la relación semántica entre unidades de lenguaje, conceptos o instancias, a través de una descripción numérica obtenida de acuerdo con la comparación de información que sustenta su significado o que describe su naturaleza. ^[1]^[2] El término similitud semántica a menudo se confunde con relación semántica. La relación semántica incluye cualquier relación entre dos términos, mientras que la similitud semántica solo incluye relaciones "es un" . ^[3] Por ejemplo, "coche" es similar a "autobús", pero también está relacionado con "carretera" y "conducir".

Computacionalmente, la similitud semántica se puede estimar definiendo una similitud topológica , utilizando ontologías para definir la distancia entre términos/conceptos. Por ejemplo, una métrica ingenua para la comparación de conceptos ordenados en un conjunto parcialmente ordenado y representados como nodos de un gráfico acíclico dirigido (por ejemplo, una taxonomía ), sería el camino más corto que une los dos nodos conceptuales. Con base en análisis de texto, la relación semántica entre unidades del lenguaje (por ejemplo, palabras, oraciones) también se puede estimar utilizando medios estadísticos como un modelo de espacio vectorial para correlacionar palabras y contextos textuales de un corpus de texto adecuado . La evaluación de las medidas de similitud/relación semántica propuestas se evalúa a través de dos formas principales. El primero se basa en el uso de conjuntos de datos diseñados por expertos y compuestos por pares de palabras con estimación del grado de similitud/relación semántica. La segunda forma se basa en la integración de las medidas dentro de aplicaciones específicas como recuperación de información, sistemas de recomendación, procesamiento del lenguaje natural, etc.

Terminología

El concepto de similitud semántica es más específico que el de relación semántica , ya que este último incluye conceptos como antonimia y meronimia , mientras que semejanza no. ^[4] Sin embargo, gran parte de la literatura utiliza estos términos indistintamente, junto con términos como distancia semántica. En esencia, la similitud semántica, la distancia semántica y la relación semántica significan: "¿Cuánto tiene que ver el término A con el término B?" La respuesta a esta pregunta suele ser un número entre −1 y 1, o entre 0 y 1, donde 1 significa una similitud extremadamente alta.

Visualización

Una forma intuitiva de visualizar la similitud semántica de los términos es agrupando los términos que están estrechamente relacionados y separando más los que están lejanamente relacionados. Esto también es común en la práctica para los mapas mentales y mapas conceptuales .

Una forma más directa de visualizar la similitud semántica de dos elementos lingüísticos se puede ver con el enfoque del plegado semántico . En este enfoque, un elemento lingüístico como un término o un texto se puede representar generando un píxel para cada una de sus características semánticas activas, por ejemplo, en una cuadrícula de 128 x 128. Esto permite una comparación visual directa de la semántica de dos elementos mediante la comparación de representaciones de imágenes de sus respectivos conjuntos de características.

Aplicaciones

En informática biomédica

Se han aplicado y desarrollado medidas de similitud semántica en ontologías biomédicas. ^[5]^[6] Se utilizan principalmente para comparar genes y proteínas en función de la similitud de sus funciones ^[7] en lugar de su similitud de secuencia , pero también se están extendiendo a otras bioentidades, como las enfermedades. ^[8]

Estas comparaciones se pueden realizar utilizando herramientas disponibles gratuitamente en la web:

ProteInOn se puede utilizar para encontrar proteínas que interactúan, encontrar términos GO asignados y calcular la similitud semántica funcional de las proteínas UniProt y para obtener el contenido de la información y calcular la similitud semántica funcional de los términos GO. ^[9]
CMPSim proporciona una medida de similitud funcional entre compuestos químicos y vías metabólicas utilizando medidas de similitud semántica basadas en ChEBI . ^[10]
CESSM proporciona una herramienta para la evaluación automatizada de medidas de similitud semántica basadas en GO. ^[11]

En geoinformática

La similitud también se aplica en geoinformática para encontrar características geográficas o tipos de características similares: ^[12]

El servidor de similitud SIM-DL ^[13] se puede utilizar para calcular similitudes entre conceptos almacenados en ontologías de tipos de características geográficas.
La Calculadora de similitud se puede utilizar para calcular qué tan bien relacionados están dos conceptos geográficos en la ontología Geo-Net-PT. ^[14]^[15]
La red semántica OSM ^[16] se puede utilizar para calcular la similitud semántica de etiquetas en OpenStreetMap . ^[17]

En lingüística computacional

Varias métricas utilizan WordNet , una base de datos léxica de palabras en inglés construida manualmente. A pesar de las ventajas de tener supervisión humana en la construcción de la base de datos, dado que las palabras no se aprenden automáticamente, la base de datos no puede medir la relación entre términos de varias palabras y vocabulario no incremental. ^[4]^[18]

En el procesamiento del lenguaje natural

El procesamiento del lenguaje natural (PNL) es un campo de la informática y la lingüística. El análisis de sentimientos, la comprensión del lenguaje natural y la traducción automática (traducir texto automáticamente de un idioma humano a otro) son algunas de las áreas principales en las que se utiliza. Por ejemplo, al conocer un recurso de información en Internet, a menudo resulta de interés inmediato encontrar recursos similares. La Web Semántica proporciona extensiones semánticas para encontrar datos similares por contenido y no sólo por descriptores arbitrarios. ^[19]^[20]^[21]^[22]^[23]^[24]^[25]^[26]^{[27] Los métodos} de aprendizaje profundo se han convertido en una forma precisa de medir la similitud semántica entre dos pasajes de texto, en los que cada pasaje es el primero. incrustado en una representación vectorial continua. ^[28]^[29]^[30]

En coincidencia de ontologías

La similitud semántica juega un papel crucial en la alineación de ontologías , cuyo objetivo es establecer correspondencias entre entidades de diferentes ontologías. Implica cuantificar el grado de similitud entre conceptos o términos utilizando la información presente en la ontología para cada entidad, como etiquetas, descripciones y relaciones jerárquicas con otras entidades. Las métricas tradicionales utilizadas en la coincidencia de ontologías se basan en una similitud léxica entre las características de las entidades, como el uso de la distancia de Levenshtein para medir la distancia de edición entre etiquetas de entidades. ^[31] Sin embargo, es difícil capturar la similitud semántica entre entidades que utilizan estas métricas. Por ejemplo, al comparar dos ontologías que describen conferencias, las entidades "Contribución" y "Papel" pueden tener una gran similitud semántica ya que comparten el mismo significado. Sin embargo, debido a sus diferencias léxicas, la similitud lexicográfica por sí sola no puede establecer esta alineación. Para capturar estas similitudes semánticas, se están adoptando incorporaciones en la comparación de ontologías. ^[32] Al codificar relaciones semánticas e información contextual, las incrustaciones permiten el cálculo de puntuaciones de similitud entre entidades en función de la proximidad de sus representaciones vectoriales en el espacio de incrustación. Este enfoque permite una coincidencia eficiente y precisa de ontologías, ya que las incrustaciones pueden modelar diferencias semánticas en la denominación de entidades, como la homonimia, asignando diferentes incrustaciones a la misma palabra en función de diferentes contextos. ^[32]

Medidas

Similitud topológica

Básicamente, existen dos tipos de enfoques que calculan la similitud topológica entre conceptos ontológicos:

Basados en bordes: que utilizan los bordes y sus tipos como fuente de datos;
Basado en nodos: en el que las principales fuentes de datos son los nodos y sus propiedades.

Otras medidas calculan la similitud entre instancias ontológicas:

Por pares: mide la similitud funcional entre dos instancias combinando las similitudes semánticas de los conceptos que representan.
En grupo: calcula la similitud directamente sin combinar las similitudes semánticas de los conceptos que representan

Algunos ejemplos:

Basado en bordes

Pekar et al. ^[33]
Cheng y Cline ^[34]
Wu et al. ^[35]
Del Pozo et al. ^[36]
IntelliGO: Benabderrahmane et al. ^[6]

Basado en nodos

Resnik ^[37]
- basado en la noción de contenido informativo . El contenido informativo de un concepto (término o palabra) es el logaritmo de la probabilidad de encontrar el concepto en un corpus determinado.
- Sólo considera el contenido de información del subconsumidor común más bajo (LCS). Un subsumidor común más bajo es un concepto en una taxonomía léxica (por ejemplo, WordNet), que tiene la distancia más corta de los dos conceptos comparados. Por ejemplo, tanto el animal como el mamífero son subsumidores del gato y del perro, pero para ellos el mamífero es un subsumidor inferior que el animal.
Lino ^[38]
- basado en la similitud de Resnik.
- considera el contenido de información del subconsumidor común más bajo (lcs) y los dos conceptos comparados.
Maguitman, Menczer , Roinestad y Vespignani ^[39]
- Generaliza la similitud de Lin con ontologías arbitrarias (gráficos).
Jiang y Conrath ^[40]
- basado en la similitud de Resnik.
- considera el contenido de información del subconsumidor común más bajo (lcs) y los dos conceptos comparados para calcular la distancia entre los dos conceptos. La distancia se utiliza posteriormente para calcular la medida de similitud.
Alinear, eliminar ambigüedades y caminar: paseos aleatorios en redes semánticas ^[41]

Basado en contenido de nodos y relaciones

aplicable a la ontología
considerar las propiedades (contenido) de los nodos
considerar tipos (contenido) de relaciones
basado en eTVSM ^[42]
basado en la similitud de Resnik ^[43]

Por parejas

máximo de las similitudes por pares
promedio compuesto en el que solo se consideran los pares que mejor coinciden (promedio de mejor coincidencia)

Grupo de sabios

índice jaccard

Similitud estadística

Los enfoques de similitud estadística pueden aprenderse de los datos o predefinirse. El aprendizaje por similitud a menudo puede superar las medidas de similitud predefinidas. En términos generales, estos enfoques construyen un modelo estadístico de documentos y lo utilizan para estimar la similitud.

LSA ( análisis semántico latente ): ^[44]^[45] (+) basado en vectores, agrega vectores para medir términos de varias palabras; (-) vocabulario no incremental, largos tiempos de preprocesamiento
PMI ( información mutua puntual ): (+) vocabulario amplio, porque utiliza cualquier motor de búsqueda (como Google); (-) no puede medir la relación entre oraciones o documentos completos
SOC-PMI ( información mutua puntual de coocurrencia de segundo orden ): (+) ordenar listas de palabras vecinas importantes de un corpus grande; (-) no puede medir la relación entre oraciones o documentos completos
GLSA (análisis semántico latente generalizado): (+) basado en vectores, agrega vectores para medir términos de varias palabras; (-) vocabulario no incremental, largos tiempos de preprocesamiento
ICAN (construcción incremental de una red asociativa): (+) medida incremental basada en la red, buena para difundir la activación, representa la relación de segundo orden; (-) no puede medir la relación entre términos de varias palabras, largos tiempos de preprocesamiento
NGD ( distancia normalizada de Google ): (+) vocabulario amplio, porque utiliza cualquier motor de búsqueda (como Google); (-) puede medir la relación entre oraciones o documentos completos, pero cuanto más grande sea la oración o el documento, más ingenio se requiere (Cilibrasi y Vitanyi, 2007). ^[46]
TSS (similitud semántica de Twitter): ^[47] vocabulario amplio, porque utiliza tweets en línea de Twitter para calcular la similitud. Tiene alta resolución temporal que permite capturar eventos de alta frecuencia. Fuente abierta
NCD ( distancia de compresión normalizada )
ESA ( análisis semántico explícito ) basado en Wikipedia y el ODP
SSA (análisis semántico saliente) ^[48] que indexa términos utilizando conceptos destacados que se encuentran en su contexto inmediato.
n° de Wikipedia (ahora), ^[49] inspirado en el juego Six Degrees of Wikipedia, ^[50] es una métrica de distancia basada en la estructura jerárquica de Wikipedia. Primero se construye un gráfico acíclico dirigido y luego se emplea el algoritmo de ruta más corta de Dijkstra para determinar el valor actual entre dos términos como la distancia geodésica entre los temas correspondientes (es decir, nodos) en el gráfico.
VGEM (generación de vectores de un espacio semántico multidimensional definido explícitamente): ^[51] (+) vocabulario incremental, puede comparar términos de varias palabras (-) el rendimiento depende de la elección de dimensiones específicas
SimRank
NASARI: ^[52] Representaciones vectoriales dispersas construidas aplicando la distribución hipergeométrica sobre el corpus de Wikipedia en combinación con la taxonomía de BabelNet. Actualmente, la similitud entre idiomas también es posible gracias a la extensión multilingüe y unificada. ^[53]

Similitud basada en la semántica

Paso de marcadores: combinando la descomposición léxica para la creación automatizada de ontologías y el paso de marcadores, el enfoque de Fähndrich et al. introduce un nuevo tipo de medida de similitud semántica. ^[54] Aquí los marcadores se pasan de los dos conceptos objetivo que conllevan una cantidad de activación. Esta activación puede aumentar o disminuir dependiendo del peso de las relaciones con las que se conectan los conceptos. Esto combina enfoques basados en bordes y nodos e incluye razonamiento conexionista con información simbólica.
Buena medida de similitud semántica basada en el subconsumidor común (GCS) ^[55]

Redes de similitud semántica

Una red de similitud semántica (SSN) es una forma especial de red semántica . diseñado para representar conceptos y su similitud semántica. Su principal contribución es reducir la complejidad del cálculo de distancias semánticas. Bendeck (2004, 2008) introdujo el concepto de redes de similitud semántica (SSN) como la especialización de una red semántica para medir la similitud semántica a partir de representaciones ontológicas. ^[56] Las implementaciones incluyen el manejo de información genética.

Estándares de oro

Los investigadores han recopilado conjuntos de datos con juicios de similitud sobre pares de palabras, que se utilizan para evaluar la plausibilidad cognitiva de las medidas computacionales. El estándar de oro hasta hoy es una antigua lista de 65 palabras donde los humanos han juzgado la similitud de palabras. ^[57]^[58]

RG65 ^[59]
MC30 ^[60]
WordSim353 ^[61]

Ver también

Analogía
Análisis componentes
Coherencia (lingüística)
distancia de Levenshtein
Diferencial semántico
Red de similitud semántica
Extracción de terminología
palabra2vec
tf-idf – Estimación de la importancia de una palabra en un documento

Referencias

^ Harispe S.; Ranwez S.; Janaqi S.; Montmain J. (2015). "Similitud semántica del análisis de ontologías y lenguaje natural". Conferencias de síntesis sobre tecnologías del lenguaje humano . 8 (1): 1–254. arXiv : 1704.05295 . doi :10.2200/S00639ED1V01Y201504HLT027. S2CID 17428739.
^ Feng Y.; Bagheri E.; Ensan F.; Jovanovic J. (2017). "El estado del arte en relación semántica: un marco de comparación". Revisión de ingeniería del conocimiento . 32 : 1–30. doi :10.1017/S0269888917000029. S2CID 52172371.
^ A. Ballatore; el señor Bertolotto; DC Wilson (2014). "Una línea de base de evaluación para la relación y similitud geosemántica". GeoInformática . 18 (4): 747–767. arXiv : 1402.3371 . Código Bib : 2014arXiv1402.3371B. doi :10.1007/s10707-013-0197-8. S2CID 17474023.
^ ab Budanitsky, Alejandro; Hirst, Graeme (2001). "Distancia semántica en WordNet: una evaluación experimental orientada a aplicaciones de cinco medidas" (PDF) . Taller sobre WordNet y otros recursos léxicos, Segunda Reunión del Capítulo Norteamericano de la Asociación de Lingüística Computacional . Pittsburg.
^ Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). "Análisis de similitud semántica de datos de proteínas: evaluación de características y problemas biológicos". Sesiones informativas en Bioinformática . 13 (5): 569–585. doi : 10.1093/bib/bbr066 . PMID 22138322.
^ ab Benabderrahmane, Sidahmed; Smail Tabbone, Malika; Poch, Olivier; Nápoles, Amedeo; Devignes, Marie-Domonique. (2010). "IntelliGO: una nueva medida de similitud semántica basada en vectores que incluye el origen de la anotación". Bioinformática BMC . 11 : 588. doi : 10.1186/1471-2105-11-588 . PMC 3098105 . PMID 21122125.
^ Chicco, D; Masseroli, M (2015). "Paquete de software para búsqueda de similitudes y predicción de anotaciones de genes y proteínas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 12 (4): 837–843. doi :10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID 26357324. S2CID 14714823.
^ Kohler, S; Schulz, MH; Krawitz, P; Bauer, S; Dolken, S; Ott, CE; Mundlos, C; Cuerno, D; et al. (2009). "Diagnóstico clínico en genética humana con búsquedas de similitudes semánticas en ontologías". Revista Estadounidense de Genética Humana . 85 (4): 457–64. doi :10.1016/j.ajhg.2009.09.003. PMC 2756558 . PMID 19800049.
^ "Proteína en".
^ "CMPSim".
^ "CESSM".
^ Janowicz, K.; Raubal, M.; Kuhn, W. (2011). "La semántica de la similitud en la recuperación de información geográfica". Revista de ciencia de la información espacial . 2 (2): 29–57. doi : 10.5311/josis.2011.2.3 .
↑ Algoritmo, implementación y aplicación del servidor de similitud SIM-DL . Segunda Conferencia Internacional sobre Semántica Geoespacial (GEOS 2007). Apuntes de conferencias sobre informática. 2007, págs. 128-145. CiteSeerX 10.1.1.172.5544 .
^ "Calculadora de similitud Geo-Net-PT".
^ "Geo-Net-PT".
^ "Red Semántica OSM". WikiOSM.
^ A. Ballatore; DC Wilson; Señor Bertolotto. "Extracción de conocimientos geográficos y similitud semántica en OpenStreetMap" (PDF) . Sistemas de información y conocimiento : 61–81.
^ Kaur, I. y Hornof, AJ (2005). "Una comparación de LSA, wordNet y PMI-IR para predecir el comportamiento de clics del usuario". Actas de la Conferencia SIGCHI sobre factores humanos en sistemas informáticos . págs. 51–60. doi :10.1145/1054972.1054980. ISBN 978-1-58113-998-3. S2CID 14347026.
^ Métodos de aprendizaje basados en similitudes para la web semántica (C. d'Amato, tesis doctoral)
^ Gracia, J. y Mena, E. (2008). "Medida de relación semántica basada en web" (PDF) . Actas de la novena Conferencia Internacional sobre Ingeniería de Sistemas de Información Web (WISE '08) : 136–150.
^ Raveendranathan, P. (2005). Identificación de conjuntos de palabras relacionadas de la World Wide Web. Tesis de Maestría en Ciencias, Universidad de Minnesota Duluth.
^ Wubben, S. (2008). Uso de estructura de enlace libre para calcular la relación semántica. En Serie de informes técnicos del Grupo de Investigación ILK, nr. 08-01, 2008.
^ Juvina, I., van Oostendorp, H., Karbor, P. y Pauw, B. (2005). Hacia el modelado de información contextual en la navegación web. En BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27ª Reunión Anual de la Sociedad de Ciencias Cognitivas, CogSci2005 (págs. 1078-1083). Austin, Tx: Sociedad de Ciencias Cognitivas, Inc.
^ Navigli, R., Lapata, M. (2007). Medidas de conectividad gráfica para la desambiguación del sentido de palabras sin supervisión, Proc. de la 20.ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI 2007), Hyderabad, India, 6 al 12 de enero de 2007, págs. 1683-1688.
^ Pirolli, P. (2005). "Análisis racionales de la búsqueda de información en la Web". Ciencia cognitiva . 29 (3): 343–373. doi : 10.1207/s15516709cog0000_20 . PMID 21702778.
^ Pirolli, P. y Fu, W.-T. (2003). "SNIF-ACT: un modelo de búsqueda de información en la World Wide Web". Apuntes de conferencias sobre informática . vol. 2702, págs. 45–54. CiteSeerX 10.1.1.6.1506 . doi :10.1007/3-540-44963-9_8. ISBN 978-3-540-40381-4.
^ Turney, P. (2001). Buscando sinónimos en la Web: PMI versus LSA en TOEFL. En L. De Raedt & P. Flach (Eds.), Actas de la Duodécima Conferencia Europea sobre Aprendizaje Automático (ECML-2001) (págs. 491–502). Friburgo, Alemania.
^ Reimers, Nils; Gurevych, Iryna (noviembre de 2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas". Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la novena Conferencia Internacional Conjunta sobre Procesamiento del Lenguaje Natural (EMNLP-IJCNLP) . Hong Kong, China: Asociación de Lingüística Computacional. págs. 3982–3992. arXiv : 1908.10084 . doi : 10.18653/v1/D19-1410 .
^ Mueller, Jonás; Thyagarajan, Aditya (5 de marzo de 2016). "Arquitecturas recurrentes siamesas para aprender la similitud de oraciones". Trigésima Conferencia AAAI sobre Inteligencia Artificial . 30 . doi : 10.1609/aaai.v30i1.10350 . S2CID 16657628.
^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Russ R; Zemel, Richard; Urtasún, Raquel; Torralba, Antonio; Fidler, Sanja (2015), Cortés, C.; Lawrence, Dakota del Norte; Lee, DD; Sugiyama, M. (eds.), "Skip-Thought Vectors" (PDF) , Avances en los sistemas de procesamiento de información neuronal 28 , Curran Associates, Inc., págs. 3294–3302 , consultado el 13 de marzo de 2020
^ Cheatham, Michelle; Hitzler, Pascal (2013). "Métricas de similitud de cadenas para la alineación de ontologías". En Alaní, Harith; Kagal, Lalana; Fokoue, Aquiles; Groth, Pablo; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; No, Natasha; Welty, Chris (eds.). Ingeniería Avanzada en Sistemas de Información . La Web Semántica - ISWC 2013. Apuntes de conferencias sobre informática. vol. 7908. Berlín, Heidelberg: Springer. págs. 294–309. doi : 10.1007/978-3-642-41338-4_19 . ISBN 978-3-642-41338-4. S2CID 18372966.
^ ab Sousa, G., Lima, R. y Trojahn, C. (2022). Una mirada al aprendizaje de representaciones en la comparación de ontologías. OM@ISWC .
^ Pekar, Víktor; Staab, Steffen (2002). Aprendizaje de taxonomía . Actas de la XIX Conferencia Internacional sobre Lingüística Computacional –. vol. 1. págs. 1–7. doi :10.3115/1072228.1072318.
^ Cheng, J; Cline, M; Martín, J; Finkelstein, D; Awad, T; Kulp, D; Siani-Rose, MA (2004). "Un algoritmo de agrupación basado en el conocimiento impulsado por Gene Ontology". Revista de estadísticas biofarmacéuticas . 14 (3): 687–700. doi :10.1081/BIP-200025659. PMID 15468759. S2CID 25224811.
^ Wu, H; Su, Z; Mao, F; Olman, V; Xu, Y (2005). "Predicción de módulos funcionales basada en análisis comparativo del genoma y aplicación de Ontología Génica". Investigación de ácidos nucleicos . 33 (9): 2822–37. doi : 10.1093/nar/gki573. PMC 1130488 . PMID 15901854.
^ Del Pozo, Ángela; Pazos, Florencio; Valencia, Alfonso (2008). "Definición de distancias funcionales sobre ontología genética". Bioinformática BMC . 9 : 50. doi : 10.1186/1471-2105-9-50 . PMC 2375122 . PMID 18221506.
^ Philip Resnik (1995). Chris S. Mellish (ed.). "Uso del contenido de la información para evaluar la similitud semántica en una taxonomía". Actas de la 14ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg/9511007 . Código Bib : 1995cmp.lg...11007R. CiteSeerX 10.1.1.41.6956 .
^ Dekang Lin. 1998. Una definición teórica de la información de similitud. En Actas de la Decimoquinta Conferencia Internacional sobre Aprendizaje Automático (ICML '98), Jude W. Shavlik (Ed.). Morgan Kaufmann Publishers Inc., San Francisco, CA, EE. UU., 296–304
^ Ana Gabriela Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani: Detección algorítmica de similitud semántica. WWW 2005: 107–116
^ JJ Jiang y DW Conrath. Similitud semántica basada en estadísticas de corpus y taxonomía léxica. En Conferencia Internacional sobre Investigación en Lingüística Computacional (ROCLING X), páginas 9008+, septiembre de 1997
^ MT Pilehvar, D. Jurgens y R. Navigli. Alinear, eliminar ambigüedades y caminar: un enfoque unificado para medir la similitud semántica. Proc. de la 51ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2013), Sofía, Bulgaria, 4 al 9 de agosto de 2013, págs.
^ Dong, Hai (2009). "Un modelo de medida de similitud de conceptos híbridos para entornos ontológicos". En camino hacia sistemas de Internet significativos: talleres OTM 2009. Apuntes de conferencias sobre informática. vol. 5872, págs. 848–857. Código Bib : 2009LNCS.5872..848D. doi :10.1007/978-3-642-05290-3_103. ISBN 978-3-642-05289-7.
^ Dong, Hai (2011). "Un modelo de similitud semántica consciente del contexto para entornos ontológicos". Concurrencia y Computación: Práctica y Experiencia . 23 (2): 505–524. doi :10.1002/cpe.1652. S2CID 412845.
^ Landauer, conocimientos tradicionales; Dumais, ST (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" (PDF) . Revisión psicológica . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . doi :10.1037/0033-295x.104.2.211. S2CID 1144461.
^ Landauer, conocimientos tradicionales; Foltz, PW y Laham, D. (1998). "Introducción al Análisis Semántico Latente" (PDF) . Procesos del discurso . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi :10.1080/01638539809545028. S2CID 16625196.
^ "Distancia de similitud de Google".
^ Carrillo, F.; Cecchi, Georgia; Sigman, M.; Slezak, DF (2015). "Dinámica distribuida rápidamente de redes semánticas a través de redes sociales" (PDF) . Inteligencia Computacional y Neurociencia . 2015 : 712835. doi : 10.1155/2015/712835 . PMC 4449913 . PMID 26074953.
^ "Samer Hassan" (PDF) .^{[ enlace muerto ]}
^ Wilson Wong; Wei Liu; Mohammed Bennamoun (noviembre de 2006). Similitudes sin rasgos distintivos para la agrupación de términos utilizando hormigas que atraviesan árboles. PCAR '06: Actas del simposio internacional de 2006 sobre robots y agentes cognitivos prácticos. págs. 177-191. doi :10.1145/1232425.1232448.
^ "6 grados de Wikipedia". La Crónica de la Educación Superior . El campus cableado. 28 de mayo de 2008. Archivado desde el original el 30 de mayo de 2008.
^ VD Veksler; Ryan Z. Govostes (2008). "Definición de las dimensiones del espacio semántico humano" (PDF) .
^ J. Camacho-Collados; MT Pilehvar; R. Navigli (2015). NASARI: un enfoque novedoso para una representación semántica de elementos (PDF) . Actas del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL 2015). Denver, Estados Unidos. págs. 567–577.
^ J. Camacho-Collados; MT Pilehvar; R. Navigli (27 al 29 de julio de 2015). Una representación semántica multilingüe unificada de conceptos (PDF) . Actas de la 53ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2015). Beijing, China. págs. 741–751.
^ Fähndrich J.; Weber S.; Ahrndt S. (2016). "Diseño y uso de una medida de similitud semántica para la interoperabilidad entre agentes". En Klusch M.; Unland R.; Shehory O.; Pokahr A.; Ahrndt S. (eds.). Tecnologías de sistemas multiagente . MATES 2016. Apuntes de conferencias en informática. vol. 9872. Saltador.Disponible en versión de autor
^ C. d'Amato; S. Staab; N. Fanizzi (2008). "Sobre la influencia de las ontologías de lógicas de descripción en la similitud conceptual". Ingeniería del conocimiento: práctica y patrones . págs. 48–63. doi :10.1007/978-3-540-87696-0_7.
^ Bendeck, F. (2008). Plataforma de coincidencia semántica de flujo de trabajo WSM-P, tesis doctoral, Universidad de Trier, Alemania . Editorial Dr. Hut. COMO EN 3899638549.
^ Rubenstein, Herbert y John B. Goodenough. Correlatos contextuales de sinonimia. Comunicaciones de la ACM, 8(10):627–633, 1965.
^ Para obtener una lista de conjuntos de datos y una descripción general del estado de la técnica, consulte https://www.aclweb.org/.
^ Rubenstein, Herbert; Suficientemente bueno, John B. (1 de octubre de 1965). "Correlatos contextuales de sinonimia". Comunicaciones de la ACM . 8 (10): 627–633. doi : 10.1145/365628.365657 . S2CID 18309234.
^ Molinero, George A.; Charles, Walter G. (1 de enero de 1991). "Correlaciones contextuales de similitud semántica". Lenguaje y Procesos Cognitivos . 6 (1): 1–28. doi :10.1080/01690969108406936. ISSN 0169-0965.
^ "Colocar la búsqueda en contexto". Transacciones ACM sobre sistemas de información . 20 : 116-131. 2002-01-01. CiteSeerX 10.1.1.29.1912 . doi :10.1145/503104.503110. S2CID 12956853.

Fuentes

Chicco, D; Masseroli, M (2015). "Paquete de software para búsqueda de similitudes y predicción de anotaciones de genes y proteínas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 12 (4): 837–843. doi :10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID 26357324. S2CID 14714823.
Cilibrasi, RL y Vitanyi, PMB (2007). "La distancia de similitud de Google". Traducción IEEE. Ingeniería del Conocimiento y de los Datos . 19 (3): 370–383. arXiv : cs/0412098 . doi :10.1109/TKDE.2007.48. S2CID 59777.
Dumais, S (2003). "Enfoques basados en datos para el acceso a la información". Ciencia cognitiva . 27 (3): 491–524. doi : 10.1207/s15516709cog2703_7 .
Gabrilovich, E. y Markovitch, S. (2007). Computación de la relación semántica mediante análisis semántico explícito basado en Wikipedia, Actas de la 20ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI), Hyderabad, India, enero de 2007.
Lee, MD, Pincombe, B. y Welsh, M. (2005). Una evaluación empírica de modelos de similitud de documentos de texto. En BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27ª Reunión Anual de la Sociedad de Ciencias Cognitivas, CogSci2005 (págs. 1254-1259). Austin, Tx: Sociedad de Ciencias Cognitivas, Inc.
Lemaire, B. y Denhière, G. (2004). Construcción incremental de una red asociativa a partir de un corpus. En KD Forbus & D. Gentner & T. Regier (Eds.), 26ª Reunión Anual de la Sociedad de Ciencias Cognitivas, CogSci2004. Hillsdale, Nueva Jersey: Lawrence Erlbaum Publisher.
Lindsey, R.; Veksler, VD; Grintsvayg, A.; Gris, WD (2007). "Los efectos de la selección de corpus en la medición de la relación semántica" (PDF) . Actas de la octava conferencia internacional sobre modelado cognitivo, Ann Arbor, MI .
Navigli, R., Lapata, M. (2010). "Un estudio experimental de la conectividad de gráficos para la desambiguación del sentido de las palabras sin supervisión". Transacciones IEEE sobre análisis de patrones e inteligencia artificial (TPAMI), 32 (4), IEEE Press, 2010, págs.
Veksler, VD y Gray, WD (2006). "Selección de casos de prueba para evaluar medidas de distancia semántica" (PDF) . Actas de la 28ª Reunión Anual de la Sociedad de Ciencias Cognitivas, CogSci2006 .
Wong, W., Liu, W. y Bennamoun, M. (2008) Agrupación de datos sin características. En: M. Song y Y. Wu; Manual de investigación sobre tecnologías de minería de textos y web; IGI Global. ISBN 978-1-59904-990-8 (el uso de NGD y ahora para agrupación de términos y URI)

enlaces externos

Lista de literatura relacionada

Artículos de encuesta

Artículo de conferencia : C. d'Amato, S. Staab, N. Fanizzi. 2008. Sobre la influencia de las ontologías de lógicas de descripción en la similitud conceptual. En Actas de la 16ª conferencia internacional sobre Ingeniería del Conocimiento: Práctica y Patrones Páginas 48 – 63. Acitrezza, Italia, Springer-Verlag
Artículo de revista sobre el tema más general de la relación, que también incluye similitud: Z. Zhang, A. Gentile, F. Ciravegna. 2013. Avances recientes en métodos de relación semántica léxica: una encuesta. Ingeniería del lenguaje natural 19 (4), 411–479, Cambridge University Press
Libro : S. Harispe, S. Ranwez, S. Janaqi, J. Montmain. 2015. Similitud semántica del lenguaje natural y análisis de ontología, Morgan & Claypool Publishers.