stringtranslate.com

Similitud semántica

La similitud semántica es una métrica definida sobre un conjunto de documentos o términos, donde la idea de distancia entre elementos se basa en la semejanza de su significado o contenido semántico [ cita requerida ] en contraposición a la similitud lexicográfica . Se trata de herramientas matemáticas utilizadas para estimar la fuerza de la relación semántica entre unidades de lenguaje, conceptos o instancias, a través de una descripción numérica obtenida de acuerdo a la comparación de información que sustenta su significado o describe su naturaleza. [1] [2] El término similitud semántica se confunde a menudo con parentesco semántico. El parentesco semántico incluye cualquier relación entre dos términos, mientras que la similitud semántica solo incluye relaciones del tipo "es un" . [3] Por ejemplo, "coche" es similar a "autobús", pero también está relacionado con "carretera" y "conducir".

Computacionalmente, la similitud semántica puede estimarse definiendo una similitud topológica , mediante el uso de ontologías para definir la distancia entre términos/conceptos. Por ejemplo, una métrica ingenua para la comparación de conceptos ordenados en un conjunto parcialmente ordenado y representados como nodos de un grafo acíclico dirigido (por ejemplo, una taxonomía ), sería el camino más corto que une los dos nodos de concepto. Con base en análisis de texto, la relación semántica entre unidades de lenguaje (por ejemplo, palabras, oraciones) también puede estimarse utilizando medios estadísticos como un modelo de espacio vectorial para correlacionar palabras y contextos textuales de un corpus de texto adecuado . La evaluación de las medidas de similitud/relación semántica propuestas se evalúa a través de dos formas principales. La primera se basa en el uso de conjuntos de datos diseñados por expertos y compuestos de pares de palabras con estimación del grado de similitud/relación semántica. La segunda forma se basa en la integración de las medidas dentro de aplicaciones específicas como recuperación de información, sistemas de recomendación, procesamiento del lenguaje natural, etc.

Terminología

El concepto de similitud semántica es más específico que el de relación semántica , ya que este último incluye conceptos como antonimia y meronimia , mientras que la similitud no. [4] Sin embargo, gran parte de la literatura utiliza estos términos indistintamente, junto con términos como distancia semántica. En esencia, similitud semántica, distancia semántica y relación semántica significan: "¿Cuánto tiene que ver el término A con el término B?". La respuesta a esta pregunta suele ser un número entre −1 y 1, o entre 0 y 1, donde 1 significa una similitud extremadamente alta.

Visualización

Una forma intuitiva de visualizar la similitud semántica de los términos es agrupando los términos que están estrechamente relacionados y espaciando más los que están distantemente relacionados. Esto también es común en la práctica para los mapas mentales y los mapas conceptuales .

Una forma más directa de visualizar la similitud semántica de dos elementos lingüísticos se puede ver con el enfoque de plegado semántico . En este enfoque, un elemento lingüístico, como un término o un texto, se puede representar generando un píxel para cada una de sus características semánticas activas en, por ejemplo, una cuadrícula de 128 x 128. Esto permite una comparación visual directa de la semántica de dos elementos comparando representaciones de imágenes de sus respectivos conjuntos de características.

Aplicaciones

En informática biomédica

Las medidas de similitud semántica se han aplicado y desarrollado en ontologías biomédicas. [5] [6] Se utilizan principalmente para comparar genes y proteínas en función de la similitud de sus funciones [7] en lugar de su similitud de secuencia , pero también se están extendiendo a otras bioentidades, como las enfermedades. [8]

Estas comparaciones se pueden realizar utilizando herramientas disponibles gratuitamente en la web:

En geoinformática

La similitud también se aplica en geoinformática para encontrar características geográficas o tipos de características similares: [12]

En lingüística computacional

Varias métricas utilizan WordNet , una base de datos léxica de palabras en inglés construida manualmente. A pesar de las ventajas de tener supervisión humana en la construcción de la base de datos, dado que las palabras no se aprenden automáticamente, la base de datos no puede medir la relación entre términos de varias palabras y vocabulario no incremental. [4] [18]

En el procesamiento del lenguaje natural

El procesamiento del lenguaje natural (PLN) es un campo de la informática y la lingüística. El análisis de sentimientos, la comprensión del lenguaje natural y la traducción automática (traducir automáticamente texto de un idioma humano a otro) son algunas de las principales áreas en las que se utiliza. Por ejemplo, al conocer un recurso de información en Internet, suele ser de interés inmediato encontrar recursos similares. La Web semántica proporciona extensiones semánticas para encontrar datos similares por contenido y no solo por descriptores arbitrarios. [19] [20] [21] [22] [23] [24] [25] [26] [27] Los métodos de aprendizaje profundo se han convertido en una forma precisa de medir la similitud semántica entre dos pasajes de texto, en los que cada pasaje se integra primero en una representación vectorial continua. [28] [29] [30]

En la correspondencia de ontologías

La similitud semántica juega un papel crucial en la alineación de ontologías , que tiene como objetivo establecer correspondencias entre entidades de diferentes ontologías. Implica cuantificar el grado de similitud entre conceptos o términos utilizando la información presente en la ontología para cada entidad, como etiquetas, descripciones y relaciones jerárquicas con otras entidades. Las métricas tradicionales utilizadas en la correspondencia de ontologías se basan en una similitud léxica entre las características de las entidades, como el uso de la distancia de Levenshtein para medir la distancia de edición entre las etiquetas de las entidades. [31] Sin embargo, es difícil capturar la similitud semántica entre entidades utilizando estas métricas. Por ejemplo, al comparar dos ontologías que describen conferencias, las entidades "Contribución" y "Artículo" pueden tener una alta similitud semántica ya que comparten el mismo significado. No obstante, debido a sus diferencias léxicas, la similitud lexicográfica por sí sola no puede establecer esta alineación. Para capturar estas similitudes semánticas, se están adoptando incrustaciones en la correspondencia de ontologías. [32] Al codificar las relaciones semánticas y la información contextual, las incrustaciones permiten el cálculo de puntuaciones de similitud entre entidades en función de la proximidad de sus representaciones vectoriales en el espacio de incrustación. Este enfoque permite una correspondencia eficiente y precisa de ontologías, ya que las incrustaciones pueden modelar diferencias semánticas en la denominación de entidades, como la homonimia, al asignar diferentes incrustaciones a la misma palabra en función de diferentes contextos. [32]

Medidas

Similitud topológica

Básicamente, existen dos tipos de enfoques que calculan la similitud topológica entre conceptos ontológicos:

Otras medidas calculan la similitud entre instancias ontológicas:

Algunos ejemplos:

Basado en el borde

Basado en nodos

Basado en contenido de nodos y relaciones

Por pares

Grupo por grupo

Similitud estadística

Los métodos de similitud estadística se pueden aprender a partir de datos o pueden predefinirse. El aprendizaje de similitudes a menudo puede superar a las medidas de similitud predefinidas. En términos generales, estos métodos construyen un modelo estadístico de documentos y lo utilizan para estimar la similitud.

Similitud basada en semántica

Redes de similitud semántica

Patrones de oro

Los investigadores han recopilado conjuntos de datos con juicios de similitud sobre pares de palabras, que se utilizan para evaluar la plausibilidad cognitiva de las medidas computacionales. El estándar de oro hasta el día de hoy es una antigua lista de 65 palabras en la que los humanos han juzgado la similitud de las palabras. [57] [58]

Véase también

Referencias

  1. ^ Harispe S.; Ranwez S.; Janaqi S.; Montmain J. (2015). "Similitud semántica a partir del análisis del lenguaje natural y de ontología". Synthesis Lectures on Human Language Technologies . 8 (1): 1–254. arXiv : 1704.05295 . doi :10.2200/S00639ED1V01Y201504HLT027. S2CID  17428739.
  2. ^ Feng Y.; Bagheri E.; Ensan F.; Jovanovic J. (2017). "El estado del arte en la relación semántica: un marco para la comparación". Knowledge Engineering Review . 32 : 1–30. doi :10.1017/S0269888917000029. S2CID  52172371.
  3. ^ A. Ballatore; M. Bertolotto; DC Wilson (2014). "Una línea base evaluativa para la relación y similitud geosemántica". GeoInformatica . 18 (4): 747–767. arXiv : 1402.3371 . Código Bibliográfico :2014GInfo..18..747B. doi :10.1007/s10707-013-0197-8. S2CID  17474023.
  4. ^ ab Budanitsky, Alexander; Hirst, Graeme (2001). "Distancia semántica en WordNet: una evaluación experimental y orientada a la aplicación de cinco medidas" (PDF) . Taller sobre WordNet y otros recursos léxicos, Segunda reunión del Capítulo norteamericano de la Asociación de Lingüística Computacional . Pittsburgh.
  5. ^ Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). "Análisis de similitud semántica de datos proteicos: evaluación con características y problemas biológicos". Briefings in Bioinformatics . 13 (5): 569–585. doi : 10.1093/bib/bbr066 . PMID  22138322.
  6. ^ ab Benabderrahmane, Sidahmed; Smail Tabbone, Malika; Poch, Olivier; Napoli, Amedeo; Devignes, Marie-Domonique. (2010). "IntelliGO: una nueva medida de similitud semántica basada en vectores que incluye el origen de la anotación". BMC Bioinformatics . 11 : 588. doi : 10.1186/1471-2105-11-588 . PMC 3098105 . PMID  21122125. 
  7. ^ Chicco, D; Masseroli, M (2015). "Paquete de software para predicción de anotaciones de genes y proteínas y búsqueda de similitud". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 12 (4): 837–843. doi :10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID  26357324. S2CID  14714823.
  8. ^ Köhler, S; Schulz, MH; Krawitz, P; Bauer, S; Dolken, S; Ott, CE; Mundlos, C; Horn, D; et al. (2009). "Diagnóstico clínico en genética humana con búsquedas de similitud semántica en ontologías". American Journal of Human Genetics . 85 (4): 457–64. doi :10.1016/j.ajhg.2009.09.003. PMC 2756558 . PMID  19800049. 
  9. ^ "Proteína Encendida".
  10. ^ "Simulación CMPS".
  11. ^ "CESMO".
  12. ^ Janowicz, K.; Raubal, M.; Kuhn, W. (2011). "La semántica de la similitud en la recuperación de información geográfica". Revista de ciencia de la información espacial . 2 (2): 29–57. doi : 10.5311/josis.2011.2.3 .
  13. ^ Algoritmo, implementación y aplicación del servidor de similitud SIM-DL . Segunda Conferencia Internacional sobre Semántica Geoespacial (GEOS 2007). Apuntes de clase en Ciencias de la Computación. 2007. pp. 128–145. CiteSeerX 10.1.1.172.5544 . 
  14. ^ "Calculadora de similitud Geo-Net-PT".
  15. ^ "Geo-Red-PT".
  16. ^ "Red semántica OSM". Wiki OSM.
  17. ^ A. Ballatore; DC Wilson; M. Bertolotto. "Extracción de conocimiento geográfico y similitud semántica en OpenStreetMap" (PDF) . Sistemas de información y conocimiento : 61–81.
  18. ^ Kaur, I. y Hornof, AJ (2005). "Una comparación de LSA, wordNet y PMI-IR para predecir el comportamiento de clic del usuario". Actas de la Conferencia SIGCHI sobre factores humanos en sistemas informáticos . págs. 51–60. doi :10.1145/1054972.1054980. ISBN 978-1-58113-998-3. Número de identificación del sujeto  14347026.
  19. ^ Métodos de aprendizaje basados ​​en similitudes para la Web Semántica (C. d'Amato, Tesis Doctoral)
  20. ^ Gracia, J. y Mena, E. (2008). "Medida basada en la Web de la Relación Semántica" (PDF) . Actas de la 9.ª Conferencia Internacional sobre Ingeniería de Sistemas de Información Web (WISE '08) : 136–150.
  21. ^ Raveendranathan, P. (2005). Identificación de conjuntos de palabras relacionadas en la World Wide Web. Tesis de maestría en ciencias, Universidad de Minnesota Duluth.
  22. ^ Wubben, S. (2008). Utilización de la estructura de enlace libre para calcular la relación semántica. En ILK Research Group Technical Report Series, n.° 08-01, 2008.
  23. ^ Juvina, I., van Oostendorp, H., Karbor, P. y Pauw, B. (2005). Hacia el modelado de la información contextual en la navegación web. En BG Bara y L. Barsalou y M. Bucciarelli (Eds.), 27.ª Reunión Anual de la Cognitive Science Society, CogSci2005 (pp. 1078–1083). Austin, Tx: The Cognitive Science Society, Inc.
  24. ^ Navigli, R., Lapata, M. (2007). Graph Connectivity Measures for Unsupervised Word Sense Disambiguation, Actas de la 20.ª Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI 2007), Hyderabad, India, 6 al 12 de enero de 2007, págs. 1683-1688.
  25. ^ Pirolli, P. (2005). "Análisis racionales de la búsqueda de información en la Web". Cognitive Science . 29 (3): 343–373. doi : 10.1207/s15516709cog0000_20 . PMID  21702778.
  26. ^ Pirolli, P. y Fu, W.-T. (2003). "SNIF-ACT: Un modelo de búsqueda de información en la World Wide Web". Lecture Notes in Computer Science . Vol. 2702. págs. 45–54. CiteSeerX 10.1.1.6.1506 . doi :10.1007/3-540-44963-9_8. ISBN  978-3-540-40381-4.
  27. ^ Turney, P. (2001). Minería de sinónimos en la Web: PMI versus LSA en TOEFL. En L. De Raedt y P. Flach (Eds.), Actas de la Duodécima Conferencia Europea sobre Aprendizaje Automático (ECML-2001) (pp. 491–502). Friburgo, Alemania.
  28. ^ Reimers, Nils; Gurevych, Iryna (noviembre de 2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas". Actas de la Conferencia de 2019 sobre métodos empíricos en procesamiento del lenguaje natural y la 9.ª Conferencia conjunta internacional sobre procesamiento del lenguaje natural (EMNLP-IJCNLP) . Hong Kong, China: Asociación de Lingüística Computacional. págs. 3982–3992. arXiv : 1908.10084 . doi : 10.18653/v1/D19-1410 .
  29. ^ Mueller, Jonas; Thyagarajan, Aditya (5 de marzo de 2016). "Arquitecturas recurrentes siamesas para el aprendizaje de la similitud de oraciones". Trigésima Conferencia AAAI sobre Inteligencia Artificial . 30 . doi : 10.1609/aaai.v30i1.10350 . S2CID  16657628.
  30. ^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Russ R; Zemel, Richard; Urtasún, Raquel; Torralba, Antonio; Fidler, Sanja (2015), Cortés, C.; Lawrence, Dakota del Norte; Lee, DD; Sugiyama, M. (eds.), "Skip-Thought Vectors" (PDF) , Avances en los sistemas de procesamiento de información neuronal 28 , Curran Associates, Inc., págs. 3294–3302 , consultado el 13 de marzo de 2020
  31. ^ Cheatham, Michelle; Hitzler, Pascal (2013). "Métricas de similitud de cadenas para la alineación de ontologías". En Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). Ingeniería avanzada de sistemas de información . La web semántica – ISWC 2013. Apuntes de clase en informática. Vol. 7908. Berlín, Heidelberg: Springer. págs. 294–309. doi : 10.1007/978-3-642-41338-4_19 . ISBN . 978-3-642-41338-4.S2CID 18372966  .
  32. ^ ab Sousa, G., Lima, R. y Trojahn, C. (2022). Una mirada al aprendizaje de la representación en la correspondencia de ontologías. OM@ISWC .
  33. ^ Pekar, Viktor; Staab, Steffen (2002). Aprendizaje de taxonomía . Actas de la 19.ª conferencia internacional sobre lingüística computacional. Vol. 1. págs. 1–7. doi :10.3115/1072228.1072318.
  34. ^ Cheng, J; Cline, M; Martin, J; Finkelstein, D; Awad, T; Kulp, D; Siani-Rose, MA (2004). "Un algoritmo de agrupamiento basado en el conocimiento impulsado por Gene Ontology". Journal of Biopharmaceutical Statistics . 14 (3): 687–700. doi :10.1081/BIP-200025659. PMID  15468759. S2CID  25224811.
  35. ^ Wu, H; Su, Z; Mao, F; Olman, V; Xu, Y (2005). "Predicción de módulos funcionales basada en análisis comparativo del genoma y aplicación de Gene Ontology". Nucleic Acids Research . 33 (9): 2822–37. doi :10.1093/nar/gki573. PMC 1130488 . PMID  15901854. 
  36. ^ Del Pozo, Ángela; Pazos, Florencio; Valencia, Alfonso (2008). "Definición de distancias funcionales sobre ontología genética". Bioinformática BMC . 9 : 50. doi : 10.1186/1471-2105-9-50 . PMC 2375122 . PMID  18221506. 
  37. ^ Philip Resnik (1995). Chris S. Mellish (ed.). "Uso del contenido de la información para evaluar la similitud semántica en una taxonomía". Actas de la 14.ª Conferencia conjunta internacional sobre inteligencia artificial (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg/9511007 . Código Bibliográfico :1995cmp.lg...11007R. CiteSeerX 10.1.1.41.6956 . 
  38. ^ Dekang Lin. 1998. Una definición de similitud basada en la teoría de la información. En Actas de la Decimoquinta Conferencia Internacional sobre Aprendizaje Automático (ICML '98), Jude W. Shavlik (Ed.). Morgan Kaufmann Publishers Inc., San Francisco, CA, EE. UU., 296–304
  39. ^ Ana Gabriela Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani: Detección algorítmica de similitud semántica. WWW 2005: 107–116
  40. ^ JJ Jiang y DW Conrath. Similitud semántica basada en estadísticas de corpus y taxonomía léxica. En la Conferencia internacional sobre investigación en lingüística computacional (ROCLING X), páginas 9008+, septiembre de 1997
  41. ^ MT Pilehvar, D. Jurgens y R. Navigli. Alinear, desambiguar y caminar: un enfoque unificado para medir la similitud semántica. Actas de la 51.ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2013), Sofía, Bulgaria, 4 al 9 de agosto de 2013, págs. 1341-1351.
  42. ^ Dong, Hai (2009). "Un modelo híbrido de medida de similitud de conceptos para el entorno de ontología". En camino hacia sistemas de Internet significativos: talleres OTM 2009. Apuntes de clase en informática. Vol. 5872. págs. 848–857. Código Bibliográfico :2009LNCS.5872..848D. doi :10.1007/978-3-642-05290-3_103. ISBN: 978-3-642-05289-7.
  43. ^ Dong, Hai (2011). "Un modelo de similitud semántica consciente del contexto para entornos ontológicos". Concurrencia y computación: práctica y experiencia . 23 (2): 505–524. doi :10.1002/cpe.1652. S2CID  412845.
  44. ^ Landauer, TK; Dumais, ST (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" (PDF) . Psychological Review . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . doi :10.1037/0033-295x.104.2.211. S2CID  1144461. 
  45. ^ Landauer, TK; Foltz, PW y Laham, D. (1998). "Introducción al análisis semántico latente" (PDF) . Procesos del discurso . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi :10.1080/01638539809545028. S2CID  16625196. 
  46. ^ "Distancia de similitud de Google".
  47. ^ Carrillo, F.; Cecchi, GA; Sigman, M.; Slezak, DF (2015). "Dinámicas distribuidas rápidas de redes semánticas a través de las redes sociales" (PDF) . Inteligencia computacional y neurociencia . 2015 : 712835. doi : 10.1155/2015/712835 . PMC 4449913 . PMID  26074953. 
  48. ^ "Samer Hassan" (PDF) .[ enlace muerto ]
  49. ^ Wilson Wong; Wei Liu; Mohammed Bennamoun (noviembre de 2006). Similitudes sin características para la agrupación de términos utilizando hormigas que recorren árboles. PCAR '06: Actas del simposio internacional de 2006 sobre agentes cognitivos prácticos y robots. págs. 177–191. doi :10.1145/1232425.1232448.
  50. ^ "6 grados de Wikipedia". The Chronicle of Higher Education . The Wired Campus. 28 de mayo de 2008. Archivado desde el original el 30 de mayo de 2008.
  51. ^ VD Veksler; Ryan Z. Govostes (2008). "Definición de las dimensiones del espacio semántico humano" (PDF) .
  52. ^ J. Camacho-Collados; MT Pilehvar; R. Navigli (2015). NASARI: un nuevo enfoque para una representación semánticamente consciente de elementos (PDF) . Actas del Capítulo norteamericano de la Asociación de Lingüística Computacional (NAACL 2015). Denver, EE. UU., págs. 567–577.
  53. ^ J. Camacho-Collados; MT Pilehvar; R. Navigli (27–29 de julio de 2015). Una representación semántica multilingüe unificada de conceptos (PDF) . Actas de la 53.ª reunión anual de la Asociación de Lingüística Computacional (ACL 2015). Pekín, China. págs. 741–751.
  54. ^ Fähndrich J.; Weber S.; Ahrndt S. (2016). "Diseño y uso de una medida de similitud semántica para la interoperabilidad entre agentes". En Klusch M.; Unland R.; Shehory O.; Pokahr A.; Ahrndt S. (eds.). Tecnologías de sistemas multiagente . MATES 2016. Apuntes de clase en informática. Vol. 9872. Springer.Disponible en versión de autor
  55. ^ C. d'Amato; S. Staab; N. Fanizzi (2008). "Sobre la influencia de las ontologías de la lógica descriptiva en la similitud conceptual". Ingeniería del conocimiento: práctica y patrones . págs. 48–63. doi :10.1007/978-3-540-87696-0_7.
  56. ^ Bendeck, F. (2008). Plataforma de correspondencia semántica de flujo de trabajo WSM-P, tesis doctoral, Universidad de Trier, Alemania . Editorial Dr. Hut. ASIN  3899638549.
  57. ^ Rubenstein, Herbert y John B. Goodenough. Correlatos contextuales de la sinonimia. Communications of the ACM, 8(10):627–633, 1965.
  58. ^ Para obtener una lista de conjuntos de datos y una descripción general del estado del arte, consulte https://www.aclweb.org/.
  59. ^ Rubenstein, Herbert; Goodenough, John B. (1 de octubre de 1965). "Correlatos contextuales de la sinonimia". Comunicaciones de la ACM . 8 (10): 627–633. doi : 10.1145/365628.365657 . S2CID  18309234.
  60. ^ Miller, George A.; Charles, Walter G. (1 de enero de 1991). "Correlatos contextuales de similitud semántica". Lenguaje y procesos cognitivos . 6 (1): 1–28. doi :10.1080/01690969108406936. ISSN  0169-0965.
  61. ^ "Colocar la búsqueda en contexto". ACM Transactions on Information Systems . 20 : 116–131. 1 de enero de 2002. CiteSeerX 10.1.1.29.1912 . doi :10.1145/503104.503110. S2CID  12956853. 

Fuentes

Enlaces externos

Artículos de encuesta