stringtranslate.com

Similitud semántica

La similitud semántica es una métrica definida sobre un conjunto de documentos o términos, donde la idea de distancia entre elementos se basa en la semejanza de su significado o contenido semántico [ cita necesaria ] en contraposición a la similitud lexicográfica . Son herramientas matemáticas utilizadas para estimar la fuerza de la relación semántica entre unidades de lenguaje, conceptos o instancias, a través de una descripción numérica obtenida de acuerdo con la comparación de información que sustenta su significado o que describe su naturaleza. [1] [2] El término similitud semántica a menudo se confunde con relación semántica. La relación semántica incluye cualquier relación entre dos términos, mientras que la similitud semántica solo incluye relaciones "es un" . [3] Por ejemplo, "coche" es similar a "autobús", pero también está relacionado con "carretera" y "conducir".

Computacionalmente, la similitud semántica se puede estimar definiendo una similitud topológica , utilizando ontologías para definir la distancia entre términos/conceptos. Por ejemplo, una métrica ingenua para la comparación de conceptos ordenados en un conjunto parcialmente ordenado y representados como nodos de un gráfico acíclico dirigido (por ejemplo, una taxonomía ), sería el camino más corto que une los dos nodos conceptuales. Con base en análisis de texto, la relación semántica entre unidades del lenguaje (por ejemplo, palabras, oraciones) también se puede estimar utilizando medios estadísticos como un modelo de espacio vectorial para correlacionar palabras y contextos textuales de un corpus de texto adecuado . La evaluación de las medidas de similitud/relación semántica propuestas se evalúa a través de dos formas principales. El primero se basa en el uso de conjuntos de datos diseñados por expertos y compuestos por pares de palabras con estimación del grado de similitud/relación semántica. La segunda forma se basa en la integración de las medidas dentro de aplicaciones específicas como recuperación de información, sistemas de recomendación, procesamiento del lenguaje natural, etc.

Terminología

El concepto de similitud semántica es más específico que el de relación semántica , ya que este último incluye conceptos como antonimia y meronimia , mientras que semejanza no. [4] Sin embargo, gran parte de la literatura utiliza estos términos indistintamente, junto con términos como distancia semántica. En esencia, la similitud semántica, la distancia semántica y la relación semántica significan: "¿Cuánto tiene que ver el término A con el término B?" La respuesta a esta pregunta suele ser un número entre −1 y 1, o entre 0 y 1, donde 1 significa una similitud extremadamente alta.

Visualización

Una forma intuitiva de visualizar la similitud semántica de los términos es agrupando los términos que están estrechamente relacionados y separando más los que están lejanamente relacionados. Esto también es común en la práctica para los mapas mentales y mapas conceptuales .

Una forma más directa de visualizar la similitud semántica de dos elementos lingüísticos se puede ver con el enfoque del plegado semántico . En este enfoque, un elemento lingüístico como un término o un texto se puede representar generando un píxel para cada una de sus características semánticas activas, por ejemplo, en una cuadrícula de 128 x 128. Esto permite una comparación visual directa de la semántica de dos elementos mediante la comparación de representaciones de imágenes de sus respectivos conjuntos de características.

Aplicaciones

En informática biomédica

Se han aplicado y desarrollado medidas de similitud semántica en ontologías biomédicas. [5] [6] Se utilizan principalmente para comparar genes y proteínas en función de la similitud de sus funciones [7] en lugar de su similitud de secuencia , pero también se están extendiendo a otras bioentidades, como las enfermedades. [8]

Estas comparaciones se pueden realizar utilizando herramientas disponibles gratuitamente en la web:

En geoinformática

La similitud también se aplica en geoinformática para encontrar características geográficas o tipos de características similares: [12]

En lingüística computacional

Varias métricas utilizan WordNet , una base de datos léxica de palabras en inglés construida manualmente. A pesar de las ventajas de tener supervisión humana en la construcción de la base de datos, dado que las palabras no se aprenden automáticamente, la base de datos no puede medir la relación entre términos de varias palabras y vocabulario no incremental. [4] [18]

En el procesamiento del lenguaje natural

El procesamiento del lenguaje natural (PNL) es un campo de la informática y la lingüística. El análisis de sentimientos, la comprensión del lenguaje natural y la traducción automática (traducir texto automáticamente de un idioma humano a otro) son algunas de las áreas principales en las que se utiliza. Por ejemplo, al conocer un recurso de información en Internet, a menudo resulta de interés inmediato encontrar recursos similares. La Web Semántica proporciona extensiones semánticas para encontrar datos similares por contenido y no sólo por descriptores arbitrarios. [19] [20] [21] [22] [23] [24] [25] [26] [27] Los métodos de aprendizaje profundo se han convertido en una forma precisa de medir la similitud semántica entre dos pasajes de texto, en los que cada pasaje es el primero. incrustado en una representación vectorial continua. [28] [29] [30]

En coincidencia de ontologías

La similitud semántica juega un papel crucial en la alineación de ontologías , cuyo objetivo es establecer correspondencias entre entidades de diferentes ontologías. Implica cuantificar el grado de similitud entre conceptos o términos utilizando la información presente en la ontología para cada entidad, como etiquetas, descripciones y relaciones jerárquicas con otras entidades. Las métricas tradicionales utilizadas en la coincidencia de ontologías se basan en una similitud léxica entre las características de las entidades, como el uso de la distancia de Levenshtein para medir la distancia de edición entre etiquetas de entidades. [31] Sin embargo, es difícil capturar la similitud semántica entre entidades que utilizan estas métricas. Por ejemplo, al comparar dos ontologías que describen conferencias, las entidades "Contribución" y "Papel" pueden tener una gran similitud semántica ya que comparten el mismo significado. Sin embargo, debido a sus diferencias léxicas, la similitud lexicográfica por sí sola no puede establecer esta alineación. Para capturar estas similitudes semánticas, se están adoptando incorporaciones en la comparación de ontologías. [32] Al codificar relaciones semánticas e información contextual, las incrustaciones permiten el cálculo de puntuaciones de similitud entre entidades en función de la proximidad de sus representaciones vectoriales en el espacio de incrustación. Este enfoque permite una coincidencia eficiente y precisa de ontologías, ya que las incrustaciones pueden modelar diferencias semánticas en la denominación de entidades, como la homonimia, asignando diferentes incrustaciones a la misma palabra en función de diferentes contextos. [32]

Medidas

Similitud topológica

Básicamente, existen dos tipos de enfoques que calculan la similitud topológica entre conceptos ontológicos:

Otras medidas calculan la similitud entre instancias ontológicas:

Algunos ejemplos:

Basado en bordes

Basado en nodos

Basado en contenido de nodos y relaciones

Por parejas

Grupo de sabios

Similitud estadística

Los enfoques de similitud estadística pueden aprenderse de los datos o predefinirse. El aprendizaje por similitud a menudo puede superar las medidas de similitud predefinidas. En términos generales, estos enfoques construyen un modelo estadístico de documentos y lo utilizan para estimar la similitud.

Similitud basada en la semántica

Redes de similitud semántica

Estándares de oro

Los investigadores han recopilado conjuntos de datos con juicios de similitud sobre pares de palabras, que se utilizan para evaluar la plausibilidad cognitiva de las medidas computacionales. El estándar de oro hasta hoy es una antigua lista de 65 palabras donde los humanos han juzgado la similitud de palabras. [57] [58]

Ver también

Referencias

  1. ^ Harispe S.; Ranwez S.; Janaqi S.; Montmain J. (2015). "Similitud semántica del análisis de ontologías y lenguaje natural". Conferencias de síntesis sobre tecnologías del lenguaje humano . 8 (1): 1–254. arXiv : 1704.05295 . doi :10.2200/S00639ED1V01Y201504HLT027. S2CID  17428739.
  2. ^ Feng Y.; Bagheri E.; Ensan F.; Jovanovic J. (2017). "El estado del arte en relación semántica: un marco de comparación". Revisión de ingeniería del conocimiento . 32 : 1–30. doi :10.1017/S0269888917000029. S2CID  52172371.
  3. ^ A. Ballatore; el señor Bertolotto; DC Wilson (2014). "Una línea de base de evaluación para la relación y similitud geosemántica". GeoInformática . 18 (4): 747–767. arXiv : 1402.3371 . Código Bib : 2014arXiv1402.3371B. doi :10.1007/s10707-013-0197-8. S2CID  17474023.
  4. ^ ab Budanitsky, Alejandro; Hirst, Graeme (2001). "Distancia semántica en WordNet: una evaluación experimental orientada a aplicaciones de cinco medidas" (PDF) . Taller sobre WordNet y otros recursos léxicos, Segunda Reunión del Capítulo Norteamericano de la Asociación de Lingüística Computacional . Pittsburg.
  5. ^ Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). "Análisis de similitud semántica de datos de proteínas: evaluación de características y problemas biológicos". Sesiones informativas en Bioinformática . 13 (5): 569–585. doi : 10.1093/bib/bbr066 . PMID  22138322.
  6. ^ ab Benabderrahmane, Sidahmed; Smail Tabbone, Malika; Poch, Olivier; Nápoles, Amedeo; Devignes, Marie-Domonique. (2010). "IntelliGO: una nueva medida de similitud semántica basada en vectores que incluye el origen de la anotación". Bioinformática BMC . 11 : 588. doi : 10.1186/1471-2105-11-588 . PMC 3098105 . PMID  21122125. 
  7. ^ Chicco, D; Masseroli, M (2015). "Paquete de software para búsqueda de similitudes y predicción de anotaciones de genes y proteínas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 12 (4): 837–843. doi :10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID  26357324. S2CID  14714823.
  8. ^ Kohler, S; Schulz, MH; Krawitz, P; Bauer, S; Dolken, S; Ott, CE; Mundlos, C; Cuerno, D; et al. (2009). "Diagnóstico clínico en genética humana con búsquedas de similitudes semánticas en ontologías". Revista Estadounidense de Genética Humana . 85 (4): 457–64. doi :10.1016/j.ajhg.2009.09.003. PMC 2756558 . PMID  19800049. 
  9. ^ "Proteína en".
  10. ^ "CMPSim".
  11. ^ "CESSM".
  12. ^ Janowicz, K.; Raubal, M.; Kuhn, W. (2011). "La semántica de la similitud en la recuperación de información geográfica". Revista de ciencia de la información espacial . 2 (2): 29–57. doi : 10.5311/josis.2011.2.3 .
  13. Algoritmo, implementación y aplicación del servidor de similitud SIM-DL . Segunda Conferencia Internacional sobre Semántica Geoespacial (GEOS 2007). Apuntes de conferencias sobre informática. 2007, págs. 128-145. CiteSeerX 10.1.1.172.5544 . 
  14. ^ "Calculadora de similitud Geo-Net-PT".
  15. ^ "Geo-Net-PT".
  16. ^ "Red Semántica OSM". WikiOSM.
  17. ^ A. Ballatore; DC Wilson; Señor Bertolotto. "Extracción de conocimientos geográficos y similitud semántica en OpenStreetMap" (PDF) . Sistemas de información y conocimiento : 61–81.
  18. ^ Kaur, I. y Hornof, AJ (2005). "Una comparación de LSA, wordNet y PMI-IR para predecir el comportamiento de clics del usuario". Actas de la Conferencia SIGCHI sobre factores humanos en sistemas informáticos . págs. 51–60. doi :10.1145/1054972.1054980. ISBN 978-1-58113-998-3. S2CID  14347026.
  19. ^ Métodos de aprendizaje basados ​​en similitudes para la web semántica (C. d'Amato, tesis doctoral)
  20. ^ Gracia, J. y Mena, E. (2008). "Medida de relación semántica basada en web" (PDF) . Actas de la novena Conferencia Internacional sobre Ingeniería de Sistemas de Información Web (WISE '08) : 136–150.
  21. ^ Raveendranathan, P. (2005). Identificación de conjuntos de palabras relacionadas de la World Wide Web. Tesis de Maestría en Ciencias, Universidad de Minnesota Duluth.
  22. ^ Wubben, S. (2008). Uso de estructura de enlace libre para calcular la relación semántica. En Serie de informes técnicos del Grupo de Investigación ILK, nr. 08-01, 2008.
  23. ^ Juvina, I., van Oostendorp, H., Karbor, P. y Pauw, B. (2005). Hacia el modelado de información contextual en la navegación web. En BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27ª Reunión Anual de la Sociedad de Ciencias Cognitivas, CogSci2005 (págs. 1078-1083). Austin, Tx: Sociedad de Ciencias Cognitivas, Inc.
  24. ^ Navigli, R., Lapata, M. (2007). Medidas de conectividad gráfica para la desambiguación del sentido de palabras sin supervisión, Proc. de la 20.ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI 2007), Hyderabad, India, 6 al 12 de enero de 2007, págs. 1683-1688.
  25. ^ Pirolli, P. (2005). "Análisis racionales de la búsqueda de información en la Web". Ciencia cognitiva . 29 (3): 343–373. doi : 10.1207/s15516709cog0000_20 . PMID  21702778.
  26. ^ Pirolli, P. y Fu, W.-T. (2003). "SNIF-ACT: un modelo de búsqueda de información en la World Wide Web". Apuntes de conferencias sobre informática . vol. 2702, págs. 45–54. CiteSeerX 10.1.1.6.1506 . doi :10.1007/3-540-44963-9_8. ISBN  978-3-540-40381-4.
  27. ^ Turney, P. (2001). Buscando sinónimos en la Web: PMI versus LSA en TOEFL. En L. De Raedt & P. ​​Flach (Eds.), Actas de la Duodécima Conferencia Europea sobre Aprendizaje Automático (ECML-2001) (págs. 491–502). Friburgo, Alemania.
  28. ^ Reimers, Nils; Gurevych, Iryna (noviembre de 2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas". Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la novena Conferencia Internacional Conjunta sobre Procesamiento del Lenguaje Natural (EMNLP-IJCNLP) . Hong Kong, China: Asociación de Lingüística Computacional. págs. 3982–3992. arXiv : 1908.10084 . doi : 10.18653/v1/D19-1410 .
  29. ^ Mueller, Jonás; Thyagarajan, Aditya (5 de marzo de 2016). "Arquitecturas recurrentes siamesas para aprender la similitud de oraciones". Trigésima Conferencia AAAI sobre Inteligencia Artificial . 30 . doi : 10.1609/aaai.v30i1.10350 . S2CID  16657628.
  30. ^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Russ R; Zemel, Richard; Urtasún, Raquel; Torralba, Antonio; Fidler, Sanja (2015), Cortés, C.; Lawrence, Dakota del Norte; Lee, DD; Sugiyama, M. (eds.), "Skip-Thought Vectors" (PDF) , Avances en los sistemas de procesamiento de información neuronal 28 , Curran Associates, Inc., págs. 3294–3302 , consultado el 13 de marzo de 2020
  31. ^ Cheatham, Michelle; Hitzler, Pascal (2013). "Métricas de similitud de cadenas para la alineación de ontologías". En Alaní, Harith; Kagal, Lalana; Fokoue, Aquiles; Groth, Pablo; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; No, Natasha; Welty, Chris (eds.). Ingeniería Avanzada en Sistemas de Información . La Web Semántica - ISWC 2013. Apuntes de conferencias sobre informática. vol. 7908. Berlín, Heidelberg: Springer. págs. 294–309. doi : 10.1007/978-3-642-41338-4_19 . ISBN 978-3-642-41338-4. S2CID  18372966.
  32. ^ ab Sousa, G., Lima, R. y Trojahn, C. (2022). Una mirada al aprendizaje de representaciones en la comparación de ontologías. OM@ISWC .
  33. ^ Pekar, Víktor; Staab, Steffen (2002). Aprendizaje de taxonomía . Actas de la XIX Conferencia Internacional sobre Lingüística Computacional –. vol. 1. págs. 1–7. doi :10.3115/1072228.1072318.
  34. ^ Cheng, J; Cline, M; Martín, J; Finkelstein, D; Awad, T; Kulp, D; Siani-Rose, MA (2004). "Un algoritmo de agrupación basado en el conocimiento impulsado por Gene Ontology". Revista de estadísticas biofarmacéuticas . 14 (3): 687–700. doi :10.1081/BIP-200025659. PMID  15468759. S2CID  25224811.
  35. ^ Wu, H; Su, Z; Mao, F; Olman, V; Xu, Y (2005). "Predicción de módulos funcionales basada en análisis comparativo del genoma y aplicación de Ontología Génica". Investigación de ácidos nucleicos . 33 (9): 2822–37. doi : 10.1093/nar/gki573. PMC 1130488 . PMID  15901854. 
  36. ^ Del Pozo, Ángela; Pazos, Florencio; Valencia, Alfonso (2008). "Definición de distancias funcionales sobre ontología genética". Bioinformática BMC . 9 : 50. doi : 10.1186/1471-2105-9-50 . PMC 2375122 . PMID  18221506. 
  37. ^ Philip Resnik (1995). Chris S. Mellish (ed.). "Uso del contenido de la información para evaluar la similitud semántica en una taxonomía". Actas de la 14ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg/9511007 . Código Bib : 1995cmp.lg...11007R. CiteSeerX 10.1.1.41.6956 . 
  38. ^ Dekang Lin. 1998. Una definición teórica de la información de similitud. En Actas de la Decimoquinta Conferencia Internacional sobre Aprendizaje Automático (ICML '98), Jude W. Shavlik (Ed.). Morgan Kaufmann Publishers Inc., San Francisco, CA, EE. UU., 296–304
  39. ^ Ana Gabriela Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani: Detección algorítmica de similitud semántica. WWW 2005: 107–116
  40. ^ JJ Jiang y DW Conrath. Similitud semántica basada en estadísticas de corpus y taxonomía léxica. En Conferencia Internacional sobre Investigación en Lingüística Computacional (ROCLING X), páginas 9008+, septiembre de 1997
  41. ^ MT Pilehvar, D. Jurgens y R. Navigli. Alinear, eliminar ambigüedades y caminar: un enfoque unificado para medir la similitud semántica. Proc. de la 51ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2013), Sofía, Bulgaria, 4 al 9 de agosto de 2013, págs.
  42. ^ Dong, Hai (2009). "Un modelo de medida de similitud de conceptos híbridos para entornos ontológicos". En camino hacia sistemas de Internet significativos: talleres OTM 2009. Apuntes de conferencias sobre informática. vol. 5872, págs. 848–857. Código Bib : 2009LNCS.5872..848D. doi :10.1007/978-3-642-05290-3_103. ISBN 978-3-642-05289-7.
  43. ^ Dong, Hai (2011). "Un modelo de similitud semántica consciente del contexto para entornos ontológicos". Concurrencia y Computación: Práctica y Experiencia . 23 (2): 505–524. doi :10.1002/cpe.1652. S2CID  412845.
  44. ^ Landauer, conocimientos tradicionales; Dumais, ST (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" (PDF) . Revisión psicológica . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . doi :10.1037/0033-295x.104.2.211. S2CID  1144461. 
  45. ^ Landauer, conocimientos tradicionales; Foltz, PW y Laham, D. (1998). "Introducción al Análisis Semántico Latente" (PDF) . Procesos del discurso . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi :10.1080/01638539809545028. S2CID  16625196. 
  46. ^ "Distancia de similitud de Google".
  47. ^ Carrillo, F.; Cecchi, Georgia; Sigman, M.; Slezak, DF (2015). "Dinámica distribuida rápidamente de redes semánticas a través de redes sociales" (PDF) . Inteligencia Computacional y Neurociencia . 2015 : 712835. doi : 10.1155/2015/712835 . PMC 4449913 . PMID  26074953. 
  48. ^ "Samer Hassan" (PDF) .[ enlace muerto ]
  49. ^ Wilson Wong; Wei Liu; Mohammed Bennamoun (noviembre de 2006). Similitudes sin rasgos distintivos para la agrupación de términos utilizando hormigas que atraviesan árboles. PCAR '06: Actas del simposio internacional de 2006 sobre robots y agentes cognitivos prácticos. págs. 177-191. doi :10.1145/1232425.1232448.
  50. ^ "6 grados de Wikipedia". La Crónica de la Educación Superior . El campus cableado. 28 de mayo de 2008. Archivado desde el original el 30 de mayo de 2008.
  51. ^ VD Veksler; Ryan Z. Govostes (2008). "Definición de las dimensiones del espacio semántico humano" (PDF) .
  52. ^ J. Camacho-Collados; MT Pilehvar; R. Navigli (2015). NASARI: un enfoque novedoso para una representación semántica de elementos (PDF) . Actas del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL 2015). Denver, Estados Unidos. págs. 567–577.
  53. ^ J. Camacho-Collados; MT Pilehvar; R. Navigli (27 al 29 de julio de 2015). Una representación semántica multilingüe unificada de conceptos (PDF) . Actas de la 53ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2015). Beijing, China. págs. 741–751.
  54. ^ Fähndrich J.; Weber S.; Ahrndt S. (2016). "Diseño y uso de una medida de similitud semántica para la interoperabilidad entre agentes". En Klusch M.; Unland R.; Shehory O.; Pokahr A.; Ahrndt S. (eds.). Tecnologías de sistemas multiagente . MATES 2016. Apuntes de conferencias en informática. vol. 9872. Saltador.Disponible en versión de autor
  55. ^ C. d'Amato; S. Staab; N. Fanizzi (2008). "Sobre la influencia de las ontologías de lógicas de descripción en la similitud conceptual". Ingeniería del conocimiento: práctica y patrones . págs. 48–63. doi :10.1007/978-3-540-87696-0_7.
  56. ^ Bendeck, F. (2008). Plataforma de coincidencia semántica de flujo de trabajo WSM-P, tesis doctoral, Universidad de Trier, Alemania . Editorial Dr. Hut. COMO EN  3899638549.
  57. ^ Rubenstein, Herbert y John B. Goodenough. Correlatos contextuales de sinonimia. Comunicaciones de la ACM, 8(10):627–633, 1965.
  58. ^ Para obtener una lista de conjuntos de datos y una descripción general del estado de la técnica, consulte https://www.aclweb.org/.
  59. ^ Rubenstein, Herbert; Suficientemente bueno, John B. (1 de octubre de 1965). "Correlatos contextuales de sinonimia". Comunicaciones de la ACM . 8 (10): 627–633. doi : 10.1145/365628.365657 . S2CID  18309234.
  60. ^ Molinero, George A.; Charles, Walter G. (1 de enero de 1991). "Correlaciones contextuales de similitud semántica". Lenguaje y Procesos Cognitivos . 6 (1): 1–28. doi :10.1080/01690969108406936. ISSN  0169-0965.
  61. ^ "Colocar la búsqueda en contexto". Transacciones ACM sobre sistemas de información . 20 : 116-131. 2002-01-01. CiteSeerX 10.1.1.29.1912 . doi :10.1145/503104.503110. S2CID  12956853. 

Fuentes

enlaces externos

Artículos de encuesta