Semántica distributiva

La semántica distribucional ^[1] es un área de investigación que desarrolla y estudia teorías y métodos para cuantificar y categorizar similitudes semánticas entre elementos lingüísticos en función de sus propiedades distributivas en grandes muestras de datos lingüísticos. La idea básica de la semántica distributiva se puede resumir en la llamada hipótesis distributiva : los elementos lingüísticos con distribuciones similares tienen significados similares.

Hipótesis distributiva

La hipótesis distributiva en lingüística se deriva de la teoría semántica del uso del lenguaje, es decir, las palabras que se usan y ocurren en los mismos contextos tienden a tener significados similares. ^[2]

La idea subyacente de que "una palabra se caracteriza por la compañía que mantiene" fue popularizada por Firth en la década de 1950. ^[3]

La hipótesis distributiva es la base de la semántica estadística . Aunque la Hipótesis Distribucional se originó en la lingüística, ^[4] ahora está recibiendo atención en la ciencia cognitiva, especialmente en lo que respecta al contexto del uso de las palabras. ^[5]

En los últimos años, la hipótesis distributiva ha proporcionado la base para la teoría de la generalización basada en similitudes en el aprendizaje de idiomas: la idea de que los niños pueden descubrir cómo usar palabras que rara vez han encontrado antes generalizando sobre su uso a partir de distribuciones de palabras similares. . ^[6]^[7]

La hipótesis distributiva sugiere que cuanto más similares sean semánticamente dos palabras, más similares serán a su vez en términos distributivos y, por tanto, más tenderán a aparecer en contextos lingüísticos similares.

Que esta sugerencia sea válida o no tiene implicaciones significativas tanto para el problema de la escasez de datos en el modelado computacional ^[8] como para la cuestión de cómo los niños son capaces de aprender un lenguaje tan rápidamente si reciben información relativamente pobre (esto también se conoce como el problema de la pobreza del estímulo ).

Modelado semántico distribucional en espacios vectoriales.

La semántica distribucional favorece el uso del álgebra lineal como herramienta computacional y marco de representación. El enfoque básico es recopilar información distributiva en vectores de alta dimensión y definir la similitud distribucional/semántica en términos de similitud vectorial. ^[9] Se pueden extraer diferentes tipos de similitudes dependiendo del tipo de información de distribución que se utilice para recopilar los vectores: las similitudes temáticas se pueden extraer completando los vectores con información sobre en qué regiones del texto se encuentran los elementos lingüísticos; Las similitudes paradigmáticas se pueden extraer poblando los vectores con información sobre con qué otros elementos lingüísticos coexisten. Tenga en cuenta que el último tipo de vectores también se puede utilizar para extraer similitudes sintagmáticas observando los componentes individuales del vector.

La idea básica de una correlación entre similitud distributiva y semántica puede operacionalizarse de muchas maneras diferentes. Existe una rica variedad de modelos computacionales que implementan semántica distributiva, incluido el análisis semántico latente (LSA), ^[10]^[11] hiperespacial analógico al lenguaje (HAL), modelos basados en sintaxis o dependencia, ^[12] indexación aleatoria , plegamiento semántico. ^[13] y varias variantes del modelo temático . ^[14]

Los modelos semánticos distributivos difieren principalmente con respecto a los siguientes parámetros:

Tipo de contexto (regiones de texto frente a elementos lingüísticos)
Ventana contextual (tamaño, extensión, etc.)
Ponderación de frecuencia (por ejemplo, entropía , información mutua puntual , ^[15] , etc.)
Reducción de dimensiones (por ejemplo, indexación aleatoria , descomposición de valores singulares , etc.)
Medida de similitud (por ejemplo, similitud de coseno , distancia de Minkowski , etc.)

Los modelos semánticos distributivos que utilizan elementos lingüísticos como contexto también se han denominado modelos de espacio de palabras o modelos de espacio vectorial . ^[16]^[17]

Más allá de la semántica léxica

Si bien la semántica distributiva generalmente se ha aplicado a elementos léxicos (palabras y términos de varias palabras) con considerable éxito, sobre todo debido a su aplicabilidad como capa de entrada para modelos de aprendizaje profundo de inspiración neuronal, la semántica léxica , es decir, el significado de las palabras, solo llevar parte de la semántica de un enunciado completo. El significado de una cláusula, por ejemplo, "Los tigres aman a los conejos". , sólo puede entenderse parcialmente examinando el significado de los tres elementos léxicos que lo componen. La semántica distributiva puede extenderse fácilmente para cubrir elementos lingüísticos más amplios, como construcciones, con y sin elementos no instanciados, pero algunos de los supuestos básicos del modelo deben ajustarse un poco. La gramática de la construcción y su formulación del continuo léxico-sintáctico ofrece un enfoque para incluir construcciones más elaboradas en un modelo semántico distribucional y se han implementado algunos experimentos utilizando el enfoque de indexación aleatoria. ^[18]

Los modelos semánticos distributivos compositivos amplían los modelos semánticos distributivos mediante funciones semánticas explícitas que utilizan reglas basadas en sintácticas para combinar la semántica de las unidades léxicas participantes en un modelo compositivo para caracterizar la semántica de frases u oraciones enteras. Este trabajo fue propuesto originalmente por Stephen Clark, Bob Coecke y Mehrnoosh Sadrzadeh de la Universidad de Oxford en su artículo de 2008, "Un modelo composicional y distributivo del significado". ^[19] Se han explorado diferentes enfoques de la composición, incluidos los modelos neuronales, y se están debatiendo en talleres establecidos como SemEval . ^[20]

Aplicaciones

Los modelos semánticos distributivos se han aplicado con éxito a las siguientes tareas:

encontrar similitudes semánticas entre palabras y expresiones de varias palabras;
agrupación de palabras basada en similitud semántica;
creación automática de tesauros y diccionarios bilingües;
desambiguación del sentido de la palabra ;
ampliar las solicitudes de búsqueda utilizando sinónimos y asociaciones;
definir el tema de un documento;
agrupación de documentos para la recuperación de información ;
minería de datos y reconocimiento de entidades nombradas ;
crear mapas semánticos de diferentes dominios temáticos;
parafrasear ;
análisis de los sentimientos ;
modelar preferencias de selección de palabras.

Software

Espacio S
Vectores Semánticos
Gensim
DISCO Constructor
Indra

Ver también

Gente

Referencias

^ Lenci, Alejandro; Sahlgren, Magnus (2023). Semántica distributiva . Prensa de la Universidad de Cambridge. ISBN 9780511783692.
^ Harris 1954
^ Fiordo de 1957
^ Sahlgren 2008
^ McDonald y Ramscar 2001
^ Gleitman 2002
^ Yarlett 2008
^ Wishart, Ryder; Prokopidis, Prokopis (2017). Experimentos de modelado de temas sobre corpus helenísticos (PDF) . Actas del Taller sobre Corporas en Humanidades Digitales 17. S2CID 9191936.
^ Rieger 1991
^ Deerwester y otros. 1990
^ Landauer, Thomas K.; Dumais, Susan T. (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento". Revisión psicológica . 104 (2): 211–240. doi :10.1037/0033-295x.104.2.211.
^ Padó y Lapata 2007
^ De Sousa Webber, Francisco (2015). "Teoría del plegamiento semántico y su aplicación en la huella semántica". arXiv : 1511.08855 [cs.AI].
^ Jordania, Michael I.; Ng, Andrés Y.; Blei, David M. (2003). "Asignación latente de Dirichlet". Revista de investigación sobre aprendizaje automático . 3 (enero): 993–1022.
^ Iglesia, Kenneth Ward; Hanks, Patricio (1989). "Normas de asociación de palabras, información mutua y lexicografía". Actas de la 27ª Reunión Anual de la Asociación de Lingüística Computacional . Morristown, Nueva Jersey, EE. UU.: Asociación de Lingüística Computacional: 76–83. doi : 10.3115/981623.981633 .
^ Schütze 1993
^ Sahlgren 2006
^ Karlgren, Jussi; Kanerva, Pentti (julio de 2019). "Espacios semánticos distribuidos de alta dimensión para enunciados". Ingeniería del Lenguaje Natural . 25 (4): 503–517. arXiv : 2104.00424 . doi :10.1017/S1351324919000226. S2CID 201141249.
^ Clark, Stephen; Coecke, Bob; Sadrzadeh, Mehrnoosh (2008). "Un modelo compositivo distributivo de significado" (PDF) . Actas del Segundo Simposio de Interacción Cuántica : 133–140.
^ "SemEval-2014, Tarea 1".

Fuentes

Harris, Z. (1954). "Estructura distributiva". Palabra . 10 (23): 146–162. doi :10.1080/00437956.1954.11659520.
Firth, JR (1957). "Una sinopsis de la teoría lingüística 1930-1955". Estudios de análisis lingüístico : 1–32.Reimpreso en FR Palmer, ed. (1968). Artículos seleccionados de JR Firth 1952-1959 . Londres: Longman.
Lenci, Alessandro; Sahlgren, Magnus (2023). Semántica distributiva . Prensa de la Universidad de Cambridge. ISBN 9780511783692.
Sahlgren, Magnus (2008). "La hipótesis distributiva" (PDF) . Rivista di Lingüística . 20 (1): 33–53. Archivado desde el original (PDF) el 15 de marzo de 2012 . Consultado el 10 de diciembre de 2010 .
McDonald, S.; Ramscar, M. (2001). "Prueba de la hipótesis distributiva: la influencia del contexto en los juicios de similitud semántica". Actas de la 23ª Conferencia Anual de la Sociedad de Ciencias Cognitivas . págs. 611–616. CiteSeerX 10.1.1.104.7535 .
Gleitman, Lila R. (2002). "Los verbos de una pluma se juntan II". El legado de Zellig Harris . Problemas actuales de la teoría lingüística. vol. 1. págs. 209–229. doi :10.1075/cilt.228.17gle. ISBN 978-90-272-4736-0.
Yarlett, D. (2008). Aprendizaje de idiomas mediante generalización basada en similitudes (PDF) (tesis doctoral). Universidad Stanford. Archivado desde el original (PDF) el 19 de abril de 2014 . Consultado el 12 de julio de 2012 .
Rieger, Burghard B. (1991). Sobre representaciones distribuidas en semántica de palabras (PDF) (Reporte). ICSI Berkeley 12-1991. CiteSeerX 10.1.1.37.7976 .
Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indización mediante análisis semántico latente" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Archivado desde el original (PDF) el 17 de julio de 2012.
Padó, Sebastián; Lapata, Mirella (2007). "Construcción basada en dependencia de modelos espaciales semánticos". Ligüística computacional . 33 (2): 161–199. doi : 10.1162/coli.2007.33.2.161 . S2CID 7747235.
Schütze, Hinrich (1993). "Espacio de palabras". Avances en los sistemas de procesamiento de información neuronal 5 . págs. 895–902. CiteSeerX 10.1.1.41.8856 .
Sahlgren, Magnus (2006). El modelo espacio-palabra (PDF) (tesis doctoral). Universidad de Estocolmo. Archivado desde el original (PDF) el 19 de junio de 2012 . Consultado el 26 de noviembre de 2012 .
Tomás Landauer; Susan T. Dumais. "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" . Consultado el 2 de julio de 2007 .
Kevin Lund; Curt Burgess; Ruth Ann Atchley (1995). Preparación semántica y asociativa en un espacio semántico de alta dimensión . Procedimientos de ciencia cognitiva. págs. 660–665.
Kevin Lund; Curt Burgess (1996). "Producir espacios semánticos de alta dimensión a partir de la coocurrencia léxica". Métodos, instrumentos y computadoras de investigación del comportamiento . 28 (2): 203–208. doi : 10.3758/bf03204766 .

enlaces externos

Zellig S. Harris