stringtranslate.com

Semántica distributiva

Cómo se relacionan las palabras en un idioma determinado se demuestra en el "espacio semántico", que matemáticamente corresponde al espacio vectorial.

La semántica distribucional [1] es un área de investigación que desarrolla y estudia teorías y métodos para cuantificar y categorizar similitudes semánticas entre elementos lingüísticos en función de sus propiedades distributivas en grandes muestras de datos lingüísticos. La idea básica de la semántica distributiva se puede resumir en la llamada hipótesis distributiva : los elementos lingüísticos con distribuciones similares tienen significados similares.

Hipótesis distributiva

La hipótesis distributiva en lingüística se deriva de la teoría semántica del uso del lenguaje, es decir, las palabras que se usan y ocurren en los mismos contextos tienden a tener significados similares. [2]

La idea subyacente de que "una palabra se caracteriza por la compañía que mantiene" fue popularizada por Firth en la década de 1950. [3]

La hipótesis distributiva es la base de la semántica estadística . Aunque la Hipótesis Distribucional se originó en la lingüística, [4] ahora está recibiendo atención en la ciencia cognitiva, especialmente en lo que respecta al contexto del uso de las palabras. [5]

En los últimos años, la hipótesis distributiva ha proporcionado la base para la teoría de la generalización basada en similitudes en el aprendizaje de idiomas: la idea de que los niños pueden descubrir cómo usar palabras que rara vez han encontrado antes generalizando sobre su uso a partir de distribuciones de palabras similares. . [6] [7]

La hipótesis distributiva sugiere que cuanto más similares sean semánticamente dos palabras, más similares serán a su vez en términos distributivos y, por tanto, más tenderán a aparecer en contextos lingüísticos similares.

Que esta sugerencia sea válida o no tiene implicaciones significativas tanto para el problema de la escasez de datos en el modelado computacional [8] como para la cuestión de cómo los niños son capaces de aprender un lenguaje tan rápidamente si reciben información relativamente pobre (esto también se conoce como el problema de la pobreza del estímulo ).

Modelado semántico distribucional en espacios vectoriales.

La semántica distribucional favorece el uso del álgebra lineal como herramienta computacional y marco de representación. El enfoque básico es recopilar información distributiva en vectores de alta dimensión y definir la similitud distribucional/semántica en términos de similitud vectorial. [9] Se pueden extraer diferentes tipos de similitudes dependiendo del tipo de información de distribución que se utilice para recopilar los vectores: las similitudes temáticas se pueden extraer completando los vectores con información sobre en qué regiones del texto se encuentran los elementos lingüísticos; Las similitudes paradigmáticas se pueden extraer poblando los vectores con información sobre con qué otros elementos lingüísticos coexisten. Tenga en cuenta que el último tipo de vectores también se puede utilizar para extraer similitudes sintagmáticas observando los componentes individuales del vector.

La idea básica de una correlación entre similitud distributiva y semántica puede operacionalizarse de muchas maneras diferentes. Existe una rica variedad de modelos computacionales que implementan semántica distributiva, incluido el análisis semántico latente (LSA), [10] [11] hiperespacial analógico al lenguaje (HAL), modelos basados ​​en sintaxis o dependencia, [12] indexación aleatoria , plegamiento semántico. [13] y varias variantes del modelo temático . [14]

Los modelos semánticos distributivos difieren principalmente con respecto a los siguientes parámetros:

Los modelos semánticos distributivos que utilizan elementos lingüísticos como contexto también se han denominado modelos de espacio de palabras o modelos de espacio vectorial . [16] [17]

Más allá de la semántica léxica

Si bien la semántica distributiva generalmente se ha aplicado a elementos léxicos (palabras y términos de varias palabras) con considerable éxito, sobre todo debido a su aplicabilidad como capa de entrada para modelos de aprendizaje profundo de inspiración neuronal, la semántica léxica , es decir, el significado de las palabras, solo llevar parte de la semántica de un enunciado completo. El significado de una cláusula, por ejemplo, "Los tigres aman a los conejos". , sólo puede entenderse parcialmente examinando el significado de los tres elementos léxicos que lo componen. La semántica distributiva puede extenderse fácilmente para cubrir elementos lingüísticos más amplios, como construcciones, con y sin elementos no instanciados, pero algunos de los supuestos básicos del modelo deben ajustarse un poco. La gramática de la construcción y su formulación del continuo léxico-sintáctico ofrece un enfoque para incluir construcciones más elaboradas en un modelo semántico distribucional y se han implementado algunos experimentos utilizando el enfoque de indexación aleatoria. [18]

Los modelos semánticos distributivos compositivos amplían los modelos semánticos distributivos mediante funciones semánticas explícitas que utilizan reglas basadas en sintácticas para combinar la semántica de las unidades léxicas participantes en un modelo compositivo para caracterizar la semántica de frases u oraciones enteras. Este trabajo fue propuesto originalmente por Stephen Clark, Bob Coecke y Mehrnoosh Sadrzadeh de la Universidad de Oxford en su artículo de 2008, "Un modelo composicional y distributivo del significado". [19] Se han explorado diferentes enfoques de la composición, incluidos los modelos neuronales, y se están debatiendo en talleres establecidos como SemEval . [20]

Aplicaciones

Los modelos semánticos distributivos se han aplicado con éxito a las siguientes tareas:

Software

Ver también

Gente

Referencias

  1. ^ Lenci, Alejandro; Sahlgren, Magnus (2023). Semántica distributiva . Prensa de la Universidad de Cambridge. ISBN 9780511783692.
  2. ^ Harris 1954
  3. ^ Fiordo de 1957
  4. ^ Sahlgren 2008
  5. ^ McDonald y Ramscar 2001
  6. ^ Gleitman 2002
  7. ^ Yarlett 2008
  8. ^ Wishart, Ryder; Prokopidis, Prokopis (2017). Experimentos de modelado de temas sobre corpus helenísticos (PDF) . Actas del Taller sobre Corporas en Humanidades Digitales 17. S2CID  9191936.
  9. ^ Rieger 1991
  10. ^ Deerwester y otros. 1990
  11. ^ Landauer, Thomas K.; Dumais, Susan T. (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento". Revisión psicológica . 104 (2): 211–240. doi :10.1037/0033-295x.104.2.211.
  12. ^ Padó y Lapata 2007
  13. ^ De Sousa Webber, Francisco (2015). "Teoría del plegamiento semántico y su aplicación en la huella semántica". arXiv : 1511.08855 [cs.AI].
  14. ^ Jordania, Michael I.; Ng, Andrés Y.; Blei, David M. (2003). "Asignación latente de Dirichlet". Revista de investigación sobre aprendizaje automático . 3 (enero): 993–1022.
  15. ^ Iglesia, Kenneth Ward; Hanks, Patricio (1989). "Normas de asociación de palabras, información mutua y lexicografía". Actas de la 27ª Reunión Anual de la Asociación de Lingüística Computacional . Morristown, Nueva Jersey, EE. UU.: Asociación de Lingüística Computacional: 76–83. doi : 10.3115/981623.981633 .
  16. ^ Schütze 1993
  17. ^ Sahlgren 2006
  18. ^ Karlgren, Jussi; Kanerva, Pentti (julio de 2019). "Espacios semánticos distribuidos de alta dimensión para enunciados". Ingeniería del Lenguaje Natural . 25 (4): 503–517. arXiv : 2104.00424 . doi :10.1017/S1351324919000226. S2CID  201141249.
  19. ^ Clark, Stephen; Coecke, Bob; Sadrzadeh, Mehrnoosh (2008). "Un modelo compositivo distributivo de significado" (PDF) . Actas del Segundo Simposio de Interacción Cuántica : 133–140.
  20. ^ "SemEval-2014, Tarea 1".

Fuentes

enlaces externos