stringtranslate.com

Plegado semántico

La teoría del plegamiento semántico describe un procedimiento para codificar la semántica de un texto en lenguaje natural en una representación binaria basada en la semántica. Este enfoque proporciona un marco para modelar cómo el neocórtex procesa los datos del lenguaje . [1]

Teoría

La teoría del plegamiento semántico se inspira en Analogía como núcleo de la cognición de Douglas R. Hofstadter , que sugiere que el cerebro da sentido al mundo identificando y aplicando analogías . [2] La teoría plantea la hipótesis de que los datos semánticos deben, por lo tanto, introducirse en el neocórtex de tal forma que permitan la aplicación de una medida de similitud y ofrece, como solución, el vector binario disperso que emplea un espacio semántico topográfico bidimensional como marco de referencia distribucional. La teoría se basa en la teoría computacional de la corteza humana conocida como memoria temporal jerárquica (HTM), y se posiciona como una teoría complementaria para la representación de la semántica del lenguaje.

Una ventaja particular de este enfoque es que la representación binaria resultante permite realizar operaciones semánticas complejas de manera sencilla y eficiente en el nivel computacional más básico.

Espacio semántico bidimensional

De manera análoga a la estructura del neocórtex, la teoría del plegamiento semántico postula la implementación de un espacio semántico como una cuadrícula bidimensional. Esta cuadrícula está poblada por vectores de contexto [nota 1] de tal manera que se colocan vectores de contexto similares más cerca entre sí, por ejemplo, mediante el uso de principios de aprendizaje competitivo. Este modelo de espacio vectorial se presenta en la teoría como una equivalencia al conocido modelo de espacio de palabras [3] descrito en la literatura de recuperación de información .

Dado un espacio semántico (implementado como se describe arriba), se puede obtener un vector de palabras [nota 2] para cualquier palabra Y dada empleando el siguiente algoritmo :

Para cada posición X en el mapa semántico (donde X representa coordenadas cartesianas ), si la palabra Y está contenida en el vector de contexto en la posición X, entonces agregue 1 a la posición correspondiente en el vector de palabras para Y;  de lo contrario, agregue 0 a la posición correspondiente en el vector de palabras para Y.

El resultado de este proceso será un vector de palabras que contendrá todos los contextos en los que aparece la palabra Y y, por lo tanto, será representativo de la semántica de esa palabra en el espacio semántico. Se puede observar que el vector de palabras resultante también está en formato de representación distribuida dispersa (SDR) [Schütze, 1993] y [Sahlgreen, 2006]. [3] [4] Algunas propiedades de las SDR de palabras que son de particular interés con respecto a la semántica computacional son: [5]

Espacios semánticos

Los espacios semánticos [nota 3] [6] en el ámbito del lenguaje natural tienen como objetivo crear representaciones del lenguaje natural que sean capaces de captar el significado. La motivación original de los espacios semánticos surge de dos desafíos centrales del lenguaje natural: la falta de correspondencia del vocabulario (el hecho de que el mismo significado se puede expresar de muchas maneras) y la ambigüedad del lenguaje natural (el hecho de que el mismo término puede tener varios significados).

La aplicación de espacios semánticos en el procesamiento del lenguaje natural (PLN) tiene como objetivo superar las limitaciones de los enfoques basados ​​en reglas o modelos que operan a nivel de palabras clave . El principal inconveniente de estos enfoques es su fragilidad y el gran esfuerzo manual requerido para crear sistemas de PLN basados ​​en reglas o corpus de entrenamiento para el aprendizaje de modelos. [7] [8] Los modelos basados ​​en reglas y en aprendizaje automático se fijan en el nivel de palabras clave y fallan si el vocabulario difiere del definido en las reglas o del material de entrenamiento utilizado para los modelos estadísticos.

La investigación en espacios semánticos se remonta a más de 20 años. En 1996, se publicaron dos artículos que despertaron mucha atención en torno a la idea general de crear espacios semánticos: análisis semántico latente [9] de Microsoft e Hyperspace Analogue to Language [10] de la Universidad de California . Sin embargo, su adopción estuvo limitada por el gran esfuerzo computacional requerido para construir y usar esos espacios semánticos. Un gran avance con respecto a la precisión del modelado de relaciones asociativas entre palabras (por ejemplo, "tela de araña", "encendedor-cigarrillo", en oposición a relaciones sinónimas como "ballena-delfín", "astronauta-conductor") se logró mediante el análisis semántico explícito (ESA) [11] en 2007. ESA fue un enfoque novedoso (no basado en aprendizaje automático) que representaba palabras en forma de vectores con 100.000 dimensiones (donde cada dimensión representa un artículo en Wikipedia ). Sin embargo, las aplicaciones prácticas del enfoque son limitadas debido a la gran cantidad de dimensiones requeridas en los vectores.

Más recientemente, los avances en las técnicas de redes neuronales en combinación con otros enfoques nuevos ( tensores ) dieron lugar a una serie de nuevos desarrollos recientes: Word2vec [12] de Google y GloVe [13] de la Universidad de Stanford .

El plegamiento semántico representa un enfoque novedoso, de inspiración biológica, para los espacios semánticos, en el que cada palabra se representa como un vector binario disperso con 16.000 dimensiones (una huella digital semántica) en un mapa semántico 2D (el universo semántico). La representación binaria dispersa es ventajosa en términos de eficiencia computacional y permite el almacenamiento de una gran cantidad de patrones posibles. [5]

Visualización

Imagen de huella semántica comparando los términos "perro" y "coche".
Imagen de huella semántica que compara los términos "jaguar" y "Porsche"

La distribución topológica sobre una cuadrícula bidimensional (descrita anteriormente) se presta a una visualización de tipo mapa de bits de la semántica de cualquier palabra o texto, donde cada característica semántica activa puede mostrarse como, por ejemplo, un píxel . Como se puede ver en las imágenes que se muestran aquí, esta representación permite una comparación visual directa de la semántica de dos (o más) elementos lingüísticos.

La imagen 1 demuestra claramente que los dos términos dispares "perro" y "coche" tienen, como era de esperar, una semántica obviamente muy diferente.

La imagen 2 muestra que solo uno de los contextos de significado de "jaguar", el del automóvil "Jaguar", se superpone con el significado de Porsche (lo que indica una similitud parcial). Otros contextos de significado de "jaguar", por ejemplo, "jaguar", el animal, tienen claramente contextos diferentes que no se superponen. La visualización de la similitud semántica mediante el plegado semántico tiene un gran parecido con las imágenes fMRI producidas en un estudio de investigación realizado por AG Huth et al., [14] [15] donde se afirma que las palabras se agrupan en el cerebro por significado. Se descubrió que los vóxeles , segmentos de pequeño volumen del cerebro, siguen un patrón en el que la información semántica se representa a lo largo del límite de la corteza visual con categorías visuales y lingüísticas representadas en el lado posterior y anterior respectivamente. [16] [17] [18]

Notas

  1. ^ Un vector de contexto se define como un vector que contiene todas las palabras en un contexto particular.
  2. ^ Un vector de palabras o SDR de palabras se denomina huella semántica en la teoría del plegado semántico.
  3. ^ también conocidos como espacios semánticos distribuidos o memoria semántica distribuida

Referencias

  1. ^ De Sousa Webber, Francisco (2015). "Teoría del plegado semántico y su aplicación en la identificación semántica". Biblioteca de la Universidad de Cornell . arXiv : 1511.08855 . Código Bibliográfico :2015arXiv151108855D.
  2. ^ La mente analógica. Un libro de Bradford. 2 de marzo de 2001. ISBN 9780262072069. Recuperado el 18 de abril de 2016 . {{cite book}}: |website=ignorado ( ayuda )
  3. ^ ab Sahlgreen, Magnus (2006). "El modelo espacio-palabra".
  4. ^ Schütze, Hinrich (1993). "Espacio de palabras": 895–902. CiteSeerX 10.1.1.41.8856 .  {{cite journal}}: Requiere citar revista |journal=( ayuda )
  5. ^ ab Subutai Ahmad; Jeff Hawkins (2015). "Propiedades de las representaciones distribuidas dispersas y su aplicación a la memoria temporal jerárquica". arXiv : 1503.07469 [q-bio.NC].
  6. ^ Baroni, Marco; Lenci, Alessandro (2010). "Memoria distributiva: un marco general para la semántica basada en corpus". Computational Linguistics . 36 (4): 673–721. CiteSeerX 10.1.1.331.3769 . doi :10.1162/coli_a_00016. S2CID  5584134. 
  7. ^ Scott C. Deerwester; Susan T. Dumais; Thomas K. Landauer; George W. Furnas; Richard A. Harshen (1990). "Indexación mediante análisis semántico latente" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información .
  8. ^ Xing Wei; W. Bruce Croft (2007). "Investigación del rendimiento de la recuperación con modelos de temas creados manualmente". Actas de RIAO '07 Acceso semántico a gran escala al contenido (texto, imagen, vídeo y sonido) . Riao '07: 333–349.
  9. ^ "LSA: Una solución al problema de Platón". lsa.colorado.edu . Consultado el 19 de abril de 2016 .
  10. ^ Lund, Kevin; Burgess, Curt (1 de junio de 1996). "Producción de espacios semánticos de alta dimensión a partir de la coocurrencia léxica". Métodos, instrumentos y computadoras de investigación del comportamiento . 28 (2): 203–208. doi : 10.3758/BF03204766 . ISSN  0743-3808.
  11. ^ Evgeniy Gabrilovich y Shaul Markovitch (2007). "Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis" (PDF) . Actas de la 20.ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI). Págs. 1606–1611 .
  12. ^ Tomas Mikolov; Ilya Sutskever; Kai Chen; Greg Corrado; Jeffrey Dean (2013). "Representaciones distribuidas de palabras y frases y su composicionalidad". arXiv : 1310.4546 [cs.CL].
  13. ^ Jeffrey Pennington; Richard Socher; Christopher D. Manning (2014). "GloVe: Vectores globales para la representación de palabras" (PDF) .
  14. ^ Huth, Alexander (27 de abril de 2016). "El habla natural revela los mapas semánticos que recubren la corteza cerebral humana". Nature . 532 (7600): 453–458. Bibcode :2016Natur.532..453H. doi :10.1038/nature17637. PMC 4852309 . PMID  27121839. 
  15. ^ "Cerebro". gallantlab.org . Consultado el 16 de febrero de 2022 .
  16. ^ Popham, Sara F.; Huth, Alexander G.; Bilenko, Natalia Y.; Deniz, Fatma; Gao, James S.; Nunez-Elizalde, Anwar O.; Gallant, Jack L. (11 de agosto de 2021). "Las representaciones semánticas visuales y lingüísticas están alineadas en la frontera de la corteza visual humana". Nature Neuroscience . 24 (11): 1628–1636. doi :10.1038/s41593-021-00921-6. ISSN  1097-6256. PMID  34711960. S2CID  240152854.
  17. ^ Steel, Adam; Billings, Madeleine M.; Silson, Edward H.; Robertson, Caroline E. (11 de mayo de 2021). "Una red que vincula la percepción de escenas y los sistemas de memoria espacial en la corteza cerebral posterior". Nature Communications . 12 (1): 2632. Bibcode :2021NatCo..12.2632S. doi :10.1038/s41467-021-22848-z. ISSN  2041-1723. PMC 8113503 . PMID  33976141. 
  18. ^ Cepelewicz, Jordana (8 de febrero de 2022). "Un nuevo mapa del significado en el cerebro cambia las ideas sobre la memoria". Revista Quanta . Consultado el 16 de febrero de 2022 .