La teoría del plegamiento semántico describe un procedimiento para codificar la semántica de un texto en lenguaje natural en una representación binaria basada en la semántica. Este enfoque proporciona un marco para modelar cómo el neocórtex procesa los datos del lenguaje . [1]
La teoría del plegamiento semántico se inspira en Analogía como núcleo de la cognición de Douglas R. Hofstadter , que sugiere que el cerebro da sentido al mundo identificando y aplicando analogías . [2] La teoría plantea la hipótesis de que los datos semánticos deben, por lo tanto, introducirse en el neocórtex de tal forma que permitan la aplicación de una medida de similitud y ofrece, como solución, el vector binario disperso que emplea un espacio semántico topográfico bidimensional como marco de referencia distribucional. La teoría se basa en la teoría computacional de la corteza humana conocida como memoria temporal jerárquica (HTM), y se posiciona como una teoría complementaria para la representación de la semántica del lenguaje.
Una ventaja particular de este enfoque es que la representación binaria resultante permite realizar operaciones semánticas complejas de manera sencilla y eficiente en el nivel computacional más básico.
De manera análoga a la estructura del neocórtex, la teoría del plegamiento semántico postula la implementación de un espacio semántico como una cuadrícula bidimensional. Esta cuadrícula está poblada por vectores de contexto [nota 1] de tal manera que se colocan vectores de contexto similares más cerca entre sí, por ejemplo, mediante el uso de principios de aprendizaje competitivo. Este modelo de espacio vectorial se presenta en la teoría como una equivalencia al conocido modelo de espacio de palabras [3] descrito en la literatura de recuperación de información .
Dado un espacio semántico (implementado como se describe arriba), se puede obtener un vector de palabras [nota 2] para cualquier palabra Y dada empleando el siguiente algoritmo :
Para cada posición X en el mapa semántico (donde X representa coordenadas cartesianas ), si la palabra Y está contenida en el vector de contexto en la posición X, entonces agregue 1 a la posición correspondiente en el vector de palabras para Y; de lo contrario, agregue 0 a la posición correspondiente en el vector de palabras para Y.
El resultado de este proceso será un vector de palabras que contendrá todos los contextos en los que aparece la palabra Y y, por lo tanto, será representativo de la semántica de esa palabra en el espacio semántico. Se puede observar que el vector de palabras resultante también está en formato de representación distribuida dispersa (SDR) [Schütze, 1993] y [Sahlgreen, 2006]. [3] [4] Algunas propiedades de las SDR de palabras que son de particular interés con respecto a la semántica computacional son: [5]
Los espacios semánticos [nota 3] [6] en el ámbito del lenguaje natural tienen como objetivo crear representaciones del lenguaje natural que sean capaces de captar el significado. La motivación original de los espacios semánticos surge de dos desafíos centrales del lenguaje natural: la falta de correspondencia del vocabulario (el hecho de que el mismo significado se puede expresar de muchas maneras) y la ambigüedad del lenguaje natural (el hecho de que el mismo término puede tener varios significados).
La aplicación de espacios semánticos en el procesamiento del lenguaje natural (PLN) tiene como objetivo superar las limitaciones de los enfoques basados en reglas o modelos que operan a nivel de palabras clave . El principal inconveniente de estos enfoques es su fragilidad y el gran esfuerzo manual requerido para crear sistemas de PLN basados en reglas o corpus de entrenamiento para el aprendizaje de modelos. [7] [8] Los modelos basados en reglas y en aprendizaje automático se fijan en el nivel de palabras clave y fallan si el vocabulario difiere del definido en las reglas o del material de entrenamiento utilizado para los modelos estadísticos.
La investigación en espacios semánticos se remonta a más de 20 años. En 1996, se publicaron dos artículos que despertaron mucha atención en torno a la idea general de crear espacios semánticos: análisis semántico latente [9] de Microsoft e Hyperspace Analogue to Language [10] de la Universidad de California . Sin embargo, su adopción estuvo limitada por el gran esfuerzo computacional requerido para construir y usar esos espacios semánticos. Un gran avance con respecto a la precisión del modelado de relaciones asociativas entre palabras (por ejemplo, "tela de araña", "encendedor-cigarrillo", en oposición a relaciones sinónimas como "ballena-delfín", "astronauta-conductor") se logró mediante el análisis semántico explícito (ESA) [11] en 2007. ESA fue un enfoque novedoso (no basado en aprendizaje automático) que representaba palabras en forma de vectores con 100.000 dimensiones (donde cada dimensión representa un artículo en Wikipedia ). Sin embargo, las aplicaciones prácticas del enfoque son limitadas debido a la gran cantidad de dimensiones requeridas en los vectores.
Más recientemente, los avances en las técnicas de redes neuronales en combinación con otros enfoques nuevos ( tensores ) dieron lugar a una serie de nuevos desarrollos recientes: Word2vec [12] de Google y GloVe [13] de la Universidad de Stanford .
El plegamiento semántico representa un enfoque novedoso, de inspiración biológica, para los espacios semánticos, en el que cada palabra se representa como un vector binario disperso con 16.000 dimensiones (una huella digital semántica) en un mapa semántico 2D (el universo semántico). La representación binaria dispersa es ventajosa en términos de eficiencia computacional y permite el almacenamiento de una gran cantidad de patrones posibles. [5]
La distribución topológica sobre una cuadrícula bidimensional (descrita anteriormente) se presta a una visualización de tipo mapa de bits de la semántica de cualquier palabra o texto, donde cada característica semántica activa puede mostrarse como, por ejemplo, un píxel . Como se puede ver en las imágenes que se muestran aquí, esta representación permite una comparación visual directa de la semántica de dos (o más) elementos lingüísticos.
La imagen 1 demuestra claramente que los dos términos dispares "perro" y "coche" tienen, como era de esperar, una semántica obviamente muy diferente.
La imagen 2 muestra que solo uno de los contextos de significado de "jaguar", el del automóvil "Jaguar", se superpone con el significado de Porsche (lo que indica una similitud parcial). Otros contextos de significado de "jaguar", por ejemplo, "jaguar", el animal, tienen claramente contextos diferentes que no se superponen. La visualización de la similitud semántica mediante el plegado semántico tiene un gran parecido con las imágenes fMRI producidas en un estudio de investigación realizado por AG Huth et al., [14] [15] donde se afirma que las palabras se agrupan en el cerebro por significado. Se descubrió que los vóxeles , segmentos de pequeño volumen del cerebro, siguen un patrón en el que la información semántica se representa a lo largo del límite de la corteza visual con categorías visuales y lingüísticas representadas en el lado posterior y anterior respectivamente. [16] [17] [18]
{{cite book}}
: |website=
ignorado ( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda )