En el procesamiento del lenguaje natural , la compresión semántica es un proceso de compactación de un léxico utilizado para construir un documento textual (o un conjunto de documentos) mediante la reducción de la heterogeneidad del lenguaje, manteniendo al mismo tiempo la semántica del texto . Como resultado, las mismas ideas se pueden representar utilizando un conjunto más pequeño de palabras.
En la mayoría de las aplicaciones, la compresión semántica es una compresión con pérdida. El aumento de la prolijidad no compensa la compresión léxica y un documento original no se puede reconstruir en un proceso inverso.
La compresión semántica se logra básicamente en dos pasos, utilizando diccionarios de frecuencia y redes semánticas :
El paso 1 requiere reunir frecuencias de palabras e información sobre relaciones semánticas, específicamente hiponimia . A medida que se avanza en la jerarquía de palabras, se calcula una frecuencia acumulada de conceptos sumando la suma de las frecuencias de los hipónimos a la frecuencia de su hiperónimo: donde es un hiperónimo de . Luego, se elige una cantidad deseada de palabras con las frecuencias acumuladas más altas para construir un léxico objetivo.
En el segundo paso, se definen reglas de mapeo de compresión para las palabras restantes con el fin de manejar cada aparición de un hipónimo menos frecuente como su hiperónimo en el texto de salida.
El fragmento de texto que aparece a continuación ha sido procesado mediante compresión semántica. Las palabras en negrita han sido reemplazadas por sus hiperónimos.
Ambos son insectos sociales que construyen nidos , pero las avispas de papel y las abejas organizan sus colonias.
De maneras muy diferentes . En un nuevo estudio, los investigadores informan que a pesar de sus diferencias , estos insectos dependen de la misma red de genes para guiar su comportamiento social . El estudio aparece en Proceedings of the Royal Society B : Biological Sciences. Las abejas melíferas y las avispas de papel están separadas por más de 100 millones de años de
evolución , y hay diferencias sorprendentes en cómo se dividen el trabajo de mantener una colonia .
El procedimiento genera el siguiente texto:
Ambos son insectos constructores de instalaciones , pero los insectos y los insectos de la miel organizan sus grupos biológicos.
En una estructura muy diferente , los investigadores informan que, a pesar de sus diferencias de opinión , estos insectos utilizan la misma red de genes para dirigir su comportamiento festivo . El estudio aparece en las actas de la institución Bacteria Biological Sciences. Los insectos de la miel y los insectos están separados por más de cien millones de años de
procesos orgánicos , y existen diferencias de opiniones en torno a cómo se reparte el trabajo de afirmar un grupo biológico .
Una tendencia natural a mantener concisas las expresiones del lenguaje natural puede percibirse como una forma de compresión semántica implícita, al omitir palabras sin significado o palabras significativas redundantes (especialmente para evitar pleonasmos ). [2]
En el modelo de espacio vectorial , la compactación de un léxico conduce a una reducción de la dimensionalidad , lo que resulta en una menor complejidad computacional y una influencia positiva en la eficiencia.
La compresión semántica es ventajosa en las tareas de recuperación de información , ya que mejora su eficacia (tanto en términos de precisión como de recuperación ). [3] Esto se debe a descriptores más precisos (efecto reducido de la diversidad lingüística: redundancia lingüística limitada, un paso hacia un diccionario controlado).
Como en el ejemplo anterior, es posible mostrar la salida como texto natural (reaplicando la flexión y añadiendo palabras vacías).