Compresión semántica

En el procesamiento del lenguaje natural , la compresión semántica es un proceso de compactación de un léxico utilizado para construir un documento textual (o un conjunto de documentos) mediante la reducción de la heterogeneidad del lenguaje, manteniendo al mismo tiempo la semántica del texto . Como resultado, las mismas ideas se pueden representar utilizando un conjunto más pequeño de palabras.

En la mayoría de las aplicaciones, la compresión semántica es una compresión con pérdida. El aumento de la prolijidad no compensa la compresión léxica y un documento original no se puede reconstruir en un proceso inverso.

Por generalización

La compresión semántica se logra básicamente en dos pasos, utilizando diccionarios de frecuencia y redes semánticas :

determinar frecuencias acumuladas de términos para identificar el léxico objetivo,
Reemplazar términos menos frecuentes por sus hiperónimos ( generalización ) del léxico de destino. ^[1]

El paso 1 requiere reunir frecuencias de palabras e información sobre relaciones semánticas, específicamente hiponimia . A medida que se avanza en la jerarquía de palabras, se calcula una frecuencia acumulada de conceptos sumando la suma de las frecuencias de los hipónimos a la frecuencia de su hiperónimo: donde es un hiperónimo de . Luego, se elige una cantidad deseada de palabras con las frecuencias acumuladas más altas para construir un léxico objetivo. $cumf(k_{i})=f(k_{i})+\sum _{j}cumf(k_{j})$ $estilo de visualización k_{i}}$ $estilo de visualización k_ {j}}$

En el segundo paso, se definen reglas de mapeo de compresión para las palabras restantes con el fin de manejar cada aparición de un hipónimo menos frecuente como su hiperónimo en el texto de salida.

Ejemplo

El fragmento de texto que aparece a continuación ha sido procesado mediante compresión semántica. Las palabras en negrita han sido reemplazadas por sus hiperónimos.

Ambos son insectos sociales que construyen nidos , pero las avispas de papel y las abejas organizan sus colonias.
De maneras muy diferentes . En un nuevo estudio, los investigadores informan que a pesar de sus diferencias , estos insectos dependen de la misma red de genes para guiar su comportamiento social . El estudio aparece en Proceedings of the Royal Society B : Biological Sciences. Las abejas melíferas y las avispas de papel están separadas por más de 100 millones de años de
evolución , y hay diferencias sorprendentes en cómo se dividen el trabajo de mantener una colonia .

El procedimiento genera el siguiente texto:

Ambos son insectos constructores de instalaciones , pero los insectos y los insectos de la miel organizan sus grupos biológicos.
En una estructura muy diferente , los investigadores informan que, a pesar de sus diferencias de opinión , estos insectos utilizan la misma red de genes para dirigir su comportamiento festivo . El estudio aparece en las actas de la institución Bacteria Biological Sciences. Los insectos de la miel y los insectos están separados por más de cien millones de años de
procesos orgánicos , y existen diferencias de opiniones en torno a cómo se reparte el trabajo de afirmar un grupo biológico .

Compresión semántica implícita

Una tendencia natural a mantener concisas las expresiones del lenguaje natural puede percibirse como una forma de compresión semántica implícita, al omitir palabras sin significado o palabras significativas redundantes (especialmente para evitar pleonasmos ). ^[2]

Aplicaciones y ventajas

En el modelo de espacio vectorial , la compactación de un léxico conduce a una reducción de la dimensionalidad , lo que resulta en una menor complejidad computacional y una influencia positiva en la eficiencia.

La compresión semántica es ventajosa en las tareas de recuperación de información , ya que mejora su eficacia (tanto en términos de precisión como de recuperación ). ^[3] Esto se debe a descriptores más precisos (efecto reducido de la diversidad lingüística: redundancia lingüística limitada, un paso hacia un diccionario controlado).

Como en el ejemplo anterior, es posible mostrar la salida como texto natural (reaplicando la flexión y añadiendo palabras vacías).

Véase también

Referencias

^ Ceglarek, D.; Haniewicz, K.; Rutkowski, W. (2010). "Compresión semántica para sistemas especializados de recuperación de información". Avances en sistemas de información y bases de datos inteligentes . Estudios en inteligencia computacional. Vol. 283. págs. 111–121. doi :10.1007/978-3-642-12090-9_10. ISBN 978-3-642-12089-3.
^ Percova, NN (1982). "Sobre los tipos de compresión semántica del texto". COLING '82 Actas de la 9.ª Conferencia sobre Lingüística Computacional . Vol. 2. págs. 229-231. doi :10.3115/990100.990155. ISBN 0-444-86393-1. Número de identificación del sujeto 33742593.
^ Ceglarek, D.; Haniewicz, K.; Rutkowski, W. (2010). "Calidad de la compresión semántica en la clasificación". Actas de la 2.ª Conferencia internacional sobre inteligencia colectiva computacional: tecnologías y aplicaciones . Vol. 1. Springer. págs. 162–171. ISBN. 978-3-642-16692-1.

Enlaces externos

Compresión semántica en el sitio web del Proyecto SENECA (Redes Semánticas y Categorización)