La paráfrasis o parafraseo en lingüística computacional es la tarea de procesamiento del lenguaje natural de detectar y generar paráfrasis . Las aplicaciones de la paráfrasis son variadas, incluida la recuperación de información, la respuesta a preguntas , el resumen de textos y la detección de plagio . [1] La paráfrasis también es útil en la evaluación de la traducción automática , [2] así como en el análisis semántico [3] y la generación [4] de nuevas muestras para expandir los corpus existentes . [5]
Barzilay y Lee [5] propusieron un método para generar paráfrasis mediante el uso de corpus paralelos monolingües , es decir, artículos de noticias que cubren el mismo evento el mismo día. El entrenamiento consiste en utilizar la alineación de múltiples secuencias para generar paráfrasis a nivel de oración a partir de un corpus no anotado. Esto se hace mediante
Esto se logra primero agrupando oraciones similares usando la superposición de n-gramas . Los patrones recurrentes se encuentran dentro de los grupos usando la alineación de múltiples secuencias. Luego, la posición de las palabras del argumento se determina encontrando áreas de alta variabilidad dentro de cada grupo, es decir, entre palabras compartidas por más del 50% de las oraciones de un grupo. Los emparejamientos entre patrones se encuentran luego comparando palabras variables similares entre diferentes corpus. Finalmente, se pueden generar nuevas paráfrasis eligiendo un grupo coincidente para una oración fuente, luego sustituyendo el argumento de la oración fuente en cualquier número de patrones en el grupo.
La paráfrasis también se puede generar mediante el uso de la traducción basada en frases , como propusieron Bannard y Callison-Burch. [6] El concepto principal consiste en alinear frases en un idioma pivote para producir posibles paráfrasis en el idioma original. Por ejemplo, la frase "bajo control" en una oración en inglés se alinea con la frase "unter kontrolle" en su contraparte alemana. La frase "unter kontrolle" se encuentra entonces en otra oración alemana y la frase inglesa alineada es "en control", una paráfrasis de "bajo control".
La distribución de probabilidad se puede modelar como , la frase de probabilidad es una paráfrasis de , que es equivalente a sumar sobre todos , una posible traducción de frase en el lenguaje pivote. Además, la oración se agrega como un antecedente para agregar contexto a la paráfrasis. Por lo tanto, la paráfrasis óptima, se puede modelar como:
y se pueden aproximar simplemente tomando sus frecuencias. La suma como a priori se modela calculando la probabilidad de formar cuando se sustituye con .
Se ha logrado el éxito en el uso de modelos de memoria a corto plazo a largo plazo (LSTM) para generar paráfrasis. [7] En resumen, el modelo consta de un componente codificador y decodificador, ambos implementados utilizando variaciones de un LSTM residual apilado. Primero, el LSTM de codificación toma una codificación one-hot de todas las palabras en una oración como entrada y produce un vector oculto final, que puede representar la oración de entrada. El LSTM de decodificación toma el vector oculto como entrada y genera una nueva oración, que termina en un token de fin de oración. El codificador y el decodificador están entrenados para tomar una frase y reproducir la distribución one-hot de una paráfrasis correspondiente minimizando la perplejidad utilizando un simple descenso de gradiente estocástico . Las nuevas paráfrasis se generan ingresando una nueva frase al codificador y pasando la salida al decodificador.
Con la introducción de los modelos Transformer , los enfoques de generación de paráfrasis mejoraron su capacidad para generar texto al escalar los parámetros de la red neuronal y paralelizar en gran medida el entrenamiento a través de capas de avance . [8] Estos modelos son tan fluidos en la generación de texto que los expertos humanos no pueden identificar si un ejemplo fue creado por humanos o generado por una máquina. [9] La generación de paráfrasis basada en Transformer se basa en métodos de autocodificación , autorregresivos o de secuencia a secuencia . Los modelos de autocodificador predicen candidatos de reemplazo de palabras con una distribución one-hot sobre el vocabulario, mientras que los modelos autorregresivos y seq2seq generan texto nuevo basado en la fuente que predice una palabra a la vez. [10] [11] También existen esfuerzos más avanzados para hacer que la paráfrasis sea controlable de acuerdo con dimensiones de calidad predefinidas, como la preservación semántica o la diversidad léxica. [12] Muchos métodos de generación de paráfrasis basados en Transformer se basan en el aprendizaje no supervisado para aprovechar grandes cantidades de datos de entrenamiento y escalar sus métodos. [13] [14]
Socher et al . [1] han intentado el reconocimiento de paráfrasis mediante el uso de autocodificadores recursivos . El concepto principal es producir una representación vectorial de una oración y sus componentes mediante el uso recursivo de un autocodificador. Las representaciones vectoriales de las paráfrasis deben tener representaciones vectoriales similares; se procesan y luego se introducen como entrada en una red neuronal para su clasificación.
Dada una oración con palabras, el autocodificador está diseñado para tomar incrustaciones de palabras bidimensionales como entrada y producir un vector bidimensional como salida. El mismo autocodificador se aplica a cada par de palabras para producir vectores. Luego, el autocodificador se aplica recursivamente con los nuevos vectores como entradas hasta que se produce un solo vector. Dado un número impar de entradas, el primer vector se envía tal cual al siguiente nivel de recursión. El autocodificador está entrenado para reproducir cada vector en el árbol de recursión completo, incluidas las incrustaciones de palabras iniciales.
Dadas dos oraciones y de longitud 4 y 3 respectivamente, los autocodificadores producirían 7 y 5 representaciones vectoriales incluyendo las incrustaciones de palabras iniciales. Luego se toma la distancia euclidiana entre cada combinación de vectores en y para producir una matriz de similitud . luego se somete a una capa de agrupamiento dinámico para producir una matriz de tamaño fijo . Dado que no son uniformes en tamaño entre todas las oraciones potenciales, se divide en secciones aproximadamente iguales. Luego, la salida se normaliza para tener media 0 y desviación estándar 1 y se alimenta a una capa completamente conectada con una salida softmax . El modelo de agrupamiento dinámico a softmax se entrena utilizando pares de paráfrasis conocidas.
Los vectores de salto de pensamiento son un intento de crear una representación vectorial del significado semántico de una oración, de manera similar al modelo de salto de gramática . [15] Los vectores de salto de pensamiento se producen mediante el uso de un modelo de salto de pensamiento que consta de tres componentes clave, un codificador y dos decodificadores. Dado un corpus de documentos, el modelo de salto de pensamiento se entrena para tomar una oración como entrada y codificarla en un vector de salto de pensamiento. El vector de salto de pensamiento se utiliza como entrada para ambos decodificadores; uno intenta reproducir la oración anterior y el otro la oración siguiente en su totalidad. El codificador y el decodificador se pueden implementar mediante el uso de una red neuronal recursiva (RNN) o un LSTM .
Dado que las paráfrasis tienen el mismo significado semántico entre sí, deberían tener vectores de salto de pensamiento similares. Por lo tanto, se puede entrenar una regresión logística simple para que funcione bien con la diferencia absoluta y el producto de los componentes de dos vectores de salto de pensamiento como entrada.
De manera similar a cómo los modelos Transformer influyeron en la generación de paráfrasis, su aplicación en la identificación de paráfrasis mostró un gran éxito. Los modelos como BERT se pueden adaptar con una capa de clasificación binaria y entrenar de extremo a extremo en tareas de identificación. [16] [17] Los Transformers logran resultados sólidos al transferir entre dominios y técnicas de paráfrasis en comparación con métodos de aprendizaje automático más tradicionales como la regresión logística . Otros métodos exitosos basados en la arquitectura Transformer incluyen el uso de aprendizaje adversarial y metaaprendizaje . [18] [19]
Se pueden utilizar múltiples métodos para evaluar paráfrasis. Dado que el reconocimiento de paráfrasis puede plantearse como un problema de clasificación, la mayoría de las métricas de evaluación estándar, como la precisión , la puntuación f1 o una curva ROC , funcionan relativamente bien. Sin embargo, existe dificultad para calcular las puntuaciones f1 debido a los problemas para producir una lista completa de paráfrasis para una frase dada y al hecho de que las buenas paráfrasis dependen del contexto. Una métrica diseñada para contrarrestar estos problemas es ParaMetric. [20] ParaMetric tiene como objetivo calcular la precisión y la recuperación de un sistema de paráfrasis automático comparando la alineación automática de paráfrasis con una alineación manual de frases similares. Dado que ParaMetric simplemente califica la calidad de la alineación de frases, se puede utilizar para calificar sistemas de generación de paráfrasis, suponiendo que utilice la alineación de frases como parte de su proceso de generación. Un inconveniente notable de ParaMetric es el conjunto grande y exhaustivo de alineaciones manuales que se deben crear inicialmente antes de que se pueda producir una calificación.
La evaluación de la generación de paráfrasis tiene dificultades similares a la evaluación de la traducción automática . La calidad de una paráfrasis depende de su contexto, de si se está utilizando como resumen y de cómo se genera, entre otros factores. Además, una buena paráfrasis suele ser léxicamente diferente de su frase original. El método más simple utilizado para evaluar la generación de paráfrasis sería mediante el uso de jueces humanos. Desafortunadamente, la evaluación a través de jueces humanos tiende a consumir mucho tiempo. Los enfoques automatizados para la evaluación resultan ser un desafío, ya que es esencialmente un problema tan difícil como el reconocimiento de paráfrasis. Si bien originalmente se utilizó para evaluar traducciones automáticas, el estudio de evaluación bilingüe ( BLEU ) también se ha utilizado con éxito para evaluar modelos de generación de paráfrasis. Sin embargo, las paráfrasis a menudo tienen varias soluciones léxicamente diferentes pero igualmente válidas, lo que perjudica al BLEU y otras métricas de evaluación similares. [21]
Las métricas diseñadas específicamente para evaluar la generación de paráfrasis incluyen la paráfrasis en cambio de n-gramas (PINC) [21] y la métrica de evaluación de paráfrasis (PEM) [22] junto con la mencionada ParaMetric. PINC está diseñada para usarse con BLEU y ayudar a cubrir sus deficiencias. Dado que BLEU tiene dificultades para medir la disimilitud léxica, PINC es una medida de la falta de superposición de n-gramas entre una oración fuente y una paráfrasis candidata. Es esencialmente la distancia de Jaccard entre la oración, excluyendo los n-gramas que aparecen en la oración fuente para mantener cierta equivalencia semántica. PEM, por otro lado, intenta evaluar la "adecuación, fluidez y disimilitud léxica" de las paráfrasis al devolver una heurística de valor único calculada utilizando la superposición de N-gramas en un lenguaje pivote. Sin embargo, una gran desventaja de PEM es que debe entrenarse utilizando grandes corpus paralelos en el dominio y jueces humanos. [21] Es equivalente a entrenar un reconocimiento de paráfrasis para evaluar un sistema de generación de paráfrasis.
El conjunto de datos de pares de preguntas de Quora, que contiene cientos de miles de preguntas duplicadas, se ha convertido en un conjunto de datos común para la evaluación de detectores de paráfrasis. [23] Todas las detecciones de paráfrasis consistentemente confiables han utilizado la arquitectura Transformer y todas se han basado en grandes cantidades de entrenamiento previo con datos más generales antes de realizar el ajuste con los pares de preguntas.
{{cite book}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace )