Parafrasear (lingüística computacional)

La paráfrasis o parafraseo en lingüística computacional es la tarea de procesamiento del lenguaje natural de detectar y generar paráfrasis . Las aplicaciones de la paráfrasis son variadas, incluida la recuperación de información, la respuesta a preguntas , el resumen de textos y la detección de plagio . ^[1] La paráfrasis también es útil en la evaluación de la traducción automática , ^[2] así como en el análisis semántico ^[3] y la generación ^[4] de nuevas muestras para expandir los corpus existentes . ^[5]

Generación de paráfrasis

Alineación de secuencias múltiples

Barzilay y Lee ^[5] propusieron un método para generar paráfrasis mediante el uso de corpus paralelos monolingües , es decir, artículos de noticias que cubren el mismo evento el mismo día. El entrenamiento consiste en utilizar la alineación de múltiples secuencias para generar paráfrasis a nivel de oración a partir de un corpus no anotado. Esto se hace mediante

Encontrar patrones recurrentes en cada corpus individual, es decir, " $X$ (heridos/lesionados) $Y$ personas, $Z$ gravemente", donde $X, Y, Z$ son variables.
Encontrar emparejamientos entre dichos patrones que representan paráfrasis, es decir, " $X$ (herió/lastimó) $a Y$ personas, $Z$ gravemente" y " $Y$ fueron (heridos/lastimados) por $X$ , entre ellos $Z$ estaban en estado grave".

Esto se logra primero agrupando oraciones similares usando la superposición de n-gramas . Los patrones recurrentes se encuentran dentro de los grupos usando la alineación de múltiples secuencias. Luego, la posición de las palabras del argumento se determina encontrando áreas de alta variabilidad dentro de cada grupo, es decir, entre palabras compartidas por más del 50% de las oraciones de un grupo. Los emparejamientos entre patrones se encuentran luego comparando palabras variables similares entre diferentes corpus. Finalmente, se pueden generar nuevas paráfrasis eligiendo un grupo coincidente para una oración fuente, luego sustituyendo el argumento de la oración fuente en cualquier número de patrones en el grupo.

Traducción automática basada en frases

La paráfrasis también se puede generar mediante el uso de la traducción basada en frases , como propusieron Bannard y Callison-Burch. ^[6] El concepto principal consiste en alinear frases en un idioma pivote para producir posibles paráfrasis en el idioma original. Por ejemplo, la frase "bajo control" en una oración en inglés se alinea con la frase "unter kontrolle" en su contraparte alemana. La frase "unter kontrolle" se encuentra entonces en otra oración alemana y la frase inglesa alineada es "en control", una paráfrasis de "bajo control".

La distribución de probabilidad se puede modelar como , la frase de probabilidad es una paráfrasis de , que es equivalente a sumar sobre todos , una posible traducción de frase en el lenguaje pivote. Además, la oración se agrega como un antecedente para agregar contexto a la paráfrasis. Por lo tanto, la paráfrasis óptima, se puede modelar como: $\Pr(e_{2}|e_{1})$ $Estilo de visualización e_{2}$ $estilo de visualización e_{1}$ $\Pr(e_{2}|f)\Pr(f|e_{1})$ ${\estilo de visualización f}$ $estilo de visualización e_{1}$ ${\sombrero {e_{2}}}$

{\hat {e_{2}}}={\text{arg}}\max _{e_{2}\neq e_{1}}\Pr(e_{2}|e_{1},S)={\text{arg}}\max _{e_{2}\neq e_{1}}\sum _{f}\Pr(e_{2}|f,S)\Pr(f|e_{1},S)

$\Pr(e_{2}|f)$ y se pueden aproximar simplemente tomando sus frecuencias. La suma como a priori se modela calculando la probabilidad de formar cuando se sustituye con . $\Pr(f|e_{1})$ ${\estilo de visualización S}$ ${\estilo de visualización S}$ $estilo de visualización e_{1}$ $Estilo de visualización e_{2}$

Memoria a corto plazo y larga duración

Se ha logrado el éxito en el uso de modelos de memoria a corto plazo a largo plazo (LSTM) para generar paráfrasis. ^[7] En resumen, el modelo consta de un componente codificador y decodificador, ambos implementados utilizando variaciones de un LSTM residual apilado. Primero, el LSTM de codificación toma una codificación one-hot de todas las palabras en una oración como entrada y produce un vector oculto final, que puede representar la oración de entrada. El LSTM de decodificación toma el vector oculto como entrada y genera una nueva oración, que termina en un token de fin de oración. El codificador y el decodificador están entrenados para tomar una frase y reproducir la distribución one-hot de una paráfrasis correspondiente minimizando la perplejidad utilizando un simple descenso de gradiente estocástico . Las nuevas paráfrasis se generan ingresando una nueva frase al codificador y pasando la salida al decodificador.

Transformadores

Con la introducción de los modelos Transformer , los enfoques de generación de paráfrasis mejoraron su capacidad para generar texto al escalar los parámetros de la red neuronal y paralelizar en gran medida el entrenamiento a través de capas de avance . ^[8] Estos modelos son tan fluidos en la generación de texto que los expertos humanos no pueden identificar si un ejemplo fue creado por humanos o generado por una máquina. ^[9] La generación de paráfrasis basada en Transformer se basa en métodos de autocodificación , autorregresivos o de secuencia a secuencia . Los modelos de autocodificador predicen candidatos de reemplazo de palabras con una distribución one-hot sobre el vocabulario, mientras que los modelos autorregresivos y seq2seq generan texto nuevo basado en la fuente que predice una palabra a la vez. ^[10]^[11] También existen esfuerzos más avanzados para hacer que la paráfrasis sea controlable de acuerdo con dimensiones de calidad predefinidas, como la preservación semántica o la diversidad léxica. ^[12] Muchos métodos de generación de paráfrasis basados en Transformer se basan en el aprendizaje no supervisado para aprovechar grandes cantidades de datos de entrenamiento y escalar sus métodos. ^[13]^[14]

Reconocimiento de paráfrasis

Codificadores automáticos recursivos

^{Socher et al . [1]} han intentado el reconocimiento de paráfrasis mediante el uso de autocodificadores recursivos . El concepto principal es producir una representación vectorial de una oración y sus componentes mediante el uso recursivo de un autocodificador. Las representaciones vectoriales de las paráfrasis deben tener representaciones vectoriales similares; se procesan y luego se introducen como entrada en una red neuronal para su clasificación.

Dada una oración con palabras, el autocodificador está diseñado para tomar incrustaciones de palabras bidimensionales como entrada y producir un vector bidimensional como salida. El mismo autocodificador se aplica a cada par de palabras para producir vectores. Luego, el autocodificador se aplica recursivamente con los nuevos vectores como entradas hasta que se produce un solo vector. Dado un número impar de entradas, el primer vector se envía tal cual al siguiente nivel de recursión. El autocodificador está entrenado para reproducir cada vector en el árbol de recursión completo, incluidas las incrustaciones de palabras iniciales. ${\estilo de visualización W}$ ${\estilo de visualización m}$ ${\estilo de visualización n}$ ${\estilo de visualización n}$ ${\estilo de visualización S}$ $\lpiso m/2\rpiso$

Dadas dos oraciones y de longitud 4 y 3 respectivamente, los autocodificadores producirían 7 y 5 representaciones vectoriales incluyendo las incrustaciones de palabras iniciales. Luego se toma la distancia euclidiana entre cada combinación de vectores en y para producir una matriz de similitud . luego se somete a una capa de agrupamiento dinámico para producir una matriz de tamaño fijo . Dado que no son uniformes en tamaño entre todas las oraciones potenciales, se divide en secciones aproximadamente iguales. Luego, la salida se normaliza para tener media 0 y desviación estándar 1 y se alimenta a una capa completamente conectada con una salida softmax . El modelo de agrupamiento dinámico a softmax se entrena utilizando pares de paráfrasis conocidas. $Estilo de visualización W_{1}$ $Estilo de visualización W_{2}$ $Estilo de visualización W_{1}$ $Estilo de visualización W_{2}$ $S\in \mathbb {R} ^{7\times 5}$ ${\estilo de visualización S}$ $n_{p}\times n_{p}$ ${\estilo de visualización S}$ ${\estilo de visualización S}$ $estilo de visualización n_ {p}}$

Vectores de pensamiento salteado

Los vectores de salto de pensamiento son un intento de crear una representación vectorial del significado semántico de una oración, de manera similar al modelo de salto de gramática . ^[15] Los vectores de salto de pensamiento se producen mediante el uso de un modelo de salto de pensamiento que consta de tres componentes clave, un codificador y dos decodificadores. Dado un corpus de documentos, el modelo de salto de pensamiento se entrena para tomar una oración como entrada y codificarla en un vector de salto de pensamiento. El vector de salto de pensamiento se utiliza como entrada para ambos decodificadores; uno intenta reproducir la oración anterior y el otro la oración siguiente en su totalidad. El codificador y el decodificador se pueden implementar mediante el uso de una red neuronal recursiva (RNN) o un LSTM .

Dado que las paráfrasis tienen el mismo significado semántico entre sí, deberían tener vectores de salto de pensamiento similares. Por lo tanto, se puede entrenar una regresión logística simple para que funcione bien con la diferencia absoluta y el producto de los componentes de dos vectores de salto de pensamiento como entrada.

Transformadores

De manera similar a cómo los modelos Transformer influyeron en la generación de paráfrasis, su aplicación en la identificación de paráfrasis mostró un gran éxito. Los modelos como BERT se pueden adaptar con una capa de clasificación binaria y entrenar de extremo a extremo en tareas de identificación. ^[16]^[17] Los Transformers logran resultados sólidos al transferir entre dominios y técnicas de paráfrasis en comparación con métodos de aprendizaje automático más tradicionales como la regresión logística . Otros métodos exitosos basados en la arquitectura Transformer incluyen el uso de aprendizaje adversarial y metaaprendizaje . ^[18]^[19]

Evaluación

Se pueden utilizar múltiples métodos para evaluar paráfrasis. Dado que el reconocimiento de paráfrasis puede plantearse como un problema de clasificación, la mayoría de las métricas de evaluación estándar, como la precisión , la puntuación f1 o una curva ROC , funcionan relativamente bien. Sin embargo, existe dificultad para calcular las puntuaciones f1 debido a los problemas para producir una lista completa de paráfrasis para una frase dada y al hecho de que las buenas paráfrasis dependen del contexto. Una métrica diseñada para contrarrestar estos problemas es ParaMetric. ^[20] ParaMetric tiene como objetivo calcular la precisión y la recuperación de un sistema de paráfrasis automático comparando la alineación automática de paráfrasis con una alineación manual de frases similares. Dado que ParaMetric simplemente califica la calidad de la alineación de frases, se puede utilizar para calificar sistemas de generación de paráfrasis, suponiendo que utilice la alineación de frases como parte de su proceso de generación. Un inconveniente notable de ParaMetric es el conjunto grande y exhaustivo de alineaciones manuales que se deben crear inicialmente antes de que se pueda producir una calificación.

La evaluación de la generación de paráfrasis tiene dificultades similares a la evaluación de la traducción automática . La calidad de una paráfrasis depende de su contexto, de si se está utilizando como resumen y de cómo se genera, entre otros factores. Además, una buena paráfrasis suele ser léxicamente diferente de su frase original. El método más simple utilizado para evaluar la generación de paráfrasis sería mediante el uso de jueces humanos. Desafortunadamente, la evaluación a través de jueces humanos tiende a consumir mucho tiempo. Los enfoques automatizados para la evaluación resultan ser un desafío, ya que es esencialmente un problema tan difícil como el reconocimiento de paráfrasis. Si bien originalmente se utilizó para evaluar traducciones automáticas, el estudio de evaluación bilingüe ( BLEU ) también se ha utilizado con éxito para evaluar modelos de generación de paráfrasis. Sin embargo, las paráfrasis a menudo tienen varias soluciones léxicamente diferentes pero igualmente válidas, lo que perjudica al BLEU y otras métricas de evaluación similares. ^[21]

Las métricas diseñadas específicamente para evaluar la generación de paráfrasis incluyen la paráfrasis en cambio de n-gramas (PINC) ^[21] y la métrica de evaluación de paráfrasis (PEM) ^[22] junto con la mencionada ParaMetric. PINC está diseñada para usarse con BLEU y ayudar a cubrir sus deficiencias. Dado que BLEU tiene dificultades para medir la disimilitud léxica, PINC es una medida de la falta de superposición de n-gramas entre una oración fuente y una paráfrasis candidata. Es esencialmente la distancia de Jaccard entre la oración, excluyendo los n-gramas que aparecen en la oración fuente para mantener cierta equivalencia semántica. PEM, por otro lado, intenta evaluar la "adecuación, fluidez y disimilitud léxica" de las paráfrasis al devolver una heurística de valor único calculada utilizando la superposición de N-gramas en un lenguaje pivote. Sin embargo, una gran desventaja de PEM es que debe entrenarse utilizando grandes corpus paralelos en el dominio y jueces humanos. ^[21] Es equivalente a entrenar un reconocimiento de paráfrasis para evaluar un sistema de generación de paráfrasis.

El conjunto de datos de pares de preguntas de Quora, que contiene cientos de miles de preguntas duplicadas, se ha convertido en un conjunto de datos común para la evaluación de detectores de paráfrasis. ^[23] Todas las detecciones de paráfrasis consistentemente confiables han utilizado la arquitectura Transformer y todas se han basado en grandes cantidades de entrenamiento previo con datos más generales antes de realizar el ajuste con los pares de preguntas.

Véase también

Referencias

^ ab Socher, Richard; Huang, Eric; Pennington, Jeffrey; Ng, Andrew; Manning, Christopher (2011), "Advances in Neural Information Processing Systems 24", Agrupamiento dinámico y desdoblamiento de autocodificadores recursivos para detección de paráfrasis , archivado desde el original el 2018-01-06 , consultado el 2017-12-29
^ Callison-Burch, Chris (25-27 de octubre de 2008). Restricciones sintácticas en paráfrasis extraídas de corpus paralelos. Actas de la conferencia sobre métodos empíricos en el procesamiento del lenguaje natural EMNLP '08. Honolulu, Hawái. págs. 196-205.
^ Berant, Jonathan y Percy Liang. "Análisis semántico mediante paráfrasis". Actas de la 52.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos). Vol. 1. 2014.
^ Wahle, Jan Philip; Ruas, Terry; Kirstein, Frederic; Gipp, Bela (2022). "Cómo los modelos de lenguaje de gran tamaño están transformando el plagio de paráfrasis de máquinas". Actas de la Conferencia de 2022 sobre métodos empíricos en el procesamiento del lenguaje natural . En línea y Abu Dabi, Emiratos Árabes Unidos. págs. 952–963. arXiv : 2210.03568 . doi :10.18653/v1/2022.emnlp-main.62.{{cite book}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
^ ab Barzilay, Regina; Lee, Lillian (mayo-junio de 2003). Aprendiendo a parafrasear: un enfoque no supervisado utilizando alineamiento de secuencias múltiples. Actas de HLT-NAACL 2003.
^ Bannard, Colin; Callison-Burch, Chris (2005). Paraphrasing Bilingual Parallel Corpora. Actas de la 43.ª reunión anual de la ACL. Ann Arbor, Michigan. págs. 597–604.
^ Prakash, Aaditya; Hasan, Sadid A.; Lee, Kathy; Datla, Vivek; Qadir, Ashequl; Liu, Joey; Farri, Oladimeji (2016), Generación de paráfrasis neuronal con redes LSTM residuales estacadas , arXiv : 1610.03098 , Bibcode : 2016arXiv161003098P
^ Zhou, Jianing; Bhat, Suma (2021). "Generación de paráfrasis: un estudio del estado del arte". Actas de la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural . Online y Punta Cana, República Dominicana: Asociación de Lingüística Computacional. págs. doi : 10.18653/v1/2021.emnlp-main.414 . S2CID 243865349.
^ Dou, Yao; Forbes, Maxwell; Koncel-Kedziorski, Rik; Smith, Noah; Choi, Yejin (2022). "¿Es el texto GPT-3 indistinguible del texto humano? Scarecrow: un marco para examinar el texto de la máquina". Actas de la 60.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . Dublín, Irlanda: Asociación de Lingüística Computacional: 7250–7274. arXiv : 2107.01294 . doi : 10.18653/v1/2022.acl-long.501 . S2CID 247315430.
^ Liu, Xianggen; Mou, Lili; Meng, Fandong; Zhou, Hao; Zhou, Jie; Song, Sen (2020). "Paráfrasis no supervisada mediante recocido simulado". Actas de la 58.ª reunión anual de la Asociación de Lingüística Computacional . En línea: Asociación de Lingüística Computacional: 302–312. arXiv : 1909.03588 . doi : 10.18653/v1/2020.acl-main.28 . S2CID : 202537332.
^ Wahle, Jan Philip; Ruas, Terry; Meuschke, Norman; Gipp, Bela (2021). "¿Son los modelos de lenguaje neuronal buenos plagiadores? Un punto de referencia para la detección de paráfrasis neuronales". Conferencia conjunta ACM/IEEE sobre bibliotecas digitales (JCDL) de 2021. Champaign, IL, EE. UU.: IEEE. págs. 226–229. arXiv : 2103.12450 . doi :10.1109/JCDL52503.2021.00065. ISBN 978-1-6654-1770-9. Número de identificación del sujeto 232320374.
^ Bandel, Elron; Aharonov, Ranit; Shmueli-Scheuer, Michal; Shnayderman, Ilya; Slonim, Noam; Ein-Dor, Liat (2022). "Generación de paráfrasis con control de calidad". Actas de la 60.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . Dublín, Irlanda: Asociación de Lingüística Computacional: 596–609. arXiv : 2203.10940 . doi : 10.18653/v1/2022.acl-long.45 .
^ Lee, John Sie Yuen; Lim, Ho Hung; Carol Webster, Carol (2022). "Predicción de parafrasabilidad no supervisada para nominalizaciones compuestas". Actas de la Conferencia de 2022 del Capítulo norteamericano de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano . Seattle, Estados Unidos: Asociación de Lingüística Computacional. págs. 3254–3263. doi : 10.18653/v1/2022.naacl-main.237 . S2CID 250390695.
^ Niu, Tong; Yavuz, Semih; Zhou, Yingbo; Keskar, Nitish Shirish; Wang, Huan; Xiong, Caiming (2021). "Paráfrasis no supervisada con modelos de lenguaje preentrenados". Actas de la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural . Online y Punta Cana, República Dominicana: Asociación de Lingüística Computacional. págs. 5136–5150. doi : 10.18653/v1/2021.emnlp-main.417 . S2CID 237497412.
^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja (2015), Vectores de omisión de pensamiento , arXiv : 1506.06726 , Bibcode : 2015arXiv150606726K
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2019). "Actas de la Conferencia del Norte de 2019". Actas de la Conferencia del Norte de 2019 . Minneapolis, Minnesota: Asociación de Lingüística Computacional: 4171–4186. doi :10.18653/v1/N19-1423. S2CID 52967399.
^ Wahle, Jan Philip; Ruas, Terry; Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (2022), Smits, Malte (ed.), "Identificación del plagio parafraseado por máquina", Información para un mundo mejor: moldeando el futuro global , vol. 13192, Cham: Springer International Publishing, págs. 393–413, arXiv : 2103.11909 , doi :10.1007/978-3-030-96957-8_34, ISBN 978-3-030-96956-1, S2CID 232307572 , consultado el 6 de octubre de 2022
^ Nighojkar, Animesh; Licato, John (2021). "Mejora de la detección de paráfrasis con la tarea de paráfrasis adversaria". Actas de la 59.ª Reunión Anual de la Asociación de Lingüística Computacional y la 11.ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (Volumen 1: Documentos extensos) . En línea: Asociación de Lingüística Computacional. págs. 7106–7116. doi : 10.18653/v1/2021.acl-long.552 . S2CID 235436269.
^ Dopierre, Thomas; Gravier, Christophe; Logerais, Wilfried (2021). "ProtAugment: metaaprendizaje de detección de intenciones mediante paráfrasis diversas no supervisadas". Actas de la 59.ª Reunión Anual de la Asociación de Lingüística Computacional y la 11.ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (volumen 1: artículos extensos) . En línea: Asociación de Lingüística Computacional. págs. 2454–2466. doi : 10.18653/v1/2021.acl-long.191 . S2CID 236460333.
^ Callison-Burch, Chris; Cohn, Trevor; Lapata, Mirella (2008). ParaMetric: una métrica de evaluación automática para parafrasear . Actas de la 22.ª Conferencia Internacional sobre Lingüística Computacional. Manchester. págs. 97–104. doi : 10.3115/1599081.1599094 . S2CID 837398.
^ abc Chen, David; Dolan, William (2008). Recopilación de datos altamente paralelos para la evaluación de paráfrasis. Actas de la 49.ª reunión anual de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano. Portland, Oregón. págs. 190-200.
^ Liu, Chang; Dahlmeier, Daniel; Ng, Hwee Tou (2010). PEM: una métrica de evaluación de paráfrasis que explota textos paralelos. Actas de la Conferencia de 2010 sobre métodos empíricos en el procesamiento del lenguaje natural. MIT, Massachusetts. págs. 923–932.
^ "Identificación de paráfrasis en pares de preguntas de Quora". Documentos con código .

Enlaces externos

Microsoft Research Paraphrase Corpus: un conjunto de datos que consta de 5800 pares de oraciones extraídas de artículos de noticias anotados para indicar si un par captura equivalencia semántica
Base de datos de paráfrasis (PPDB): una base de datos con capacidad de búsqueda que contiene millones de paráfrasis en 16 idiomas diferentes