stringtranslate.com

Gramática de concatenación de rangos

La gramática de concatenación de rangos (RCG) es un formalismo gramatical desarrollado por Pierre Boullier [1] en 1998 como un intento de caracterizar una serie de fenómenos del lenguaje natural, como los números chinos y la codificación del orden de las palabras en alemán , que están fuera de los límites del lenguaje suave. lenguajes sensibles al contexto . [2]

Desde un punto de vista teórico, cualquier lenguaje que pueda analizarse en tiempo polinómico pertenece al subconjunto de RCG llamado gramáticas de concatenación de rango positivo, y recíprocamente. [4]

Aunque pretenden ser una variante de las gramáticas de movimiento literal (LMG) de Groenink , las RCG tratan el proceso gramatical más como una prueba que como una producción. Mientras que los LMG producen una cadena terminal a partir de un predicado inicial, los RCG tienen como objetivo reducir un predicado inicial (que predica una cadena terminal) a una cadena vacía, lo que constituye una prueba de la pertenencia de las cadenas terminales al lenguaje.

Descripción

Definicion formal

Una gramática de concatenación de rango positivo (PRCG) es una tupla , donde:

Una gramática de concatenación de rango negativo (NRCG) se define como una PRCG, pero con la adición de que algunos predicados que aparecen en el lado derecho de una cláusula pueden tener la forma . Estos predicados se denominan predicados negativos .

Una gramática de concatenación de rangos es positiva o negativa. Aunque los PRCG son técnicamente NRCG, ​​los términos se utilizan para resaltar la ausencia (PRCG) o la presencia (NRCG) de predicados negativos.

Un rango en una palabra es un par , con , donde es la longitud de . Las variables se vinculan a rangos, no a cadenas arbitrarias de no terminales. Se pueden concatenar dos rangos y iff , y entonces tenemos: . Al crear una instancia de una cláusula, donde un argumento consta de varios elementos de , sus rangos deben concatenarse.

Para una palabra con , la notación con puntos para rangos es: .

Reconocimiento de cuerdas

Las cadenas de predicados que se reescriben representan restricciones que la cadena que se prueba debe satisfacer (si es positiva) o, en el caso de predicados negativos, no satisfacer. El orden de los predicados es irrelevante. Los pasos de reescritura equivalen a reemplazar una restricción por cero o más restricciones más simples.

Al igual que las LMG, las cláusulas RCG tienen el esquema general , donde en un RCG es una cadena vacía o una cadena de predicados. Los argumentos consisten en cadenas de símbolos terminales y/o símbolos variables, cuyo patrón coincide con los valores reales de los argumentos como en LMG. Las variables adyacentes constituyen una familia de coincidencias con particiones, de modo que el argumento , con dos variables, coincide con la cadena literal de tres maneras diferentes: . Esto daría lugar a tres ejemplificaciones diferentes de la cláusula que contiene ese argumento .

Los términos predicados vienen en dos formas, positivos (que producen la cadena vacía en caso de éxito) y negativos (que producen la cadena vacía en caso de error/si el término positivo no produce la cadena vacía). Los términos negativos se indican de la misma manera que los términos positivos, con una barra superior, como en .

La semántica de reescritura de los RCG es bastante simple, idéntica a la semántica correspondiente de las LMG. Dada una cadena de predicado , donde los símbolos son cadenas terminales, si hay una regla en la gramática que indica que la cadena de predicado coincide, la cadena de predicado se reemplaza por , sustituyendo las variables coincidentes en cada .

Por ejemplo, dada la regla donde y son símbolos variables y y son símbolos terminales, la cadena de predicado se puede reescribir como , porque coincide con cuando . De manera similar, si existiera una regla , podría reescribirse como .

Una prueba/reconocimiento de una cadena se realiza mostrando que produce la cadena vacía. Para los pasos de reescritura individuales, cuando son posibles múltiples coincidencias de variables alternativas, se considera cualquier reescritura que pueda llevar a que toda la prueba tenga éxito. Por lo tanto, si hay al menos una forma de producir la cadena vacía a partir de la cadena inicial , la prueba se considera exitosa, independientemente de cuántas otras formas de fallar existan.

Ejemplo

Los RCG son capaces de reconocer el lenguaje de índice no lineal de la siguiente manera:

Sean x, y y z símbolos variables:

abbabbabb

O bien, usando la notación de puntos más correcta para rangos:

Para una cadena de letras, existen diferentes instancias de esa primera cláusula, pero solo la que hace que todas las letras permitan que la derivación llegue a .

Propiedades

Cada gramática libre de contexto (CFG) se puede convertir en una gramática de concatenación de rangos:

La intersección y unión de dos lenguajes de concatenación de rangos son lenguajes de concatenación de rangos triviales:

Los lenguajes de concatenación de rango posiblemente negativo también están cerrados bajo complemento de conjuntos.

Una consecuencia de lo anterior es que es indecidible si un lenguaje de concatenación de rango (positivo) no está vacío, porque es indecidible si la intersección de dos lenguajes libres de contexto no está vacía. Por tanto, las gramáticas de concatenación de rangos no son generativas.

Referencias

  1. ^ Boullier, Pierre (enero de 1998). Propuesta de una columna vertebral sintáctica de procesamiento del lenguaje natural (PDF) (Reporte técnico). vol. 3342. INRIA Rocquencourt (Francia).
  2. ^ Pierre Boullier (1999). "Gramáticas de números chinos, MIX, codificación y concatenación de rangos" (PDF) . Proc. EACL . págs. 53–60. Archivado desde el original (PDF) el 15 de mayo de 2003.
  3. ^ Eberhard Bertsch y Mark-Jan Nederhof (octubre de 2001). "Sobre la complejidad de algunas extensiones del análisis RCG" (PDF) . Actas del Séptimo Taller Internacional sobre Tecnologías de Análisis (Beijing) . págs. 66–77.
  4. ^ Laura Kallmeyer (2010). Análisis más allá de las gramáticas libres de contexto . Medios de ciencia y negocios de Springer. pag. 37.ISBN 978-3-642-14846-0.citando a Bertsch, Nederhof (2001) [3]