Las gramáticas indexadas son una generalización de las gramáticas libres de contexto en el sentido de que los no terminales están equipados con listas de indicadores o símbolos de índice . El lenguaje producido por una gramática indexada se llama lenguaje indexado .
En publicaciones contemporáneas posteriores a Hopcroft y Ullman (1979), [2] una gramática indexada se define formalmente como una tupla de 5 G = ⟨ N , T , F , P , S ⟩ donde
Tanto en producciones como en derivaciones de gramáticas indexadas, se adjunta una cadena ("pila") σ ∈ F * de símbolos de índice a cada símbolo no terminal A ∈ N , denotado por A [ σ ]. [nota 1] Los símbolos terminales no pueden ir seguidos de pilas de índices. Para una pila de índice σ ∈ F * y una cadena α ∈ ( N ∪ T ) * de símbolos terminales y no terminales, α [ σ ] denota el resultado de adjuntar [ σ ] a cada no terminal en α ; por ejemplo, si α es igual a B C d E con a , d ∈ T terminal y B , C , E ∈ N símbolos no terminales, entonces α [ σ ] denota a B [ σ ] C [ σ ] d E [ σ ]. Usando esta notación, cada producción en P tiene que ser de la forma
donde A , B ∈ N son símbolos no terminales, f ∈ F es un índice, σ ∈ F * es una cadena de símbolos de índice y α ∈ ( N ∪ T ) * es una cadena de símbolos terminales y no terminales. Algunos autores escriben ".." en lugar de " σ " para la pila de índices en las reglas de producción; la regla de tipo 1, 2 y 3 se lee entonces A [..]→ α [..], A [..]→ B [ f ..] y A [ f ..]→ α [..] , respectivamente.
Las derivaciones son similares a las de una gramática libre de contexto, excepto por la pila de índice adjunta a cada símbolo no terminal. Cuando se aplica una producción como, por ejemplo, A [ σ ] → B [ σ ] C [ σ ] , la pila de índice de A se copia tanto en B como en C. Además, una regla puede insertar un símbolo de índice en la pila o hacer aparecer su símbolo de índice "superior" (es decir, más a la izquierda).
Formalmente, la relación ⇒ ("derivación directa") se define en el conjunto ( N [ F * ]∪ T ) * de "formas oracionales" de la siguiente manera:
Como es habitual, la relación de derivaciónse define como la clausura transitiva reflexiva de la derivación directa ⇒. El lenguaje L ( G ) = { w ∈ T * : S w } es el conjunto de todas las cadenas de símbolos terminales derivables del símbolo inicial.
Históricamente, el concepto de gramáticas indexadas fue introducido por primera vez por Alfred Aho (1968) [3] utilizando un formalismo diferente. Aho definió una gramática indexada como una tupla de 5 ( N , T , F , P , S ) donde
Las derivaciones directas fueron las siguientes:
Este formalismo lo utiliza, por ejemplo, Hayashi (1973, p. 65-66). [4]
En la práctica, las pilas de índices pueden contar y recordar qué reglas se aplicaron y en qué orden. Por ejemplo, las gramáticas indexadas pueden describir el lenguaje contextual de triples de palabras { www : w ∈ { a , b } * }:
Una derivación de abbabbabb es entonces
Como otro ejemplo, la gramática G = ⟨ { S , T , A , B , C }, { a , b , c }, { f , g }, P , S ⟩ produce el lenguaje { a n b n c n : n ≥ 1 }, donde el conjunto de producción P consta de
Un ejemplo de derivación es
Ambos lenguajes de ejemplo no están libres de contexto según el lema de bombeo .
Hopcroft y Ullman tienden a considerar los lenguajes indexados como una clase "natural", ya que son generados por varios formalismos distintos de las gramáticas indexadas, a saber. [5]
Hayashi [4] generalizó el lema de bombeo a gramáticas indexadas. Por el contrario, Gilman [10] [11] ofrece un "lema reductor" para lenguajes indexados.
Gerald Gazdar ha definido una segunda clase, las gramáticas indexadas lineales ( LIG ), [14] al requerir que como máximo un no terminal en cada producción se especifique como receptor de la pila, [nota 2] mientras que en una gramática indexada ordinaria, todos los no terminales reciben copias de la pila. Formalmente, una gramática indexada lineal se define de manera similar a una gramática indexada ordinaria, pero los requisitos de forma de la producción se modifican para:
donde A , B , f , σ , α se usan como arriba, y β ∈ ( N ∪ T ) * es una cadena de símbolos terminales y no terminales como α . [nota 3] Además, la relación de derivación directa ⇒ se define de manera similar a la anterior. Esta nueva clase de gramáticas define una clase de lenguajes estrictamente más pequeña, [15] que pertenece a las clases ligeramente sensibles al contexto .
El lenguaje { www : w ∈ { a , b } * } es generable mediante una gramática indexada, pero no mediante una gramática indexada lineal, mientras que tanto { ww : w ∈ { a , b } * } como { a n b n c n : n ≥ 1 } son generables mediante una gramática indexada lineal.
Si se admiten tanto las reglas de producción originales como las modificadas, la clase de idioma seguirá siendo el idioma indexado. [dieciséis]
Si σ denota una secuencia arbitraria de símbolos de pila, podemos definir una gramática para el lenguaje L = { a n b n c n | norte ≥ 1 } [nota 4] como
Para derivar la cadena abc tenemos los pasos:
Similarmente:
Los lenguajes indexados linealmente son un subconjunto de los lenguajes indexados y, por lo tanto, todos los LIG pueden recodificarse como IG, lo que hace que los LIG sean estrictamente menos poderosos que los IG. Una conversión de LIG a IG es relativamente sencilla. [17] Las reglas LIG en general se parecen aproximadamente a , módulo, la parte push/pop de una regla de reescritura. Los símbolos y representan cadenas de símbolos terminales y/o no terminales, y cualquier símbolo no terminal en cualquiera de ellos debe tener una pila vacía, según la definición de un LIG. Esto, por supuesto, va en contra de cómo se definen los IG: en un IG, los no terminales cuyas pilas no se empujan ni se extraen deben tener exactamente la misma pila que el no terminal reescrito. Por lo tanto, de alguna manera, necesitamos tener no terminales que , a pesar de tener pilas no vacías, se comporten como si las tuvieran.
Consideremos la regla como un caso de ejemplo. Al convertir esto en un IG, el reemplazo debe ser uno que se comporte exactamente igual, independientemente de lo que sea. Para lograr esto, simplemente podemos tener un par de reglas que tomen cualquier lugar que no esté vacío y extraigan símbolos de la pila. Luego, cuando la pila esté vacía, se puede reescribir como .
Podemos aplicar esto en general para derivar un IG a partir de un LIG. Entonces, por ejemplo, si el LIG para el idioma es el siguiente:
La regla de oración aquí no es una regla de IG, pero usando el algoritmo de conversión anterior, podemos definir nuevas reglas para , cambiando la gramática a:
Cada regla ahora se ajusta a la definición de un IG, en el que todos los no terminales en el lado derecho de una regla de reescritura reciben una copia de la pila del símbolo reescrito. Por tanto, las gramáticas indexadas pueden describir todos los lenguajes que las gramáticas indexadas linealmente pueden describir.
Vijay-Shanker y Weir (1994) [18] demuestran que las gramáticas indexadas lineales, las gramáticas categoriales combinatorias , las gramáticas contiguas a árboles y las gramáticas principales definen la misma clase de lenguajes de cadenas. Su definición formal de gramáticas indexadas lineales [19] difiere de la anterior. [ se necesita aclaración ]
Los LIG (y sus equivalentes débiles ) son estrictamente menos expresivos (lo que significa que generan un subconjunto adecuado) que los lenguajes generados por otra familia de formalismo débilmente equivalente, que incluye: LCFRS , MCTAG, MCFG y gramáticas minimalistas (MG). Esta última familia (también) se puede analizar en tiempo polinomial . [20]
Otra forma de gramáticas indexadas, introducida por Staudacher (1993), [12] es la clase de gramáticas de índice distribuido (DIG). Lo que distingue a los DIG de las gramáticas indexadas de Aho es la propagación de índices. A diferencia de los IG de Aho, que distribuyen toda la pila de símbolos a todos los no terminales durante una operación de reescritura, los DIG dividen la pila en subpilas y distribuyen las subpilas a los no terminales seleccionados.
El esquema de regla general para una regla de distribución binaria de DIG es la forma
Donde α, β y γ son cadenas terminales arbitrarias. Para una cadena de distribución ternaria:
Y así sucesivamente para un mayor número de no terminales en el lado derecho de la regla de reescritura. En general, si hay m no terminales en el lado derecho de una regla de reescritura, la pila se divide de m maneras y se distribuye entre los nuevos no terminales. Observe que hay un caso especial en el que una partición está vacía, lo que efectivamente convierte a la regla en una regla LIG. Los lenguajes de índice distribuido son, por lo tanto, un superconjunto de los lenguajes de índice lineal.
{{cite journal}}
: CS1 maint: numeric names: authors list (link)