Inducción gramatical

La inducción gramatical (o inferencia gramatical ) ^[1] es el proceso en el aprendizaje automático de aprender una gramática formal (generalmente como una colección de reglas de reescritura o producciones o, alternativamente, como una máquina de estados finitos o un autómata de algún tipo) a partir de un conjunto de observaciones, construyendo así un modelo que da cuenta de las características de los objetos observados. En términos más generales, la inferencia gramatical es esa rama del aprendizaje automático donde el espacio de instancias consiste en objetos combinatorios discretos como cadenas, árboles y gráficos.

Clases de gramática

La inferencia gramatical a menudo se ha centrado en el problema del aprendizaje de máquinas de estados finitos de varios tipos (véase el artículo Inducción de lenguajes regulares para obtener detalles sobre estos enfoques), ya que existen algoritmos eficientes para este problema desde la década de 1980.

Desde principios de siglo, estos enfoques se han extendido al problema de la inferencia de gramáticas libres de contexto y formalismos más ricos, como las gramáticas libres de contexto múltiples y las gramáticas libres de contexto múltiples paralelas. Otras clases de gramáticas para las que se ha estudiado la inferencia gramatical son las gramáticas categoriales combinatorias , ^[2] las gramáticas libres de contexto estocásticas , ^[3] las gramáticas contextuales y los lenguajes de patrones.

Modelos de aprendizaje

La forma más simple de aprendizaje es aquella en la que el algoritmo de aprendizaje simplemente recibe un conjunto de ejemplos extraídos del lenguaje en cuestión: el objetivo es aprender el lenguaje a partir de ejemplos del mismo (y, raramente, a partir de contraejemplos, es decir, ejemplos que no pertenecen al lenguaje). Sin embargo, se han estudiado otros modelos de aprendizaje. Una alternativa que se estudia con frecuencia es el caso en el que el aprendiz puede hacer consultas de pertenencia como en el modelo de aprendizaje de consulta exacta o el modelo de profesor mínimamente adecuado introducido por Angluin. ^[4]

Metodologías

Existe una amplia variedad de métodos para la inferencia gramatical. Dos de las fuentes clásicas son Fu (1977) y Fu (1982). Duda, Hart y Stork (2001) también dedican una breve sección al problema y citan varias referencias. El método básico de ensayo y error que presentan se analiza a continuación. Para enfoques para inferir subclases de lenguajes regulares en particular, véase Inducción de lenguajes regulares . Un libro de texto más reciente es de la Higuera (2010), ^[1] que cubre la teoría de la inferencia gramatical de lenguajes regulares y autómatas de estados finitos. D'Ulizia, Ferri y Grifoni ^[5] proporcionan un estudio que explora los métodos de inferencia gramatical para lenguajes naturales.

Inducción de gramáticas probabilísticas

Existen varios métodos para la inducción de gramáticas probabilísticas libres de contexto . ^[6]^[7]^{[ se necesita más explicación ]}

Inferencia gramatical por ensayo y error

El método propuesto en la Sección 8.7 de Duda, Hart & Stork (2001) sugiere adivinar sucesivamente reglas gramaticales (producciones) y probarlas contra observaciones positivas y negativas. El conjunto de reglas se expande de modo que sea posible generar cada ejemplo positivo, pero si un conjunto de reglas dado también genera un ejemplo negativo, debe descartarse. Este enfoque particular puede caracterizarse como "prueba de hipótesis" y tiene cierta similitud con el algoritmo de espacio de versiones de Mitchel . El texto de Duda, Hart & Stork (2001) proporciona un ejemplo simple que ilustra bien el proceso, pero la viabilidad de un enfoque de prueba y error no guiado de este tipo para problemas más sustanciales es dudosa.

Inferencia gramatical mediante algoritmos genéticos

La inducción gramatical mediante algoritmos evolutivos es el proceso de evolución de una representación de la gramática de un idioma de destino a través de algún proceso evolutivo. Las gramáticas formales se pueden representar fácilmente como estructuras de árbol de reglas de producción que se pueden someter a operadores evolutivos. Los algoritmos de este tipo se derivan del paradigma de programación genética iniciado por John Koza . ^{[ cita requerida ]} Otros trabajos tempranos sobre lenguajes formales simples utilizaron la representación de cadenas binarias de algoritmos genéticos, pero la estructura inherentemente jerárquica de las gramáticas expresadas en el lenguaje EBNF hizo que los árboles fueran un enfoque más flexible.

Koza representó los programas Lisp como árboles. Pudo encontrar análogos a los operadores genéticos dentro del conjunto estándar de operadores de árboles. Por ejemplo, intercambiar subárboles es equivalente al proceso correspondiente de cruce genético, donde las subcadenas de un código genético se trasplantan a un individuo de la siguiente generación. La aptitud se mide puntuando el resultado de las funciones del código Lisp. Análogos similares entre la representación de Lisp estructurada en árboles y la representación de gramáticas como árboles hicieron posible la aplicación de técnicas de programación genética para la inducción gramatical.

En el caso de la inducción gramatical, el trasplante de subárboles corresponde al intercambio de reglas de producción que permiten el análisis de frases de algún idioma. El operador de aptitud para la gramática se basa en alguna medida de qué tan bien se desempeñó al analizar un grupo de oraciones del idioma de destino. En una representación de árbol de una gramática, un símbolo terminal de una regla de producción corresponde a un nodo hoja del árbol. Sus nodos padre corresponden a un símbolo no terminal (por ejemplo, una frase nominal o una frase verbal ) en el conjunto de reglas. En última instancia, el nodo raíz podría corresponder a una oración no terminal.

Inferencia gramatical mediante algoritmos voraces

Al igual que todos los algoritmos voraces , los algoritmos de inferencia de gramática voraz toman, de manera iterativa, decisiones que parecen ser las mejores en esa etapa. Las decisiones tomadas generalmente tratan sobre cuestiones como la creación de nuevas reglas, la eliminación de reglas existentes, la elección de una regla que se aplicará o la fusión de algunas reglas existentes. Debido a que existen varias formas de definir "la etapa" y "lo mejor", también existen varios algoritmos de inferencia de gramática voraz.

Estos algoritmos de generación de gramática libre de contexto toman la decisión después de cada símbolo leído:

El algoritmo Lempel-Ziv-Welch crea una gramática libre de contexto de manera determinista, de modo que es necesario almacenar únicamente la regla de inicio de la gramática generada.
Sequitur y sus modificaciones.

Estos algoritmos generadores de gramática libre de contexto primero leen toda la secuencia de símbolos dada y luego comienzan a tomar decisiones:

Codificación de pares de bytes y sus optimizaciones.

Aprendizaje distributivo

Un enfoque más reciente se basa en el aprendizaje distributivo. Los algoritmos que utilizan estos enfoques se han aplicado al aprendizaje de gramáticas independientes del contexto y de lenguajes ligeramente sensibles al contexto , y se ha demostrado que son correctos y eficientes para grandes subclases de estas gramáticas. ^[8]

Aprendizaje delenguajes de patrones

Angluin define un patrón como "una cadena de símbolos constantes de Σ y símbolos variables de un conjunto disjunto". El lenguaje de un patrón de este tipo es el conjunto de todas sus instancias básicas no vacías, es decir, todas las cadenas resultantes del reemplazo consistente de sus símbolos variables por cadenas no vacías de símbolos constantes. ^{[nota 1]} Un patrón se denomina descriptivo para un conjunto de entrada finito de cadenas si su lenguaje es mínimo (con respecto a la inclusión de conjuntos) entre todos los lenguajes de patrones que subsumen el conjunto de entrada.

Angluin ofrece un algoritmo polinomial para calcular, para un conjunto de cadenas de entrada dado, todos los patrones descriptivos en una variable x . ^{[nota 2]} Para ello, construye un autómata que representa todos los patrones posiblemente relevantes; utilizando argumentos sofisticados sobre longitudes de palabras, que se basan en que x es la única variable, el recuento de estados se puede reducir drásticamente. ^[9]

Erlebach et al. ofrecen una versión más eficiente del algoritmo de aprendizaje de patrones de Angluin, así como una versión paralelizada. ^[10]

Arimura et al. muestran que una clase de lenguaje obtenida a partir de uniones limitadas de patrones se puede aprender en tiempo polinomial. ^[11]

Teoría de patrones

La teoría de patrones , formulada por Ulf Grenander ^[12], es un formalismo matemático que describe el conocimiento del mundo en forma de patrones. Se diferencia de otros enfoques de la inteligencia artificial en que no comienza por prescribir algoritmos y maquinaria para reconocer y clasificar patrones, sino que prescribe un vocabulario para articular y reformular los conceptos de patrones en un lenguaje preciso.

Además del nuevo vocabulario algebraico, su enfoque estadístico fue novedoso en su objetivo de:

Identificar las variables ocultas de un conjunto de datos utilizando datos del mundo real en lugar de estímulos artificiales, lo cual era común en ese momento.
Formular distribuciones previas para variables ocultas y modelos para las variables observadas que forman los vértices de un gráfico tipo Gibbs.
Estudie la aleatoriedad y variabilidad de estos gráficos.
Crear las clases básicas de modelos estocásticos aplicados enumerando las deformaciones de los patrones.
Sintetizar (muestrear) los modelos, no sólo analizar señales con ellos.

Amplia en su cobertura matemática, la teoría de patrones abarca el álgebra y la estadística, así como las propiedades topológicas locales y entrópicas globales.

Aplicaciones

El principio de inducción gramatical se ha aplicado a otros aspectos del procesamiento del lenguaje natural , y se ha aplicado (entre muchos otros problemas) al análisis semántico , ^[2] la comprensión del lenguaje natural , ^[13] la traducción basada en ejemplos , ^[14] la adquisición del lenguaje , ^[15] la compresión basada en gramática , ^[16] y la detección de anomalías . ^[17]

Algoritmos de compresión

Gramática de línea recta (con el símbolo inicial ß) para la segunda oración de la Declaración de Independencia de los Estados Unidos . Cada carácter azul denota un símbolo no terminal ; se obtuvieron a partir de una compresión gzip de la oración.

Los códigos basados en gramática o la compresión basada en gramática son algoritmos de compresión basados en la idea de construir una gramática libre de contexto (CFG) para la cadena que se va a comprimir. Los ejemplos incluyen algoritmos universales de compresión de datos sin pérdida . ^[18] Para comprimir una secuencia de datos , un código basado en gramática se transforma en una gramática libre de contexto . Se sabe que el problema de encontrar la gramática más pequeña para una secuencia de entrada ( problema de la gramática más pequeña ) es NP-hard, ^[19] por lo que se proponen muchos algoritmos de transformación de gramática desde puntos de vista teóricos y prácticos. $x=x_{1}\cdots x_{n}$ $x$ $G$

Generalmente, la gramática producida se comprime aún más mediante codificadores estadísticos como la codificación aritmética .

G

Véase también

Notas

^ El lenguaje de un patrón con al menos dos ocurrencias de la misma variable no es regular debido al lema de bombeo .
^ x puede aparecer varias veces, pero no puede aparecer ninguna otra variable y

Referencias

^ ab de la Higuera, Colin (2010). Inferencia gramatical: aprendizaje de autómatas y gramáticas (PDF) . Cambridge: Cambridge University Press. Archivado desde el original (PDF) el 2019-02-14 . Consultado el 2017-08-16 .
^ ab Kwiatkowski, Tom, et al. "Generalización léxica en la inducción gramatical CCG para el análisis semántico". Actas de la conferencia sobre métodos empíricos en el procesamiento del lenguaje natural. Asociación de Lingüística Computacional , 2011.
^ Clark, Alexander. "Inducción no supervisada de gramáticas estocásticas independientes del contexto mediante agrupamiento distributivo". Actas del taller de 2001 sobre aprendizaje computacional del lenguaje natural, volumen 7. Asociación de Lingüística Computacional, 2001.
^ Dana Angluin (1987). "Aprendizaje de conjuntos regulares a partir de consultas y contraejemplos" (PDF) . Información y control . 75 (2): 87–106. CiteSeerX 10.1.1.187.9414 . doi :10.1016/0890-5401(87)90052-6. S2CID 11873053. Archivado desde el original (PDF) el 2 de diciembre de 2013.
^ D'Ulizia, A., Ferri, F., Grifoni, P. (2011) "Un estudio de los métodos de inferencia gramatical para el aprendizaje del lenguaje natural ^{[ enlace muerto ]} ", Artificial Intelligence Review , Vol. 36, No. 1, pp. 1–27.
^ Talton, Jerry, et al. "Aprendizaje de patrones de diseño con inducción de gramática bayesiana". Actas del 25.º simposio anual de la ACM sobre software y tecnología de interfaz de usuario. 2012.
^ Kim, Yoon, Chris Dyer y Alexander M. Rush. "Gramáticas probabilísticas compuestas libres de contexto para la inducción gramatical". Preimpresión de arXiv arXiv:1906.10225 (2019).
^ Clark y Eyraud (2007) Revista de investigación en aprendizaje automático ; Ryo Yoshinaka (2011) Ciencias informáticas teóricas
^ Dana Angluin (1980). "Encontrar patrones comunes a un conjunto de cadenas". Journal of Computer and System Sciences . 21 : 46–62. doi : 10.1016/0022-0000(80)90041-0 .
^ T. Erlebach; P. Rossmanith; H. Stadtherr; A. Steger ; T. Zeugmann (1997). "Aprendizaje de lenguajes de patrones de una variable de manera muy eficiente en promedio, en paralelo y mediante la formulación de consultas". En M. Li; A. Maruoka (eds.). Proc. 8º Taller internacional sobre teoría del aprendizaje algorítmico — ALT'97 . LNAI. Vol. 1316. Springer. págs. 260–276.
^ Hiroki Arimura; Takeshi Shinohara; Setsuko Otsuki (1994). "Encontrar generalizaciones mínimas para uniones de lenguajes de patrones y su aplicación a la inferencia inductiva a partir de datos positivos" (PDF) . Proc. STACS 11. LNCS. Vol. 775. Springer. págs. 649–660.^{[ enlace muerto ]}
^ Grenander, Ulf y Michael I. Miller. Teoría de patrones: de la representación a la inferencia . ^{[ vínculo muerto ]} Vol. 1. Oxford: Oxford University Press, 2007.
^ Miller, Scott, et al. "Modelos de comprensión oculta del lenguaje natural". Actas de la 32.ª reunión anual de la Asociación de Lingüística Computacional. Asociación de Lingüística Computacional, 1994.
^ Brown, Ralf D. "Inducción de reglas de transferencia para la traducción basada en ejemplos". Actas del taller MT Summit VIII sobre traducción automática basada en ejemplos. 2001.
^ Chater, Nick y Christopher D. Manning. "Modelos probabilísticos de procesamiento y adquisición del lenguaje". Tendencias en ciencias cognitivas 10.7 (2006): 335-344.
^ Cherniavsky, Neva y Richard Ladner. "Compresión de secuencias de ADN basada en gramática". Grupo de trabajo DIMACS sobre la transformada de Burrows-Wheeler 21 (2004).
^ Senin, Pavel, et al. "Descubrimiento de anomalías en series temporales con compresión basada en gramática". Edbt. 2015.
^ Kieffer, JC; Yang, E.-H. (2000), "Códigos basados en gramática: una nueva clase de códigos fuente universales sin pérdida", IEEE Trans. Inf. Theory , 46 (3): 737–754, doi :10.1109/18.841160
^ Charikar, M.; Lehman, E.; Liu, D.; Panigrahy, R.; Prabharakan, M.; Sahai, A.; Shelat, A. (2005), "El problema gramatical más pequeño", IEEE Trans. inf. Teoría , 51 (7): 2554–2576, doi :10.1109/tit.2005.850116, S2CID 6900082

Fuentes

Duda, Richard O.; Hart, Peter E.; Stork, David G. (2001), Clasificación de patrones (2.ª ed.), Nueva York : John Wiley & Sons
Fu, King Sun (1982), Reconocimiento de patrones sintácticos y aplicaciones , Englewood Cliffs, NJ : Prentice-Hall
Fu, King Sun (1977), Reconocimiento de patrones sintácticos, aplicaciones , Berlín : Springer-Verlag
Horning, James Jay (1969), Un estudio de la inferencia gramatical (edición de tesis doctoral), Stanford : Departamento de Ciencias de la Computación de la Universidad de Stanford, ProQuest 302483145
Gold, E. Mark (1967), Language Identification in the Limit, vol. 10, Information and Control , pp. 447–474, archivado desde el original el 28 de agosto de 2016 , consultado el 4 de septiembre de 2016
Gold, E. Mark (1967), Identificación del lenguaje en el límite (PDF) , vol. 10, Información y control , págs. 447–474