stringtranslate.com

transductor de estado finito

Un transductor de estados finitos ( FST ) es una máquina de estados finitos con dos cintas de memoria , siguiendo la terminología de las máquinas de Turing : una cinta de entrada y una cinta de salida. Esto contrasta con un autómata de estados finitos ordinario , que tiene una sola cinta. Un FST es un tipo de autómata de estados finitos (FSA) que se asigna entre dos conjuntos de símbolos. [1] Una FST es más general que una FSA. Una FSA define un lenguaje formal definiendo un conjunto de cadenas aceptadas, mientras que una FST define una relación entre conjuntos de cadenas.

Un FST leerá un conjunto de cadenas en la cinta de entrada y generará un conjunto de relaciones en la cinta de salida. Se puede considerar un FST como un traductor o relacionador entre cadenas de un conjunto.

En el análisis morfológico , un ejemplo sería ingresar una cadena de letras en el FST, el FST luego generaría una cadena de morfemas .

Descripción general

Se puede decir que un autómata reconoce una cadena si consideramos el contenido de su cinta como entrada. En otras palabras, el autómata calcula una función que asigna cadenas al conjunto {0,1}. Alternativamente, podemos decir que un autómata genera cadenas, lo que significa ver su cinta como una cinta de salida. Desde este punto de vista, el autómata genera un lenguaje formal , que es un conjunto de cadenas. Las dos visiones de los autómatas son equivalentes: la función que calcula el autómata es precisamente la función indicadora del conjunto de cadenas que genera. La clase de lenguajes generados por autómatas finitos se conoce como clase de lenguajes regulares .

Las dos cintas de un transductor normalmente se consideran una cinta de entrada y una cinta de salida. Desde este punto de vista, se dice que un transductor transduce (es decir, traduce) el contenido de su cinta de entrada a su cinta de salida, aceptando una cadena en su cinta de entrada y generando otra cadena en su cinta de salida. Puede hacerlo de forma no determinista y puede producir más de una salida para cada cadena de entrada. Un transductor también puede no producir salida para una cadena de entrada determinada, en cuyo caso se dice que rechaza la entrada. En general, un transductor calcula una relación entre dos lenguajes formales.

Cada transductor de estado finito de cadena a cadena relaciona el alfabeto de entrada Σ con el alfabeto de salida Γ. Las relaciones R en Σ*×Γ* que pueden implementarse como transductores de estado finito se denominan relaciones racionales . Las relaciones racionales que son funciones parciales , es decir, que relacionan cada cadena de entrada desde Σ* con como máximo un Γ*, se denominan funciones racionales .

Los transductores de estado finito se utilizan a menudo para análisis fonológicos y morfológicos en investigaciones y aplicaciones de procesamiento del lenguaje natural . Entre los pioneros en este campo se encuentran Ronald Kaplan , Lauri Karttunen , Martin Kay y Kimmo Koskenniemi . [2] [ se necesita fuente no primaria ] Una forma común de usar transductores es en la llamada "cascada", donde los transductores para varias operaciones se combinan en un solo transductor mediante la aplicación repetida del operador de composición (definido a continuación).

Construcción formal

Formalmente, un transductor finito T es una tupla de 6 ( Q , Σ, Γ, I , F , δ ) tal que:

Podemos ver ( Q , δ ) como un gráfico dirigido etiquetado , conocido como gráfico de transición de T : el conjunto de vértices es Q , y significa que hay una arista etiquetada que va del vértice q al vértice r . También decimos que a es la etiqueta de entrada yb la etiqueta de salida de ese borde.

NOTA: Esta definición de transductor finito también se denomina transductor de letras (Roche y Schabes 1997); Son posibles definiciones alternativas, pero todas pueden convertirse en transductores siguiendo esta.

Defina la relación de transición extendida como el conjunto más pequeño tal que:

La relación de transición extendida es esencialmente el cierre transitivo reflexivo del gráfico de transición que se ha aumentado para tener en cuenta las etiquetas de los bordes. Los elementos de se conocen como caminos . Las etiquetas de borde de una ruta se obtienen concatenando en orden las etiquetas de borde de sus transiciones constituyentes.

El comportamiento del transductor T es la relación racional [ T ] definida de la siguiente manera: si y sólo si existe y tal que . Esto quiere decir que T transduce una cadena en una cadena si existe un camino desde un estado inicial a un estado final cuya etiqueta de entrada es x y cuya etiqueta de salida es y .

autómatas ponderados

Los transductores de estado finito se pueden ponderar, donde cada transición está etiquetada con un peso además de las etiquetas de entrada y salida. Un transductor de estado finito ponderado (WFST) sobre un conjunto K de pesos se puede definir de manera similar a uno no ponderado como una tupla de 8 T = ( Q , Σ, Γ, I , F , E , λ , ρ ) , donde:

Para que ciertas operaciones sobre WFST estén bien definidas, es conveniente requerir que el conjunto de pesos forme un semianillo . [3] Dos semirings típicos utilizados en la práctica son el semiring logarítmico y el semiring tropical : se puede considerar que los autómatas no deterministas tienen pesos en el semiring booleano . [4]

FST estocástico

Las FST estocásticas (también conocidas como FST probabilísticas o FST estadísticas) son presumiblemente una forma de FST ponderada. [ cita necesaria ]

Operaciones con transductores de estado finito.

Las siguientes operaciones definidas en autómatas finitos también se aplican a transductores finitos:

y no se mantiene a menos que así lo exija ( k1 ) o ( k2 ).
Esta definición utiliza la misma notación utilizada en matemáticas para la composición de relaciones . Sin embargo, la lectura convencional para la composición de relaciones es al revés: dadas dos relaciones T y S , cuando existe alguna y tal que y
Dado un transductor T , existe un autómata finito tal que acepta x si y sólo si existe una cadena y para la cual
La segunda proyección se define de manera similar.

Propiedades adicionales de los transductores de estado finito.

Aplicaciones

Los FST se utilizan en la fase de análisis léxico de los compiladores para asociar valor semántico con los tokens descubiertos. [13]

Las reglas de reescritura sensibles al contexto de la forma ab / c _ d , utilizadas en lingüística para modelar reglas fonológicas y cambios de sonido , son computacionalmente equivalentes a los transductores de estado finito, siempre que la aplicación sea no recursiva, es decir, no se permite reescribir la regla. la misma subcadena dos veces. [14]

Los FST ponderados encontraron aplicaciones en el procesamiento del lenguaje natural , incluida la traducción automática , y en el aprendizaje automático . [15] [16] Se puede encontrar una implementación para el etiquetado de partes del discurso como un componente de la biblioteca OpenGrm [17] .

Ver también

Notas

  1. ^ Jurafsky, Daniel (2009). Procesamiento del habla y el lenguaje . Pearson. ISBN 9789332518414.
  2. ^ Koskenniemi 1983
  3. ^ Berstel, Jean; Reutenauer, Christophe (2011). Series racionales no conmutativas con aplicaciones . Enciclopedia de Matemáticas y sus aplicaciones. vol. 137. Cambridge: Prensa de la Universidad de Cambridge . pag. 16.ISBN 978-0-521-19022-0. Zbl  1250.68007.
  4. ^ Lotario, M. (2005). Combinatoria aplicada a las palabras. Enciclopedia de Matemáticas y sus aplicaciones. vol. 105. Una obra colectiva de Jean Berstel, Dominique Perrin, Maxime Crochemore, Eric Laporte, Mehryar Mohri, Nadia Pisanti, Marie-France Sagot, Gesine Reinert , Sophie Schbath , Michael Waterman, Philippe Jacquet, Wojciech Szpankowski , Dominique Poulalhon, Gilles Schaeffer, Roman Kolpakov, Gregory Koucherov, Jean-Paul Allouche y Valérie Berthé . Cambridge: Prensa de la Universidad de Cambridge . pag. 211.ISBN 0-521-84802-4. Zbl  1133.68067.
  5. ^ Boigelot, Bernard; Legay, Axel; Wolper, Pierre (2003). "Transductores iterativos a gran escala". Verificación asistida por computadora . Apuntes de conferencias sobre informática. vol. 2725. Springer Berlín Heidelberg. págs. 223-235. doi :10.1007/978-3-540-45069-6_24. eISSN  1611-3349. ISBN 978-3-540-40524-5. ISSN  0302-9743.
  6. ^ Mohri 2004, págs. 3-5
  7. ^ "Determinización de Transductores".
  8. ^ Mohri 2004, págs. 5-6
  9. ^ Allauzen y Mohri 2003
  10. ^ Mohri 2004, págs. 7-9
  11. ^ Mohri 2004, págs. 9-11
  12. ^ Griffiths 1968
  13. ^ Charles N. Fischer; Ron K. Cytron; Richard J. LeBlanc, Jr. (2010). "Escaneo: teoría y práctica". Elaboración de un compilador . Addison-Wesley. ISBN 978-0-13-606705-4.
  14. ^ "Modelos regulares de sistemas de reglas fonológicas" (PDF) . Archivado desde el original (PDF) el 11 de octubre de 2010 . Consultado el 25 de agosto de 2012 .
  15. ^ Kevin Caballero; Jonathan mayo (2009). "Aplicaciones de autómatas ponderados en el procesamiento del lenguaje natural". En Manfred Droste; Werner Kuich; Heiko Vogler (eds.). Manual de autómatas ponderados . Medios de ciencia y negocios de Springer. ISBN 978-3-642-01492-5.
  16. ^ "Aprendizaje con transductores ponderados" (PDF) . Consultado el 29 de abril de 2017 .
  17. ^ OpenGrm

Referencias

enlaces externos

Otras lecturas