stringtranslate.com

El modelo de retirada de Katz

El modelo generativo de lenguaje basado en n -gramas Katz back-off estima la probabilidad condicional de una palabra dada su historia en el n -grama. Esta estimación se logra retrocediendo a través de modelos de historia progresivamente más cortos bajo ciertas condiciones. [1] Al hacerlo, se utiliza el modelo con la información más confiable sobre una historia dada para proporcionar los mejores resultados.

El modelo fue introducido en 1987 por Slava M. Katz. Antes de eso, los modelos de lenguaje de n-gramas se construían entrenando modelos individuales para diferentes órdenes de n-gramas utilizando la estimación de máxima verosimilitud y luego interpolándolos entre sí.

Método

La ecuación para el modelo de retroceso de Katz es: [2]

dónde

C ( x ) = número de veces que x aparece en el entrenamiento
w i = i- ésima palabra en el contexto dado

Básicamente, esto significa que si el n -grama se ha visto más de k veces durante el entrenamiento, la probabilidad condicional de una palabra dada su historia es proporcional a la estimación de máxima verosimilitud de ese n -grama. De lo contrario, la probabilidad condicional es igual a la probabilidad condicional de retroceso del ( n  − 1)-grama.

La parte más difícil es determinar los valores de k , dα .

es el menos importante de los parámetros. Generalmente se elige como 0. Sin embargo, las pruebas empíricas pueden encontrar mejores valores para k.

es típicamente la cantidad de descuento encontrada por la estimación de Good-Turing . En otras palabras, si Good-Turing estima como , entonces

Para calcular , es útil definir primero una cantidad β, que es la masa de probabilidad restante para el ( n  − 1)-gramo:

Luego, el peso de retroceso, α, se calcula de la siguiente manera:

La fórmula anterior solo se aplica si hay datos para el "( n  − 1)-grama". Si no, el algoritmo omite n-1 por completo y utiliza la estimación de Katz para n-2. (y así sucesivamente hasta que se encuentre un n-grama con datos)

Discusión

Este modelo generalmente funciona bien en la práctica, pero falla en algunas circunstancias. Por ejemplo, supongamos que el bigrama "a b" y el unigrama "c" son muy comunes, pero el trigrama "ab c" nunca se ve. Dado que "a b" y "c" son muy comunes, puede ser significativo (es decir, no debido al azar) que "ab c" nunca se vea. Tal vez no lo permitan las reglas de la gramática. En lugar de asignar un valor más apropiado de 0, el método retrocederá al bigrama y estimará P ( c  |  b ), que puede ser demasiado alto. [3]

Referencias

  1. ^ "Modelos de n-gramas" (PDF) . Cornell.
  2. ^ Katz, SM (1987). Estimación de probabilidades a partir de datos dispersos para el componente de modelo de lenguaje de un reconocedor de voz. IEEE Transactions on Acoustics, Speech, and Signal Processing, 35(3), 400–401.
  3. ^ Manning y Schütze, Fundamentos del procesamiento estadístico del lenguaje natural, MIT Press (1999), ISBN 978-0-262-13360-9