El modelo de retroceso de Katz

El retroceso de Katz es un modelo de lenguaje generativo de n -gramas que estima la probabilidad condicional de una palabra dada su historia en el n -grama. Logra esta estimación retrocediendo a través de modelos históricos progresivamente más cortos bajo ciertas condiciones. ^[1] Al hacerlo, se utiliza el modelo con la información más confiable sobre un historial determinado para proporcionar mejores resultados.

El modelo fue presentado en 1987 por Slava M. Katz. Antes de eso, los modelos de lenguaje de n-gramas se construían entrenando modelos individuales para diferentes órdenes de n-gramas utilizando una estimación de máxima verosimilitud y luego interpolándolos juntos.

Método

La ecuación para el modelo de retroceso de Katz es: ^[2]

{\begin{aligned}&P_{bo}(w_{i}\mid w_{i-n+1}\cdots w_{i-1})\\[4pt]={}&{\begin{ casos}d_{w_{i-n+1}\cdots w_{i}}{\dfrac {C(w_{i-n+1}\cdots w_{i-1}w_{i})}{C( w_{i-n+1}\cdots w_{i-1})}}&{\text{if }}C(w_{i-n+1}\cdots w_{i})>k\\[10pt ]\alpha _{w_{i-n+1}\cdots w_{i-1}}P_{bo}(w_{i}\mid w_{i-n+2}\cdots w_{i-1}) &{\text{de lo contrario}}\end{cases}}\end{aligned}}

dónde

C ( x ) = número de veces que x aparece en el entrenamiento

w _i = i- ésima palabra en el contexto dado

Básicamente, esto significa que si el n -grama se ha visto más de k veces durante el entrenamiento, la probabilidad condicional de una palabra dada su historia es proporcional a la estimación de máxima verosimilitud de ese n -grama. De lo contrario, la probabilidad condicional es igual a la probabilidad condicional de retroceso del ( n − 1 ) -grama.

La parte más difícil es determinar los valores de k , d y α .

$k$ es el menos importante de los parámetros. Generalmente se elige que sea 0. Sin embargo, las pruebas empíricas pueden encontrar mejores valores para k.

$d$ suele ser la cantidad de descuento encontrada mediante la estimación de Good-Turing . En otras palabras, si Good-Turing estima como , entonces $C$ $C^{*}$ $d={\frac {C^{*}}{C}}$

Para calcular , es útil definir primero una cantidad β, que es la masa de probabilidad sobrante para el gramo ( n − 1): $\alpha$

\beta _{w_{i-n+1}\cdots w_{i-1}}=1-\sum _{\{w_{i}:C(w_{i-n+1}\cdots w_{i})>k\}}d_{w_{i-n+1}\cdots w_{i}}{\frac {C(w_{i-n+1}\cdots w_{i-1}w_ {i})}{C(w_{i-n+1}\cdots w_{i-1})}}

Entonces el peso de retroceso, α, se calcula de la siguiente manera:

\alpha _{w_{i-n+1}\cdots w_{i-1}}={\frac {\beta _ {w_{i-n+1}\cdots w_{i-1}} }{\sum _{\{w_{i}:C(w_{i-n+1}\cdots w_{i})\leq k\}}P_{bo}(w_{i}\mid w_{i -n+2}\cdots w_{i-1})}}

La fórmula anterior sólo se aplica si hay datos para el "( n − 1)-gramo". De lo contrario, el algoritmo omite n-1 por completo y utiliza la estimación de Katz para n-2. (y así sucesivamente hasta encontrar un n-grama con datos)

Discusión

Este modelo generalmente funciona bien en la práctica, pero falla en algunas circunstancias. Por ejemplo, supongamos que el bigrama "a b" y el unigrama "c" son muy comunes, pero el trigrama "ab c" nunca se ve. Dado que "a b" y "c" son muy comunes, puede ser significativo (es decir, no debido al azar) que "ab c" nunca se vea. Quizás no esté permitido por las reglas gramaticales. En lugar de asignar un valor más apropiado de 0, el método retrocederá al bigrama y estimará P ( c | b ), que puede ser demasiado alto. ^[3]

Referencias

^ "Modelos de N-gramas" (PDF) . Cornell.
^ Katz, SM (1987). Estimación de probabilidades a partir de datos escasos para el componente del modelo de lenguaje de un reconocedor de voz. Transacciones IEEE sobre acústica, habla y procesamiento de señales, 35(3), 400–401.
^ Manning y Schütze, Fundamentos del procesamiento estadístico del lenguaje natural, MIT Press (1999), ISBN 978-0-262-13360-9 .