Suavizado de Kneser-Ney

El suavizado de Kneser-Ney , también conocido como suavizado de Kneser-Essen-Ney , es un método utilizado principalmente para calcular la distribución de probabilidad de n -gramas en un documento en función de sus historiales. ^[1] Se considera ampliamente el método de suavizado más eficaz debido a su uso de descuento absoluto al restar un valor fijo de los términos de orden inferior de la probabilidad para omitir n -gramas con frecuencias más bajas. Este enfoque se ha considerado igualmente eficaz tanto para n -gramas de orden superior como inferior. El método fue propuesto en un artículo de 1994 por Reinhard Kneser, Ute Essen y Hermann Ney [de] . ^[2]

Un ejemplo común que ilustra el concepto detrás de este método es la frecuencia del bigrama " San Francisco ". Si aparece varias veces en un corpus de entrenamiento , la frecuencia del unigrama "Francisco" también será alta. Confiar solo en la frecuencia del unigrama para predecir las frecuencias de n -gramas conduce a resultados sesgados; ^[3] sin embargo, el suavizado de Kneser-Ney corrige esto al considerar la frecuencia del unigrama en relación con las posibles palabras que lo preceden.

Método

Sea el número de ocurrencias de la palabra seguida de la palabra en el corpus. $c(w,w')$ ${\estilo de visualización w}$ ${\estilo de visualización w'}$

La ecuación para las probabilidades de bigramas es la siguiente:

$p_{KN}(w_{i}|w_{i-1})={\frac {\max(c(w_{i-1},w_{i})-\delta ,0)}{\sum _{w'}c(w_{i-1},w')}}+\lambda _{w_{i-1}}p_{KN}(w_{i})$ ^[4]

Donde la probabilidad unigrama depende de la probabilidad de ver la palabra en un contexto desconocido, que se estima como el número de veces que aparece después de cualquier otra palabra dividido por el número de pares distintos de palabras consecutivas en el corpus: $estilo de visualización p_{KN}(w_{i})}$ $estilo de visualización w_{i}}$

$p_{KN}(w_{i})={\frac {|\{w':0<c(w',w_{i})\}|}{|\{(w',w' '):0<c(w',w'')\}|}}$

Tenga en cuenta que es una distribución adecuada, ya que los valores definidos de la manera anterior no son negativos y suman uno. $estilo de visualización p_{KN}}$

El parámetro es una constante que denota el valor de descuento restado del recuento de cada n-grama, generalmente entre 0 y 1. ${\estilo de visualización \delta}$

El valor de la constante de normalización se calcula para hacer que la suma de las probabilidades condicionales sobre todos sea igual a uno. Observe que (siempre que ) para cada que ocurre al menos una vez en el contexto de en el corpus descontamos la probabilidad exactamente por la misma cantidad constante , por lo que el descuento total depende linealmente de la cantidad de palabras únicas que pueden ocurrir después de . Este descuento total es un presupuesto que podemos distribuir sobre todos proporcionalmente a . Como los valores de suman uno, podemos simplemente definir que sea igual a este descuento total: ${\ Displaystyle \ lambda _ {w_ {i-1}}}$ ${\ Displaystyle p_ {KN} (w_ {i} | w_ {i-1})}$ $estilo de visualización w_{i}}$ $\delta <1$ $estilo de visualización w_{i}}$ $estilo de visualización w_{i-1}}$ ${\delta }/\left(\sum _{w'}c(w_{i-1},w')\right)$ $estilo de visualización w_{i}}$ $estilo de visualización w_{i-1}}$ ${\ Displaystyle p_ {KN} (w_ {i} | w_ {i-1})}$ $estilo de visualización p_{KN}(w_{i})}$ $estilo de visualización p_{KN}(w_{i})}$ ${\ Displaystyle \ lambda _ {w_ {i-1}}}$

$\lambda _{w_{i-1}}={\frac {\delta }{\sum _{w'}c(w_{i-1},w')}}|\{w': 0<c(w_{i-1},w')\}|$

Esta ecuación se puede extender a n-gramas. Sean las palabras anteriores : $w_{i-n+1}^{i-1}$ ${\estilo de visualización n-1}$ $estilo de visualización w_{i}}$

$p_{KN}(w_{i}|w_{i-n+1}^{i-1})={\frac {\max(c(w_{i-n+1}^{i-1},w_{i})-\delta ,0)}{\sum _{w'}c(w_{i-n+1}^{i-1},w')}}+\delta {\frac {|\{w':0<c(w_{i-n+1}^{i-1},w')\}|}{\sum _{w'}c(w_{i-n+1}^{i-1},w')}}p_{KN}(w_{i}|w_{i-n+2}^{i-1})$ ^[5]

Este modelo utiliza el concepto de interpolación de descuento absoluto que incorpora información de modelos de lenguaje de orden superior e inferior. La adición del término para n-gramas de orden inferior agrega más peso a la probabilidad general cuando el recuento de n-gramas de orden superior es cero. ^[6] De manera similar, el peso del modelo de orden inferior disminuye cuando el recuento de n-gramas es distinto de cero.

Suavizado de Kneser-Ney modificado

También existen modificaciones de este método. El artículo de Chen y Goodman de 1998 enumera y evalúa varias de estas modificaciones. La modificación de Chen y Goodman de 1998 se centra en la eficiencia computacional y la escalabilidad a sistemas multinúcleo. ^[7] Este enfoque se utilizó en una ocasión para Google Translate en una implementación de MapReduce . ^[8] KenLM es una implementación de código abierto de alto rendimiento. ^[9]

Referencias

^ 'Una interpretación bayesiana del coeficiente de Kneser-Ney interpolado Informe técnico TRA2/06 de la Facultad de Informática de la NUS'
^ Ney, Hermann; Essen, Ute; Kneser, Reinhard (enero de 1994). "Sobre la estructuración de dependencias probabilísticas en el modelado estocástico del lenguaje". Computer Speech & Language . 8 (1): 1–38. doi :10.1006/csla.1994.1001.
^ 'Universidad Brown: Introducción a la lingüística computacional'
^ 'Explicación del alisado de Kneser Ney'
^ 'Tutorial de PNL: Suavizado'
^ 'Un estudio empírico de técnicas de suavizado para el modelado del lenguaje'
^ Un estudio empírico de técnicas de suavizado para el modelado del lenguaje p 21
^ Grandes modelos de lenguaje en la traducción automática
^ "Estimación . Kenlm . Código . Kenneth Heafield".