stringtranslate.com

Algoritmo de Yarowsky

En lingüística computacional, el algoritmo de Yarowsky es un algoritmo de aprendizaje no supervisado para la desambiguación del sentido de las palabras que utiliza las propiedades de "un sentido por colocación " y "un sentido por discurso" de los lenguajes humanos para la desambiguación del sentido de las palabras. Según la observación, las palabras tienden a exhibir un solo sentido en la mayoría de los discursos y en una colocación determinada.

Solicitud

El algoritmo comienza con un corpus grande y sin etiquetar , en el que identifica ejemplos de la palabra polisémica dada y almacena todas las oraciones relevantes como líneas. Por ejemplo, Yarowsky utiliza la palabra "planta" en su artículo de 1995 para demostrar el algoritmo. Si se supone que hay dos sentidos posibles de la palabra, el siguiente paso es identificar un pequeño número de colocaciones de semillas representativas de cada sentido, asignarle una etiqueta a cada sentido (es decir, sentido A y B), y luego asignar la etiqueta adecuada a cada sentido. todos los ejemplos de entrenamiento que contienen las colocaciones de semillas. En este caso, las palabras "vida" y "fabricación" se eligen como colocaciones iniciales de semillas para los sentidos A y B respectivamente. Los ejemplos residuales (85%-98% según Yarowsky) permanecen sin etiquetar.

Inicialmente, el algoritmo debe elegir colocaciones de semillas representativas que distingan los sentidos A y B de manera precisa y productiva. Esto se puede hacer seleccionando palabras iniciales de la entrada de un diccionario para ese sentido. Las colocaciones tienden a tener un efecto más fuerte si están adyacentes a la palabra objetivo, el efecto se debilita con la distancia. De acuerdo con los criterios dados en Yarowsky (1993), se seleccionarán las palabras semilla que aparezcan en las relaciones colocacionales más confiables con la palabra objetivo. El efecto es mucho más fuerte para palabras en una relación predicado-argumento que para asociaciones arbitrarias a la misma distancia de la palabra objetivo, y es mucho más fuerte para colocaciones con palabras de contenido que con palabras funcionales. Dicho esto, una palabra de colocación puede tener varias relaciones de colocación con la palabra objetivo a lo largo del corpus. Esto podría darle a la palabra diferentes clasificaciones o incluso diferentes clasificaciones. Alternativamente, se puede hacer identificando una única colocación definitoria para cada clase y usando como semillas solo aquellos contextos que contengan una de estas palabras definitorias. Se puede utilizar una base de datos WordNet disponible públicamente como fuente automática para dichos términos definitorios. Además, las palabras que aparecen cerca de la palabra objetivo con gran frecuencia se pueden seleccionar como colocaciones de semillas representativas. Este enfoque no es completamente automático, un juez humano debe decidir qué palabra se seleccionará para el sentido de cada palabra objetivo; los resultados serán indicadores confiables de los sentidos.

Luego se utiliza un algoritmo de lista de decisiones para identificar otras colocaciones confiables. Este algoritmo de entrenamiento calcula la probabilidad Pr (Sentido | Colocación) y la lista de decisiones se clasifica según la relación de probabilidad logarítmica:

Luego se utilizará un algoritmo de suavizado para evitar valores 0. El algoritmo de lista de decisiones resuelve muchos problemas en un gran conjunto de fuentes de evidencia no independientes utilizando solo la evidencia más confiable en lugar de todo el conjunto de colocaciones coincidentes.

El nuevo clasificador resultante se aplicará a todo el conjunto de muestras. Agregue aquellos ejemplos en el residual que estén etiquetados como A o B con una probabilidad superior a un umbral razonable a los conjuntos de semillas. El algoritmo de lista de decisiones y el paso de suma anterior se aplican de forma iterativa . A medida que se agreguen más colocaciones recién aprendidas a los conjuntos de semillas, el conjunto de sentido A o B crecerá y el residuo original se reducirá. Sin embargo, estas colocaciones permanecen en los conjuntos de semillas solo si su probabilidad de clasificación permanece por encima del umbral; de lo contrario, se devuelven al residuo para una clasificación posterior. Al final de cada iteración, la propiedad "un sentido por discurso" se puede utilizar para ayudar a evitar colocaciones inicialmente mal etiquetadas y, por lo tanto, mejorar la pureza de los conjuntos de semillas.

Para evitar que las colocaciones fuertes se conviertan en indicadores de la clase equivocada, el umbral de inclusión de clase debe modificarse aleatoriamente. Con el mismo propósito, después de la convergencia intermedia, el algoritmo también necesitará aumentar el ancho de la ventana de contexto.

El algoritmo continuará iterando hasta que no se encuentren colocaciones más confiables. La propiedad 'Un sentido por discurso' se puede utilizar aquí para corregir errores. Para una palabra objetivo que tiene una partición de sentido binaria, si las apariciones del sentido mayoritario A exceden las del sentido menor B en un cierto umbral, las minoritarias se reetiquetarán como A. Según Yarowsky, para que cualquier sentido sea claramente dominante, las apariciones de la palabra objetivo no deben ser inferiores a 4.

Cuando el algoritmo converge en un conjunto residual estable, se obtiene una lista de decisión final de la palabra objetivo. Las colocaciones más confiables están en la parte superior de la nueva lista en lugar de las palabras iniciales originales. Luego, el corpus original sin etiquetar se etiqueta con etiquetas de sentido y probabilidades. La lista de decisión final ahora se puede aplicar a nuevos datos; la colocación con el rango más alto en la lista se utiliza para clasificar los nuevos datos. Por ejemplo, si la colocación de mayor rango de la palabra objetivo en el nuevo conjunto de datos es de sentido A, entonces la palabra objetivo se clasifica como sentido A.

Ver también

Referencias