Predicción estructurada

La predicción estructurada o el aprendizaje estructurado (de salida) es un término general para las técnicas de aprendizaje automático supervisado que implican la predicción de objetos estructurados, en lugar de valores reales o discretos escalares . ^[1]

De manera similar a las técnicas de aprendizaje supervisado que se utilizan habitualmente, los modelos de predicción estructurados suelen entrenarse mediante datos observados en los que se utiliza el valor de predicción real para ajustar los parámetros del modelo. Debido a la complejidad del modelo y a las interrelaciones de las variables predichas, el proceso de predicción mediante un modelo entrenado y el propio entrenamiento suelen ser computacionalmente inviables y se utilizan métodos de inferencia y aprendizaje aproximados.

Aplicaciones

Por ejemplo, el problema de traducir una oración en lenguaje natural a una representación sintáctica como un árbol de análisis sintáctico puede verse como un problema de predicción estructurada ^[2] en el que el dominio de salida estructurada es el conjunto de todos los árboles de análisis sintáctico posibles. La predicción estructurada también se utiliza en una amplia variedad de dominios de aplicación, incluidos la bioinformática , el procesamiento del lenguaje natural , el reconocimiento de voz y la visión artificial .

Ejemplo: etiquetado de secuencia

El etiquetado de secuencias es una clase de problemas que prevalecen en el procesamiento del lenguaje natural , donde los datos de entrada suelen ser secuencias (por ejemplo, oraciones de texto). El problema del etiquetado de secuencias aparece en varias formas, por ejemplo, el etiquetado de partes del discurso y el reconocimiento de entidades con nombre . En el etiquetado POS, por ejemplo, cada palabra de una secuencia debe recibir una "etiqueta" (etiqueta de clase) que exprese su "tipo" de palabra:

El principal desafío de este problema es resolver la ambigüedad : la palabra "sentence" también puede ser un verbo en inglés, y también "tagged".

Si bien este problema se puede resolver simplemente realizando una clasificación de tokens individuales, ese enfoque no tiene en cuenta el hecho empírico de que las etiquetas no ocurren de forma independiente; en cambio, cada etiqueta muestra una fuerte dependencia condicional de la etiqueta de la palabra anterior. Este hecho se puede explotar en un modelo de secuencia como un modelo Markov oculto o un campo aleatorio condicional ^[2] que predice la secuencia de etiquetas completa para una oración, en lugar de solo etiquetas individuales, por medio del algoritmo de Viterbi .

Técnicas

Los modelos gráficos probabilísticos forman una gran clase de modelos de predicción estructurados. En particular, las redes bayesianas y los campos aleatorios son populares. Otros algoritmos y modelos para la predicción estructurada incluyen la programación lógica inductiva , el razonamiento basado en casos , las SVM estructuradas , las redes lógicas de Markov , la lógica blanda probabilística y los modelos condicionales restringidos . Técnicas principales:

Perceptrón estructurado

Una de las formas más sencillas de entender los algoritmos de predicción estructurada general es el perceptrón estructurado de Collins . ^[3] Este algoritmo combina el algoritmo del perceptrón para aprender clasificadores lineales con un algoritmo de inferencia (clásicamente el algoritmo de Viterbi cuando se utiliza en datos de secuencia) y se puede describir de forma abstracta de la siguiente manera. Primero defina una "función de característica conjunta" Φ( x , y ) que mapee una muestra de entrenamiento x y una predicción candidata y a un vector de longitud n ( x e y pueden tener cualquier estructura; n depende del problema, pero debe ser fijo para cada modelo). Sea GEN una función que genera predicciones candidatas. Entonces:

Sea un vector de peso de longitud n

w

Para un número predeterminado de iteraciones:

Para cada muestra del conjunto de entrenamiento con salida verdadera :

x

t

Haz una predicción

{\hat {y}}={\operatorname {arg\,max} }\,\{{y}\in {GEN}({x})\}\,({w}^{T}\,\phi ({x},{y}))

Actualización , de a :, es la tasa de aprendizaje

w

{\hat {y}}

t

{w}={w}+{c}(-\phi ({x},{\hat {y}})+\phi ({x},{t}))

c

En la práctica, para encontrar el argmax se utilizará un algoritmo como Viterbi o un algoritmo como max-sum , en lugar de una búsqueda exhaustiva a través de un conjunto exponencialmente grande de candidatos. ${GEN}({x})$

La idea del aprendizaje es similar al perceptrón multiclase .

Referencias

^ Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola y SVN Vishwanathan (2007), Predicción de datos estructurados, MIT Press.
^ ab Lafferty, J.; McCallum, A.; Pereira, F. (2001). "Campos aleatorios condicionales: modelos probabilísticos para segmentar y etiquetar datos de secuencias" (PDF) . Actas de la 18.ª Conferencia Internacional sobre Aprendizaje Automático . págs. 282–289.
^ Collins, Michael (2002). Métodos de entrenamiento discriminativo para modelos ocultos de Markov: teoría y experimentos con algoritmos de perceptrón (PDF) . Proc. EMNLP. Vol. 10.

Noah Smith, Predicción de la estructura lingüística, 2011.
Michael Collins, Métodos de entrenamiento discriminativo para modelos ocultos de Markov, 2002.

Enlaces externos

Implementación del perceptrón estructurado de Collins