Aprendizaje de cero disparos

El aprendizaje de disparo cero ( ZSL ) es un problema de aprendizaje profundo en el que, en el momento de la prueba, un alumno observa muestras de clases que no se observaron durante el entrenamiento y necesita predecir la clase a la que pertenecen. El nombre es un juego de palabras basado en el concepto anterior de aprendizaje de un solo disparo , en el que la clasificación se puede aprender a partir de solo uno o unos pocos ejemplos.

Los métodos de disparo cero generalmente funcionan asociando clases observadas y no observadas a través de alguna forma de información auxiliar, que codifica propiedades distintivas observables de los objetos. ^[1] Por ejemplo, dado un conjunto de imágenes de animales para clasificar, junto con descripciones textuales auxiliares de cómo se ven los animales, un modelo de inteligencia artificial que ha sido entrenado para reconocer caballos, pero nunca se le ha dado una cebra, aún puede reconocer una cebra cuando también sabe que las cebras se parecen a caballos rayados. Este problema se estudia ampliamente en visión por computadora , procesamiento del lenguaje natural y percepción de máquinas . ^[2]

Antecedentes e historia

El primer artículo sobre aprendizaje de disparo cero en el procesamiento del lenguaje natural apareció en 2008 en la AAAI'08 , pero el nombre dado al paradigma de aprendizaje allí fue clasificación sin datos . ^[3] El primer artículo sobre aprendizaje de disparo cero en visión por computadora apareció en la misma conferencia, bajo el nombre de aprendizaje de datos cero . ^[4] El término aprendizaje de disparo cero en sí apareció por primera vez en la literatura en un artículo de 2009 de Palatucci, Hinton, Pomerleau y Mitchell en NIPS'09 . ^[5] Esta terminología se repitió más tarde en otro artículo de visión por computadora ^[6] y el término aprendizaje de disparo cero se popularizó, como una versión del aprendizaje de un solo disparo que se introdujo en la visión por computadora años antes. ^[7]

En visión por computadora, los modelos de aprendizaje de disparo cero aprenden parámetros para las clases vistas junto con sus representaciones de clase y se basan en la similitud de representación entre las etiquetas de clase para que, durante la inferencia, las instancias se puedan clasificar en nuevas clases.

En el procesamiento del lenguaje natural, la dirección técnica clave desarrollada se basa en la capacidad de "entender las etiquetas" (representar las etiquetas en el mismo espacio semántico que el de los documentos que se van a clasificar). Esto permite clasificar un solo ejemplo sin observar ningún dato anotado, la forma más pura de clasificación de cero disparos. El artículo original ^[3] hizo uso de la representación del Análisis Semántico Explícito (ESA), pero artículos posteriores hicieron uso de otras representaciones, incluidas representaciones densas. Este enfoque también se extendió a dominios multilingües, ^[8]^[9] tipificación fina de entidades ^[10] y otros problemas. Además, más allá de depender únicamente de representaciones, el enfoque computacional se ha extendido para depender de la transferencia desde otras tareas, como la implicación textual ^[11] y la respuesta a preguntas. ^[12]

El artículo original ^[3] también señala que, más allá de la capacidad de clasificar un solo ejemplo, cuando se da una colección de ejemplos, con el supuesto de que provienen de la misma distribución, es posible arrancar el desempeño de una manera semi-supervisada (o aprendizaje transductivo ).

A diferencia de la generalización estándar en el aprendizaje automático, donde se espera que los clasificadores clasifiquen correctamente las nuevas muestras en las clases que ya han observado durante el entrenamiento, en ZSL no se han proporcionado muestras de las clases durante el entrenamiento del clasificador. Por lo tanto, puede verse como un caso extremo de adaptación de dominio .

Información de prerrequisitos para clases de tiro cero

Naturalmente, se debe proporcionar algún tipo de información auxiliar sobre estas clases de disparo cero, y este tipo de información puede ser de varios tipos.

Aprendizaje con atributos: las clases se acompañan de una descripción estructurada predefinida. Por ejemplo, para las descripciones de aves, esto podría incluir "cabeza roja", "pico largo". ^[6]^[13] Estos atributos suelen estar organizados de una manera compositiva estructurada, y tener en cuenta esa estructura mejora el aprendizaje. ^[14] Si bien este enfoque se utilizó principalmente en la visión artificial, también hay algunos ejemplos en el procesamiento del lenguaje natural. ^[15]
Aprendizaje a partir de descripciones textuales. Como se ha señalado anteriormente, esta ha sido la dirección clave que se ha seguido en el procesamiento del lenguaje natural. En este caso, se considera que las etiquetas de clase tienen un significado y, a menudo, se complementan con definiciones o descripciones en lenguaje natural en texto libre. Esto podría incluir, por ejemplo, una descripción de la clase en Wikipedia. ^[10]^[16]^[17]
Similitud entre clases. En este caso, las clases se encuentran incrustadas en un espacio continuo. Un clasificador de tipo zero-shot puede predecir que una muestra corresponde a alguna posición en ese espacio, y la clase incrustada más cercana se utiliza como clase predicha, incluso si no se observaron muestras de ese tipo durante el entrenamiento. ^[18]

Aprendizaje generalizado de cero disparos

La configuración ZSL anterior supone que, en el momento de la prueba, solo se proporcionan muestras de cero disparos, es decir, muestras de clases nuevas no vistas. En el aprendizaje de cero disparos generalizado, pueden aparecer muestras de clases nuevas y conocidas en el momento de la prueba. Esto plantea nuevos desafíos para los clasificadores en el momento de la prueba, porque es muy difícil estimar si una muestra dada es nueva o conocida. Algunos enfoques para manejar esto incluyen:

un módulo de control, que primero se entrena para decidir si una muestra dada proviene de una nueva clase o de una antigua y luego, en el momento de la inferencia, genera una decisión dura ^[19] o una decisión probabilística blanda ^[20].
un módulo generativo, que está entrenado para generar una representación de características de las clases no vistas; luego, se puede entrenar un clasificador estándar con muestras de todas las clases, vistas y no vistas. ^[21]

Dominios de aplicación

El aprendizaje de disparo cero se ha aplicado a los siguientes campos:

Véase también

Referencias

^ Xian, Yongqin; Lampert, Christoph H.; Schiele, Bernt; Akata, Zeynep (23 de septiembre de 2020). "Aprendizaje de cero disparos: una evaluación integral de lo bueno, lo malo y lo feo". arXiv : 1707.00600 [cs.CV].
^ Xian, Yongqin; Schiele, Bernt; Akata, Zeynep (2017). "Aprendizaje de cero disparos: lo bueno, lo malo y lo feo". Actas de la Conferencia IEEE sobre Visión artificial y reconocimiento de patrones : 4582–4591. arXiv : 1703.04394 . Código Bibliográfico :2017arXiv170304394X.
^ abc Chang, MW (2008). "Importancia de la representación semántica: clasificación sin datos". AAAI .
^ Larochelle, Hugo (2008). "Aprendizaje de nuevas tareas a partir de datos cero" (PDF) .
^ Palatucci, Mark (2009). "Aprendizaje de disparo cero con códigos de salida semántica" (PDF) . NIPS .
^ ab Lampert, CH (2009). "Aprender a detectar clases de objetos no vistos mediante transferencia de atributos entre clases". Conferencia IEEE sobre visión artificial y reconocimiento de patrones : 951–958. CiteSeerX 10.1.1.165.9750 .
^ Miller, EG (2000). "Aprendizaje a partir de un ejemplo mediante densidades compartidas en transformaciones" (PDF) . CVPR .
^ Song, Yangqiu (2019). "Hacia una clasificación de temas de documentos textuales sin interrupciones en cualquier idioma". Inteligencia artificial . 274 : 133–150. doi : 10.1016/j.artint.2019.02.002 .
^ Song, Yangqiu (2016). "Clasificación sin datos translingüísticos para muchos idiomas" (PDF) . IJCAI .
^ ab Zhou, Ben (2018). "Tipificación de entidades abiertas de tipo cero como base de compatibilidad de tipos" (PDF) . EMNLP . arXiv : 1907.03228 .
^ Yin, Wenpeng (2019). "Evaluación comparativa de la clasificación de textos de disparo cero: conjuntos de datos, evaluación y enfoque de implicación" (PDF) . EMNLP . arXiv : 1909.00161 .
^ Levy, Omer (2017). "Extracción de relaciones de disparo cero mediante comprensión lectora" (PDF) . CoNLL . arXiv : 1706.04115 .
^ Romera-Paredes, Bernardino; Torr, Phillip (2015). "Un enfoque vergonzosamente simple para el aprendizaje de cero disparos" (PDF) . Conferencia internacional sobre aprendizaje automático : 2152–2161.
^ Atzmon, Yuval; Chechik, Gal (2018). "Agrupamiento probabilístico de atributos AND-OR para aprendizaje de cero disparos" (PDF) . Incertidumbre en inteligencia artificial . arXiv : 1806.02664 . Código Bibliográfico :2018arXiv180602664A.
^ Roth, Dan (2009). "Categorización de texto guiada por aspectos con etiquetas no observadas". ICDM . CiteSeerX 10.1.1.148.9946 .
^ Hu, R Lily; Xiong, Caiming; Socher, Richard (2018). "Clasificación de imágenes de disparo cero guiada por descripciones de clases en lenguaje natural: un enfoque de metaaprendizaje" (PDF) . NeurIPS .
^ Srivastava, Shashank; Labutov, Igor; Mitchelle, Tom (2018). "Aprendizaje de clasificadores a partir de la cuantificación del lenguaje natural". Actas de la 56.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . págs. 306–316. doi : 10.18653/v1/P18-1029 .
^ Frome, Andrea; et, al (2013). "Devise: Un modelo de incrustación visual-semántica profunda" (PDF) . Avances en sistemas de procesamiento de información neuronal : 2121–2129.
^ Socher, R; Ganjoo, M; Manning, CD; Ng, A. (2013). "Aprendizaje de cero disparos mediante transferencia intermodal". Sistemas de procesamiento de información neuronal . arXiv : 1301.3666 . Código Bibliográfico :2013arXiv1301.3666S.
^ Atzmon, Yuval (2019). "Suavizado de confianza adaptativo para aprendizaje generalizado de cero disparos". Conferencia IEEE sobre visión artificial y reconocimiento de patrones : 11671–11680. arXiv : 1812.09903 . Código Bibliográfico :2018arXiv181209903A.
^ Felix, R; et, al (2018). "Aprendizaje generalizado de disparo cero consistente con ciclos multimodales". Actas de la Conferencia Europea sobre Visión por Computador : 21–37. arXiv : 1808.00136 . Código Bibliográfico :2018arXiv180800136F.
^ Wittmann, Bruce J.; Yue, Yisong; Arnold, Frances H. (4 de diciembre de 2020). "La evolución dirigida asistida por aprendizaje automático navega por un panorama de aptitud epistática combinatoria con una carga de detección mínima": 2020.12.04.408955. doi :10.1101/2020.12.04.408955. S2CID 227914824. {{cite journal}}: Requiere citar revista |journal=( ayuda )