Aprendizaje autosupervisado

El aprendizaje autosupervisado ( SSL ) es un paradigma del aprendizaje automático en el que se entrena a un modelo en una tarea utilizando los propios datos para generar señales de supervisión, en lugar de depender de etiquetas externas proporcionadas por humanos. En el contexto de las redes neuronales, el aprendizaje autosupervisado tiene como objetivo aprovechar las estructuras o relaciones inherentes dentro de los datos de entrada para crear señales de entrenamiento significativas. Las tareas de SSL están diseñadas de modo que su resolución requiera capturar características o relaciones esenciales en los datos. Los datos de entrada normalmente se amplían o transforman de una manera que crea pares de muestras relacionadas. Una muestra sirve como entrada y la otra se utiliza para formular la señal de supervisión. Esta ampliación puede implicar la introducción de ruido, recorte, rotación u otras transformaciones. El aprendizaje autosupervisado imita más de cerca la forma en que los humanos aprenden a clasificar objetos. ^[1]

El método SSL típico se basa en una red neuronal artificial u otro modelo como una lista de decisiones . ^[2] El modelo aprende en dos pasos. Primero, la tarea se resuelve en base a una tarea de clasificación auxiliar o de pretexto usando pseudoetiquetas que ayudan a inicializar los parámetros del modelo. ^[3]^[4] Segundo, la tarea real se realiza con aprendizaje supervisado o no supervisado. ^[5]^[6]^[7] Otras tareas auxiliares involucran completar patrones a partir de patrones de entrada enmascarados (pausas silenciosas en el habla o porciones de imagen enmascaradas en negro).

El aprendizaje autosupervisado ha producido resultados prometedores en los últimos años y ha encontrado aplicaciones prácticas en el procesamiento de audio y está siendo utilizado por Facebook y otros para el reconocimiento de voz . ^[8]

Tipos

Aprendizaje autoasociativo autosupervisado

El aprendizaje autoasociativo autosupervisado es una categoría específica de aprendizaje autosupervisado en el que se entrena una red neuronal para reproducir o reconstruir sus propios datos de entrada. ^[9] En otras palabras, el modelo tiene la tarea de aprender una representación de los datos que capture sus características o estructura esenciales, lo que le permite regenerar la entrada original.

El término "autoasociativo" proviene del hecho de que el modelo esencialmente asocia los datos de entrada consigo mismo. Esto se logra a menudo utilizando autocodificadores , que son un tipo de arquitectura de red neuronal utilizada para el aprendizaje de representaciones. Los autocodificadores consisten en una red de codificadores que asigna los datos de entrada a una representación de menor dimensión (espacio latente) y una red de decodificadores que reconstruye los datos de entrada a partir de esta representación.

El proceso de entrenamiento implica presentar al modelo los datos de entrada y exigirle que reconstruya los mismos datos lo más fielmente posible. La función de pérdida utilizada durante el entrenamiento normalmente penaliza la diferencia entre la entrada original y la salida reconstruida. Al minimizar este error de reconstrucción, el autocodificador aprende una representación significativa de los datos en su espacio latente.

Aprendizaje autosupervisado contrastivo

Para una tarea de clasificación binaria, los datos de entrenamiento se pueden dividir en ejemplos positivos y negativos. Los ejemplos positivos son aquellos que coinciden con el objetivo. Por ejemplo, si estás aprendiendo a identificar pájaros, los datos de entrenamiento positivos son aquellas imágenes que contienen pájaros. Los ejemplos negativos son aquellos que no los contienen. ^[10] El aprendizaje autosupervisado contrastivo utiliza ejemplos positivos y negativos. La función de pérdida del aprendizaje contrastivo minimiza la distancia entre pares de muestras positivas mientras maximiza la distancia entre pares de muestras negativas. ^[10]

Un ejemplo temprano utiliza un par de CNN unidimensionales para procesar un par de imágenes y maximizar su concordancia. ^[11]

El preentrenamiento contrastivo de lenguaje-imagen permite el preentrenamiento conjunto de un codificador de texto y un codificador de imágenes, de modo que un par imagen-texto coincidente tenga un vector de codificación de imagen y un vector de codificación de texto que abarquen un ángulo pequeño (que tenga una gran similitud de coseno).

InfoNCE (Noise-Contrastive Estimation) ^[12] es un método para optimizar dos modelos de forma conjunta, basado en Noise Contrastive Estimation (NCE). ^[13] Dado un conjunto de muestras aleatorias que contienen una muestra positiva y muestras negativas de la distribución de 'propuesta' , minimiza la siguiente función de pérdida: $X=\left\{x_{1},\ldots x_{N}\right\}$ $N$ $p\left(x_{t+k}\mid c_{t}\right)$ $N-1$ $p\left(x_{t+k}\right)$ ${\mathcal {L}}_{\mathrm {N} }=-\mathbb {E} _{X}\left[\log {\frac {f_{k}\left(x_{t+k},c_{t}\right)}{\sum _{x_{j}\in X}f_{k}\left(x_{j},c_{t}\right)}}\right]$

Aprendizaje autosupervisado no contrastivo

El aprendizaje autosupervisado no contrastivo (NCSSL) utiliza solo ejemplos positivos. Contrariamente a la intuición, el NCSSL converge hacia un mínimo local útil en lugar de alcanzar una solución trivial, con pérdida cero. Para el ejemplo de la clasificación binaria, aprendería trivialmente a clasificar cada ejemplo como positivo. Un NCSSL eficaz requiere un predictor adicional en el lado en línea que no se retropropague en el lado objetivo. ^[10]

Comparación con otras formas de aprendizaje automático

El SSL pertenece a los métodos de aprendizaje supervisado en la medida en que el objetivo es generar una salida clasificada a partir de la entrada. Sin embargo, al mismo tiempo, no requiere el uso explícito de pares de entrada-salida etiquetados. En cambio, las correlaciones, los metadatos integrados en los datos o el conocimiento del dominio presente en la entrada se extraen de los datos de forma implícita y autónoma. Estas señales de supervisión, generadas a partir de los datos, se pueden utilizar luego para el entrenamiento. ^[1]

El SSL es similar al aprendizaje no supervisado en el sentido de que no requiere etiquetas en los datos de muestra. Sin embargo, a diferencia del aprendizaje no supervisado, el aprendizaje no se realiza utilizando estructuras de datos inherentes.

El aprendizaje semisupervisado combina el aprendizaje supervisado y no supervisado, y requiere que solo se etiquete una pequeña parte de los datos de aprendizaje . ^[4]

En el aprendizaje por transferencia, un modelo diseñado para una tarea se reutiliza en una tarea diferente. ^[14]

El entrenamiento de un autocodificador constituye intrínsecamente un proceso autosupervisado, porque el patrón de salida debe convertirse en una reconstrucción óptima del propio patrón de entrada. Sin embargo, en la jerga actual, el término "autosupervisado" se ha asociado con tareas de clasificación que se basan en una configuración de entrenamiento de tareas de pretexto. Esto implica el diseño (humano) de dichas tareas de pretexto, a diferencia del caso del entrenamiento de un autocodificador totalmente autónomo. ^[9]

En el aprendizaje de refuerzo , el aprendizaje autosupervisado a partir de una combinación de pérdidas puede crear representaciones abstractas donde solo la información más importante sobre el estado se mantiene de forma comprimida. ^[15]

Ejemplos

El aprendizaje autosupervisado es particularmente adecuado para el reconocimiento de voz. Por ejemplo, Facebook desarrolló wav2vec , un algoritmo autosupervisado, para realizar el reconocimiento de voz utilizando dos redes neuronales convolucionales profundas que se construyen una sobre la otra. ^[8]

El modelo de Representaciones de Codificador Bidireccional a partir de Transformadores (BERT) de Google se utiliza para comprender mejor el contexto de las consultas de búsqueda. ^[16]

El GPT-3 de OpenAI es un modelo de lenguaje autorregresivo que se puede utilizar en el procesamiento del lenguaje. Se puede utilizar para traducir textos o responder preguntas, entre otras cosas. ^[17]

Bootstrap Your Own Latent (BYOL) es un NCSSL que produjo excelentes resultados en ImageNet y en evaluaciones comparativas de transferencia y semisupervisadas. ^[18]

El algoritmo de Yarowsky es un ejemplo de aprendizaje autosupervisado en el procesamiento del lenguaje natural . A partir de un pequeño número de ejemplos etiquetados, aprende a predecir qué sentido de una palabra polisémica se está utilizando en un punto determinado del texto.

DirectPred es un NCSSL que establece directamente los pesos del predictor en lugar de aprenderlo a través de la actualización del gradiente . ^[10]

Self-GenomeNet es un ejemplo de aprendizaje autosupervisado en genómica. ^[19]

Referencias

^ ab Bouchard, Louis (25 de noviembre de 2020). "¿Qué es el aprendizaje autosupervisado? ¿Podrán las máquinas aprender como los humanos?". Medium . Consultado el 9 de junio de 2021 .
^ Yarowsky, David (1995). "Unsupervised Word Sense Disambiguation Rivaling Supervised Methods". Actas de la 33.ª Reunión Anual de la Asociación de Lingüística Computacional . Cambridge, MA: Asociación de Lingüística Computacional: 189–196. doi : 10.3115/981658.981684 . Consultado el 1 de noviembre de 2022 .
^ Doersch, Carl; Zisserman, Andrew (octubre de 2017). "Aprendizaje visual autosupervisado multitarea". Conferencia internacional IEEE sobre visión artificial (ICCV) de 2017. IEEE. págs. 2070–2079. arXiv : 1708.07860 . doi :10.1109/iccv.2017.226. ISBN . 978-1-5386-1032-9. Número de identificación del sujeto 473729.
^ ab Beyer, Lucas; Zhai, Xiaohua; Oliver, Avital; Kolesnikov, Alexander (octubre de 2019). "S4L: aprendizaje semisupervisado y autosupervisado". Conferencia internacional IEEE/CVF sobre visión artificial (ICCV) de 2019. IEEE. págs. 1476–1485. arXiv : 1905.03670 . doi :10.1109/iccv.2019.00156. ISBN . 978-1-7281-4803-8.S2CID167209887 .
^ Doersch, Carl; Gupta, Abhinav; Efros, Alexei A. (diciembre de 2015). "Aprendizaje de representación visual no supervisado mediante predicción de contexto". Conferencia internacional IEEE sobre visión artificial (ICCV) de 2015. IEEE. págs. 1422–1430. arXiv : 1505.05192 . doi :10.1109/iccv.2015.167. ISBN . 978-1-4673-8391-2.S2CID 9062671 .
^ Zheng, Xin; Wang, Yong; Wang, Guoyou; Liu, Jianguo (abril de 2018). "Segmentación rápida y robusta de imágenes de glóbulos blancos mediante aprendizaje autosupervisado". Micron . 107 : 55–71. doi :10.1016/j.micron.2018.01.010. ISSN 0968-4328. PMID 29425969. S2CID 3796689.
^ Gidaris, Spyros; Bursuc, Andrei; Komodakis, Nikos; Perez, Patrick Perez; Cord, Matthieu (octubre de 2019). "Impulsar el aprendizaje visual de pocos disparos con autosupervisión". Conferencia internacional sobre visión artificial (ICCV) IEEE/CVF de 2019. IEEE. págs. 8058–8067. arXiv : 1906.05186 . doi :10.1109/iccv.2019.00815. ISBN . 978-1-7281-4803-8.S2CID186206588 .
^ ab "Wav2vec: reconocimiento de voz de última generación mediante autosupervisión". ai.facebook.com . Consultado el 9 de junio de 2021 .
^ ab Kramer, Mark A. (1991). "Análisis de componentes principales no lineales utilizando redes neuronales autoasociativas" (PDF) . AIChE Journal . 37 (2): 233–243. Bibcode :1991AIChE..37..233K. doi :10.1002/aic.690370209.
^ abcd «Desmitificando una técnica clave de aprendizaje autosupervisado: aprendizaje no contrastivo». ai.facebook.com . Consultado el 5 de octubre de 2021 .
^ Becker, Suzanna; Hinton, Geoffrey E. (enero de 1992). "Red neuronal autoorganizada que descubre superficies en estereogramas de puntos aleatorios". Nature . 355 (6356): 161–163. Bibcode :1992Natur.355..161B. doi :10.1038/355161a0. ISSN 1476-4687.
^ Oord, Aaron van den; Li, Yazhe; Vinyals, Oriol (22 de enero de 2019), Aprendizaje de representación con codificación predictiva contrastiva, arXiv : 1807.03748 , consultado el 16 de octubre de 2024
^ Gutmann, Michael; Hyvärinen, Aapo (31 de marzo de 2010). "Estimación contrastiva de ruido: un nuevo principio de estimación para modelos estadísticos no normalizados". Actas de la Decimotercera Conferencia Internacional sobre Inteligencia Artificial y Estadística . Actas de talleres y conferencias del JMLR: 297–304.
^ Littwin, Etai; Wolf, Lior (junio de 2016). "La pérdida del multiverso para el aprendizaje por transferencia robusto". Conferencia IEEE de 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 3957–3966. arXiv : 1511.09033 . doi :10.1109/cvpr.2016.429. ISBN . 978-1-4673-8851-1.S2CID6517610 .
^ Francois-Lavet, Vincent; Bengio, Yoshua; Precup, Doina; Pineau, Joelle (2019). "Aprendizaje por refuerzo combinado a través de representaciones abstractas". Actas de la Conferencia AAAI sobre Inteligencia Artificial . arXiv : 1809.04506 .
^ "Open Sourcing BERT: preentrenamiento de última generación para el procesamiento del lenguaje natural". Blog de Google AI . 2 de noviembre de 2018 . Consultado el 9 de junio de 2021 .
^ Wilcox, Ethan; Qian, Peng; Futrell, Richard; Kohita, Ryosuke; Levy, Roger; Ballesteros, Miguel (2020). "La supervisión estructural mejora el aprendizaje de pocos intentos y la generalización sintáctica en modelos de lenguaje neuronal". Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) . Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional. págs. 4640–4652. arXiv : 2010.05725 . doi :10.18653/v1/2020.emnlp-main.375. S2CID 222291675.
^ Parrilla, Jean-Bastien; Strub, Florián; Altché, Florent; Tallec, Corentin; Richemond, Pierre H.; Buchatskaya, Elena; Doersch, Carl; Pires, Bernardo Ávila; Guo, Zhaohan Daniel; Azar, Mohammad Gheshlaghi; Piot, Bilal (10 de septiembre de 2020). "Pon en marcha tu propio contenido latente: un nuevo enfoque para el aprendizaje autosupervisado". arXiv : 2006.07733 [cs.LG].
^ Gündüz, Hüseyin Anil; Binder, Martin; To, Xiao-Yin; Mreches, René; Bischl, Bernd; McHardy, Alice C.; Münch, Philipp C.; Rezaei, Mina (11 de septiembre de 2023). "Un método de aprendizaje profundo autosupervisado para el entrenamiento eficiente en datos en genómica". Communications Biology . 6 (1): 928. doi : 10.1038/s42003-023-05310-2 . ISSN 2399-3642. PMC 10495322 . PMID 37696966.

Lectura adicional

Balestriero, Randall; Ibrahim, Marcos; Sobal, Vlad; Morcos, Ari; Shekhar, Shashank; Goldstein, Tom; Bordes, Florián; Bardes, Adrián; Mialon, Gregoire; Tian, Yuandong; Schwarzschild, Avi; Wilson, Andrew Gordon; Geiping, Jonás; Garrido, Quintín; Fernández, Pierre (24 de abril de 2023). "Un libro de cocina sobre el aprendizaje autosupervisado". arXiv : 2304.12210 [cs.LG].

Enlaces externos

Doersch, Carl; Zisserman, Andrew (octubre de 2017). "Aprendizaje visual autosupervisado multitarea". Conferencia internacional IEEE sobre visión artificial (ICCV) de 2017. págs. 2070–2079. arXiv : 1708.07860 . doi :10.1109/ICCV.2017.226. ISBN 978-1-5386-1032-9. Número de identificación del sujeto 473729.
Doersch, Carl; Gupta, Abhinav; Efros, Alexei A. (diciembre de 2015). "Aprendizaje de representación visual no supervisado mediante predicción del contexto". Conferencia internacional IEEE 2015 sobre visión por computadora (ICCV) . págs. 1422-1430. arXiv : 1505.05192 . doi :10.1109/ICCV.2015.167. ISBN 978-1-4673-8391-2.S2CID 9062671 .
Zheng, Xin; Wang, Yong; Wang, Guoyou; Liu, Jianguo (1 de abril de 2018). "Segmentación rápida y robusta de imágenes de glóbulos blancos mediante aprendizaje autosupervisado". Micron . 107 : 55–71. doi :10.1016/j.micron.2018.01.010. ISSN 0968-4328. PMID 29425969. S2CID 3796689.
Yarowsky, David (1995). "Unsupervised Word Sense Disambiguation Rivaling Supervised Methods". Actas de la 33.ª Reunión Anual de la Asociación de Lingüística Computacional . Cambridge, MA: Asociación de Lingüística Computacional: 189–196. doi : 10.3115/981658.981684 . Consultado el 1 de noviembre de 2022 .