stringtranslate.com

Aprendizaje multimodal

El aprendizaje multimodal , en el contexto del aprendizaje automático , es un tipo de aprendizaje profundo que utiliza múltiples modalidades de datos, como texto, audio o imágenes.

Por el contrario, los modelos unimodales pueden procesar solo un tipo de datos, como texto (normalmente representado como vectores de características ) o imágenes. El aprendizaje multimodal es diferente de combinar modelos unimodales entrenados de forma independiente. Combina información de diferentes modalidades para realizar mejores predicciones. [1]

Los grandes modelos multimodales, como Google Gemini y GPT-4o , se han vuelto cada vez más populares desde 2023, lo que permite una mayor versatilidad y una comprensión más amplia de los fenómenos del mundo real. [2]

Motivación

Los datos suelen venir en diferentes modalidades que contienen información diferente. Por ejemplo, es muy común poner un título a una imagen para transmitir información que no se presenta en la imagen misma. De manera similar, a veces es más sencillo utilizar una imagen para describir información que puede no ser obvia en el texto. Como resultado, si aparecen palabras diferentes en imágenes similares, es probable que estas palabras describan lo mismo. Por el contrario, si se utiliza una palabra para describir imágenes aparentemente diferentes, entonces estas imágenes pueden representar el mismo objeto. Por lo tanto, en los casos que tratan con datos multimodales, es importante utilizar un modelo que sea capaz de representar conjuntamente la información de manera que el modelo pueda capturar la información combinada de diferentes modalidades.

Transformadores multimodales

Los transformadores también se pueden usar/adaptar para modalidades (entrada o salida) más allá del simple texto, generalmente encontrando una manera de "tokenizar" la modalidad.

Los transformadores de visión [3] adaptan el transformador a la visión por computadora descomponiendo las imágenes de entrada como una serie de parches, convirtiéndolas en vectores y tratándolas como tokens en un transformador estándar.

Conformer [4] y posteriormente Whisper [5] siguen el mismo patrón para el reconocimiento de voz , primero convirtiendo la señal de voz en un espectrograma , que luego se trata como una imagen, es decir, se divide en una serie de parches, se convierte en vectores y se trata como fichas en un transformador estándar.

Perceptores de Andrew Jaegle et al. (2021) [6] [7] pueden aprender de grandes cantidades de datos heterogéneos.

Con respecto a la salida de imágenes , Peebles et al introdujeron un transformador de difusión (DiT) que facilita el uso de la arquitectura del transformador para la producción de imágenes basada en difusión . [8] Además, Google lanzó un generador de imágenes centrado en transformadores llamado "Muse" basado en decodificación paralela y tecnología de transformadores generativos enmascarados. [9] (Los transformadores desempeñaron un papel menos central con las tecnologías de producción de imágenes anteriores, [10] aunque sigue siendo importante. [11] )

Modelos de lenguajes grandes multimodales.

Multimodalidad significa "tener varias modalidades", y una "modalidad" se refiere a un tipo de entrada o salida, como video, imagen, audio, texto, propiocepción , etc. [12] Ha habido muchos modelos de IA entrenados específicamente para ingerir una modalidad y generar otra modalidad, como AlexNet para imagen para etiquetar, [13] respuesta visual a preguntas para imagen-texto a texto, [14] y reconocimiento de voz para voz a texto.

Un método común para crear modelos multimodales a partir de un LLM es "tokenizar" la salida de un codificador entrenado. Concretamente, se puede construir un LLM que pueda comprender imágenes de la siguiente manera: tomar un LLM capacitado y tomar un codificador de imágenes capacitado . Haga un pequeño perceptrón de varias capas , de modo que para cualquier imagen , el vector posprocesado tenga las mismas dimensiones que un token codificado. Eso es un "token de imagen". Luego, se pueden intercalar tokens de texto y tokens de imágenes. Luego, el modelo compuesto se ajusta en un conjunto de datos de imagen y texto. Esta construcción básica se puede aplicar con más sofisticación para mejorar el modelo. El codificador de imágenes puede congelarse para mejorar la estabilidad. [15]

Flamingo demostró la efectividad del método de tokenización, ajustando un par de modelo de lenguaje previamente entrenado y codificador de imágenes para funcionar mejor en la respuesta visual a preguntas que los modelos entrenados desde cero. [16] El modelo PaLM de Google se ajustó a un modelo multimodal PaLM-E utilizando el método de tokenización y se aplicó al control robótico. [17] Los modelos LLaMA también se han vuelto multimodales utilizando el método de tokenización, para permitir entradas de imágenes, [18] y entradas de video. [19]

GPT-4 puede utilizar texto e imagen como entradas [20] (aunque el componente de visión no se lanzó al público hasta GPT-4V [21] ); Gemini de Google DeepMind también es multimodal. [22]

Máquinas Boltzmann profundas multimodales

Una máquina de Boltzmann es un tipo de red neuronal estocástica inventada por Geoffrey Hinton y Terry Sejnowski en 1985. Las máquinas de Boltzmann pueden verse como la contraparte estocástica y generativa de las redes de Hopfield . Llevan el nombre de la distribución de Boltzmann en mecánica estadística. Las unidades de las máquinas Boltzmann se dividen en dos grupos: unidades visibles y unidades ocultas. Cada unidad es como una neurona con una salida binaria que representa si está activada o no. [23] Las máquinas Boltzmann generales permiten la conexión entre cualquier unidad. Sin embargo, el aprendizaje no es práctico utilizando máquinas Boltzmann generales porque el tiempo de cálculo es exponencial al tamaño de la máquina [ cita necesaria ] . Una arquitectura más eficiente se llama máquina de Boltzmann restringida donde solo se permite la conexión entre la unidad oculta y la unidad visible, que se describe en la siguiente sección.

Las máquinas Boltzmann profundas multimodales pueden procesar y aprender de diferentes tipos de información, como imágenes y texto, simultáneamente. Esto se puede hacer, en particular, teniendo una máquina Boltzmann profunda separada para cada modalidad, por ejemplo una para imágenes y otra para texto, unidas en una capa superior oculta adicional. [24]

Solicitud

Las máquinas Boltzmann profundas multimodales se utilizan con éxito en la clasificación y recuperación de datos faltantes. La precisión de clasificación de la máquina multimodal de Boltzmann profunda supera a las máquinas de vectores de soporte , la asignación latente de Dirichlet y la red de creencias profundas , cuando los modelos se prueban en datos con modalidades de imagen y texto o con modalidad única. [ cita necesaria ] Las máquinas Boltzmann profundas multimodales también pueden predecir las modalidades faltantes dadas las observadas con una precisión razonablemente buena. [ cita necesaria ] El aprendizaje autosupervisado aporta un modelo más interesante y poderoso para la multimodalidad. OpenAI desarrolló modelos CLIP y DALL-E que revolucionaron la multimodalidad.

El aprendizaje profundo multimodal se utiliza para la detección del cáncer ; al menos un sistema en desarrollo integra tipos de datos tan diferentes. [25] [26]

Ver también

Referencias

  1. ^ Rosidi, Nate (27 de marzo de 2023). "Explicación de los modelos multimodales". KDnuggets . Consultado el 1 de junio de 2024 .
  2. ^ Zia, Tehseen (8 de enero de 2024). "Revelación de grandes modelos multimodales: dando forma al panorama de los modelos lingüísticos en 2024". Unidos.ai . Consultado el 1 de junio de 2024 .
  3. ^ Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alejandro; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matías; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 de junio de 2021). "Una imagen vale 16 x 16 palabras: transformadores para el reconocimiento de imágenes a escala". arXiv : 2010.11929 [cs.CV].
  4. ^ Gulati, Anmol; Qin, James; Chiu, Chung-Cheng; Parmar, Niki; Zhang, Yu; Yu, Jiahui; Han, Wei; Wang, Shibo; Zhang, Zhengdong; Wu, Yonghui; Pang, Ruoming (2020). "Conformador: transformador de convolución aumentada para reconocimiento de voz". arXiv : 2005.08100 [eess.AS].
  5. ^ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). "Reconocimiento de voz robusto mediante supervisión débil a gran escala". arXiv : 2212.04356 [eess.AS].
  6. ^ Jaegle, Andrés; Gimeno, Félix; Brock, Andrés; Zisserman, Andrés; Vinyals, Oriol; Carreira, Joao (22/06/2021). "Perceptor: percepción general con atención iterativa". arXiv : 2103.03206 [cs.CV].
  7. ^ Jaegle, Andrés; Borgeaud, Sebastián; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalín; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrés; Shelhamer, Evan; Hénaff, Olivier (2 de agosto de 2021). "Perceiver IO: una arquitectura general para entradas y salidas estructuradas". arXiv : 2107.14795 [cs.LG].
  8. ^ Peebles, William; Xie, Saining (2 de marzo de 2023). "Modelos de difusión escalables con transformadores". arXiv : 2212.09748 [cs.CV].
  9. ^ "Google AI presenta Muse, un nuevo modelo transformador de texto a imagen". InfoQ .
  10. ^ "Uso de modelos de difusión para crear avatares NeRF superiores". 5 de enero de 2023.
  11. ^ Islam, Arham (14 de noviembre de 2022). "¿Cómo funcionan DALL·E 2, difusión estable y mitad del viaje?".
  12. ^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, rico (18 de junio de 2014). "Modelos de lenguaje neuronal multimodal". Actas de la 31ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 595–603.
  13. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "Clasificación de ImageNet con redes neuronales convolucionales profundas". Avances en los sistemas de procesamiento de información neuronal . 25 . Curran asociados, Inc.
  14. ^ Antol, Estanislao; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margarita; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: respuesta visual a preguntas". ICVC : 2425–2433.
  15. ^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hola, Steven (1 de enero de 2023). "BLIP-2: entrenamiento previo de imágenes y lenguaje de arranque con codificadores de imágenes congeladas y modelos de lenguaje grandes". arXiv : 2301.12597 [cs.CV].
  16. ^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Paulina; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arturo; Millican, Katherine; Reynolds, Malcolm; Anillo, romano; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (6 de diciembre de 2022). "Flamingo: un modelo de lenguaje visual para el aprendizaje en pocas ocasiones". Avances en los sistemas de procesamiento de información neuronal . 35 : 23716–23736. arXiv : 2204.14198 .
  17. ^ Seco, Danny; Xia, Fei; Sajjadi, Mehdi SM; Lynch, Corey; Chowdhery, Aakanksha; Ichter, Brian; Wahid, Ayzaan; Thompson, Jonathan; Vuong, Quan; Yu, Tianhe; Huang, Wenlong; Chebotar, Yevgen; Sermanet, Pierre; Duckworth, Daniel; Levine, Sergey (1 de marzo de 2023). "PaLM-E: un modelo de lenguaje multimodal incorporado". arXiv : 2303.03378 [cs.LG].
  18. ^ Liu, haotiano; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (1 de abril de 2023). "Ajuste de instrucciones visuales". arXiv : 2304.08485 [cs.CV].
  19. ^ Zhang, colgar; Li, Xin; Bing, Lidong (1 de junio de 2023). "Video-LLaMA: un modelo de lenguaje audiovisual adaptado a instrucciones para la comprensión de vídeos". arXiv : 2306.02858 [cs.CL].
  20. ^ OpenAI (27 de marzo de 2023). "Informe técnico GPT-4". arXiv : 2303.08774 [cs.CL].
  21. ^ OpenAI (25 de septiembre de 2023). "Tarjeta del sistema GPT-4V (ision)" (PDF) .
  22. ^ Pichai, Sundar (10 de mayo de 2023), Google Keynote (Google I/O '23), marca de tiempo 15:31 , consultado el 2 de julio de 2023
  23. ^ Dey, Víctor (3 de septiembre de 2021). "Guía para principiantes de la máquina Boltzmann". Revista Analytics India . Consultado el 2 de marzo de 2024 .
  24. ^ "Aprendizaje multimodal con máquina Deep Boltzmann" (PDF) . 2014. Archivado (PDF) desde el original el 21 de junio de 2015 . Consultado el 14 de junio de 2015 .
  25. ^ Quach, Katyanna. "Los científicos de Harvard construyen un sistema de inteligencia artificial multimodal para predecir el cáncer". El registro . Archivado desde el original el 20 de septiembre de 2022 . Consultado el 16 de septiembre de 2022 .
  26. ^ Chen, Richard J.; Lu, Ming Y.; Williamson, Drew FK; Chen, Tiffany Y.; Lipkova, Jana; Noor, Zahra; Shaban, Mahoma; Sombrío, Maha; Williams, melena; Joo, Bumjin; Mahmood, Faisal (8 de agosto de 2022). "Análisis histología-genómico integrativo pan-cáncer mediante aprendizaje profundo multimodal". Célula cancerosa . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN  1535-6108. PMC 10397370 . PMID  35944502. S2CID  251456162. 
    • Comunicado de prensa del hospital universitario: "La nueva tecnología de IA integra múltiples tipos de datos para predecir los resultados del cáncer". Brigham and Women's Hospital a través de medicalxpress.com . Archivado desde el original el 20 de septiembre de 2022 . Consultado el 18 de septiembre de 2022 .