Aprendizaje multimodal

El aprendizaje multimodal es un tipo de aprendizaje profundo que integra y procesa múltiples tipos de datos, denominados modalidades , como texto, audio, imágenes o video. Esta integración permite una comprensión más holística de datos complejos, lo que mejora el rendimiento del modelo en tareas como la respuesta visual a preguntas, la recuperación intermodal, ^[1] la generación de texto a imagen, ^[2] la clasificación estética ^[3] y los subtítulos de imágenes. ^[4]

Los modelos multimodales de gran tamaño, como Google Gemini y GPT-4o , se han vuelto cada vez más populares desde 2023, lo que permite una mayor versatilidad y una comprensión más amplia de los fenómenos del mundo real. ^[5]

Motivación

Los datos suelen presentarse en distintas modalidades que transmiten información diferente. Por ejemplo, es muy habitual poner un título a una imagen para transmitir información que no se presenta en la propia imagen. De manera similar, a veces es más sencillo utilizar una imagen para describir información que puede no ser obvia a partir del texto. Como resultado, si aparecen distintas palabras en imágenes similares, es probable que estas palabras describan lo mismo. Por el contrario, si se utiliza una palabra para describir imágenes aparentemente diferentes, es posible que estas imágenes representen el mismo objeto. Por lo tanto, en los casos en que se manejan datos multimodales, es importante utilizar un modelo que sea capaz de representar conjuntamente la información, de modo que el modelo pueda capturar la información combinada de distintas modalidades.

Transformadores multimodales

Los transformadores también se pueden usar/adaptar para modalidades (entrada o salida) más allá del texto, generalmente encontrando una forma de "tokenizar" la modalidad.

Los modelos multimodales se pueden entrenar desde cero o mediante un ajuste fino. Un estudio de 2022 descubrió que los Transformers preentrenados solo en lenguaje natural se pueden ajustar en solo el 0,03 % de los parámetros y volverse competitivos con los LSTM en una variedad de tareas lógicas y visuales, lo que demuestra el aprendizaje por transferencia . ^[6] El LLaVA era un modelo de visión-lenguaje compuesto por un modelo de lenguaje (Vicuna-13B) ^[7] y un modelo de visión ( ViT -L/14), conectados por una capa lineal. Solo la capa lineal está ajustada. ^[8]

Los transformadores de visión ^[9] adaptan el transformador a la visión por computadora descomponiendo las imágenes de entrada como una serie de parches, convirtiéndolos en vectores y tratándolos como tokens en un transformador estándar.

Conformer ^[10] y posteriormente Whisper ^[11] siguen el mismo patrón para el reconocimiento de voz , primero convirtiendo la señal de voz en un espectrograma , que luego se trata como una imagen, es decir, se descompone en una serie de parches, se convierte en vectores y se trata como fichas en un transformador estándar.

Los perceptores ^[12]^[13] son una variante de los transformadores diseñados para la multimodalidad.

Para la generación de imágenes, las arquitecturas notables son DALL-E 1 (2021), Parti (2022), ^[14] Phenaki (2023), ^[15] y Muse (2023). ^[16] A diferencia de los modelos posteriores, DALL-E no es un modelo de difusión. En cambio, utiliza un transformador solo decodificador que genera autorregresivamente un texto, seguido de la representación de token de una imagen, que luego es convertida por un autocodificador variacional en una imagen. ^[17] Parti es un transformador codificador-decodificador, donde el codificador procesa un mensaje de texto y el decodificador genera una representación de token de una imagen. ^[18] Muse es un transformador solo codificador que está entrenado para predecir tokens de imagen enmascarados a partir de tokens de imagen desenmascarados. Durante la generación, todos los tokens de entrada están enmascarados y las predicciones de mayor confianza se incluyen para la siguiente iteración, hasta que se predicen todos los tokens. ^[16] Phenaki es un modelo de texto a vídeo. Es un transformador enmascarado bidireccional condicionado a tokens de texto precalculados. Los tokens generados se decodifican luego en un vídeo. ^[15]

Modelos lingüísticos multimodales de gran tamaño

Multimodalidad significa "tener varias modalidades", y una "modalidad" se refiere a un tipo de entrada o salida, como video, imagen, audio, texto, propiocepción , etc. ^[19] Ha habido muchos modelos de IA entrenados específicamente para ingerir una modalidad y generar otra modalidad, como AlexNet para imagen a etiqueta, ^[20] respuesta visual a preguntas para imagen-texto a texto, ^[21] y reconocimiento de voz para voz a texto.

Un método común para crear modelos multimodales a partir de un LLM es "tokenizar" la salida de un codificador entrenado. Concretamente, se puede construir un LLM que pueda entender imágenes de la siguiente manera: tomar un LLM entrenado y tomar un codificador de imágenes entrenado . Hacer un pequeño perceptrón multicapa , de modo que para cualquier imagen , el vector posprocesado tenga las mismas dimensiones que un token codificado. Eso es un "token de imagen". Luego, se pueden intercalar tokens de texto y tokens de imagen. El modelo compuesto se ajusta entonces con precisión en un conjunto de datos de imagen-texto. Esta construcción básica se puede aplicar con más sofisticación para mejorar el modelo. El codificador de imágenes se puede congelar para mejorar la estabilidad. ^[22] $E$ $f$ $y$ $f(E(y))$

Flamingo demostró la eficacia del método de tokenización, ajustando un par de modelos de lenguaje preentrenados y codificadores de imágenes para que tuvieran un mejor desempeño en la respuesta visual a preguntas que los modelos entrenados desde cero. ^{[23] El modelo} Google PaLM se ajustó para convertirlo en un modelo multimodal PaLM-E utilizando el método de tokenización y se aplicó al control robótico. ^{[24] Los modelos} LLaMA también se han convertido en multimodales utilizando el método de tokenización para permitir entradas de imágenes, ^[25] y entradas de video. ^[26]

GPT-4 puede utilizar tanto texto como imágenes como entradas ^[27] (aunque el componente de visión no se lanzó al público hasta GPT-4V ^[28] ); Gemini de Google DeepMind también es multimodal. ^[29] Mistral presentó su propio modelo multimodelo Pixtral 12B en septiembre de 2024. ^[30]

Máquinas multimodales de Boltzmann profundo

Una máquina de Boltzmann es un tipo de red neuronal estocástica inventada por Geoffrey Hinton y Terry Sejnowski en 1985. Las máquinas de Boltzmann pueden considerarse la contraparte estocástica y generativa de las redes de Hopfield . Reciben su nombre de la distribución de Boltzmann en mecánica estadística. Las unidades de las máquinas de Boltzmann se dividen en dos grupos: unidades visibles y unidades ocultas. Cada unidad es como una neurona con una salida binaria que representa si está activada o no. ^[31] Las máquinas de Boltzmann generales permiten la conexión entre cualquier unidad. Sin embargo, el aprendizaje es poco práctico utilizando máquinas de Boltzmann generales porque el tiempo de cálculo es exponencial al tamaño de la máquina ^{[ cita requerida ]} . Una arquitectura más eficiente se llama máquina de Boltzmann restringida donde solo se permite la conexión entre la unidad oculta y la unidad visible, que se describe en la siguiente sección.

Las máquinas de Boltzmann profundas multimodales pueden procesar y aprender de distintos tipos de información, como imágenes y texto, simultáneamente. Esto se puede hacer, en particular, si se tiene una máquina de Boltzmann profunda independiente para cada modalidad, por ejemplo, una para imágenes y otra para texto, unidas en una capa oculta superior adicional. ^[32]

Aplicaciones

El aprendizaje automático multimodal tiene numerosas aplicaciones en varios dominios:

Recuperación intermodal

La recuperación intermodal permite a los usuarios buscar datos en distintas modalidades (por ejemplo, recuperar imágenes en función de descripciones de texto), lo que mejora los motores de búsqueda multimedia y los sistemas de recomendación de contenido. Los modelos como CLIP facilitan una recuperación eficiente y precisa al integrar datos en un espacio compartido, lo que demuestra un rendimiento sólido incluso en entornos de cero disparos. ^[33]

Clasificación y recuperación de datos faltantes

Las máquinas de Boltzmann profundas multimodales superan a los modelos tradicionales como las máquinas de vectores de soporte y la asignación de Dirichlet latente en tareas de clasificación y pueden predecir datos faltantes en conjuntos de datos multimodales, como imágenes y texto.

Diagnóstico sanitario

Los modelos multimodales integran imágenes médicas, datos genómicos y registros de pacientes para mejorar la precisión del diagnóstico y la detección temprana de enfermedades, especialmente en la detección del cáncer. ^[34]^[35]^[36]

Generación de contenido

Modelos como DALL·E generan imágenes a partir de descripciones textuales, lo que beneficia a las industrias creativas, mientras que la recuperación intermodal permite búsquedas multimedia dinámicas. ^[37]

Robótica y HCI

El aprendizaje multimodal mejora la interacción en robótica e IA al integrar entradas sensoriales como el habla, la visión y el tacto, lo que ayuda a los sistemas autónomos y a la interacción humano-computadora.

Reconocimiento de emociones

Al combinar datos visuales, de audio y de texto, los sistemas multimodales mejoran el análisis de sentimientos y el reconocimiento de emociones, aplicados en el servicio al cliente, las redes sociales y el marketing.

Véase también

Referencias

^ Hendriksen, Mariya; Bleeker, Maurits; Vakulenko, Svitlana; van Noord, Nanne; Kuiper, Ernst; de Rijke, Maarten (2021). "Ampliación de CLIP para la recuperación de categoría a imagen en el comercio electrónico". arXiv : 2112.11294 [cs.CV].
^ "Repositorio de difusión estable en GitHub". CompVis - Grupo de investigación en visión artificial y aprendizaje, LMU Munich. 17 de septiembre de 2022. Archivado desde el original el 18 de enero de 2023 . Consultado el 17 de septiembre de 2022 .
^ LAION-AI/aesthetic-predictor, LAION AI, 2024-09-06 , consultado el 2024-09-08
^ Mokady, Ron; Hertz, Amir; Bermano, Amit H. (2021). "ClipCap: prefijo CLIP para subtítulos de imágenes". arXiv : 2111.09734 [cs.CV].
^ Zia, Tehseen (8 de enero de 2024). "Revelación de grandes modelos multimodales: configuración del panorama de los modelos lingüísticos en 2024". Unite.ai . Consultado el 1 de junio de 2024 .
^ Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor (28 de junio de 2022). "Transformadores preentrenados congelados como motores de computación universales". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 36 (7): 7628–7636. doi : 10.1609/aaai.v36i7.20729 . ISSN 2374-3468.
^ "Vicuna: un chatbot de código abierto que impresiona a GPT-4 con una calidad de ChatGPT del 90 %* | LMSYS Org". lmsys.org . Consultado el 11 de agosto de 2024 .
^ Liu, haotiano; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (15 de diciembre de 2023). "Ajuste de instrucciones visuales". Avances en los sistemas de procesamiento de información neuronal . 36 : 34892–34916.
^ Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alejandro; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matías; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 de junio de 2021). "Una imagen vale 16 x 16 palabras: transformadores para el reconocimiento de imágenes a escala". arXiv : 2010.11929 [cs.CV].
^ Gulati, Anmol; Qin, James; Chiu, Chung-Cheng; Parmar, Niki; Zhang, Yu; Yu, Jiahui; Han, Wei; Wang, Shibo; Zhang, Zhengdong; Wu, Yonghui; Pang, Ruoming (2020). "Conformador: transformador de convolución aumentada para reconocimiento de voz". arXiv : 2005.08100 [eess.AS].
^ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). "Reconocimiento de voz robusto mediante supervisión débil a gran escala". arXiv : 2212.04356 [eess.AS].
^ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). "Perceptor: Percepción general con atención iterativa". arXiv : 2103.03206 [cs.CV].
^ Jaegle, Andrés; Borgeaud, Sebastián; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalín; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrés; Shelhamer, Evan; Hénaff, Olivier (2 de agosto de 2021). "Perceiver IO: una arquitectura general para entradas y salidas estructuradas". arXiv : 2107.14795 [cs.LG].
^ "Parti: Pathways Autoregressive Text-to-Image Model" (Modelo de texto a imagen autorregresivo de vías). sites.research.google . Consultado el 9 de agosto de 2024 .
^ ab Villegas, Rubén; Babaeizadeh, Mohammad; Kindermans, Pieter-Jan; Moraldo, Hernán; Zhang, Han; Saffar, Mohammad Taghi; Castro, Santiago; Kunze, Julio; Erhan, Dumitru (29 de septiembre de 2022). "Phenaki: generación de vídeos de duración variable a partir de descripciones textuales de dominio abierto". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab Chang, Huiwen; Zhang, Han; Barber, Jarred; Maschinot, AJ; Lezama, Jose; Jiang, Lu; Yang, Ming-Hsuan; Murphy, Kevin; Freeman, William T. (2 de enero de 2023). "Muse: Generación de texto a imagen mediante transformadores generativos enmascarados". arXiv : 2301.00704 [cs.CV].
^ Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (26 de febrero de 2021), Generación de texto a imagen con cero disparos , arXiv : 2102.12092
^ Yu, Jiahui; Xu, Yuanzhong; Koh, Jing Yu; Luong, Thang; Baid, Gunjan; Wang, Zirui; Vasudevan, Vijay; Ku, Alejandro; Yang, Yinfei (21 de junio de 2022), Escalado de modelos autorregresivos para la generación de texto a imagen rico en contenido , arXiv : 2206.10789
^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (18 de junio de 2014). "Modelos de lenguaje neuronal multimodal". Actas de la 31.ª Conferencia internacional sobre aprendizaje automático . PMLR: 595–603. Archivado desde el original el 2 de julio de 2023. Consultado el 2 de julio de 2023 .
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "Clasificación ImageNet con redes neuronales convolucionales profundas". Avances en sistemas de procesamiento de información neuronal . 25. Curran Associates, Inc. Archivado desde el original el 2023-07-02 . Consultado el 2023-07-02 .
^ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: Visual Question Answering". ICCV : 2425–2433. Archivado desde el original el 2023-07-02 . Consultado el 2023-07-02 .
^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven (1 de enero de 2023). "BLIP-2: Arranque del preentrenamiento de lenguaje-imagen con codificadores de imágenes congeladas y modelos de lenguaje grandes". arXiv : 2301.12597 [cs.CV].
^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (6 de diciembre de 2022). «Flamingo: un modelo de lenguaje visual para el aprendizaje de pocos intentos». Avances en sistemas de procesamiento de información neuronal . 35 : 23716–23736. arXiv : 2204.14198 . Archivado desde el original el 2 de julio de 2023. Consultado el 2 de julio de 2023 .
^ Seco, Danny; Xia, Fei; Sajjadi, Mehdi SM; Lynch, Corey; Chowdhery, Aakanksha; Ichter, Brian; Wahid, Ayzaan; Thompson, Jonathan; Vuong, Quan; Yu, Tianhe; Huang, Wenlong; Chebotar, Yevgen; Sermanet, Pierre; Duckworth, Daniel; Levine, Sergey (1 de marzo de 2023). "PaLM-E: un modelo de lenguaje multimodal incorporado". arXiv : 2303.03378 [cs.LG].
^ Liu, haotiano; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (1 de abril de 2023). "Ajuste de instrucciones visuales". arXiv : 2304.08485 [cs.CV].
^ Zhang, Hang; Li, Xin; Bing, Lidong (1 de junio de 2023). "Video-LLaMA: un modelo de lenguaje audiovisual adaptado a las instrucciones para la comprensión de videos". arXiv : 2306.02858 [cs.CL].
^ OpenAI (27 de marzo de 2023). "Informe técnico de GPT-4". arXiv : 2303.08774 [cs.CL].
^ OpenAI (25 de septiembre de 2023). "Tarjeta del sistema GPT-4V (ision)" (PDF) .
^ Pichai, Sundar (10 de mayo de 2023), Google Keynote (Google I/O '23), marca de tiempo 15:31 , consultado el 2 de julio de 2023
^ Wiggers, Kyle (11 de septiembre de 2024). «Mistral lanza Pixtral 12B, su primer modelo multimodal». TechCrunch . Consultado el 14 de septiembre de 2024 .
^ Dey, Victor (3 de septiembre de 2021). "Guía para principiantes de la máquina de Boltzmann". Revista Analytics India . Consultado el 2 de marzo de 2024 .
^ "Aprendizaje multimodal con la máquina de Boltzmann profunda" (PDF) . 2014. Archivado (PDF) desde el original el 21 de junio de 2015. Consultado el 14 de junio de 2015 .
^ Hendriksen, Mariya; Vakulenko, Svitlana; Kuiper, Ernst; de Rijke, Maarten (2023). "Recuperación intermodal de imagen y texto centrada en la escena versus centrada en el objeto: un estudio de reproducibilidad". arXiv : 2301.05174 [cs.CV].
^ Quach, Katyanna. "Los científicos de Harvard construyen un sistema de inteligencia artificial multimodal para predecir el cáncer". The Register . Archivado desde el original el 20 de septiembre de 2022. Consultado el 16 de septiembre de 2022 .
^ Chen, Richard J.; Lu, Ming Y.; Williamson, Drew FK; Chen, Tiffany Y.; Lipkova, Jana; Noor, Zahra; Shaban, Muhammad; Shady, Maha; Williams, Mane; Joo, Bumjin; Mahmood, Faisal (8 de agosto de 2022). "Análisis histológico-genómico integrativo de pancáncer mediante aprendizaje profundo multimodal". Cancer Cell . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN 1535-6108. PMC 10397370 . PMID 35944502. S2CID 251456162.
- Nota de prensa del hospital universitario: "La nueva tecnología de IA integra múltiples tipos de datos para predecir los resultados del cáncer". Brigham and Women's Hospital a través de medicalxpress.com . Archivado desde el original el 20 de septiembre de 2022. Consultado el 18 de septiembre de 2022 .
^ Shi, Yuge; Siddharth, N.; Paige, Brooks; Torr, Philip HS (2019). "Autocodificadores variacionales de mezcla de expertos para modelos generativos profundos multimodales". arXiv : 1911.03393 [cs.LG].
^ Shi, Yuge; Siddharth, N.; Paige, Brooks; Torr, Philip HS (2019). "Autocodificadores variacionales de mezcla de expertos para modelos generativos profundos multimodales". arXiv : 1911.03393 [cs.LG].