El aprendizaje multimodal es un tipo de aprendizaje profundo que integra y procesa múltiples tipos de datos, denominados modalidades , como texto, audio, imágenes o video. Esta integración permite una comprensión más holística de datos complejos, lo que mejora el rendimiento del modelo en tareas como la respuesta visual a preguntas, la recuperación intermodal, [1] la generación de texto a imagen, [2] la clasificación estética [3] y los subtítulos de imágenes. [4]
Los modelos multimodales de gran tamaño, como Google Gemini y GPT-4o , se han vuelto cada vez más populares desde 2023, lo que permite una mayor versatilidad y una comprensión más amplia de los fenómenos del mundo real. [5]
Los datos suelen presentarse en distintas modalidades que transmiten información diferente. Por ejemplo, es muy habitual poner un título a una imagen para transmitir información que no se presenta en la propia imagen. De manera similar, a veces es más sencillo utilizar una imagen para describir información que puede no ser obvia a partir del texto. Como resultado, si aparecen distintas palabras en imágenes similares, es probable que estas palabras describan lo mismo. Por el contrario, si se utiliza una palabra para describir imágenes aparentemente diferentes, es posible que estas imágenes representen el mismo objeto. Por lo tanto, en los casos en que se manejan datos multimodales, es importante utilizar un modelo que sea capaz de representar conjuntamente la información, de modo que el modelo pueda capturar la información combinada de distintas modalidades.
Los transformadores también se pueden usar/adaptar para modalidades (entrada o salida) más allá del texto, generalmente encontrando una forma de "tokenizar" la modalidad.
Los modelos multimodales se pueden entrenar desde cero o mediante un ajuste fino. Un estudio de 2022 descubrió que los Transformers preentrenados solo en lenguaje natural se pueden ajustar en solo el 0,03 % de los parámetros y volverse competitivos con los LSTM en una variedad de tareas lógicas y visuales, lo que demuestra el aprendizaje por transferencia . [6] El LLaVA era un modelo de visión-lenguaje compuesto por un modelo de lenguaje (Vicuna-13B) [7] y un modelo de visión ( ViT -L/14), conectados por una capa lineal. Solo la capa lineal está ajustada. [8]
Los transformadores de visión [9] adaptan el transformador a la visión por computadora descomponiendo las imágenes de entrada como una serie de parches, convirtiéndolos en vectores y tratándolos como tokens en un transformador estándar.
Conformer [10] y posteriormente Whisper [11] siguen el mismo patrón para el reconocimiento de voz , primero convirtiendo la señal de voz en un espectrograma , que luego se trata como una imagen, es decir, se descompone en una serie de parches, se convierte en vectores y se trata como fichas en un transformador estándar.
Los perceptores [12] [13] son una variante de los transformadores diseñados para la multimodalidad.
Para la generación de imágenes, las arquitecturas notables son DALL-E 1 (2021), Parti (2022), [14] Phenaki (2023), [15] y Muse (2023). [16] A diferencia de los modelos posteriores, DALL-E no es un modelo de difusión. En cambio, utiliza un transformador solo decodificador que genera autorregresivamente un texto, seguido de la representación de token de una imagen, que luego es convertida por un autocodificador variacional en una imagen. [17] Parti es un transformador codificador-decodificador, donde el codificador procesa un mensaje de texto y el decodificador genera una representación de token de una imagen. [18] Muse es un transformador solo codificador que está entrenado para predecir tokens de imagen enmascarados a partir de tokens de imagen desenmascarados. Durante la generación, todos los tokens de entrada están enmascarados y las predicciones de mayor confianza se incluyen para la siguiente iteración, hasta que se predicen todos los tokens. [16] Phenaki es un modelo de texto a vídeo. Es un transformador enmascarado bidireccional condicionado a tokens de texto precalculados. Los tokens generados se decodifican luego en un vídeo. [15]Multimodalidad significa "tener varias modalidades", y una "modalidad" se refiere a un tipo de entrada o salida, como video, imagen, audio, texto, propiocepción , etc. [19] Ha habido muchos modelos de IA entrenados específicamente para ingerir una modalidad y generar otra modalidad, como AlexNet para imagen a etiqueta, [20] respuesta visual a preguntas para imagen-texto a texto, [21] y reconocimiento de voz para voz a texto.
Un método común para crear modelos multimodales a partir de un LLM es "tokenizar" la salida de un codificador entrenado. Concretamente, se puede construir un LLM que pueda entender imágenes de la siguiente manera: tomar un LLM entrenado y tomar un codificador de imágenes entrenado . Hacer un pequeño perceptrón multicapa , de modo que para cualquier imagen , el vector posprocesado tenga las mismas dimensiones que un token codificado. Eso es un "token de imagen". Luego, se pueden intercalar tokens de texto y tokens de imagen. El modelo compuesto se ajusta entonces con precisión en un conjunto de datos de imagen-texto. Esta construcción básica se puede aplicar con más sofisticación para mejorar el modelo. El codificador de imágenes se puede congelar para mejorar la estabilidad. [22]
Flamingo demostró la eficacia del método de tokenización, ajustando un par de modelos de lenguaje preentrenados y codificadores de imágenes para que tuvieran un mejor desempeño en la respuesta visual a preguntas que los modelos entrenados desde cero. [23] El modelo Google PaLM se ajustó para convertirlo en un modelo multimodal PaLM-E utilizando el método de tokenización y se aplicó al control robótico. [24] Los modelos LLaMA también se han convertido en multimodales utilizando el método de tokenización para permitir entradas de imágenes, [25] y entradas de video. [26]
GPT-4 puede utilizar tanto texto como imágenes como entradas [27] (aunque el componente de visión no se lanzó al público hasta GPT-4V [28] ); Gemini de Google DeepMind también es multimodal. [29] Mistral presentó su propio modelo multimodelo Pixtral 12B en septiembre de 2024. [30]Una máquina de Boltzmann es un tipo de red neuronal estocástica inventada por Geoffrey Hinton y Terry Sejnowski en 1985. Las máquinas de Boltzmann pueden considerarse la contraparte estocástica y generativa de las redes de Hopfield . Reciben su nombre de la distribución de Boltzmann en mecánica estadística. Las unidades de las máquinas de Boltzmann se dividen en dos grupos: unidades visibles y unidades ocultas. Cada unidad es como una neurona con una salida binaria que representa si está activada o no. [31] Las máquinas de Boltzmann generales permiten la conexión entre cualquier unidad. Sin embargo, el aprendizaje es poco práctico utilizando máquinas de Boltzmann generales porque el tiempo de cálculo es exponencial al tamaño de la máquina [ cita requerida ] . Una arquitectura más eficiente se llama máquina de Boltzmann restringida donde solo se permite la conexión entre la unidad oculta y la unidad visible, que se describe en la siguiente sección.
Las máquinas de Boltzmann profundas multimodales pueden procesar y aprender de distintos tipos de información, como imágenes y texto, simultáneamente. Esto se puede hacer, en particular, si se tiene una máquina de Boltzmann profunda independiente para cada modalidad, por ejemplo, una para imágenes y otra para texto, unidas en una capa oculta superior adicional. [32]
El aprendizaje automático multimodal tiene numerosas aplicaciones en varios dominios:
La recuperación intermodal permite a los usuarios buscar datos en distintas modalidades (por ejemplo, recuperar imágenes en función de descripciones de texto), lo que mejora los motores de búsqueda multimedia y los sistemas de recomendación de contenido. Los modelos como CLIP facilitan una recuperación eficiente y precisa al integrar datos en un espacio compartido, lo que demuestra un rendimiento sólido incluso en entornos de cero disparos. [33]
Las máquinas de Boltzmann profundas multimodales superan a los modelos tradicionales como las máquinas de vectores de soporte y la asignación de Dirichlet latente en tareas de clasificación y pueden predecir datos faltantes en conjuntos de datos multimodales, como imágenes y texto.
Los modelos multimodales integran imágenes médicas, datos genómicos y registros de pacientes para mejorar la precisión del diagnóstico y la detección temprana de enfermedades, especialmente en la detección del cáncer. [34] [35] [36]
Modelos como DALL·E generan imágenes a partir de descripciones textuales, lo que beneficia a las industrias creativas, mientras que la recuperación intermodal permite búsquedas multimedia dinámicas. [37]
El aprendizaje multimodal mejora la interacción en robótica e IA al integrar entradas sensoriales como el habla, la visión y el tacto, lo que ayuda a los sistemas autónomos y a la interacción humano-computadora.
Al combinar datos visuales, de audio y de texto, los sistemas multimodales mejoran el análisis de sentimientos y el reconocimiento de emociones, aplicados en el servicio al cliente, las redes sociales y el marketing.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )