Inteligencia artificial multimodal

[1]​ La inteligencia artificial multimodal se inspira en la forma en que los humanos usan varios sentidos para percibir e interactuar con el mundo, y ofrece una forma más natural e intuitiva de comunicarse con la tecnología.

Por ejemplo, una IA basada en texto sólo puede entender y responder al lenguaje escrito, mientras que una IA de reconocimiento de imágenes se centra únicamente en datos visuales.

Ya en 1950, Alan Turing planteó la posibilidad de crear una máquina inteligente que pudiera comunicarse con los humanos mediante el lenguaje natural.

[9]​ Estos sistemas mostraron la capacidad de la IA para integrar y fusionar diferentes modalidades.

En el siglo XXI, la IA multimodal sigue avanzando gracias al desarrollo de los enfoques de aprendizaje automático y aprendizaje profundo, que han permitido crear modelos más potentes y precisos.

Ejemplo de mensaje que demuestra la capacidad de entrada visual de GPT-4
Una respuesta estándar de Microsoft Copilot sobre una cuestión ética largamente debatida
Tesla con el piloto automático activado, cerca del lago Tahoe