La interacción multimodal proporciona al usuario múltiples modos de interactuar con un sistema. Una interfaz multimodal proporciona varias herramientas distintas para la entrada y salida de datos.
La interacción multimodal persona-computadora implica una comunicación natural con entornos virtuales y físicos. Facilita la comunicación libre y natural entre usuarios y sistemas automatizados, permitiendo entradas (voz, escritura, gestos) y salidas ( síntesis de voz , gráficos) flexibles. La fusión multimodal combina aportaciones de diferentes modalidades, abordando ambigüedades.
Dos grupos principales de interfaces multimodales se centran en métodos de entrada alternativos y entrada/salida combinada. Múltiples modalidades de entrada mejoran la usabilidad, beneficiando a los usuarios con discapacidades. Los dispositivos móviles suelen emplear XHTML+Voice para la entrada. Los sistemas biométricos multimodales utilizan múltiples datos biométricos para superar las limitaciones. El análisis de sentimientos multimodal implica el análisis de datos de texto, audio y visuales para la clasificación de sentimientos. GPT-4 , un modelo de lenguaje multimodal , integra varias modalidades para mejorar la comprensión del lenguaje. Los sistemas de salida multimodales presentan información a través de señales visuales y auditivas, utilizando el tacto y el olfato. La fusión multimodal integra información de diferentes modalidades, empleando una fusión multinivel híbrida, basada en decisiones y basada en reconocimiento.
Las ambigüedades en la entrada multimodal se abordan mediante métodos de prevención, resolución a-posterior y resolución de aproximación.
La interacción multimodal humano-computadora se refiere a la "interacción con el entorno virtual y físico a través de modos naturales de comunicación", [1] Esto implica que la interacción multimodal permite una comunicación más libre y natural, conectando a los usuarios con sistemas automatizados tanto en entrada como en salida. [2] Específicamente, los sistemas multimodales pueden ofrecer un entorno flexible, eficiente y utilizable que permite a los usuarios interactuar a través de modalidades de entrada, como el habla , la escritura , los gestos con las manos y la mirada , y recibir información del sistema a través de modalidades de salida, como la síntesis de voz. , gráficos inteligentes y otras modalidades, oportunamente combinadas. Entonces un sistema multimodal tiene que reconocer las entradas de las diferentes modalidades combinándolas según restricciones temporales y contextuales [3] para permitir su interpretación. Este proceso se conoce como fusión multimodal, y es objeto de varios trabajos de investigación desde la década de los noventa hasta la actualidad. [4] [5] [6] [7] [8] [9] [10] [11] Las entradas con fusibles son interpretadas por el sistema. La naturalidad y la flexibilidad pueden producir más de una interpretación para cada modalidad (canal) diferente y para su uso simultáneo, y en consecuencia pueden producir ambigüedad multimodal [12] generalmente debido a imprecisiones, ruidos u otros factores similares. Para resolver ambigüedades se han propuesto varios métodos. [13] [14] [15] [16] [17] [18] Finalmente el sistema retorna a las salidas del usuario a través de los distintos canales modales (desagregados) ordenados según una retroalimentación consistente (fisión). [19] El uso generalizado de dispositivos móviles, sensores y tecnologías web puede ofrecer recursos computacionales adecuados para gestionar la complejidad que implica la interacción multimodal. "El uso de la nube para involucrar recursos computacionales compartidos en la gestión de la complejidad de la interacción multimodal representa una oportunidad. De hecho, la computación en la nube permite entregar recursos informáticos compartidos, escalables y configurables que se pueden aprovisionar y liberar de forma dinámica y automática". [20]
Se han fusionado dos grupos principales de interfaces multimodales, uno relacionado con métodos de entrada alternativos y el otro con entrada/salida combinada. El primer grupo de interfaces combinaba varios modos de entrada del usuario más allá de la entrada/salida tradicional con teclado y ratón , como voz, lápiz, tacto, gestos manuales, [21] mirada y movimientos de cabeza y cuerpo. [22] La interfaz más común combina una modalidad visual (por ejemplo, una pantalla, teclado y mouse) con una modalidad de voz ( reconocimiento de voz para entrada, síntesis de voz y audio grabado para salida). Sin embargo, se pueden utilizar otras modalidades, como la entrada basada en lápiz o la entrada/salida háptica . Las interfaces de usuario multimodales son un área de investigación en la interacción persona-computadora (HCI).
La ventaja de múltiples modalidades de entrada es una mayor usabilidad : las debilidades de una modalidad se compensan con las fortalezas de otra. En un dispositivo móvil con una pequeña interfaz visual y un teclado, una palabra puede ser bastante difícil de escribir pero muy fácil de decir (por ejemplo, Poughkeepsie ). Considere cómo accedería y buscaría en catálogos de medios digitales desde estos mismos dispositivos o decodificadores. Y en un ejemplo del mundo real, los miembros del equipo quirúrgico acceden verbalmente a la información del paciente en un entorno de quirófano para mantener un entorno antiséptico, y la presentan casi en tiempo real de forma auditiva y visual para maximizar la comprensión.
Las interfaces de usuario de entrada multimodal tienen implicaciones para la accesibilidad . [23] Una aplicación multimodal bien diseñada puede ser utilizada por personas con una amplia variedad de discapacidades. Los usuarios con discapacidad visual dependen de la modalidad de voz con alguna entrada del teclado. Los usuarios con discapacidad auditiva dependen de la modalidad visual con cierta entrada de voz. Otros usuarios estarán "discapacitados situacionalmente" (por ejemplo, usar guantes en un entorno muy ruidoso, conducir o tener que introducir un número de tarjeta de crédito en un lugar público) y simplemente utilizarán las modalidades apropiadas según lo deseen. Por otro lado, una aplicación multimodal que requiere que los usuarios puedan operar todas las modalidades está muy mal diseñada.
La forma más común de multimodalidad de entrada en el mercado utiliza el lenguaje de marcado web XHTML+Voice (también conocido como X+V), una especificación abierta desarrollada por IBM , Motorola y Opera Software . Actualmente, el W3C está considerando X+V y combina varias recomendaciones del W3C , incluido XHTML para marcado visual, VoiceXML para marcado de voz y XML Events , un estándar para integrar lenguajes XML . Los navegadores multimodales que soportan X+V incluyen IBM WebSphere Everyplace Multimodal Environment, Opera para Linux y Windows integrados y ACCESS Systems NetFront para Windows Mobile . Para desarrollar aplicaciones multimodales, los desarrolladores de software pueden utilizar un kit de desarrollo de software , como IBM WebSphere Multimodal Toolkit, basado en el marco de código abierto Eclipse , que incluye un depurador , editor y simulador X+V . [ cita necesaria ]
Los sistemas biométricos multimodales utilizan múltiples sensores o datos biométricos para superar las limitaciones de los sistemas biométricos unimodales. [24] Por ejemplo, los sistemas de reconocimiento del iris pueden verse comprometidos por el envejecimiento del iris [25] y el reconocimiento electrónico de huellas dactilares puede empeorar por huellas dactilares desgastadas o cortadas. Si bien los sistemas biométricos unimodales están limitados por la integridad de su identificador, es poco probable que varios sistemas unimodales sufran limitaciones idénticas. Los sistemas biométricos multimodales pueden obtener conjuntos de información del mismo marcador (es decir, múltiples imágenes de un iris o escaneos del mismo dedo) o información de diferentes sistemas biométricos (que requieren escaneos de huellas dactilares y, mediante reconocimiento de voz , un código de acceso hablado). [26] [27]
Los sistemas biométricos multimodales pueden fusionar estos sistemas unimodales de forma secuencial, simultánea, una combinación de los mismos, o en serie, que se refieren a modos de integración secuencial, paralelo, jerárquico y serial, respectivamente. La fusión de la información biométrica puede ocurrir en diferentes etapas de un sistema de reconocimiento. En caso de fusión a nivel de características, se fusionan los datos en sí o las características extraídas de múltiples datos biométricos. La fusión de niveles de puntuación coincidente consolida las puntuaciones generadas por múltiples clasificadores pertenecientes a diferentes modalidades. Finalmente, en caso de fusión de niveles de decisión, los resultados finales de múltiples clasificadores se combinan mediante técnicas como la votación por mayoría . Se cree que la fusión de niveles de características es más efectiva que los otros niveles de fusión porque el conjunto de características contiene información más rica sobre los datos biométricos de entrada que la puntuación coincidente o la decisión de salida de un clasificador. Por lo tanto, se espera que la fusión a nivel de características proporcione mejores resultados de reconocimiento. [24]
Los ataques de suplantación de identidad consisten en enviar rasgos biométricos falsos a los sistemas biométricos y son una amenaza importante que puede reducir su seguridad. Se cree comúnmente que los sistemas biométricos multimodales son intrínsecamente más resistentes a los ataques de suplantación de identidad, pero estudios recientes [28] han demostrado que pueden evadirse falsificando incluso un solo rasgo biométrico.El análisis de sentimiento multimodal es una tecnología para el análisis de sentimiento tradicional basado en texto , que incluye modalidades como datos de audio y visuales. [29] Puede ser bimodal, que incluye diferentes combinaciones de dos modalidades, o trimodal, que incorpora tres modalidades. [30] Con la gran cantidad de datos de redes sociales disponibles en línea en diferentes formas, como videos e imágenes, el análisis de sentimiento convencional basado en texto ha evolucionado hacia modelos más complejos de análisis de sentimiento multimodal, [31] que se pueden aplicar en el desarrollo. de asistentes virtuales , [32] análisis de reseñas de películas de YouTube, [33] análisis de videos de noticias, [34] y reconocimiento de emociones (a veces conocido como detección de emociones ) como el monitoreo de la depresión , [35] entre otros.
De manera similar al análisis de sentimientos tradicional , una de las tareas más básicas en el análisis de sentimientos multimodal es la clasificación de sentimientos , que clasifica diferentes sentimientos en categorías como positivo, negativo o neutral. [36] La complejidad de analizar características de texto, audio y visuales para realizar tal tarea requiere la aplicación de diferentes técnicas de fusión, como la fusión a nivel de características, a nivel de decisión y híbrida. [31] El rendimiento de estas técnicas de fusión y los algoritmos de clasificación aplicados están influenciados por el tipo de características textuales, de audio y visuales empleadas en el análisis. [37]Transformador generativo preentrenado 4 ( GPT-4 ) es un modelo de lenguaje grande multimodal creado por OpenAI y el cuarto de su serie de modelos básicos GPT . [38] Se lanzó el 14 de marzo de 2023, [38] y se puso a disposición del público a través del producto de chatbot de pago ChatGPT Plus , a través de la API de OpenAI y a través del chatbot gratuito Microsoft Copilot . [39] Como modelo basado en transformador , GPT-4 utiliza un paradigma en el que se utiliza un entrenamiento previo que utiliza tanto datos públicos como "datos con licencia de proveedores externos" para predecir el siguiente token . Después de este paso, el modelo se ajustó con comentarios de aprendizaje reforzado de humanos e inteligencia artificial para la alineación humana y el cumplimiento de políticas. [40] : 2
Los observadores informaron que la iteración de ChatGPT usando GPT-4 fue una mejora con respecto a la iteración anterior basada en GPT-3.5, con la salvedad de que GPT-4 conserva algunos de los problemas de revisiones anteriores. [41] GPT-4, equipado con capacidades de visión (GPT-4V), [42] es capaz de tomar imágenes como entrada en ChatGPT. [43] OpenAI se ha negado a revelar varios detalles técnicos y estadísticas sobre GPT-4, como el tamaño preciso del modelo. [44]El segundo grupo de sistemas multimodales presenta a los usuarios pantallas multimedia y resultados multimodales, principalmente en forma de señales visuales y auditivas. Los diseñadores de interfaces también han comenzado a utilizar otras modalidades, como el tacto y el olfato. Los beneficios propuestos del sistema de producción multimodal incluyen sinergia y redundancia. La información que se presenta a través de varias modalidades está fusionada y hace referencia a varios aspectos de un mismo proceso. El uso de varias modalidades para procesar exactamente la misma información proporciona un mayor ancho de banda de transferencia de información. [45] [46] [47] Actualmente, la salida multimodal se utiliza principalmente para mejorar el mapeo entre el medio de comunicación y el contenido y para respaldar la gestión de la atención en un entorno rico en datos donde los operadores enfrentan demandas considerables de atención visual. [48]
Un paso importante en el diseño de interfaces multimodales es la creación de mapeos naturales entre las modalidades y la información y las tareas. El canal auditivo se diferencia de la visión en varios aspectos. Es omnidireccional, transitorio y siempre reservado. [48] La producción del habla, una forma de información auditiva, recibió considerable atención. Se han desarrollado varias pautas para el uso del habla. Michaelis y Wiggins (1982) sugirieron que la salida del habla debería usarse para mensajes cortos simples a los que no nos referiremos más adelante. También se recomendó que el discurso se genere a tiempo y requiera una respuesta inmediata.
El sentido del tacto se utilizó por primera vez como medio de comunicación a finales de los años cincuenta. [49] No sólo es un canal de comunicación prometedor, sino también único. A diferencia de la visión y el oído, los dos sentidos tradicionales empleados en HCI, el sentido del tacto es proximal: detecta objetos que están en contacto con el cuerpo y es bidireccional en el sentido de que apoya tanto la percepción como la acción sobre el entorno.
Ejemplos de retroalimentación auditiva incluyen íconos auditivos en sistemas operativos de computadoras que indican las acciones de los usuarios (por ejemplo, eliminar un archivo, abrir una carpeta, error), salida de voz para presentar guías de navegación en vehículos y salida de voz para advertir a los pilotos en las cabinas de los aviones modernos. Ejemplos de señales táctiles incluyen vibraciones de la palanca de las señales de giro para advertir a los conductores de un automóvil en su punto ciego, la vibración del asiento del automóvil como advertencia a los conductores y el agitador de palanca en los aviones modernos que alerta a los pilotos sobre una pérdida inminente. [48]
Los espacios de interfaz invisibles estuvieron disponibles mediante tecnología de sensores. Hoy en día se utilizan habitualmente infrarrojos, ultrasonidos y cámaras. [50] La transparencia de la interfaz con el contenido se mejora al proporcionar un vínculo inmediato y directo a través de un mapeo significativo, por lo que el usuario tiene retroalimentación directa e inmediata a la entrada y la respuesta del contenido se convierte en una posibilidad de interfaz (Gibson 1979).
El proceso de integrar información de varias modalidades de entrada y combinarlas en un comando completo se denomina fusión multimodal. [5] En la literatura, se han propuesto tres enfoques principales para el proceso de fusión, según los principales niveles arquitectónicos (reconocimiento y decisión) en los que se puede realizar la fusión de las señales de entrada: basado en reconocimiento, [9] [10] [51] basada en decisiones, [7] [8] [11] [52] [53] [54] [55] y fusión multinivel híbrida. [4] [6] [56] [57] [58] [59] [60] [61]
La fusión basada en reconocimiento (también conocida como fusión temprana) consiste en fusionar los resultados de cada reconocedor modal mediante el uso de mecanismos de integración, como por ejemplo técnicas de integración estadística, teoría de agentes, modelos ocultos de Markov, redes neuronales artificiales, etc. Algunas de las estrategias de fusión basadas en reconocimiento son el marco de acción, [51] los vectores de entrada [9] y las ranuras. [10]
La fusión basada en decisiones (también conocida como fusión tardía) fusiona la información semántica que se extrae mediante procedimientos de fusión específicos basados en diálogos para producir la interpretación completa. Ejemplos de estrategias de fusión basadas en decisiones son estructuras de características tipificadas, [52] [57] crisoles, [54] [55] marcos semánticos, [7] [11] y celosías con marca de tiempo. [8]
Las aplicaciones potenciales de la fusión multimodal incluyen entornos de aprendizaje, relaciones con el consumidor, seguridad/vigilancia, animación por computadora, etc. Individualmente, los modos se definen fácilmente, pero surge la dificultad de que la tecnología los considere una fusión combinada. [62] Es difícil para los algoritmos tener en cuenta la dimensionalidad; existen variables fuera de las capacidades de cálculo actuales. Por ejemplo, significado semántico: dos oraciones podrían tener el mismo significado léxico pero diferente información emocional. [62]
En la fusión híbrida multinivel, la integración de modalidades de entrada se distribuye entre los niveles de reconocimiento y decisión. La fusión híbrida multinivel incluye las siguientes tres metodologías: transductores de estados finitos, [57] gramáticas multimodales [6] [56] [58] [59] [60] [61] [63] y movimientos de diálogo. [64]
Las acciones o comandos del usuario producen entradas multimodales (mensaje multimodal [3] ), que deben ser interpretadas por el sistema. El mensaje multimodal es el medio que permite la comunicación entre usuarios y sistemas multimodales. Se obtiene fusionando información que se transmite a través de varias modalidades considerando los diferentes tipos de cooperación entre varias modalidades, [65] las relaciones temporales [66] entre las modalidades involucradas y las relaciones entre fragmentos de información conectados con estas modalidades. [67]
El mapeo natural entre la entrada multimodal, que es proporcionada por varias modalidades de interacción (canal visual y auditivo y sentido del tacto), y la información y las tareas implica gestionar los problemas típicos de la comunicación entre humanos, como la ambigüedad. Una ambigüedad surge cuando es posible más de una interpretación de la entrada. Una ambigüedad multimodal [12] surge tanto si un elemento proporcionado por una modalidad tiene más de una interpretación (es decir, las ambigüedades se propagan a nivel multimodal) como si los elementos relacionados con cada modalidad se interpretan unívocamente. , pero la información referida a diferentes modalidades es incoherente a nivel sintáctico o semántico (es decir, una oración multimodal que tiene diferentes significados o diferente estructura sintáctica).
En "La gestión de ambigüedades", [14] los métodos para resolver ambigüedades y para proporcionar la interpretación correcta de la entrada del usuario se organizan en tres clases principales: prevención, resolución a-posterior y métodos de resolución de aproximación. [13] [15]
Los métodos de prevención imponen a los usuarios seguir un comportamiento de interacción predefinido de acuerdo con un conjunto de transiciones entre diferentes estados permitidos del proceso de interacción. Ejemplos de métodos de prevención son: método procesal, [68] reducción del poder expresivo de la gramática del lenguaje, [69] mejora del poder expresivo de la gramática del lenguaje. [70]
La resolución a-posterior de ambigüedades utiliza un enfoque de mediación. [16] Ejemplos de técnicas de mediación son: repetición, por ejemplo, repetición por modalidad, [16] granularidad de reparación [71] y deshacer, [17] y elección. [18]
Los métodos de resolución de aproximación no requieren la participación del usuario en el proceso de desambiguación. Todos ellos pueden requerir el uso de algunas teorías, como la lógica difusa , el campo aleatorio de Markov , las redes bayesianas y los modelos ocultos de Markov . [13] [15]