Interacción multimodal

La interacción multimodal ofrece al usuario múltiples modos de interactuar con un sistema. Una interfaz multimodal ofrece varias herramientas distintas para la entrada y salida de datos.

La interacción multimodal entre humanos y computadoras implica una comunicación natural con entornos virtuales y físicos. Facilita la comunicación libre y natural entre usuarios y sistemas automatizados, permitiendo una entrada flexible (voz, escritura a mano, gestos) y una salida ( síntesis de voz , gráficos). La fusión multimodal combina entradas de diferentes modalidades, abordando ambigüedades.

Dos grupos principales de interfaces multimodales se centran en métodos de entrada alternativos y entrada/salida combinada. Las modalidades de entrada múltiples mejoran la usabilidad, beneficiando a los usuarios con discapacidades. Los dispositivos móviles a menudo emplean XHTML + Voz para la entrada. Los sistemas biométricos multimodales utilizan múltiples biometrías para superar las limitaciones. El análisis de sentimientos multimodal implica analizar texto, audio y datos visuales para la clasificación de sentimientos. GPT-4 , un modelo de lenguaje multimodal , integra varias modalidades para mejorar la comprensión del lenguaje. Los sistemas de salida multimodal presentan información a través de señales visuales y auditivas, utilizando el tacto y el olfato. La fusión multimodal integra información de diferentes modalidades, empleando fusión multinivel basada en reconocimiento, basada en decisiones e híbrida.

Las ambigüedades en la entrada multimodal se abordan mediante métodos de prevención, resolución a posteriori y resolución de aproximación.

Introducción

La interacción hombre-computadora multimodal se refiere a la "interacción con el entorno virtual y físico a través de modos naturales de comunicación", ^[1] Esto implica que la interacción multimodal permite una comunicación más libre y natural, interconectando a los usuarios con sistemas automatizados tanto en entrada como en salida. ^[2] Específicamente, los sistemas multimodales pueden ofrecer un entorno flexible, eficiente y utilizable que permite a los usuarios interactuar a través de modalidades de entrada, como el habla , la escritura a mano , el gesto de la mano y la mirada , y recibir información por parte del sistema a través de modalidades de salida, como la síntesis de voz, los gráficos inteligentes y otras modalidades, oportunamente combinadas. Luego, un sistema multimodal tiene que reconocer las entradas de las diferentes modalidades combinándolas de acuerdo con las restricciones temporales y contextuales ^[3] para permitir su interpretación. Este proceso se conoce como fusión multimodal, y es objeto de varios trabajos de investigación desde los años noventa hasta la actualidad. ^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11] Las entradas fusionadas son interpretadas por el sistema. La naturalidad y la flexibilidad pueden producir más de una interpretación para cada modalidad (canal) diferente y para su uso simultáneo, y en consecuencia pueden producir ambigüedad multimodal ^[12] generalmente debido a imprecisiones, ruidos u otros factores similares. Para resolver ambigüedades, se han propuesto varios métodos. ^[13]^[14]^[15]^[16]^[17]^[18] Finalmente, el sistema devuelve a los usuarios las salidas a través de los diversos canales modales (desagregados) ordenados de acuerdo con una retroalimentación consistente (fisión). ^[19] El uso generalizado de dispositivos móviles, sensores y tecnologías web puede ofrecer recursos computacionales adecuados para gestionar la complejidad implícita en la interacción multimodal. "El uso de la nube para involucrar recursos computacionales compartidos en la gestión de la complejidad de la interacción multimodal representa una oportunidad. De hecho, la computación en la nube permite entregar recursos computacionales compartidos, escalables y configurables que pueden ser aprovisionados y liberados de manera dinámica y automática". ^[20]

Entrada multimodal

Se han fusionado dos grupos principales de interfaces multimodales, uno relacionado con métodos de entrada alternativos y el otro con entrada/salida combinadas. El primer grupo de interfaces combina varios modos de entrada de usuario más allá de la entrada/salida tradicional de teclado y mouse , como voz, lápiz, tacto, gestos manuales, ^[21] mirada y movimientos de cabeza y cuerpo. ^[22] La interfaz más común de este tipo combina una modalidad visual (por ejemplo, una pantalla, teclado y mouse) con una modalidad de voz ( reconocimiento de voz para entrada, síntesis de voz y audio grabado para salida). Sin embargo, se pueden utilizar otras modalidades, como entrada basada en lápiz o entrada/salida háptica . Las interfaces de usuario multimodales son un área de investigación en la interacción hombre-computadora (HCI).

La ventaja de las modalidades de entrada múltiples es una mayor facilidad de uso : las debilidades de una modalidad se compensan con las fortalezas de otra. En un dispositivo móvil con una interfaz visual y un teclado pequeños, una palabra puede ser bastante difícil de escribir pero muy fácil de decir (por ejemplo, Poughkeepsie ). Considere cómo accedería y buscaría en catálogos de medios digitales desde estos mismos dispositivos o decodificadores. Y en un ejemplo del mundo real, los miembros del equipo quirúrgico acceden verbalmente a la información del paciente en un entorno de quirófano para mantener un entorno antiséptico, y se presenta casi en tiempo real de forma auditiva y visual para maximizar la comprensión.

Las interfaces de usuario de entrada multimodal tienen implicaciones para la accesibilidad . ^[23] Una aplicación multimodal bien diseñada puede ser utilizada por personas con una amplia variedad de discapacidades. Los usuarios con discapacidad visual dependen de la modalidad de voz con alguna entrada de teclado. Los usuarios con discapacidad auditiva dependen de la modalidad visual con alguna entrada de voz. Otros usuarios estarán "deteriorados situacionalmente" (por ejemplo, usar guantes en un entorno muy ruidoso, conducir o necesitar ingresar un número de tarjeta de crédito en un lugar público) y simplemente usarán las modalidades apropiadas según lo deseen. Por otro lado, una aplicación multimodal que requiere que los usuarios puedan operar todas las modalidades está muy mal diseñada.

La forma más común de multimodalidad de entrada en el mercado hace uso del lenguaje de marcado web XHTML+Voice (también conocido como X+V), una especificación abierta desarrollada por IBM , Motorola y Opera Software . X+V está siendo considerado actualmente por el W3C y combina varias recomendaciones del W3C , incluyendo XHTML para marcado visual, VoiceXML para marcado de voz y XML Events , un estándar para integrar lenguajes XML . Los navegadores multimodales que admiten X+V incluyen IBM WebSphere Everyplace Multimodal Environment, Opera para Embedded Linux y Windows y ACCESS Systems NetFront para Windows Mobile . Para desarrollar aplicaciones multimodales, los desarrolladores de software pueden utilizar un kit de desarrollo de software , como IBM WebSphere Multimodal Toolkit, basado en el marco de trabajo Eclipse de código abierto , que incluye un depurador , editor y simulador X+V . ^[^{cita requerida}^]

Biometría multimodal

Los sistemas biométricos multimodales utilizan múltiples sensores o biometría para superar las limitaciones de los sistemas biométricos unimodales. ^[24] Por ejemplo, los sistemas de reconocimiento de iris pueden verse comprometidos por irises envejecidos ^[25] y el reconocimiento electrónico de huellas dactilares puede verse empeorado por huellas dactilares desgastadas o cortadas. Si bien los sistemas biométricos unimodales están limitados por la integridad de su identificador, es poco probable que varios sistemas unimodales sufran limitaciones idénticas. Los sistemas biométricos multimodales pueden obtener conjuntos de información del mismo marcador (es decir, múltiples imágenes de un iris o escaneos del mismo dedo) o información de diferentes biometrías (que requieren escaneos de huellas dactilares y, mediante reconocimiento de voz , una contraseña hablada). ^[26]^[27]

Los sistemas biométricos multimodales pueden fusionar estos sistemas unimodales de forma secuencial, simultánea, una combinación de los mismos o en serie, que se refieren a los modos de integración secuencial, paralelo, jerárquico y serial, respectivamente. La fusión de la información biométrica puede ocurrir en diferentes etapas de un sistema de reconocimiento. En el caso de la fusión a nivel de características, se fusionan los datos en sí o las características extraídas de múltiples datos biométricos. La fusión a nivel de puntuación de coincidencia consolida las puntuaciones generadas por múltiples clasificadores pertenecientes a diferentes modalidades. Finalmente, en el caso de la fusión a nivel de decisión, los resultados finales de múltiples clasificadores se combinan mediante técnicas como la votación por mayoría . Se cree que la fusión a nivel de características es más eficaz que los otros niveles de fusión porque el conjunto de características contiene información más rica sobre los datos biométricos de entrada que la puntuación de coincidencia o la decisión de salida de un clasificador. Por lo tanto, se espera que la fusión a nivel de características proporcione mejores resultados de reconocimiento. ^[24]

Además, las tendencias cambiantes del mercado biométrico subrayan la importancia de la integración tecnológica, mostrando un cambio hacia la combinación de múltiples modalidades biométricas para una mayor seguridad y verificación de identidad, en línea con los avances en los sistemas biométricos multimodales. ^[28]

Los ataques de suplantación de identidad consisten en enviar datos biométricos falsos a los sistemas biométricos y son una amenaza importante que puede reducir su seguridad. Se cree comúnmente que los sistemas biométricos multimodales son intrínsecamente más resistentes a los ataques de suplantación de identidad, pero estudios recientes ^[29] han demostrado que se pueden evadir falsificando incluso un solo dato biométrico.

Un sistema de este tipo propuesto de criptosistema biométrico multimodal que involucra la cara, la huella digital y la vena de la palma por Prasanalakshmi ^[30] La integración del criptosistema combina la biometría con la criptografía , donde la vena de la palma actúa como una clave criptográfica, ofreciendo un alto nivel de seguridad ya que las venas de la palma son únicas y difíciles de falsificar. La huella digital implica la extracción de minucias (terminaciones y bifurcaciones) y técnicas de coincidencia. Los pasos incluyen mejora de la imagen, binarización, extracción de ROI y adelgazamiento de minucias. El sistema de la cara utiliza matrices de dispersión basadas en clases para calcular características para el reconocimiento, y la vena de la palma actúa como una clave criptográfica irrompible , asegurando que solo el usuario correcto pueda acceder al sistema. El concepto de biometría cancelable permite alterar ligeramente los rasgos biométricos para garantizar la privacidad y evitar el robo. Si se ve comprometida, se pueden emitir nuevas variaciones de datos biométricos.

La plantilla de huella dactilar cifrada se cifra utilizando la clave de la vena de la palma mediante operaciones XOR . Esta huella dactilar cifrada se oculta dentro de la imagen del rostro mediante técnicas esteganográficas. El registro y la verificación de los datos biométricos (huella dactilar, vena de la palma, rostro) se capturan, cifran e incorporan a una imagen del rostro. El sistema extrae los datos biométricos y los compara con los valores almacenados para la verificación. El sistema se probó con bases de datos de huellas dactilares y logró una precisión de verificación del 75 % con una tasa de error equivalente del 25 % y un tiempo de procesamiento de aproximadamente 50 segundos para el registro y 22 segundos para la verificación. Alta seguridad gracias al cifrado de la vena de la palma, eficaz contra la suplantación biométrica, y el enfoque multimodal garantiza la fiabilidad si falla un dato biométrico. Potencial de integración con tarjetas inteligentes o sistemas integrados en tarjetas, lo que mejora la seguridad en los sistemas de identificación personal .

Análisis de sentimientos multimodales

El análisis de sentimientos multimodal es una tecnología para el análisis de sentimientos basado en texto tradicional , que incluye modalidades como datos de audio y visuales. ^[31] Puede ser bimodal, que incluye diferentes combinaciones de dos modalidades, o trimodal, que incorpora tres modalidades. ^[32] Con la gran cantidad de datos de redes sociales disponibles en línea en diferentes formas, como videos e imágenes, el análisis de sentimientos basado en texto convencional ha evolucionado hacia modelos más complejos de análisis de sentimientos multimodal, ^[33] que se pueden aplicar en el desarrollo de asistentes virtuales , ^[34] análisis de reseñas de películas de YouTube, ^[35] análisis de videos de noticias, ^[36] y reconocimiento de emociones (a veces conocido como detección de emociones ) como el monitoreo de la depresión , ^[37] entre otros.

De manera similar al análisis de sentimientos tradicional , una de las tareas más básicas en el análisis de sentimientos multimodal es la clasificación de sentimientos , que clasifica diferentes sentimientos en categorías como positivo, negativo o neutral. ^[38] La complejidad de analizar características de texto, audio y visuales para realizar dicha tarea requiere la aplicación de diferentes técnicas de fusión, como la fusión a nivel de características, a nivel de decisión y la fusión híbrida. ^[33] El rendimiento de estas técnicas de fusión y los algoritmos de clasificación aplicados están influenciados por el tipo de características textuales, de audio y visuales empleadas en el análisis. ^[39]

Modelos de lenguaje multimodal

Generative Pre-trained Transformer 4 ( GPT-4 ) es un modelo de lenguaje grande multimodal creado por OpenAI , y el cuarto de su serie de modelos de base GPT . ^[40] Se lanzó el 14 de marzo de 2023, ^[40] y se puso a disposición del público a través del producto de chatbot pago ChatGPT Plus , a través de la API de OpenAI y a través del chatbot gratuito Microsoft Copilot . ^[41] Como modelo basado en transformadores , GPT-4 utiliza un paradigma en el que se utiliza un entrenamiento previo utilizando datos públicos y "datos con licencia de proveedores externos" para predecir el próximo token . Después de este paso, el modelo se afinó con retroalimentación de aprendizaje de refuerzo de humanos e IA para la alineación humana y el cumplimiento de las políticas. ^[42]^{: 2}

Los observadores informaron que la iteración de ChatGPT utilizando GPT-4 fue una mejora de la iteración anterior basada en GPT-3.5, con la salvedad de que GPT-4 conserva algunos de los problemas con las revisiones anteriores. ^[43] GPT-4, equipado con capacidades de visión (GPT-4V), ^[44] es capaz de tomar imágenes como entrada en ChatGPT. ^[45] OpenAI se ha negado a revelar varios detalles técnicos y estadísticas sobre GPT-4, como el tamaño preciso del modelo. ^[46]

Salida multimodal

El segundo grupo de sistemas multimodales presenta a los usuarios pantallas multimedia y salida multimodal, principalmente en forma de señales visuales y auditivas. Los diseñadores de interfaces también han comenzado a hacer uso de otras modalidades, como el tacto y el olfato. Los beneficios propuestos del sistema de salida multimodal incluyen sinergia y redundancia. La información que se presenta a través de varias modalidades se fusiona y se refiere a varios aspectos del mismo proceso. El uso de varias modalidades para procesar exactamente la misma información proporciona un mayor ancho de banda de transferencia de información. ^[47]^[48]^[49] Actualmente, la salida multimodal se utiliza principalmente para mejorar la correlación entre el medio de comunicación y el contenido y para respaldar la gestión de la atención en entornos ricos en datos donde los operadores enfrentan demandas considerables de atención visual. ^[50]

Un paso importante en el diseño de interfaces multimodales es la creación de mapeos naturales entre las modalidades y la información y las tareas. El canal auditivo difiere de la visión en varios aspectos. Es omnidireccional, transitorio y siempre reservado. ^[50] La salida de voz, una forma de información auditiva, recibió considerable atención. Se han desarrollado varias pautas para el uso del habla. Michaelis y Wiggins (1982) sugirieron que la salida de voz debería usarse para mensajes breves y simples a los que no se hará referencia más adelante. También se recomendó que el habla se generara a tiempo y requiriera una respuesta inmediata.

El sentido del tacto se utilizó por primera vez como medio de comunicación a finales de la década de 1950. ^[51] No solo es un canal de comunicación prometedor, sino también único. A diferencia de la vista y el oído, los dos sentidos tradicionales empleados en la HCI, el sentido del tacto es proximal: detecta objetos que están en contacto con el cuerpo y es bidireccional, ya que apoya tanto la percepción como la acción sobre el entorno.

Entre los ejemplos de retroalimentación auditiva se incluyen los iconos auditivos en los sistemas operativos de las computadoras que indican las acciones de los usuarios (por ejemplo, eliminar un archivo, abrir una carpeta, error), la salida de voz para presentar una guía de navegación en vehículos y la salida de voz para advertir a los pilotos en las cabinas de los aviones modernos. Entre los ejemplos de señales táctiles se incluyen las vibraciones de la palanca de la señal de giro para advertir a los conductores de que hay un automóvil en su punto ciego, la vibración del asiento automático como advertencia para los conductores y el vibrador de la palanca en los aviones modernos que alerta a los pilotos de una pérdida de sustentación inminente. ^[50]

Los espacios de interfaz invisibles se hicieron disponibles gracias a la tecnología de sensores. Hoy en día, se utilizan comúnmente los infrarrojos, los ultrasonidos y las cámaras. ^[52] La transparencia de la interfaz con el contenido se mejora si se establece un vínculo inmediato y directo mediante un mapeo significativo, de modo que el usuario recibe una respuesta directa e inmediata a la entrada y la respuesta al contenido se convierte en una posibilidad de interfaz (Gibson 1979).

Fusión multimodal

El proceso de integrar información de varias modalidades de entrada y combinarlas en un comando completo se conoce como fusión multimodal. ^[5] En la literatura, se han propuesto tres enfoques principales para el proceso de fusión, de acuerdo con los principales niveles arquitectónicos (reconocimiento y decisión) en los que se puede realizar la fusión de las señales de entrada: basado en reconocimiento, ^[9]^[10]^[53] basado en decisiones, ^[7]^[8]^[11]^[54]^[55]^[56]^[57] y fusión híbrida multinivel. ^[4]^[6]^[58]^[59]^[60]^[61]^[62]^[63]

La fusión basada en reconocimiento (también conocida como fusión temprana) consiste en fusionar los resultados de cada reconocedor modal mediante el uso de mecanismos de integración, como, por ejemplo, técnicas de integración estadística, teoría de agentes, modelos ocultos de Markov, redes neuronales artificiales, etc. Ejemplos de estrategias de fusión basadas en reconocimiento son el marco de acción ^[53] , los vectores de entrada ^{[9] y las ranuras}^[10] .

La fusión basada en decisiones (también conocida como fusión tardía) fusiona la información semántica extraída mediante procedimientos de fusión específicos basados en diálogos para obtener la interpretación completa. Algunos ejemplos de estrategias de fusión basadas en decisiones son las estructuras de características tipificadas, ^[54]^[59] los crisoles, ^[56]^[57] los marcos semánticos, ^[7]^[11] y los retículos con sello de tiempo. ^[8]

Las posibles aplicaciones de la fusión multimodal incluyen entornos de aprendizaje, relaciones con los consumidores, seguridad/vigilancia, animación por ordenador, etc. Individualmente, los modos se definen fácilmente, pero surge la dificultad de que la tecnología los considere una fusión combinada. ^[64] Es difícil para los algoritmos tener en cuenta la dimensionalidad; existen variables que están fuera de las capacidades computacionales actuales. Por ejemplo, el significado semántico: dos oraciones podrían tener el mismo significado léxico pero diferente información emocional. ^[64]

En la fusión híbrida multinivel, la integración de las modalidades de entrada se distribuye entre los niveles de reconocimiento y decisión. La fusión híbrida multinivel incluye las siguientes tres metodologías: transductores de estados finitos, ^[59] gramáticas multimodales ^[6]^[58]^[60]^[61]^[62]^[63]^[65] y movimientos de diálogo. ^[66]

Ambigüedad

Las acciones o comandos del usuario producen entradas multimodales (mensaje multimodal ^[3] ), que deben ser interpretadas por el sistema. El mensaje multimodal es el medio que permite la comunicación entre usuarios y sistemas multimodales. Se obtiene fusionando información que se transmite a través de varias modalidades considerando los diferentes tipos de cooperación entre varias modalidades, ^[67] las relaciones temporales ^[68] entre las modalidades involucradas y las relaciones entre fragmentos de información conectados con estas modalidades. ^[69]

La correspondencia natural entre la entrada multimodal, que es proporcionada por varias modalidades de interacción (canal visual y auditivo y sentido del tacto), y la información y las tareas implica gestionar los problemas típicos de la comunicación entre humanos, como la ambigüedad. Una ambigüedad surge cuando es posible más de una interpretación de la entrada. Una ambigüedad multimodal ^[12] surge tanto si un elemento, proporcionado por una modalidad, tiene más de una interpretación (es decir, las ambigüedades se propagan a nivel multimodal), y/o si los elementos, conectados con cada modalidad, se interpretan unívocamente, pero la información referida a diferentes modalidades es incoherente a nivel sintáctico o semántico (es decir, una oración multimodal tiene diferentes significados o diferente estructura sintáctica).

En "La gestión de ambigüedades", ^[14] los métodos para resolver ambigüedades y proporcionar la interpretación correcta de la entrada del usuario se organizan en tres clases principales: métodos de prevención, resolución a posteriori y resolución de aproximación. ^[13]^[15]

Los métodos de prevención imponen a los usuarios seguir un comportamiento de interacción predefinido de acuerdo con un conjunto de transiciones entre diferentes estados permitidos del proceso de interacción. Algunos ejemplos de métodos de prevención son: método procedimental, ^[70] reducción del poder expresivo de la gramática del lenguaje, ^[71] mejora del poder expresivo de la gramática del lenguaje. ^[72]

La resolución a posteriori de ambigüedades utiliza el enfoque de mediación. ^[16] Ejemplos de técnicas de mediación son: repetición, por ejemplo repetición por modalidad, ^[16] granularidad de reparación ^[73] y deshacer, ^[17] y elección. ^[18]

Los métodos de resolución de aproximación no requieren la participación del usuario en el proceso de desambiguación. Todos ellos pueden requerir el uso de algunas teorías, como la lógica difusa , el campo aleatorio de Markov , las redes bayesianas y los modelos ocultos de Markov . ^[13]^[15]

Véase también

Independencia del dispositivo
Sistema biométrico multimodal
Búsqueda multimodal
Reconocimiento de voz
Actividad de Interacción Multimodal del W3C : una iniciativa del W3C que tiene como objetivo proporcionar medios (principalmente XML ) para respaldar escenarios de interacción multimodal en la Web.
Accesibilidad web
Guante con alambre
XHTML+Voz

Referencias

^ Bourguet, ML (2003). "Diseño y creación de prototipos de comandos multimodales". Actas de Interacción Hombre-Ordenador (INTERACT'03), págs. 717-720.
^ Stivers, T., Sidnell, J. Introducción: Interacción multimodal. Semiotica, 156(1/4), pp. 1-20. 2005.
^ ab Caschera MC, Ferri F., Grifoni P. (2007). "Sistemas de interacción multimodal: características de información y tiempo". Revista Internacional de Servicios Web y Grid (IJWGS), Vol. 3 - Número 1, pp 82-99.
^ ab D'Ulizia, A., Ferri, F. y Grifoni, P. (2010). "Generación de gramáticas multimodales para el procesamiento de diálogos multimodales". IEEE Transactions on Systems, Man, and Cybernetics, Parte A: Systems and Humans, vol. 40, n.º 6, págs. 1130-1145.
^ ab D'Ulizia , A. (2009). "Explorando estrategias de fusión de entrada multimodal". En: Grifoni P (ed) Manual de investigación sobre interacción hombre-computadora multimodal y servicios generalizados: técnicas evolutivas para mejorar la accesibilidad. IGI Publishing, págs. 34-57.
^ abc Sun, Y., Shi, Y., Chen, F. y Chung, V. (2007). "Un procesador de lenguaje multimodal eficiente para cadenas de entrada paralelas en fusión de entrada multimodal", en Proc. de la Conferencia internacional sobre computación semántica, págs. 389-396.
^ abc Russ, G., Sallans, B., Hareter, H. (2005). "Fusión de información basada en semántica en una interfaz multimodal". Conferencia internacional sobre interacción hombre-ordenador (HCI'05), Las Vegas, Nevada, EE. UU., 20-23 de junio, págs. 94-100.
^ abc Corradini, A., Mehta M., Bernsen, NO, Martin, J.-C. (2003). "Fusión de entrada multimodal en la interacción hombre-ordenador en el ejemplo del proyecto NICE en curso". En Actas de la conferencia OTAN-ASI sobre Fusión de datos para el seguimiento de situaciones, detección de incidentes, gestión de alertas y respuestas, Ereván, Armenia.
^ abc Pavlovic, VI, Berry, GA, Huang, TS (1997). "Integración de información audiovisual para su uso en la interacción inteligente entre humanos y computadoras". Actas de la Conferencia Internacional sobre Procesamiento de Imágenes de 1997 (ICIP '97), Volumen 1, págs. 121-124.
^ abc Andre, M., Popescu, VG, Shaikh, A., Medl, A., Marsic, I., Kulikowski, C., Flanagan JL (1998). "Integración del habla y los gestos para la interacción multimodal entre humanos y ordenadores". En la Segunda Conferencia Internacional sobre Comunicación Multimodal Cooperativa. 28-30 de enero, Tilburg, Países Bajos.
^ abc Vo, MT, Wood, C. (1996). "Construcción de un marco de aplicación para la integración de entrada de voz y lápiz en interfaces de aprendizaje multimodal". En Proceedings of the Acoustics, Speech, and Signal Processing (ICASSP'96), 7-10 de mayo, IEEE Computer Society, Volumen 06, págs. 3545-3548.
^ ab Caschera, MC, Ferri, F., Grifoni, P. (2013). "De ambigüedades modales a multimodales: un enfoque de clasificación", Journal of Next Generation Information Technology (JNIT), vol. 4, n.º 5, págs. 87-109.
^ abc Caschera, MC, Ferri, F., Grifoni, P. (2013). InteSe: Un modelo integrado para resolver ambigüedades en oraciones multimodales". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volumen: 43, Número: 4, págs. 911-931.18. Spilker, J., Klarner, M., Görz, G. (2000). "Procesamiento de autocorrecciones en un sistema de voz a voz". COLING 2000. págs. 1116-1120.
^ ab Caschera MC, Ferri F., Grifoni P., (2007). "La gestión de ambigüedades". En Lenguajes visuales para computación interactiva: definiciones y formalizaciones. IGI Publishing. pp.129-140.
^ abc J. Chai, P. Hong y MX Zhou, (2004). "Un enfoque probabilístico para la resolución de referencia en la interfaz de usuario multimodal" en Proc. 9th Int. Conf. Intell. User Interf., Madeira, Portugal, enero de 2004, págs. 70–77.
^ abc Dey, AK Mankoff , J., (2005). "Diseño de mediación para aplicaciones sensibles al contexto". ACM Trans. Comput.-Hum. Interact. 12(1), págs. 53-80.
^ ab Spilker, J., Klarner, M., Görz, G. (2000). "Procesamiento de autocorrecciones en un sistema de habla a voz". COLING 2000. págs. 1116-1120.
^ ab Mankoff, J., Hudson, SE, Abowd, GD (2000). "Proporcionar soporte integrado a nivel de kit de herramientas para la ambigüedad en interfaces basadas en reconocimiento". Actas de la Conferencia ACM CHI'00 sobre factores humanos en sistemas informáticos. págs. 368 – 375.
^ Grifoni P (2009) Fisión multimodal. En: Interacción hombre-ordenador multimodal y servicios generalizados. IGI Global, págs. 103-120
^ Patrizia Grifoni, Fernando Ferri, Maria Chiara Caschera, Arianna D'Ulizia, Mauro Mazzei, "MIS: Servicios de interacción multimodal en una perspectiva de la nube", JNIT: Revista de tecnología de la información de próxima generación, vol. 5, núm. 4, págs. 01 ~ 10, 2014
^ Kettebekov, Sanshzar y Rajeev Sharma (2001). "Hacia el control natural de gestos y voz de una pantalla grande". Actas de la EHCI '01 Actas de la 8.ª Conferencia internacional IFIP sobre ingeniería para la interacción hombre-ordenador Páginas 221-234
^ Marius Vassiliou, V. Sundareswaran, S. Chen, R. Behringer, C. Tam, M. Chan, P. Bangayan y J. McGee (2000), "Interfaz hombre-computadora multimodal integrada y realidad aumentada para aplicaciones de visualización interactiva", en Darrel G. Hopper (ed.) Cockpit Displays VII: Displays for Defense Applications (Proc. SPIE . 4022), 106-115. ISBN 0-8194-3648-8
^ Vitense, HS; Jacko, JA; Emery, VK (2002). "Retroalimentación multimodal: establecimiento de una línea base de desempeño para mejorar el acceso por parte de personas con discapacidad visual". Conferencia de la ACM sobre tecnologías de asistencia .
^ ab Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Análisis de correlación discriminante: fusión de niveles de características en tiempo real para reconocimiento biométrico multimodal". IEEE Transactions on Information Forensics and Security . 11 (9): 1984–1996. doi :10.1109/TIFS.2016.2569061. S2CID 15624506.
^ "Preguntas sobre los sistemas de reconocimiento del iris". Science Daily . 12 de julio de 2012. Archivado desde el original el 22 de octubre de 2012.
^ Saylor, Michael (2012). La ola móvil: cómo la inteligencia móvil cambiará todo. Perseus Books/Vanguard Press. pág. 99. ISBN 9780306822988.
^ Bill Flook (3 de octubre de 2013). «Esta es la 'guerra biométrica' de la que hablaba Michael Saylor». Washington Business Journal . Archivado desde el original el 7 de octubre de 2013.
^ "¿Qué es la biometría? Definición, tipos de datos, tendencias (2024)". Aratek Biometrics . Consultado el 11 de abril de 2024 .
^ Zahid Akhtar, "Seguridad de los sistemas biométricos multimodales contra ataques de suplantación de identidad" (PDF). Archivado el 2 de abril de 2015 en Wayback Machine . Departamento de Ingeniería Eléctrica y Electrónica, Universidad de Cagliari. Cagliari, Italia, 6 de marzo de 2012.
^ Prasanalakshmi, "Sistema criptométrico multimodal que involucra el rostro, las huellas dactilares y las venas de la palma", julio de 2011
^ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (septiembre de 2017). "Una encuesta sobre análisis de sentimientos multimodales". Computación de imágenes y visión . 65 : 3–14. doi :10.1016/j.imavis.2017.08.003. S2CID 19491070.
^ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Interacción hombre-ordenador: visión general del estado del arte" (PDF) . Revista internacional sobre detección inteligente y sistemas inteligentes . 1 : 137–159. doi : 10.21307/ijssis-2017-283 .
^ ab Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (septiembre de 2017). "Una revisión de la computación afectiva: del análisis unimodal a la fusión multimodal". Information Fusion . 37 : 98–125. doi :10.1016/j.inffus.2017.02.003. hdl : 1893/25490 . S2CID 205433041.
^ "Google AI hace llamadas telefónicas por ti". BBC News . 8 de mayo de 2018 . Consultado el 12 de junio de 2018 .
^ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (mayo de 2013). "Reseñas de películas de YouTube: análisis de sentimientos en un contexto audiovisual" (PDF) . IEEE Intelligent Systems . 28 (3): 46–53. doi :10.1109/MIS.2013.34. S2CID 12789201.
^ Pereira, Moisés HR; Pádua, Flávio LC; Pereira, Adriano CM; Benevenuto, Fabricio; Dalip, Daniel H. (9 de abril de 2016). "Fusionar características visuales, textuales y de audio para el análisis de sentimientos de videos de noticias". arXiv : 1604.02612 [cs.CL].
^ Zucco, Chiara; Calabrese, Barbara; Cannataro, Mario (noviembre de 2017). "Análisis de sentimientos y computación afectiva para el monitoreo de la depresión". Conferencia internacional IEEE sobre bioinformática y biomedicina (BIBM) de 2017. IEEE. págs. 1988–1995. doi :10.1109/bibm.2017.8217966. ISBN . 978-1-5090-3050-7.S2CID24408937 .
^ Pang, Bo; Lee, Lillian (2008). Minería de opiniones y análisis de sentimientos . Hanover, MA: Now Publishers. ISBN 978-1601981509.
^ Sun, Shiliang; Luo, Chen; Chen, Junyu (julio de 2017). "Una revisión de las técnicas de procesamiento del lenguaje natural para sistemas de minería de opiniones". Information Fusion . 36 : 10–25. doi :10.1016/j.inffus.2016.10.004.
^ ab Edwards, Benj (14 de marzo de 2023). «GPT-4 de OpenAI exhibe un «rendimiento a nivel humano» en pruebas de referencia profesionales». Ars Technica . Archivado desde el original el 14 de marzo de 2023 . Consultado el 15 de marzo de 2023 .
^ Wiggers, Kyle (6 de julio de 2023). «OpenAI hace que GPT-4 esté disponible de forma generalizada». TechCrunch . Archivado desde el original el 16 de agosto de 2023. Consultado el 16 de agosto de 2023 .
^ OpenAI (2023). "Informe técnico de GPT-4". arXiv : 2303.08774 [cs.CL].
^ Belfield, Haydn (25 de marzo de 2023). «Si su modelo de IA se va a vender, tiene que ser seguro». Vox . Archivado desde el original el 28 de marzo de 2023. Consultado el 30 de marzo de 2023 .
^ "Tarjeta del sistema GPT-4V(ision)". OpenAI . Consultado el 5 de febrero de 2024 .
^ Roose, Kevin (28 de septiembre de 2023). "El nuevo ChatGPT puede 'ver' y 'hablar'. Así es como funciona". The New York Times . Archivado desde el original el 31 de octubre de 2023. Consultado el 30 de octubre de 2023 .
^ Vincent, James (15 de marzo de 2023). «El cofundador de OpenAI habla sobre el enfoque anterior de la empresa para compartir abiertamente la investigación: "Nos equivocamos"». The Verge . Archivado desde el original el 17 de marzo de 2023. Consultado el 18 de marzo de 2023 .
^ Oviatt, S. (2002), "Interfaces multimodales", en Jacko, J.; Sears, A (eds.), Manual de interacción hombre-computadora (PDF) , Lawrence Erlbaum
^ Bauckhage, C.; Fritsch, J.; Rohlfing, KJ; Wachsmuth, S.; Sagerer, G. (2002). "Evaluación de la comprensión integrada del habla y de la imagen". Conferencia Internacional sobre Interfaces Multimodales . doi :10.1109/ICMI.2002.1166961.
^ Ismail, NA; O'Brien, EA (2008). "Habilitación de la interacción multimodal en la navegación personal de fotografías digitales basada en la Web" (PDF) . Conferencia Internacional sobre Ingeniería Informática y de la Comunicación . Archivado desde el original (PDF) el 2011-07-18 . Consultado el 2010-03-03 .
^ abc Sarter, NB (2006). "Presentación de información multimodal: orientación de diseño y desafíos de investigación". Revista internacional de ergonomía industrial . 36 (5): 439–445. doi :10.1016/j.ergon.2006.01.007.
^ Geldar, FA (1957). "Aventuras en alfabetización táctil". Psicólogo americano . 12 (3): 115-124. doi :10.1037/h0040416.
^ Brooks, A.; Petersson, E. (2007). "Paisajes sonoros: potenciales de aprendizaje no formal de los entornos virtuales interactivos". SIGGRAPH . doi :10.1145/1282040.1282059.
^ ab Vo, MT (1998). "Un marco y un conjunto de herramientas para la construcción de interfaces de aprendizaje multimodal", tesis doctoral, Carnegie Mellon University, Pittsburgh, EE. UU.
^ ab Cohen, PR; Johnston, M.; McGee, D.; Oviatt, SL; Pittman, J.; Smith, IA; Chen, L.; Clow, J. (1997). "Quickset: Interacción multimodal para aplicaciones distribuidas", ACM Multimedia, págs. 31-40.
^ Johnston, M. (1998). "Unification-based Multimodal Parsing". Actas de la 36.ª Reunión Anual de la Asociación de Lingüística Computacional y la 17.ª Conferencia Internacional sobre Lingüística Computacional (COLING-ACL '98), 10-14 de agosto, Universidad de Montreal, Montreal, Quebec, Canadá. págs. 624-630.
^ ab Nigay, L.; Coutaz, J. (1995). "Una plataforma genérica para abordar el desafío multimodal". Actas de la Conferencia sobre factores humanos en sistemas informáticos, ACM Press.
^ ab Bouchet, J.; Nigay, L.; Ganille, T. (2004). "Componentes de software de Icare para desarrollar rápidamente interfaces multimodales". ICMI '04: Actas de la sexta conferencia internacional sobre interfaces multimodales (Nueva York, NY, EE. UU.), ACM, págs. 251-258.
^ ab D'Ulizia, A.; Ferri, F.; Grifoni P. (2007). "Un enfoque híbrido basado en gramática para la especificación de lenguajes multimodales", Actas del taller OTM 2007, 25-30 de noviembre de 2007, Vilamoura, Portugal, Springer-Verlag, Lecture Notes in Computer Science 4805, págs. 367-376.
^ abc Johnston, M.; Bangalore, S. (2000). "Análisis y comprensión multimodal de estados finitos", en Actas de la Conferencia Internacional sobre Lingüística Computacional, Saarbrücken, Alemania.
^ ab Sun, Y.; Chen, F.; Shi, YD; Chung, V. (2006). "Un nuevo método para la fusión de datos multisensoriales en la interacción hombre-ordenador multimodal". En Actas de la 20.ª conferencia del grupo de interés especial sobre interacción hombre-ordenador (CHISIG) de Australia sobre interacción hombre-ordenador: diseño: actividades, artefactos y entornos, Sídney, Australia, págs. 401-404
^ ab Shimazu, H.; Takashima, Y. (1995). "Gramática de cláusula definida multimodal", Systems and Computers in Japan, vol. 26, núm. 3, págs. 93-102.
^ ab Johnston, M.; Bangalore, S. (2005). "Integración y comprensión multimodal de estados finitos", Nat. Lang. Eng, vol. 11, núm. 2, págs. 159-187.
^ ab Reitter, D.; Panttaja, EM; Cummins, F. (2004). "UI on the fly: Generating a multimodal user interface", en Proc. de HLT-NAACL-2004, Boston, Massachusetts, EE. UU.
^ ab Guan, Ling. "Métodos y técnicas para la fusión de información multimodal" (PDF) . Circuits & Systems Society .
^ D'Ulizia, A.; Ferri, F.; Grifoni P. (2011). "Un algoritmo de aprendizaje para la inferencia gramatical multimodal", IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), pp. 1495 - 1510.
^ Pérez, G.; Amores, G.; Manchón, P. (2005). "Dos estrategias para la fusión multimodal". En Actas de Interacción Multimodal para la Visualización y Exploración de Datos Científicos, Trento, Italia, 26–32.
^ Martin, JC (1997). "Hacia una cooperación inteligente entre modalidades: el ejemplo de un sistema que permite la interacción multimodal con un mapa", Actas del Taller sobre 'Sistemas multimodales inteligentes' de la Conferencia conjunta internacional sobre inteligencia artificial (IJCAI'97), Nagoya, Japón
^ Allen, JF; Ferguson, G. (1994). "Acciones y eventos en lógica temporal de intervalos", Journal of Logic and Computation, vol. 4, n.º 5, págs. 531-579
^ Bellik, Y. (2001). "Requisitos técnicos para una interacción multimodal exitosa", Taller internacional sobre presentación de información y diálogo multimodal natural, Verona, Italia, 14-15 de diciembre
^ Lee, YC; Chin, F. (1995). "Un lenguaje de consulta icónico para la relación topológica en SIG". Revista internacional de sistemas de información geográfica 9(1). pp. 25-46
^ Calcinelli, D.; Mainguenaud, M. (1994). "Cigales, un lenguaje visual para sistemas de información geográfica: la interfaz de usuario". Journal of Visual Languages and Computing 5(2). pp. 113-132
^ Ferri, F.; Rafanelli, M. (2005). "GeoPQL: un lenguaje de consulta pictórico geográfico que resuelve ambigüedades en la interpretación de consultas". J. Semántica de datos III. págs.50-80
^ Suhm, B., Myers, B. y Waibel, A. (1999). "Evaluación empírica y basada en modelos de la corrección de errores interactiva multimodal". En Proc. Of CHI'99, mayo de 1999, págs. 584-591

Enlaces externos

Actividad de interacción multimodal del W3C
Perfil XHTML+Voice 1.0, nota del W3C del 21 de diciembre de 2001
Hoste, Lode, Dumas, Bruno y Signer, Beat: Mudra: Un marco de interacción multimodal unificado, en Actas de la 13ª Conferencia Internacional sobre Interacción Multimodal (ICMI 2011), Alicante, España, noviembre de 2011.
Toselli, Alejandro Héctor, Vidal, Enrique, Casacuberta, Francisco: Reconocimiento de patrones interactivos multimodales y aplicaciones, Springer, 2011.