Análisis de sentimiento multimodal

El análisis de sentimiento multimodal es una tecnología para el análisis de sentimiento tradicional basado en texto , que incluye modalidades como datos de audio y visuales. ^[1] Puede ser bimodal, que incluye diferentes combinaciones de dos modalidades, o trimodal, que incorpora tres modalidades. ^[2] Con la gran cantidad de datos de redes sociales disponibles en línea en diferentes formas, como videos e imágenes, el análisis de sentimiento convencional basado en texto ha evolucionado hacia modelos más complejos de análisis de sentimiento multimodal, ^[3] que se pueden aplicar en el desarrollo. de asistentes virtuales , ^[4] análisis de reseñas de películas de YouTube, ^[5] análisis de videos de noticias, ^[6] y reconocimiento de emociones (a veces conocido como detección de emociones ) como monitoreo de depresión , ^[7] entre otros.

De manera similar al análisis de sentimientos tradicional , una de las tareas más básicas en el análisis de sentimientos multimodal es la clasificación de sentimientos , que clasifica diferentes sentimientos en categorías como positivo, negativo o neutral. ^[8] La complejidad de analizar características de texto, audio y visuales para realizar tal tarea requiere la aplicación de diferentes técnicas de fusión, como la fusión híbrida, de nivel de decisión y de nivel de característica. ^[3] El rendimiento de estas técnicas de fusión y los algoritmos de clasificación aplicados están influenciados por el tipo de características textuales, de audio y visuales empleadas en el análisis. ^[9]

Características

La ingeniería de funciones , que implica la selección de funciones que se incorporan a los algoritmos de aprendizaje automático , desempeña un papel clave en el rendimiento de la clasificación de sentimientos. ^[9] En el análisis de sentimiento multimodal, se emplea una combinación de diferentes características textuales, de audio y visuales. ^[3]

Características textuales

De manera similar al análisis de sentimientos basado en texto convencional , algunas de las características textuales más utilizadas en el análisis de sentimientos multimodal son unigramas y n-gramas , que son básicamente una secuencia de palabras en un documento textual determinado. ^[10] Estas características se aplican utilizando representaciones de características de bolsa de palabras o bolsa de conceptos, en las que las palabras o conceptos se representan como vectores en un espacio adecuado. ^[11]^[12]

Funciones de audio

Las características de sentimiento y emoción son prominentes en diferentes propiedades fonéticas y prosódicas contenidas en las características de audio. ^[13] Algunas de las características de audio más importantes empleadas en el análisis de sentimiento multimodal son el cepstrum de frecuencia de fusión (MFCC) , el centroide espectral , el flujo espectral , el histograma de latidos, la suma de los latidos, el latido más fuerte, la duración de la pausa y el tono . ^[3] OpenSMILE ^[14] y Praat son kits de herramientas populares de código abierto para extraer dichas funciones de audio. ^[15]

Características visuales

Una de las principales ventajas de analizar vídeos con respecto únicamente a los textos es la presencia de ricas señales de sentimiento en los datos visuales. ^[16] Las características visuales incluyen las expresiones faciales , que son de suma importancia para capturar sentimientos y emociones , ya que son un canal principal para formar el estado mental actual de una persona. ^[3] Específicamente, la sonrisa se considera una de las señales visuales más predictivas en el análisis de sentimiento multimodal. ^[11] OpenFace es un conjunto de herramientas de análisis facial de código abierto disponible para extraer y comprender dichas características visuales. ^[17]

Técnicas de fusión

A diferencia del análisis de sentimiento tradicional basado en texto , el análisis de sentimiento multimodal se somete a un proceso de fusión en el que los datos de diferentes modalidades (texto, audio o visual) se fusionan y analizan juntos. ^[3] Los enfoques existentes en la fusión de datos de análisis de sentimiento multimodal se pueden agrupar en tres categorías principales: nivel de característica, nivel de decisión y fusión híbrida, y el rendimiento de la clasificación de sentimiento depende del tipo de técnica de fusión que se emplee. ^[3]

Fusión a nivel de funciones

La fusión a nivel de características (a veces conocida como fusión temprana) reúne todas las características de cada modalidad (texto, audio o visual) y las une en un único vector de características, que finalmente se introduce en un algoritmo de clasificación. ^[18] Una de las dificultades en la implementación de esta técnica es la integración de las características heterogéneas. ^[3]

Fusión a nivel de decisión

La fusión a nivel de decisión (a veces conocida como fusión tardía) alimenta datos de cada modalidad (texto, audio o visual) de forma independiente en su propio algoritmo de clasificación y obtiene los resultados finales de la clasificación de sentimientos fusionando cada resultado en un único vector de decisión. ^[18] Una de las ventajas de esta técnica de fusión es que elimina la necesidad de fusionar datos heterogéneos y cada modalidad puede utilizar su algoritmo de clasificación más apropiado . ^[3]

Fusión híbrida

La fusión híbrida es una combinación de técnicas de fusión a nivel de características y de decisión, que explota información complementaria de ambos métodos durante el proceso de clasificación. ^[5] Por lo general, implica un procedimiento de dos pasos en el que la fusión a nivel de características se realiza inicialmente entre dos modalidades, y luego se aplica la fusión a nivel de decisión como un segundo paso, para fusionar los resultados iniciales de la fusión a nivel de características, con el modalidad restante . ^[19]^[20]

Aplicaciones

De manera similar al análisis de sentimiento basado en texto, el análisis de sentimiento multimodal se puede aplicar en el desarrollo de diferentes formas de sistemas de recomendación , como en el análisis de videos de reseñas de películas generados por usuarios ^[5] y reseñas generales de productos, ^[21] para predecir el sentimientos de los clientes y, posteriormente, crear recomendaciones de productos o servicios. ^[22] El análisis de sentimiento multimodal también juega un papel importante en el avance de los asistentes virtuales mediante la aplicación de procesamiento del lenguaje natural (NLP) y técnicas de aprendizaje automático . ^[4] En el ámbito de la atención médica, el análisis de sentimiento multimodal se puede utilizar para detectar ciertas condiciones médicas como estrés , ansiedad o depresión . ^[7] El análisis de sentimientos multimodal también se puede aplicar para comprender los sentimientos contenidos en los programas de noticias en vídeo, lo que se considera un dominio complicado y desafiante, ya que los sentimientos expresados por los reporteros tienden a ser menos obvios o neutrales. ^[23]

Referencias

^ Soleymani, Mohammad; García, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (septiembre de 2017). "Una encuesta de análisis de sentimiento multimodal". Computación de Imagen y Visión . 65 : 3–14. doi :10.1016/j.imavis.2017.08.003. S2CID 19491070.
^ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, árabe (2008). "Interacción persona-computadora: descripción general del estado del arte" (PDF) . Revista internacional sobre sensores inteligentes y sistemas inteligentes . 1 : 137-159. doi : 10.21307/ijssis-2017-283 .
^ abcdefghi Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (septiembre de 2017). "Una revisión de la computación afectiva: del análisis unimodal a la fusión multimodal". Fusión de información . 37 : 98-125. doi :10.1016/j.inffus.2017.02.003. hdl : 1893/25490 . S2CID 205433041.
^ ab "Google AI para hacer llamadas telefónicas por usted". Noticias de la BBC . 8 de mayo de 2018 . Consultado el 12 de junio de 2018 .
^ abc Wollmer, Martín; Weninger, Félix; Knaup, Tobías; Schuller, Björn; Sol, Congkai; Sagae, Kenji; Morency, Louis-Philippe (mayo de 2013). "Reseñas de películas de YouTube: análisis de sentimientos en un contexto audiovisual" (PDF) . Sistemas inteligentes IEEE . 28 (3): 46–53. doi :10.1109/MIS.2013.34. S2CID 12789201.
^ Pereira, Moisés HR; Pádua, Flávio LC; Pereira, Adriano CM; Benevenuto, Fabricio; Dalip, Daniel H. (9 de abril de 2016). "Fusionar características visuales, textuales y de audio para el análisis de sentimientos de videos de noticias". arXiv : 1604.02612 [cs.CL].
^ ab Zucco, Chiara; Calabrese, Bárbara; Cannataro, Mario (noviembre de 2017). "Análisis de sentimientos y computación afectiva para el seguimiento de la depresión". Conferencia Internacional IEEE 2017 sobre Bioinformática y Biomedicina (BIBM) . IEEE. págs. 1988-1995. doi :10.1109/bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID 24408937.
^ Pang, Bo; Lee, Lilian (2008). Minería de opiniones y análisis de sentimiento . Hannover, MA: Ahora editores. ISBN 978-1601981509.
^ ab Sol, Shiliang; Luo, Chen; Chen, Junyu (julio de 2017). "Una revisión de técnicas de procesamiento del lenguaje natural para sistemas de minería de opiniones". Fusión de información . 36 : 10–25. doi :10.1016/j.inffus.2016.10.004.
^ Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 de mayo de 2017). "Estado actual del análisis del sentimiento textual desde la opinión hasta la extracción de emociones". Encuestas de Computación ACM . 50 (2): 1–33. doi :10.1145/3057270. S2CID 5275807.
^ ab Pérez Rosas, Verónica; Mihalcea, Rada; Morency, Louis-Philippe (mayo de 2013). "Análisis de sentimiento multimodal de vídeos online en español". Sistemas inteligentes IEEE . 28 (3): 38–45. doi :10.1109/MIS.2013.9. S2CID 1132247.
^ Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (marzo de 2015). "Hacia un marco inteligente para el análisis de datos afectivos multimodales". Redes neuronales . 63 : 104-116. doi :10.1016/j.neunet.2014.10.005. hdl : 1893/21310 . PMID 25523041. S2CID 342649.
^ Chung-Hsien Wu; Wei-Bin Liang (enero de 2011). "Reconocimiento de emociones del habla afectiva basado en múltiples clasificadores que utilizan información acústico-prosódica y etiquetas semánticas". Transacciones IEEE sobre informática afectiva . 2 (1): 10–21. doi :10.1109/T-AFFC.2010.16. S2CID 52853112.
^ Eyben, Florián; Wöllmer, Martín; Schuller, Björn (2009). "OpenEAR: presentamos el conjunto de herramientas de reconocimiento de afectos y emociones de código abierto de Munich". OpenEAR: Presentación del conjunto de herramientas de reconocimiento de emociones y afectos de código abierto de Munich - Publicación de la conferencia IEEE. pag. 1. doi :10.1109/ACII.2009.5349350. ISBN 978-1-4244-4800-5. S2CID 2081569.
^ Morency, Luis Felipe; Mihalcea, Rada; Doshi, Payal (14 de noviembre de 2011). "Hacia un análisis de sentimiento multimodal". Hacia un análisis de sentimiento multimodal: recolectando opiniones de la web . ACM. págs. 169-176. doi :10.1145/2070481.2070509. ISBN 9781450306416. S2CID 1257599.
^ Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Análisis de sentimientos dependiente del contexto en vídeos generados por usuarios". Actas de la 55ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos) : 873–883. doi : 10.18653/v1/p17-1081 .
^ OpenFace: un conjunto de herramientas de análisis del comportamiento facial de código abierto - Publicación de la conferencia IEEE. Marzo de 2016. doi :10.1109/WACV.2016.7477553. ISBN 978-1-5090-0641-0. S2CID 1919851.
^ ab Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (enero de 2016). "Fusionar pistas de audio, visuales y textuales para el análisis de sentimientos a partir de contenido multimodal". Neurocomputación . 174 : 50–59. doi :10.1016/j.neucom.2015.01.095. S2CID 15287807.
^ Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Explotación de la teoría probatoria en la fusión de modalidades textuales, de audio y visuales para la recuperación afectiva de vídeos musicales - Publicación de la conferencia IEEE". doi :10.1109/PRIA.2017.7983051. S2CID 24466718. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (octubre de 2017). "Aplicación conjunta de redes neuronales convolucionales y aprendizaje de múltiples núcleos para el análisis de sentimientos multimodal". Neurocomputación . 261 : 217–230. doi :10.1016/j.neucom.2016.09.117.
^ Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 de enero de 2013). "Análisis de sentimiento multimodal a nivel de expresión". Papeles largos . Asociación de Lingüística Computacional (ACL).
^ Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolás; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notas desde la frontera de la IA. Información de cientos de casos de uso". McKinsey y compañía . Consultado el 13 de junio de 2018 .
^ Ellis, José G.; Jou, Brendan; Chang, Shih-Fu (12 de noviembre de 2014). "Por qué vemos las noticias". Por qué vemos las noticias: un conjunto de datos para explorar el sentimiento en las noticias en vídeo transmitidas . ACM. págs. 104-111. doi :10.1145/2663204.2663237. ISBN 9781450328852. S2CID 14112246.