Análisis de sentimientos multimodales

El análisis de sentimientos multimodal es una tecnología para el análisis de sentimientos basado en texto tradicional , que incluye modalidades como datos de audio y visuales. ^[1] Puede ser bimodal, que incluye diferentes combinaciones de dos modalidades, o trimodal, que incorpora tres modalidades. ^[2] Con la gran cantidad de datos de redes sociales disponibles en línea en diferentes formas, como videos e imágenes, el análisis de sentimientos basado en texto convencional ha evolucionado hacia modelos más complejos de análisis de sentimientos multimodal, ^[3] que se pueden aplicar en el desarrollo de asistentes virtuales , ^[4] análisis de reseñas de películas de YouTube, ^[5] análisis de videos de noticias, ^[6] y reconocimiento de emociones (a veces conocido como detección de emociones ) como el monitoreo de la depresión , ^[7] entre otros.

De manera similar al análisis de sentimientos tradicional , una de las tareas más básicas en el análisis de sentimientos multimodal es la clasificación de sentimientos , que clasifica diferentes sentimientos en categorías como positivo, negativo o neutral. ^[8] La complejidad de analizar características de texto, audio y visuales para realizar dicha tarea requiere la aplicación de diferentes técnicas de fusión, como la fusión a nivel de características, a nivel de decisión y la fusión híbrida. ^[3] El rendimiento de estas técnicas de fusión y los algoritmos de clasificación aplicados están influenciados por el tipo de características textuales, de audio y visuales empleadas en el análisis. ^[9]

Características

La ingeniería de características , que implica la selección de características que se incorporan a los algoritmos de aprendizaje automático , desempeña un papel clave en el rendimiento de la clasificación de sentimientos. ^[9] En el análisis de sentimientos multimodal, se emplea una combinación de diferentes características textuales, de audio y visuales. ^[3]

Características textuales

De manera similar al análisis de sentimientos basado en texto convencional , algunas de las características textuales más comúnmente utilizadas en el análisis de sentimientos multimodal son los unigramas y los n-gramas , que son básicamente una secuencia de palabras en un documento textual determinado. ^[10] Estas características se aplican utilizando representaciones de características de bolsa de palabras o bolsa de conceptos, en las que las palabras o conceptos se representan como vectores en un espacio adecuado. ^[11]^[12]

Funciones de audio

Las características de sentimiento y emoción son prominentes en diferentes propiedades fonéticas y prosódicas contenidas en las características de audio. ^[13] Algunas de las características de audio más importantes empleadas en el análisis de sentimiento multimodal son el cepstrum de frecuencia mel (MFCC) , el centroide espectral , el flujo espectral , el histograma de pulso, la suma de pulsos, el pulso más fuerte, la duración de la pausa y el tono . ^[3] OpenSMILE ^[14] y Praat son kits de herramientas de código abierto populares para extraer dichas características de audio. ^[15]

Características visuales

Una de las principales ventajas de analizar videos con respecto a los textos únicamente, es la presencia de ricas señales de sentimientos en los datos visuales. ^[16] Las características visuales incluyen expresiones faciales , que son de suma importancia para capturar sentimientos y emociones , ya que son un canal principal para formar el estado mental actual de una persona. ^[3] Específicamente, la sonrisa , se considera una de las señales visuales más predictivas en el análisis de sentimientos multimodal. ^[11] OpenFace es un kit de herramientas de análisis facial de código abierto disponible para extraer y comprender dichas características visuales. ^[17]

Técnicas de fusión

A diferencia del análisis de sentimientos basado en texto tradicional , el análisis de sentimientos multimodal se somete a un proceso de fusión en el que se fusionan y analizan juntos datos de diferentes modalidades (texto, audio o imagen). ^{[3] Los enfoques existentes en}la fusión de datos del análisis de sentimientos multimodal se pueden agrupar en tres categorías principales: nivel de características, nivel de decisión y fusión híbrida, y el rendimiento de la clasificación de sentimientos depende del tipo de técnica de fusión que se emplee. ^[3]

Fusión a nivel de características

La fusión a nivel de características (a veces conocida como fusión temprana) reúne todas las características de cada modalidad (texto, audio o imagen) y las une en un único vector de características, que finalmente se incorpora a un algoritmo de clasificación. ^[18] Una de las dificultades en la implementación de esta técnica es la integración de las características heterogéneas. ^[3]

Fusión a nivel de decisión

La fusión a nivel de decisión (a veces conocida como fusión tardía) alimenta los datos de cada modalidad (texto, audio o visual) de forma independiente en su propio algoritmo de clasificación y obtiene los resultados finales de la clasificación de sentimientos fusionando cada resultado en un único vector de decisión. ^[18] Una de las ventajas de esta técnica de fusión es que elimina la necesidad de fusionar datos heterogéneos y cada modalidad puede utilizar su algoritmo de clasificación más apropiado . ^[3]

Fusión híbrida

La fusión híbrida es una combinación de técnicas de fusión a nivel de características y a nivel de decisión, que explota la información complementaria de ambos métodos durante el proceso de clasificación. ^[5] Por lo general, implica un procedimiento de dos pasos en el que la fusión a nivel de características se realiza inicialmente entre dos modalidades, y luego se aplica la fusión a nivel de decisión como un segundo paso, para fusionar los resultados iniciales de la fusión a nivel de características, con la modalidad restante . ^[19]^[20]

Aplicaciones

Similar al análisis de sentimientos basado en texto, el análisis de sentimientos multimodal se puede aplicar en el desarrollo de diferentes formas de sistemas de recomendación , como en el análisis de videos generados por el usuario de reseñas de películas ^[5] y reseñas generales de productos ^[21] , para predecir los sentimientos de los clientes y, posteriormente, crear recomendaciones de productos o servicios. ^[22] El análisis de sentimientos multimodal también juega un papel importante en el avance de los asistentes virtuales a través de la aplicación de técnicas de procesamiento del lenguaje natural (PLN) y aprendizaje automático . ^[4] En el ámbito de la atención médica, el análisis de sentimientos multimodal se puede utilizar para detectar ciertas condiciones médicas como estrés , ansiedad o depresión . ^[7] El análisis de sentimientos multimodal también se puede aplicar para comprender los sentimientos contenidos en los programas de noticias en video, que se considera un dominio complicado y desafiante, ya que los sentimientos expresados por los reporteros tienden a ser menos obvios o neutrales. ^[23]

Referencias

^ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (septiembre de 2017). "Una encuesta sobre análisis de sentimientos multimodales". Computación de imágenes y visión . 65 : 3–14. doi :10.1016/j.imavis.2017.08.003. S2CID 19491070.
^ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Interacción hombre-ordenador: visión general del estado del arte" (PDF) . Revista internacional sobre detección inteligente y sistemas inteligentes . 1 : 137–159. doi : 10.21307/ijssis-2017-283 .
^ abcdefghi Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (septiembre de 2017). "Una revisión de la computación afectiva: del análisis unimodal a la fusión multimodal". Fusión de información . 37 : 98–125. doi :10.1016/j.inffus.2017.02.003. hdl : 1893/25490 . S2CID 205433041.
^ ab "Google AI to make phone calls for you" (La inteligencia artificial de Google hace llamadas por ti). BBC News . 8 de mayo de 2018. Consultado el 12 de junio de 2018 .
^ abc Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (mayo de 2013). "Reseñas de películas de YouTube: análisis de sentimientos en un contexto audiovisual" (PDF) . IEEE Intelligent Systems . 28 (3): 46–53. doi :10.1109/MIS.2013.34. S2CID 12789201.
^ Pereira, Moisés HR; Pádua, Flávio LC; Pereira, Adriano CM; Benevenuto, Fabricio; Dalip, Daniel H. (9 de abril de 2016). "Fusionar características visuales, textuales y de audio para el análisis de sentimientos de videos de noticias". arXiv : 1604.02612 [cs.CL].
^ ab Zucco, Chiara; Calabrese, Barbara; Cannataro, Mario (noviembre de 2017). "Análisis de sentimientos y computación afectiva para el monitoreo de la depresión". Conferencia internacional IEEE sobre bioinformática y biomedicina (BIBM) de 2017. IEEE. págs. 1988–1995. doi :10.1109/bibm.2017.8217966. ISBN . 978-1-5090-3050-7. Número de identificación del sujeto 24408937.
^ Pang, Bo; Lee, Lillian (2008). Minería de opiniones y análisis de sentimientos . Hanover, MA: Now Publishers. ISBN 978-1601981509.
^ ab Sun, Shiliang; Luo, Chen; Chen, Junyu (julio de 2017). "Una revisión de las técnicas de procesamiento del lenguaje natural para sistemas de minería de opiniones". Information Fusion . 36 : 10–25. doi :10.1016/j.inffus.2016.10.004.
^ Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 de mayo de 2017). "Estado actual del análisis de sentimientos de texto, desde la opinión hasta la minería de emociones". Encuestas de computación de ACM . 50 (2): 1–33. doi :10.1145/3057270. S2CID 5275807.
^ ab Perez Rosas, Verónica; Mihalcea, Rada; Morency, Louis-Philippe (mayo de 2013). "Análisis de sentimiento multimodal de vídeos online en español". IEEE Intelligent Systems . 28 (3): 38–45. doi :10.1109/MIS.2013.9. S2CID 1132247.
^ Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (marzo de 2015). "Hacia un marco inteligente para el análisis de datos afectivos multimodales". Redes neuronales . 63 : 104–116. doi :10.1016/j.neunet.2014.10.005. hdl : 1893/21310 . PMID 25523041. S2CID 342649.
^ Chung-Hsien Wu; Wei-Bin Liang (enero de 2011). "Reconocimiento de emociones del habla afectiva basado en clasificadores múltiples que utilizan información acústico-prosódica y etiquetas semánticas". IEEE Transactions on Affective Computing . 2 (1): 10–21. doi :10.1109/T-AFFC.2010.16. S2CID 52853112.
^ Eyben, Florian; Wöllmer, Martin; Schuller, Björn (2009). "OpenEAR — Introducción al kit de herramientas de código abierto de reconocimiento de emociones y afectos de Múnich". OpenEAR — Introducción al kit de herramientas de código abierto de reconocimiento de emociones y afectos de Múnich - Publicación de la conferencia IEEE. pág. 1. doi :10.1109/ACII.2009.5349350. ISBN 978-1-4244-4800-5.S2CID2081569 .
^ Morency, Louis-Philippe; Mihalcea, Rada; Doshi, Payal (14 de noviembre de 2011). "Hacia un análisis de sentimientos multimodal". Hacia un análisis de sentimientos multimodal: recopilación de opiniones de la web . ACM. págs. 169–176. doi :10.1145/2070481.2070509. ISBN 9781450306416.S2CID1257599 .
^ Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Análisis de sentimientos dependiente del contexto en videos generados por el usuario". Actas de la 55.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) : 873–883. doi : 10.18653/v1/p17-1081 .
^ OpenFace: Un conjunto de herramientas de código abierto para el análisis del comportamiento facial - Publicación de la conferencia IEEE. Marzo de 2016. doi :10.1109/WACV.2016.7477553. ISBN 978-1-5090-0641-0.S2CID1919851 .
^ ab Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (enero de 2016). "Fusionando pistas auditivas, visuales y textuales para el análisis de sentimientos a partir de contenido multimodal". Neurocomputing . 174 : 50–59. doi :10.1016/j.neucom.2015.01.095. S2CID 15287807.
^ Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Explotación de la teoría evidencial en la fusión de modalidades textuales, auditivas y visuales para la recuperación afectiva de videos musicales - Publicación de la conferencia IEEE". doi :10.1109/PRIA.2017.7983051. S2CID 24466718. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (octubre de 2017). "Aplicación en conjunto de redes neuronales convolucionales y aprendizaje de núcleos múltiples para análisis de sentimientos multimodales". Neurocomputing . 261 : 217–230. doi :10.1016/j.neucom.2016.09.117.
^ Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 de enero de 2013). "Utterance-level multimodal sentiment analysis". Long Papers . Asociación de Lingüística Computacional (ACL).
^ Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notas desde la frontera de la IA. Perspectivas de cientos de casos de uso". McKinsey & Company . Consultado el 13 de junio de 2018 .
^ Ellis, Joseph G.; Jou, Brendan; Chang, Shih-Fu (12 de noviembre de 2014). "Por qué vemos las noticias". Por qué vemos las noticias: un conjunto de datos para explorar el sentimiento en las noticias transmitidas en video . ACM. págs. 104-111. doi :10.1145/2663204.2663237. ISBN. 9781450328852.S2CID14112246 .