El análisis de sentimiento multimodal es una tecnología para el análisis de sentimiento tradicional basado en texto , que incluye modalidades como datos de audio y visuales. [1] Puede ser bimodal, que incluye diferentes combinaciones de dos modalidades, o trimodal, que incorpora tres modalidades. [2] Con la gran cantidad de datos de redes sociales disponibles en línea en diferentes formas, como videos e imágenes, el análisis de sentimiento convencional basado en texto ha evolucionado hacia modelos más complejos de análisis de sentimiento multimodal, [3] que se pueden aplicar en el desarrollo. de asistentes virtuales , [4] análisis de reseñas de películas de YouTube, [5] análisis de videos de noticias, [6] y reconocimiento de emociones (a veces conocido como detección de emociones ) como monitoreo de depresión , [7] entre otros.
De manera similar al análisis de sentimientos tradicional , una de las tareas más básicas en el análisis de sentimientos multimodal es la clasificación de sentimientos , que clasifica diferentes sentimientos en categorías como positivo, negativo o neutral. [8] La complejidad de analizar características de texto, audio y visuales para realizar tal tarea requiere la aplicación de diferentes técnicas de fusión, como la fusión híbrida, de nivel de decisión y de nivel de característica. [3] El rendimiento de estas técnicas de fusión y los algoritmos de clasificación aplicados están influenciados por el tipo de características textuales, de audio y visuales empleadas en el análisis. [9]
La ingeniería de funciones , que implica la selección de funciones que se incorporan a los algoritmos de aprendizaje automático , desempeña un papel clave en el rendimiento de la clasificación de sentimientos. [9] En el análisis de sentimiento multimodal, se emplea una combinación de diferentes características textuales, de audio y visuales. [3]
De manera similar al análisis de sentimientos basado en texto convencional , algunas de las características textuales más utilizadas en el análisis de sentimientos multimodal son unigramas y n-gramas , que son básicamente una secuencia de palabras en un documento textual determinado. [10] Estas características se aplican utilizando representaciones de características de bolsa de palabras o bolsa de conceptos, en las que las palabras o conceptos se representan como vectores en un espacio adecuado. [11] [12]
Las características de sentimiento y emoción son prominentes en diferentes propiedades fonéticas y prosódicas contenidas en las características de audio. [13] Algunas de las características de audio más importantes empleadas en el análisis de sentimiento multimodal son el cepstrum de frecuencia de fusión (MFCC) , el centroide espectral , el flujo espectral , el histograma de latidos, la suma de los latidos, el latido más fuerte, la duración de la pausa y el tono . [3] OpenSMILE [14] y Praat son kits de herramientas populares de código abierto para extraer dichas funciones de audio. [15]
Una de las principales ventajas de analizar vídeos con respecto únicamente a los textos es la presencia de ricas señales de sentimiento en los datos visuales. [16] Las características visuales incluyen las expresiones faciales , que son de suma importancia para capturar sentimientos y emociones , ya que son un canal principal para formar el estado mental actual de una persona. [3] Específicamente, la sonrisa se considera una de las señales visuales más predictivas en el análisis de sentimiento multimodal. [11] OpenFace es un conjunto de herramientas de análisis facial de código abierto disponible para extraer y comprender dichas características visuales. [17]
A diferencia del análisis de sentimiento tradicional basado en texto , el análisis de sentimiento multimodal se somete a un proceso de fusión en el que los datos de diferentes modalidades (texto, audio o visual) se fusionan y analizan juntos. [3] Los enfoques existentes en la fusión de datos de análisis de sentimiento multimodal se pueden agrupar en tres categorías principales: nivel de característica, nivel de decisión y fusión híbrida, y el rendimiento de la clasificación de sentimiento depende del tipo de técnica de fusión que se emplee. [3]
La fusión a nivel de características (a veces conocida como fusión temprana) reúne todas las características de cada modalidad (texto, audio o visual) y las une en un único vector de características, que finalmente se introduce en un algoritmo de clasificación. [18] Una de las dificultades en la implementación de esta técnica es la integración de las características heterogéneas. [3]
La fusión a nivel de decisión (a veces conocida como fusión tardía) alimenta datos de cada modalidad (texto, audio o visual) de forma independiente en su propio algoritmo de clasificación y obtiene los resultados finales de la clasificación de sentimientos fusionando cada resultado en un único vector de decisión. [18] Una de las ventajas de esta técnica de fusión es que elimina la necesidad de fusionar datos heterogéneos y cada modalidad puede utilizar su algoritmo de clasificación más apropiado . [3]
La fusión híbrida es una combinación de técnicas de fusión a nivel de características y de decisión, que explota información complementaria de ambos métodos durante el proceso de clasificación. [5] Por lo general, implica un procedimiento de dos pasos en el que la fusión a nivel de características se realiza inicialmente entre dos modalidades, y luego se aplica la fusión a nivel de decisión como un segundo paso, para fusionar los resultados iniciales de la fusión a nivel de características, con el modalidad restante . [19] [20]
De manera similar al análisis de sentimiento basado en texto, el análisis de sentimiento multimodal se puede aplicar en el desarrollo de diferentes formas de sistemas de recomendación , como en el análisis de videos de reseñas de películas generados por usuarios [5] y reseñas generales de productos, [21] para predecir el sentimientos de los clientes y, posteriormente, crear recomendaciones de productos o servicios. [22] El análisis de sentimiento multimodal también juega un papel importante en el avance de los asistentes virtuales mediante la aplicación de procesamiento del lenguaje natural (NLP) y técnicas de aprendizaje automático . [4] En el ámbito de la atención médica, el análisis de sentimiento multimodal se puede utilizar para detectar ciertas condiciones médicas como estrés , ansiedad o depresión . [7] El análisis de sentimientos multimodal también se puede aplicar para comprender los sentimientos contenidos en los programas de noticias en vídeo, lo que se considera un dominio complicado y desafiante, ya que los sentimientos expresados por los reporteros tienden a ser menos obvios o neutrales. [23]
{{cite journal}}
: Citar diario requiere |journal=
( ayuda )