El análisis de sentimientos (también conocido como minería de opiniones o inteligencia artificial de emociones ) es el uso del procesamiento del lenguaje natural , el análisis de texto , la lingüística computacional y la biometría para identificar, extraer, cuantificar y estudiar sistemáticamente los estados afectivos y la información subjetiva. El análisis de sentimientos se aplica ampliamente a los materiales de voz del cliente , como reseñas y respuestas de encuestas, medios sociales y en línea, y materiales de atención médica para aplicaciones que van desde el marketing hasta el servicio al cliente y la medicina clínica. Con el auge de los modelos de lenguaje profundo, como RoBERTa , también se pueden analizar dominios de datos más difíciles, por ejemplo, textos de noticias donde los autores suelen expresar su opinión/sentimiento de forma menos explícita. [1]
Una tarea básica en el análisis de sentimientos es clasificar la polaridad de un texto determinado a nivel de documento, oración o característica/aspecto: si la opinión expresada en un documento, una oración o una característica/aspecto de una entidad es positiva, negativa o neutral. La clasificación avanzada de sentimientos "más allá de la polaridad" analiza, por ejemplo, estados emocionales como el disfrute, la ira, el disgusto, la tristeza, el miedo y la sorpresa. [2]
Entre los precursores del análisis sentimental se incluyen el General Inquirer, [3] que proporcionó pistas para cuantificar patrones en el texto y, por separado, la investigación psicológica que examinó el estado psicológico de una persona basándose en el análisis de su comportamiento verbal. [4]
Posteriormente, el método descrito en una patente de Volcani y Fogel [5] se centró específicamente en el sentimiento e identificó palabras y frases individuales en el texto con respecto a diferentes escalas emocionales. Un sistema actual basado en su trabajo, llamado EffectCheck, presenta sinónimos que se pueden utilizar para aumentar o disminuir el nivel de emoción evocada en cada escala.
Muchos otros esfuerzos posteriores fueron menos sofisticados, utilizando una mera visión polar del sentimiento, de positivo a negativo, como el trabajo de Turney, [6] y Pang [7] que aplicaron diferentes métodos para detectar la polaridad de las críticas de productos y críticas de películas respectivamente. Este trabajo se realiza a nivel de documento. También se puede clasificar la polaridad de un documento en una escala de múltiples vías, lo que intentaron Pang [8] y Snyder [9] entre otros: Pang y Lee [8] ampliaron la tarea básica de clasificar una crítica de película como positiva o negativa para predecir calificaciones de estrellas en una escala de 3 o 4 estrellas, mientras que Snyder [9] realizó un análisis en profundidad de las críticas de restaurantes, prediciendo calificaciones para varios aspectos del restaurante en cuestión, como la comida y la atmósfera (en una escala de cinco estrellas).
Los primeros pasos para reunir diversos enfoques (de aprendizaje, léxicos, basados en el conocimiento, etc.) se dieron en el Simposio de Primavera de la AAAI de 2004 , donde lingüistas, científicos informáticos y otros investigadores interesados alinearon por primera vez sus intereses y propusieron tareas compartidas y conjuntos de datos de referencia para la investigación computacional sistemática sobre el afecto, el atractivo, la subjetividad y el sentimiento en el texto. [10]
Aunque en la mayoría de los métodos de clasificación estadística se ignora la clase neutral bajo el supuesto de que los textos neutrales se encuentran cerca del límite del clasificador binario, varios investigadores sugieren que, como en todo problema de polaridad, se deben identificar tres categorías. Además, se puede demostrar que clasificadores específicos como Max Entropy [11] y SVMs [12] pueden beneficiarse de la introducción de una clase neutral y mejorar la precisión general de la clasificación. En principio, hay dos formas de operar con una clase neutral. O bien, el algoritmo procede primero identificando el idioma neutral, filtrándolo y luego evaluando el resto en términos de sentimientos positivos y negativos, o construye una clasificación de tres vías en un solo paso. [13] Este segundo enfoque a menudo implica estimar una distribución de probabilidad sobre todas las categorías (por ejemplo, clasificadores Bayes ingenuos como los implementados por NLTK ). Si se usa o no una clase neutral depende de la naturaleza de los datos: si los datos están claramente agrupados en idioma neutral, negativo y positivo, tiene sentido filtrar el idioma neutral y centrarse en la polaridad entre los sentimientos positivos y negativos. Si, por el contrario, los datos son en su mayoría neutrales, con pequeñas desviaciones hacia los afectos positivos y negativos, esta estrategia haría más difícil distinguir claramente entre los dos polos.
Un método diferente para determinar el sentimiento es el uso de un sistema de escala mediante el cual a las palabras comúnmente asociadas con tener un sentimiento negativo, neutral o positivo se les asigna un número asociado en una escala de −10 a +10 (más negativo hasta más positivo) o simplemente de 0 a un límite superior positivo como +4. Esto hace posible ajustar el sentimiento de un término dado en relación con su entorno (generalmente en el nivel de la oración). Cuando se analiza un fragmento de texto no estructurado utilizando el procesamiento del lenguaje natural , a cada concepto en el entorno especificado se le asigna una puntuación basada en la forma en que las palabras de sentimiento se relacionan con el concepto y su puntuación asociada. [14] [15] Esto permite el movimiento hacia una comprensión más sofisticada del sentimiento, porque ahora es posible ajustar el valor de sentimiento de un concepto en relación con las modificaciones que pueden rodearlo. Las palabras, por ejemplo, que intensifican, relajan o niegan el sentimiento expresado por el concepto pueden afectar su puntuación. Alternativamente, a los textos se les puede dar una puntuación de fuerza de sentimiento positiva y negativa si el objetivo es determinar el sentimiento en un texto en lugar de la polaridad y fuerza generales del texto. [16]
Existen otros tipos de análisis de sentimientos, como el análisis de sentimientos basado en aspectos, el análisis de sentimientos con clasificación (positiva, negativa, neutral), el análisis de sentimientos multilingüe y la detección de emociones.
Esta tarea se define comúnmente como la clasificación de un texto dado (normalmente una oración) en una de dos clases: objetivo o subjetivo. [17] Este problema a veces puede ser más difícil que la clasificación por polaridad. [18] La subjetividad de las palabras y frases puede depender de su contexto y un documento objetivo puede contener oraciones subjetivas (por ejemplo, un artículo de noticias que cita las opiniones de la gente). Además, como menciona Su, [19] los resultados dependen en gran medida de la definición de subjetividad utilizada al anotar textos. Sin embargo, Pang [20] demostró que eliminar oraciones objetivas de un documento antes de clasificar su polaridad ayudó a mejorar el rendimiento.
Identificación subjetiva y objetiva, subtareas emergentes del análisis de sentimientos que utilizan características sintácticas y semánticas y conocimientos de aprendizaje automático para identificar si una oración o documento contiene hechos u opiniones. La conciencia de reconocer hechos y opiniones no es reciente, posiblemente presentada por primera vez por Carbonell en la Universidad de Yale en 1979. [ aclarar ]
El término objetivo se refiere al incidente que contiene información fáctica. [21]
El término subjetivo describe el incidente que contiene información no fáctica en varias formas, como opiniones personales, juicios y predicciones, también conocidas como "estados privados". [22] En el ejemplo que se muestra a continuación, refleja un estado privado "Nosotros, los estadounidenses". Además, la entidad objetivo comentada por las opiniones puede adoptar varias formas, desde un producto tangible hasta temas intangibles, como se indica en Liu (2010). [23] Además, Liu (2010) observó tres tipos de actitudes: 1) opiniones positivas, 2) opiniones neutrales y 3) opiniones negativas. [23]
Este análisis es un problema de clasificación. [24]
Las colecciones de indicadores de palabras o frases de cada clase se definen para localizar patrones deseables en texto no anotado. Para la expresión subjetiva, se ha creado una lista de palabras diferente. Múltiples investigadores en el campo de la lingüística y el procesamiento del lenguaje natural han desarrollado listas de indicadores subjetivos en palabras o frases, como afirma Riloff et al. (2003). [25] Se debe crear un diccionario de reglas de extracción para medir expresiones dadas. A lo largo de los años, en la detección subjetiva, la extracción de características progresó desde la curación de características a mano hasta el aprendizaje automático de características. En la actualidad, los métodos de aprendizaje automático pueden separarse aún más en aprendizaje automático supervisado y no supervisado . La extracción de patrones con el proceso de aprendizaje automático de texto anotado y no anotado ha sido explorada ampliamente por investigadores académicos.
Sin embargo, los investigadores reconocieron varios desafíos en el desarrollo de conjuntos fijos de reglas para expresiones respetables. Gran parte de los desafíos en el desarrollo de reglas se derivan de la naturaleza de la información textual. Varios investigadores han reconocido seis desafíos: 1) expresiones metafóricas, 2) discrepancias en los escritos, 3) sensibilidad al contexto, 4) palabras representadas con menos usos, 5) sensibilidad al tiempo y 6) volumen cada vez mayor.
Anteriormente, la investigación se centraba principalmente en la clasificación a nivel de documento. Sin embargo, la clasificación a nivel de documento es menos precisa, ya que un artículo puede tener diversos tipos de expresiones involucradas. La evidencia de la investigación sugiere un conjunto de artículos de noticias en los que se espera que predomine la expresión objetiva, mientras que los resultados muestran que consistía en más del 40% de expresión subjetiva. [21]
Para superar estos desafíos, los investigadores concluyen que la eficacia del clasificador depende de la precisión de los patrones que aprende el alumno. Y el aprendizaje alimentado con grandes volúmenes de datos de entrenamiento anotados superó a los entrenados con características subjetivas menos completas. Sin embargo, uno de los principales obstáculos para ejecutar este tipo de trabajo es generar un gran conjunto de datos de oraciones anotadas manualmente. El método de anotación manual ha sido menos favorecido que el aprendizaje automático por tres razones:
Todas estas razones mencionadas pueden afectar la eficiencia y la eficacia de la clasificación subjetiva y objetiva. Por consiguiente, se diseñaron dos métodos de arranque para aprender patrones lingüísticos a partir de datos de texto sin anotaciones. Ambos métodos comienzan con un puñado de palabras semilla y datos de texto sin anotaciones.
En general, estos algoritmos resaltan la necesidad de reconocimiento y extracción automáticos de patrones en tareas subjetivas y objetivas.
Los clasificadores subjetivos y de objetos pueden mejorar las diversas aplicaciones del procesamiento del lenguaje natural. Uno de los principales beneficios del clasificador es que popularizó la práctica de los procesos de toma de decisiones basados en datos en diversas industrias. Según Liu, las aplicaciones de la identificación subjetiva y objetiva se han implementado en los negocios, la publicidad, los deportes y las ciencias sociales. [30]
Se refiere a determinar las opiniones o sentimientos expresados sobre diferentes características o aspectos de entidades, por ejemplo, de un teléfono celular, una cámara digital o un banco. [35] Una característica o aspecto es un atributo o componente de una entidad, por ejemplo, la pantalla de un teléfono celular, el servicio de un restaurante o la calidad de imagen de una cámara. La ventaja del análisis de sentimientos basado en características es la posibilidad de capturar matices sobre los objetos de interés. Diferentes características pueden generar diferentes respuestas de sentimiento, por ejemplo, un hotel puede tener una ubicación conveniente, pero comida mediocre. [36] Este problema involucra varios subproblemas, por ejemplo, identificar entidades relevantes, extraer sus características/aspectos y determinar si una opinión expresada sobre cada característica/aspecto es positiva, negativa o neutral. [37] La identificación automática de características se puede realizar con métodos sintácticos, con modelado de temas , [38] [39] o con aprendizaje profundo . [40] [41] Se pueden encontrar discusiones más detalladas sobre este nivel de análisis de sentimientos en el trabajo de Liu. [23]
Las emociones y los sentimientos son de naturaleza subjetiva . El grado de emociones/sentimientos expresados en un texto determinado a nivel de documento, oración o característica/aspecto (el grado de intensidad expresado en la opinión sobre un documento, una oración o una entidad) difiere de un caso a otro. [42] Sin embargo, predecir solo la emoción y el sentimiento no siempre transmite información completa. El grado o nivel de emociones y sentimientos a menudo juega un papel crucial en la comprensión del sentimiento exacto dentro de una sola clase (por ejemplo, "bueno" versus "impresionante"). Algunos métodos aprovechan un método de conjunto apilado [43] para predecir la intensidad de la emoción y el sentimiento combinando los resultados obtenidos y utilizando modelos de aprendizaje profundo basados en redes neuronales convolucionales , [44] redes de memoria a corto plazo y unidades recurrentes bloqueadas . [45]
Los enfoques existentes para el análisis de sentimientos se pueden agrupar en tres categorías principales: técnicas basadas en el conocimiento, métodos estadísticos y enfoques híbridos. [46] Las técnicas basadas en el conocimiento clasifican el texto por categorías de afecto basadas en la presencia de palabras de afecto inequívocas como feliz, triste, asustado y aburrido. [47] Algunas bases de conocimiento no solo enumeran palabras de afecto obvias, sino que también asignan a palabras arbitrarias una "afinidad" probable con emociones particulares. [48] Los métodos estadísticos aprovechan elementos del aprendizaje automático como el análisis semántico latente , las máquinas de vectores de soporte , la " bolsa de palabras ", la " información mutua puntual " para la orientación semántica, [6] los modelos de espacio semántico o modelos de incrustación de palabras , [49] y el aprendizaje profundo . Los métodos más sofisticados intentan detectar al titular de un sentimiento (es decir, la persona que mantiene ese estado afectivo) y el objetivo (es decir, la entidad sobre la que se siente el afecto). [50] Para extraer la opinión en contexto y obtener la característica sobre la que el hablante ha opinado, se utilizan las relaciones gramaticales de las palabras. Las relaciones de dependencia gramatical se obtienen mediante un análisis profundo del texto. [51] Los enfoques híbridos aprovechan tanto el aprendizaje automático como los elementos de la representación del conocimiento, como las ontologías y las redes semánticas, para detectar semánticas que se expresan de manera sutil, por ejemplo, a través del análisis de conceptos que no transmiten explícitamente información relevante, pero que están vinculados implícitamente a otros conceptos que sí lo hacen. [52]
Las herramientas de software de código abierto, así como una variedad de herramientas de análisis de sentimientos gratuitas y pagas, implementan técnicas de aprendizaje automático , estadísticas y procesamiento del lenguaje natural para automatizar el análisis de sentimientos en grandes colecciones de textos, incluidas páginas web, noticias en línea, grupos de discusión de Internet, reseñas en línea, blogs web y redes sociales. [53] Los sistemas basados en el conocimiento, por otro lado, hacen uso de recursos disponibles públicamente para extraer la información semántica y afectiva asociada con los conceptos del lenguaje natural. El sistema puede ayudar a realizar un razonamiento de sentido común afectivo . [54] El análisis de sentimientos también se puede realizar en contenido visual, es decir, imágenes y videos (ver Análisis de sentimientos multimodal ). Uno de los primeros enfoques en esta dirección es SentiBank [55] que utiliza una representación de pares adjetivo-sustantivo del contenido visual. Además, la gran mayoría de los enfoques de clasificación de sentimientos se basan en el modelo de bolsa de palabras, que ignora el contexto, la gramática e incluso el orden de las palabras . Los enfoques que analizan el sentimiento basándose en cómo las palabras componen el significado de frases más largas han mostrado mejores resultados, [56] pero implican una sobrecarga de anotación adicional.
En el análisis de sentimientos se requiere un componente de análisis humano, ya que los sistemas automatizados no pueden analizar las tendencias históricas de los comentaristas individuales o de la plataforma y, a menudo, se clasifican incorrectamente en sus sentimientos expresados. La automatización afecta aproximadamente al 23 % de los comentarios que son clasificados correctamente por humanos. [57] Sin embargo, los humanos a menudo no están de acuerdo, y se argumenta que el acuerdo entre humanos proporciona un límite superior que los clasificadores de sentimientos automatizados pueden alcanzar eventualmente. [58]
La precisión de un sistema de análisis de sentimientos es, en principio, lo bien que concuerda con los juicios humanos. Esto se mide generalmente mediante medidas de variantes basadas en la precisión y la recuperación de las dos categorías objetivo de textos negativos y positivos. Sin embargo, según la investigación, los evaluadores humanos normalmente solo concuerdan alrededor del 80% [59] del tiempo (consulte Fiabilidad entre evaluadores ). Por lo tanto, un programa que logra una precisión del 70% en la clasificación de sentimientos lo hace casi tan bien como los humanos, aunque tal precisión puede no parecer impresionante. Si un programa "tuviera razón" el 100% del tiempo, los humanos seguirían estando en desacuerdo con él alrededor del 20% del tiempo, ya que discrepan tanto sobre cualquier respuesta. [ cita requerida ]
Por otra parte, los sistemas informáticos cometen errores muy diferentes a los de los evaluadores humanos, por lo que las cifras no son totalmente comparables. Por ejemplo, un sistema informático tendrá problemas con las negaciones, las exageraciones, los chistes o el sarcasmo, que normalmente son fáciles de manejar para un lector humano: algunos errores que comete un sistema informático le parecerán demasiado ingenuos a un humano. En general, se ha puesto en tela de juicio la utilidad para las tareas comerciales prácticas del análisis de sentimientos tal como se define en la investigación académica, sobre todo porque el modelo unidimensional simple de sentimiento de negativo a positivo produce muy poca información procesable para un cliente preocupado por el efecto del discurso público sobre, por ejemplo, la marca o la reputación corporativa. [60] [61] [62]
Para adaptarse mejor a las necesidades del mercado, la evaluación del análisis de sentimientos se ha trasladado a medidas más basadas en tareas, formuladas en conjunto con representantes de agencias de relaciones públicas y profesionales de la investigación de mercado. El enfoque en, por ejemplo, el conjunto de datos de evaluación de RepLab se centra menos en el contenido del texto en cuestión y más en el efecto del texto en cuestión sobre la reputación de la marca . [63] [64] [65]
Debido a que la evaluación del análisis de sentimientos se basa cada vez más en tareas, cada implementación necesita un modelo de entrenamiento separado para obtener una representación más precisa del sentimiento para un conjunto de datos determinado.
El auge de las redes sociales, como los blogs y las redes sociales, ha alimentado el interés por el análisis de sentimientos. Con la proliferación de reseñas, calificaciones, recomendaciones y otras formas de expresión en línea, la opinión en línea se ha convertido en una especie de moneda virtual para las empresas que buscan comercializar sus productos, identificar nuevas oportunidades y gestionar su reputación. A medida que las empresas buscan automatizar el proceso de filtrar el ruido, comprender las conversaciones, identificar el contenido relevante y actuar en consecuencia, muchas están recurriendo ahora al campo del análisis de sentimientos. [66] Para complicar aún más el asunto, está el auge de las plataformas de redes sociales anónimas como 4chan y Reddit . [67] Si la web 2.0 se centraba en democratizar la publicación, entonces la siguiente etapa de la web bien podría basarse en democratizar la minería de datos de todo el contenido que se publica. [68]
Un paso hacia este objetivo se está dando en el ámbito de la investigación. Varios equipos de investigación de universidades de todo el mundo se centran actualmente en comprender la dinámica de los sentimientos en las comunidades electrónicas mediante el análisis de sentimientos. [69]
El problema es que la mayoría de los algoritmos de análisis de sentimientos utilizan términos simples para expresar sentimientos sobre un producto o servicio. Sin embargo, los factores culturales, los matices lingüísticos y los diferentes contextos hacen que sea extremadamente difícil convertir una cadena de texto escrito en un simple sentimiento a favor o en contra. [66] El hecho de que los humanos a menudo no estén de acuerdo sobre el sentimiento del texto ilustra la enorme tarea que supone para las computadoras hacerlo bien. Cuanto más corta sea la cadena de texto, más difícil se vuelve.
Aunque las cadenas de texto cortas pueden ser un problema, el análisis de sentimientos en el microblogging ha demostrado que Twitter puede ser visto como un indicador válido en línea del sentimiento político. El sentimiento político de los tweets demuestra una estrecha correspondencia con las posiciones políticas de los partidos y los políticos, lo que indica que el contenido de los mensajes de Twitter refleja de manera plausible el panorama político fuera de línea. [70] Además, se ha demostrado que el análisis de sentimientos en Twitter también captura el estado de ánimo público detrás de los ciclos de reproducción humana a nivel mundial, [71] así como otros problemas de relevancia para la salud pública, como las reacciones adversas a los medicamentos. [72]
Si bien el análisis de sentimientos ha sido popular en los ámbitos en los que los autores expresan su opinión de forma bastante explícita ("la película es increíble"), como las redes sociales y las reseñas de productos, recién hace poco se idearon métodos sólidos para otros ámbitos en los que el sentimiento es fuertemente implícito o indirecto. Por ejemplo, en los artículos de noticias (debido principalmente a la objetividad periodística esperada), los periodistas a menudo describen acciones o eventos en lugar de indicar directamente la polaridad de una pieza de información. Los enfoques anteriores que utilizaban diccionarios o funciones de aprendizaje automático superficial no podían captar el "significado entre líneas", pero recientemente los investigadores han propuesto un enfoque y un conjunto de datos basados en el aprendizaje profundo que pueden analizar el sentimiento en los artículos de noticias. [1]
Los investigadores han utilizado el análisis de sentimientos para analizar los tweets sobre seguridad y salud en la construcción (que ahora se denominan X). La investigación reveló que existe una correlación positiva entre los favoritos y los retuits en términos de valencia de sentimiento. Otros han examinado el impacto de YouTube en la difusión de conocimientos sobre seguridad y salud en la construcción. Investigaron cómo las emociones influyen en los comportamientos de los usuarios en términos de visualización y comentarios a través del análisis semántico. En otro estudio, el sentimiento positivo representó una cifra abrumadora del 85% en el intercambio de conocimientos sobre seguridad y salud en la construcción a través de Instagram. [73]
Se ha demostrado que el análisis de sentimientos es una técnica valiosa para un sistema de recomendación . Un sistema de recomendación tiene como objetivo predecir la preferencia por un elemento de un usuario objetivo. Los sistemas de recomendación convencionales funcionan con un conjunto de datos explícitos. Por ejemplo, el filtrado colaborativo funciona con la matriz de calificación y el filtrado basado en contenido funciona con los metadatos de los elementos.
En muchos servicios de redes sociales o sitios web de comercio electrónico , los usuarios pueden proporcionar reseñas de texto, comentarios o retroalimentación sobre los artículos. Estos textos generados por el usuario proporcionan una rica fuente de opiniones de los usuarios sobre numerosos productos y artículos. Potencialmente, para un artículo, dicho texto puede revelar tanto las características/aspectos relacionados del artículo como los sentimientos de los usuarios sobre cada característica. [74] Las características/aspectos del artículo descritos en el texto juegan el mismo papel que los metadatos en el filtrado basado en contenido , pero los primeros son más valiosos para el sistema de recomendación. Dado que los usuarios mencionan ampliamente estas características en sus reseñas, pueden verse como las características más cruciales que pueden influir significativamente en la experiencia del usuario sobre el artículo, mientras que los metadatos del artículo (generalmente proporcionados por los productores en lugar de los consumidores) pueden ignorar las características que preocupan a los usuarios. Para diferentes artículos con características comunes, un usuario puede dar diferentes sentimientos. Además, una característica del mismo artículo puede recibir diferentes sentimientos de diferentes usuarios. Los sentimientos de los usuarios sobre las características pueden considerarse como una puntuación de calificación multidimensional, que refleja sus preferencias sobre los elementos.
En función de las características/aspectos y los sentimientos extraídos del texto generado por el usuario, se puede construir un sistema de recomendación híbrido. [75] Hay dos tipos de motivación para recomendar un elemento candidato a un usuario. La primera motivación es que el elemento candidato tiene numerosas características comunes con los elementos preferidos del usuario, [76] mientras que la segunda motivación es que el elemento candidato recibe un alto sentimiento sobre sus características. Para un elemento preferido, es razonable creer que los elementos con las mismas características tendrán una función o utilidad similar. Por lo tanto, es probable que estos elementos también sean preferidos por el usuario. Por otro lado, para una característica compartida de dos elementos candidatos, otros usuarios pueden dar un sentimiento positivo a uno de ellos mientras que dan un sentimiento negativo a otro. Claramente, el elemento mejor evaluado debería ser recomendado al usuario. En función de estas dos motivaciones, se puede construir una puntuación de clasificación combinada de similitud y calificación de sentimiento para cada elemento candidato. [75]
Aparte de la dificultad del análisis de sentimientos en sí, la aplicación del análisis de sentimientos en las reseñas o comentarios también se enfrenta al desafío del spam y las reseñas sesgadas. Una dirección de trabajo se centra en evaluar la utilidad de cada reseña. [77] Una reseña o un comentario mal escrito no es de mucha ayuda para el sistema de recomendación. Además, una reseña puede estar diseñada para obstaculizar las ventas de un producto objetivo, lo que puede ser perjudicial para el sistema de recomendación incluso si está bien escrita.
Los investigadores también descubrieron que las formas largas y cortas de texto generado por el usuario deberían tratarse de manera diferente. Un resultado interesante muestra que las reseñas en formato corto a veces son más útiles que las de formato largo, [78] porque es más fácil filtrar el ruido en un texto de formato corto. En el caso del texto de formato largo, la creciente longitud del texto no siempre trae consigo un aumento proporcional en la cantidad de características o sentimientos en el texto.
Lamba y Madhusudhan [79] presentan una forma innovadora de satisfacer las necesidades de información de los usuarios de bibliotecas actuales, reorganizando los resultados del análisis de sentimientos de plataformas de redes sociales como Twitter y brindándolos como un servicio consolidado basado en el tiempo en diferentes formatos. Además, proponen una nueva forma de realizar marketing en bibliotecas utilizando la minería de datos de redes sociales y el análisis de sentimientos.