El resumen automático es el proceso de acortar computacionalmente un conjunto de datos para crear un subconjunto (un resumen ) que represente la información más importante o relevante dentro del contenido original. Para lograrlo, se suelen desarrollar y emplear algoritmos de inteligencia artificial especializados para distintos tipos de datos.
El resumen de texto generalmente se implementa mediante métodos de procesamiento de lenguaje natural , diseñados para localizar las oraciones más informativas en un documento determinado. [1] Por otro lado, el contenido visual se puede resumir utilizando algoritmos de visión artificial . El resumen de imágenes es objeto de investigación en curso; los enfoques existentes normalmente intentan mostrar las imágenes más representativas de una colección de imágenes dada, o generar un vídeo que solo incluya el contenido más importante de toda la colección. [2] [3] [4] Los algoritmos de resumen de vídeo identifican y extraen del contenido de vídeo original los fotogramas más importantes ( fotogramas clave ), y/o los segmentos de vídeo más importantes ( tomas clave ), normalmente de forma ordenada temporalmente. [5] [6] [7] [8] Los resúmenes de vídeo simplemente conservan un subconjunto cuidadosamente seleccionado de los fotogramas de vídeo originales y, por tanto, no son idénticos a la salida de los algoritmos de sinopsis de vídeo , donde se sintetizan nuevos fotogramas de vídeo basándose en el contenido de vídeo original.
En 2022, Google Docs lanzó una función de resumen automático. [9]
Hay dos enfoques generales para el resumen automático: extracción y abstracción .
En este caso, el contenido se extrae de los datos originales, pero no se modifica de ninguna manera. Entre los ejemplos de contenido extraído se incluyen frases clave que se pueden utilizar para "etiquetar" o indexar un documento de texto, u oraciones clave (incluidos los encabezados) que en conjunto forman un resumen, e imágenes o segmentos de vídeo representativos, como se indicó anteriormente. En el caso del texto, la extracción es análoga al proceso de lectura rápida, en el que se leen el resumen (si está disponible), los encabezados y subtítulos, las figuras, el primer y el último párrafo de una sección y, opcionalmente, la primera y la última oración de un párrafo antes de elegir leer el documento completo en detalle. [10] Otros ejemplos de extracción incluyen secuencias clave de texto en términos de relevancia clínica (incluidos el paciente/problema, la intervención y el resultado). [11]
Los métodos de resumen abstractivos generan texto nuevo que no existía en el texto original. [12] Esto se ha aplicado principalmente al texto. Los métodos abstractivos construyen una representación semántica interna del contenido original (a menudo llamada modelo de lenguaje) y luego usan esta representación para crear un resumen que se acerque más a lo que un humano podría expresar. La abstracción puede transformar el contenido extraído parafraseando secciones del documento fuente, para condensar un texto con más fuerza que la extracción. Sin embargo, dicha transformación es computacionalmente mucho más desafiante que la extracción, ya que involucra tanto el procesamiento del lenguaje natural como, a menudo, una comprensión profunda del dominio del texto original en los casos en que el documento original se relaciona con un campo especial de conocimiento. La "parafraseo" es aún más difícil de aplicar a imágenes y videos, por lo que la mayoría de los sistemas de resumen son extractivos.
Los métodos que apuntan a una mayor calidad de resumen se basan en la combinación de software y esfuerzo humano. En el resumen humano asistido por máquina, las técnicas de extracción resaltan los pasajes candidatos para su inclusión (a los que el humano agrega o elimina texto). En el resumen automático asistido por humano, un humano posprocesa el resultado del software, de la misma manera que se edita el resultado de la traducción automática de Google Translate.
Existen dos tipos generales de tareas de resumen extractivo, según en qué se centre el programa de resumen. El primero es el resumen genérico , que se centra en obtener un resumen o resumen genérico de la colección (ya sean documentos, conjuntos de imágenes, vídeos, noticias, etc.). El segundo es el resumen relevante para la consulta , a veces denominado resumen basado en consultas , que resume objetos específicos de una consulta. Los sistemas de resumen pueden crear tanto resúmenes de texto relevantes para la consulta como resúmenes genéricos generados por máquina, según las necesidades del usuario.
Un ejemplo de un problema de resumen es el resumen de documentos, que intenta producir automáticamente un resumen a partir de un documento determinado. A veces, a uno le puede interesar generar un resumen a partir de un único documento fuente, mientras que otros pueden utilizar varios documentos fuente (por ejemplo, un conjunto de artículos sobre el mismo tema). Este problema se denomina resumen de múltiples documentos . Una aplicación relacionada es el resumen de artículos de noticias. Imagine un sistema que reúne automáticamente artículos de noticias sobre un tema determinado (de la web) y representa de forma concisa las últimas noticias como un resumen.
El resumen de una colección de imágenes es otro ejemplo de aplicación del resumen automático. Consiste en seleccionar un conjunto representativo de imágenes de un conjunto más amplio de imágenes. [13] Un resumen en este contexto es útil para mostrar las imágenes más representativas de los resultados en un sistema de exploración de una colección de imágenes . El resumen de vídeo es un dominio relacionado, donde el sistema crea automáticamente un tráiler de un vídeo largo. Esto también tiene aplicaciones en vídeos personales o de consumo, donde uno podría querer omitir las acciones aburridas o repetitivas. De manera similar, en los vídeos de vigilancia, uno querría extraer actividad importante y sospechosa, mientras ignora todos los fotogramas aburridos y redundantes capturados.
En un nivel muy alto, los algoritmos de resumen intentan encontrar subconjuntos de objetos (como un conjunto de oraciones o un conjunto de imágenes) que cubran la información de todo el conjunto. Esto también se denomina conjunto central . Estos algoritmos modelan nociones como diversidad, cobertura, información y representatividad del resumen. Las técnicas de resumen basadas en consultas, además, modelan la relevancia del resumen con la consulta. Algunas técnicas y algoritmos que modelan naturalmente los problemas de resumen son TextRank y PageRank, la función de conjunto submodular , el proceso de punto determinante , la relevancia marginal máxima (MMR), etc.
La tarea es la siguiente. Se le proporciona un fragmento de texto, como un artículo de revista, y debe producir una lista de palabras clave o frases clave que capturen los temas principales discutidos en el texto. [14] En el caso de los artículos de investigación , muchos autores proporcionan palabras clave asignadas manualmente, pero la mayoría de los textos carecen de frases clave preexistentes. Por ejemplo, los artículos de noticias rara vez tienen frases clave adjuntas, pero sería útil poder hacerlo automáticamente para una serie de aplicaciones que se analizan a continuación. Considere el texto de ejemplo de un artículo de noticias:
Un extractor de frases clave podría seleccionar "Cuerpo de Ingenieros del Ejército", "Presidente Bush", "Nueva Orleans" y "bombas de control de inundaciones defectuosas" como frases clave. Estas se extraen directamente del texto. Por el contrario, un sistema de frases clave abstractivo internalizaría de algún modo el contenido y generaría frases clave que no aparecen en el texto, pero que se asemejarían más a lo que un humano podría producir, como "negligencia política" o "protección inadecuada contra inundaciones". La abstracción requiere una comprensión profunda del texto , lo que dificulta la tarea de un sistema informático. Las frases clave tienen muchas aplicaciones. Pueden permitir la exploración de documentos al proporcionar un breve resumen, mejorar la recuperación de información (si los documentos tienen frases clave asignadas, un usuario podría buscar por frase clave para producir resultados más confiables que una búsqueda de texto completo ) y emplearse para generar entradas de índice para un corpus de texto grande.
Dependiendo de la diferente literatura y la definición de términos, palabras o frases clave, la extracción de palabras clave es un tema muy relacionado.
A partir del trabajo de Turney, [15] muchos investigadores han abordado la extracción de frases clave como un problema de aprendizaje automático supervisado . Dado un documento, construimos un ejemplo para cada unigrama , bigrama y trigrama que se encuentre en el texto (aunque también son posibles otras unidades de texto, como se analiza a continuación). Luego calculamos varias características que describen cada ejemplo (por ejemplo, ¿la frase comienza con una letra mayúscula?). Suponemos que hay frases clave conocidas disponibles para un conjunto de documentos de entrenamiento. Usando las frases clave conocidas, podemos asignar etiquetas positivas o negativas a los ejemplos. Luego aprendemos un clasificador que puede discriminar entre ejemplos positivos y negativos como una función de las características. Algunos clasificadores hacen una clasificación binaria para un ejemplo de prueba, mientras que otros asignan una probabilidad de ser una frase clave. Por ejemplo, en el texto anterior, podríamos aprender una regla que diga que las frases con letras mayúsculas iniciales probablemente sean frases clave. Después de entrenar a un aprendiz, podemos seleccionar frases clave para documentos de prueba de la siguiente manera. Aplicamos la misma estrategia de generación de ejemplos a los documentos de prueba y luego ejecutamos cada ejemplo a través del aprendiz. Podemos determinar las frases clave al observar las decisiones de clasificación binaria o las probabilidades devueltas de nuestro modelo aprendido. Si se dan las probabilidades, se utiliza un umbral para seleccionar las frases clave. Los extractores de frases clave generalmente se evalúan utilizando precisión y recuperación . La precisión mide cuántas de las frases clave propuestas son realmente correctas. La recuperación mide cuántas de las frases clave verdaderas propuso su sistema. Las dos medidas se pueden combinar en un puntaje F, que es la media armónica de las dos ( F = 2 PR /( P + R ) ). Las coincidencias entre las frases clave propuestas y las frases clave conocidas se pueden verificar después de la derivación o la aplicación de alguna otra normalización de texto.
El diseño de un sistema de extracción supervisada de frases clave implica decidir entre varias opciones (algunas de ellas también se aplican a los sistemas no supervisados). La primera opción es exactamente cómo generar los ejemplos. Turney y otros han utilizado todos los unigramas, bigramas y trigramas posibles sin puntuación intermedia y después de eliminar las palabras vacías. Hulth demostró que se puede lograr cierta mejora seleccionando ejemplos que sean secuencias de tokens que coincidan con ciertos patrones de etiquetas de categorías gramaticales. Lo ideal es que el mecanismo para generar ejemplos produzca todas las frases clave etiquetadas conocidas como candidatas, aunque a menudo no es así. Por ejemplo, si utilizamos solo unigramas, bigramas y trigramas, nunca podremos extraer una frase clave conocida que contenga cuatro palabras. Por lo tanto, la recuperación puede verse afectada. Sin embargo, generar demasiados ejemplos también puede conducir a una baja precisión.
También necesitamos crear características que describan los ejemplos y sean lo suficientemente informativas para permitir que un algoritmo de aprendizaje discrimine las frases clave de las que no lo son. Normalmente, las características implican varias frecuencias de términos (cuántas veces aparece una frase en el texto actual o en un corpus más grande), la longitud del ejemplo, la posición relativa de la primera aparición, varias características sintácticas booleanas (por ejemplo, contiene todo en mayúsculas), etc. El artículo de Turney utilizó alrededor de 12 de esas características. Hulth utiliza un conjunto reducido de características, que se consideraron más exitosas en el trabajo KEA (algoritmo de extracción de frases clave) derivado del artículo seminal de Turney.
Al final, el sistema deberá devolver una lista de frases clave para un documento de prueba, por lo que necesitamos tener una forma de limitar el número. Se han utilizado métodos de conjunto (es decir, utilizando votos de varios clasificadores) para producir puntuaciones numéricas que se pueden umbralizar para proporcionar un número de frases clave proporcionado por el usuario. Esta es la técnica utilizada por Turney con árboles de decisión C4.5. Hulth utilizó un solo clasificador binario para que el algoritmo de aprendizaje determine implícitamente el número apropiado.
Una vez que se crean los ejemplos y las características, necesitamos una forma de aprender a predecir frases clave. Se puede utilizar prácticamente cualquier algoritmo de aprendizaje supervisado, como árboles de decisión, Naive Bayes e inducción de reglas. En el caso del algoritmo GenEx de Turney, se utiliza un algoritmo genético para aprender los parámetros de un algoritmo de extracción de frases clave específico del dominio. El extractor sigue una serie de heurísticas para identificar frases clave. El algoritmo genético optimiza los parámetros para estas heurísticas con respecto al rendimiento en documentos de entrenamiento con frases clave conocidas.
Otro algoritmo de extracción de frases clave es TextRank. Si bien los métodos supervisados tienen algunas propiedades interesantes, como la capacidad de producir reglas interpretables para las características que caracterizan una frase clave, también requieren una gran cantidad de datos de entrenamiento . Se necesitan muchos documentos con frases clave conocidas. Además, el entrenamiento en un dominio específico tiende a personalizar el proceso de extracción para ese dominio, por lo que el clasificador resultante no es necesariamente portátil, como demuestran algunos de los resultados de Turney. La extracción de frases clave no supervisada elimina la necesidad de datos de entrenamiento. Aborda el problema desde un ángulo diferente. En lugar de intentar aprender características explícitas que caracterizan las frases clave, el algoritmo TextRank [16] explota la estructura del texto en sí para determinar las frases clave que parecen "centrales" para el texto de la misma manera que PageRank selecciona páginas web importantes. Recordemos que esto se basa en la noción de "prestigio" o "recomendación" de las redes sociales . De esta manera, TextRank no depende de ningún dato de entrenamiento previo, sino que puede ejecutarse en cualquier fragmento de texto arbitrario y puede producir resultados simplemente en función de las propiedades intrínsecas del texto. Por lo tanto, el algoritmo es fácilmente transferible a nuevos dominios e idiomas.
TextRank es un algoritmo de clasificación basado en gráficos de propósito general para NLP . Básicamente, ejecuta PageRank en un gráfico especialmente diseñado para una tarea de NLP particular. Para la extracción de frases clave, construye un gráfico utilizando un conjunto de unidades de texto como vértices. Los bordes se basan en alguna medida de similitud semántica o léxica entre los vértices de la unidad de texto. A diferencia de PageRank, los bordes normalmente no están dirigidos y se pueden ponderar para reflejar un grado de similitud. Una vez que se construye el gráfico, se utiliza para formar una matriz estocástica, combinada con un factor de amortiguamiento (como en el "modelo de surfista aleatorio"), y la clasificación sobre los vértices se obtiene al encontrar el vector propio correspondiente al valor propio 1 (es decir, la distribución estacionaria del paseo aleatorio en el gráfico).
Los vértices deben corresponder a lo que queremos clasificar. Potencialmente, podríamos hacer algo similar a los métodos supervisados y crear un vértice para cada unigrama, bigrama, trigrama, etc. Sin embargo, para mantener el gráfico pequeño, los autores deciden clasificar los unigramas individuales en un primer paso y luego incluir un segundo paso que fusiona los unigramas adyacentes de alto rango para formar frases de varias palabras. Esto tiene un efecto secundario agradable al permitirnos producir frases clave de longitud arbitraria. Por ejemplo, si clasificamos los unigramas y descubrimos que "avanzado", "natural", "lenguaje" y "procesamiento" obtienen todos altos rangos, entonces miraríamos el texto original y veríamos que estas palabras aparecen consecutivamente y crearíamos una frase clave final usando las cuatro juntas. Tenga en cuenta que los unigramas colocados en el gráfico se pueden filtrar por parte del discurso. Los autores descubrieron que los adjetivos y los sustantivos eran los mejores para incluir. Por lo tanto, algunos conocimientos lingüísticos entran en juego en este paso.
En esta aplicación de TextRank, se crean aristas en función de la coocurrencia de palabras . Dos vértices están conectados por una arista si los unigramas aparecen dentro de una ventana de tamaño N en el texto original. N suele estar entre 2 y 10. Por lo tanto, "natural" y "lenguaje" podrían estar vinculados en un texto sobre PNL. "Natural" y "procesamiento" también estarían vinculados porque ambos aparecerían en la misma cadena de N palabras. Estas aristas se basan en la noción de " cohesión del texto " y en la idea de que las palabras que aparecen cerca unas de otras probablemente estén relacionadas de forma significativa y se "recomienden" entre sí al lector.
Dado que este método simplemente clasifica los vértices individuales, necesitamos una forma de establecer un umbral o producir una cantidad limitada de frases clave. La técnica elegida es establecer un recuento T que sea una fracción especificada por el usuario del número total de vértices en el gráfico. Luego, se seleccionan los T vértices/unigramas superiores en función de sus probabilidades estacionarias. Luego, se aplica un paso de posprocesamiento para fusionar instancias adyacentes de estos T unigramas. Como resultado, se producirán potencialmente más o menos de T frases clave finales, pero la cantidad debe ser aproximadamente proporcional a la longitud del texto original.
No está claro inicialmente por qué aplicar PageRank a un gráfico de coocurrencia produciría frases clave útiles. Una forma de pensarlo es la siguiente. Una palabra que aparece varias veces a lo largo de un texto puede tener muchos vecinos diferentes que coexisten. Por ejemplo, en un texto sobre aprendizaje automático, el unigrama "aprendizaje" puede coexistir con "máquina", "supervisado", "no supervisado" y "semisupervisado" en cuatro oraciones diferentes. Por lo tanto, el vértice "aprendizaje" sería un "eje" central que se conecta a estas otras palabras modificadoras. Es probable que ejecutar PageRank/TextRank en el gráfico otorgue una alta clasificación a "aprendizaje". De manera similar, si el texto contiene la frase "clasificación supervisada", entonces habría una ventaja entre "supervisado" y "clasificación". Si "clasificación" aparece en varios otros lugares y, por lo tanto, tiene muchos vecinos, su importancia contribuiría a la importancia de "supervisado". Si termina con un alto rango, será seleccionado como uno de los mejores unigramas T, junto con "aprendizaje" y probablemente "clasificación". En el paso final de posprocesamiento, terminaríamos con las frases clave "aprendizaje supervisado" y "clasificación supervisada".
En resumen, el gráfico de coocurrencia contendrá regiones densamente conectadas para términos que aparecen con frecuencia y en diferentes contextos. Un recorrido aleatorio en este gráfico tendrá una distribución estacionaria que asigna grandes probabilidades a los términos en los centros de los grupos. Esto es similar a las páginas web densamente conectadas que obtienen una clasificación alta según PageRank. Este enfoque también se ha utilizado en el resumen de documentos, que se analiza a continuación.
Al igual que la extracción de frases clave, el resumen de documentos tiene como objetivo identificar la esencia de un texto. La única diferencia real es que ahora trabajamos con unidades de texto más grandes: oraciones completas en lugar de palabras y frases.
El resumen supervisado de texto es muy parecido a la extracción supervisada de frases clave. Básicamente, si tiene una colección de documentos y resúmenes generados por humanos para ellos, puede aprender características de las oraciones que las hacen buenas candidatas para su inclusión en el resumen. Las características pueden incluir la posición en el documento (es decir, las primeras oraciones probablemente sean importantes), la cantidad de palabras en la oración, etc. La principal dificultad en el resumen extractivo supervisado es que los resúmenes conocidos deben crearse manualmente extrayendo oraciones para que las oraciones en un documento de entrenamiento original puedan etiquetarse como "en resumen" o "no en resumen". Esta no es la forma habitual de crear resúmenes, por lo que simplemente usar resúmenes de revistas o resúmenes existentes no suele ser suficiente. Las oraciones en estos resúmenes no necesariamente coinciden con las oraciones en el texto original, por lo que sería difícil asignar etiquetas a los ejemplos para el entrenamiento. Sin embargo, tenga en cuenta que estos resúmenes naturales aún pueden usarse para fines de evaluación, ya que la evaluación de ROUGE-1 solo considera unigramas.
Durante los talleres de evaluación de DUC 2001 y 2002, TNO desarrolló un sistema de extracción de oraciones para la síntesis de múltiples documentos en el ámbito de las noticias. El sistema se basaba en un sistema híbrido que utilizaba un clasificador Naive Bayes y modelos de lenguaje estadístico para modelar la prominencia. Aunque el sistema mostró buenos resultados, los investigadores querían explorar la eficacia de un clasificador de máxima entropía (ME) para la tarea de síntesis de reuniones, ya que se sabe que ME es robusto frente a las dependencias de características. La máxima entropía también se ha aplicado con éxito para la síntesis en el ámbito de las noticias televisivas.
Un enfoque prometedor es el resumen adaptativo de documentos o textos. [17] Implica primero reconocer el género del texto y luego aplicar algoritmos de resumen optimizados para ese género. Se ha creado un software de este tipo. [18]
El enfoque no supervisado para el resumen también es bastante similar en espíritu a la extracción no supervisada de frases clave y evita el problema de los costosos datos de entrenamiento. Algunos enfoques de resumen no supervisados se basan en encontrar una oración " centroide ", que es el vector de palabras promedio de todas las oraciones del documento. Luego, las oraciones se pueden clasificar en función de su similitud con esta oración centroide.
Una forma más basada en principios para estimar la importancia de las oraciones es mediante recorridos aleatorios y centralidad de vectores propios. LexRank [19] es un algoritmo esencialmente idéntico a TextRank, y ambos utilizan este enfoque para el resumen de documentos. Los dos métodos fueron desarrollados por diferentes grupos al mismo tiempo, y LexRank simplemente se centró en el resumen, pero podría utilizarse con la misma facilidad para la extracción de frases clave o cualquier otra tarea de clasificación de NLP.
Tanto en LexRank como en TextRank, un gráfico se construye creando un vértice para cada oración del documento.
Los bordes entre oraciones se basan en alguna forma de similitud semántica o superposición de contenido. Mientras que LexRank utiliza la similitud de coseno de los vectores TF-IDF , TextRank utiliza una medida muy similar basada en la cantidad de palabras que tienen en común dos oraciones ( normalizada por la longitud de las oraciones). El artículo de LexRank exploró el uso de bordes no ponderados después de aplicar un umbral a los valores de coseno, pero también experimentó con el uso de bordes con pesos iguales a la puntuación de similitud. TextRank utiliza puntuaciones de similitud continuas como pesos.
En ambos algoritmos, las oraciones se clasifican aplicando PageRank al gráfico resultante. Se forma un resumen combinando las oraciones con mejor clasificación y utilizando un umbral o límite de longitud para limitar el tamaño del resumen.
Vale la pena señalar que TextRank se aplicó al resumen exactamente como se describe aquí, mientras que LexRank se utilizó como parte de un sistema de resumen más grande (MEAD) que combina la puntuación LexRank (probabilidad estacionaria) con otras características como la posición y la longitud de la oración mediante una combinación lineal con ponderaciones especificadas por el usuario o ajustadas automáticamente. En este caso, es posible que se necesiten algunos documentos de capacitación, aunque los resultados de TextRank muestran que las características adicionales no son absolutamente necesarias.
A diferencia de TextRank, LexRank se ha aplicado al resumen de múltiples documentos.
El resumen de múltiples documentos es un procedimiento automático que tiene como objetivo extraer información de múltiples textos escritos sobre el mismo tema. El informe resumido resultante permite a los usuarios individuales, como los consumidores de información profesionales, familiarizarse rápidamente con la información contenida en un gran grupo de documentos. De esta manera, los sistemas de resumen de múltiples documentos complementan a los agregadores de noticias que realizan el siguiente paso en el camino para hacer frente a la sobrecarga de información . El resumen de múltiples documentos también puede realizarse en respuesta a una pregunta. [20] [11]
Los resúmenes de múltiples documentos crean informes de información que son a la vez concisos y completos. Al reunir y delinear diferentes opiniones, cada tema se describe desde múltiples perspectivas dentro de un solo documento. Si bien el objetivo de un resumen breve es simplificar la búsqueda de información y reducir el tiempo al señalar los documentos fuente más relevantes, un resumen de múltiples documentos completo debe contener la información requerida, lo que limita la necesidad de acceder a los archivos originales a los casos en que se requiere un refinamiento. Los resúmenes automáticos presentan información extraída de múltiples fuentes de manera algorítmica, sin ningún toque editorial ni intervención humana subjetiva, lo que lo hace completamente imparcial. [ dudoso – discutir ]
El resumen extractivo de múltiples documentos enfrenta un problema de redundancia. Idealmente, queremos extraer oraciones que sean "centrales" (es decir, que contengan las ideas principales) y "diversas" (es decir, que difieran entre sí). Por ejemplo, en un conjunto de artículos de noticias sobre algún evento, es probable que cada artículo tenga muchas oraciones similares. Para abordar este problema, LexRank aplica un paso de posprocesamiento heurístico que agrega oraciones en orden de clasificación, pero descarta las oraciones que son demasiado similares a las que ya están en el resumen. Este método se llama Cross-Sentence Information Subsumption (CSIS). Estos métodos funcionan según la idea de que las oraciones "recomiendan" otras oraciones similares al lector. Por lo tanto, si una oración es muy similar a muchas otras, probablemente será una oración de gran importancia. Su importancia también surge de la importancia de las oraciones que la "recomiendan". Por lo tanto, para obtener una clasificación alta y ubicarse en un resumen, una oración debe ser similar a muchas oraciones que, a su vez, también son similares a muchas otras oraciones. Esto tiene sentido intuitivo y permite que los algoritmos se apliquen a un texto nuevo arbitrario. Los métodos son independientes del dominio y fácilmente transferibles. Se podría imaginar que las características que indican oraciones importantes en el dominio de las noticias podrían variar considerablemente de las del dominio biomédico. Sin embargo, el enfoque basado en "recomendaciones" no supervisadas se aplica a cualquier dominio.
Un método relacionado es la Relevancia Marginal Máxima (MMR), [21] que utiliza un algoritmo de clasificación basado en gráficos de propósito general como Page/Lex/TextRank que maneja tanto la "centralidad" como la "diversidad" en un marco matemático unificado basado en la absorción de recorridos aleatorios de cadena de Markov (un recorrido aleatorio donde ciertos estados terminan el recorrido). El algoritmo se llama GRASSHOPPER. [22] Además de promover explícitamente la diversidad durante el proceso de clasificación, GRASSHOPPER incorpora una clasificación previa (basada en la posición de la oración en el caso del resumen).
Los resultados de última generación para el resumen de múltiples documentos se obtienen utilizando mezclas de funciones submodulares. Estos métodos han logrado los resultados de última generación para Document Summarization Corpora, DUC 04 - 07. [23] Se lograron resultados similares con el uso de procesos de puntos determinantes (que son un caso especial de funciones submodulares) para DUC-04. [24]
Un nuevo método para la generación de resúmenes multilingües de documentos múltiples que evita la redundancia genera ideogramas para representar el significado de cada oración en cada documento y luego evalúa la similitud comparando la forma y la posición de los ideogramas. No utiliza frecuencia de palabras, entrenamiento ni preprocesamiento. Utiliza dos parámetros proporcionados por el usuario: equivalencia (¿cuándo se consideran equivalentes dos oraciones?) y relevancia (¿cuánto dura el resumen deseado?).
La idea de una función de conjunto submodular ha surgido recientemente como una poderosa herramienta de modelado para varios problemas de resumen. Las funciones submodulares modelan naturalmente nociones de cobertura , información , representación y diversidad . Además, varios problemas importantes de optimización combinatoria ocurren como instancias especiales de optimización submodular. Por ejemplo, el problema de cobertura de conjunto es un caso especial de optimización submodular, ya que la función de cobertura de conjunto es submodular. La función de cobertura de conjunto intenta encontrar un subconjunto de objetos que cubran un conjunto dado de conceptos. Por ejemplo, en el resumen de documentos, uno quisiera que el resumen cubriera todos los conceptos importantes y relevantes en el documento. Este es un caso de cobertura de conjunto. De manera similar, el problema de ubicación de instalaciones es un caso especial de funciones submodulares. La función de ubicación de instalaciones también modela naturalmente la cobertura y la diversidad. Otro ejemplo de un problema de optimización submodular es el uso de un proceso de punto determinante para modelar la diversidad. De manera similar, el procedimiento de máxima relevancia marginal también puede verse como una instancia de optimización submodular. Todos estos modelos importantes que fomentan la cobertura, la diversidad y la información son todos submodulares. Además, las funciones submodulares se pueden combinar de manera eficiente y la función resultante sigue siendo submodular. Por lo tanto, se podría combinar una función submodular que modele la diversidad, otra que modele la cobertura y utilizar la supervisión humana para aprender un modelo correcto de una función submodular para el problema.
Si bien las funciones submodulares son problemas adecuados para la sumatoria, también admiten algoritmos muy eficientes para la optimización. Por ejemplo, un algoritmo voraz simple admite una garantía de factor constante. [25] Además, el algoritmo voraz es extremadamente simple de implementar y puede escalarse a grandes conjuntos de datos, lo cual es muy importante para los problemas de sumatoria.
Las funciones submodulares han alcanzado un nivel de vanguardia en casi todos los problemas de resumen. Por ejemplo, el trabajo de Lin y Bilmes, 2012 [26] muestra que las funciones submodulares logran los mejores resultados hasta la fecha en los sistemas DUC-04, DUC-05, DUC-06 y DUC-07 para el resumen de documentos. De manera similar, el trabajo de Lin y Bilmes, 2011, [27] muestra que muchos sistemas existentes para el resumen automático son instancias de funciones submodulares. Este fue un resultado innovador que estableció las funciones submodulares como los modelos adecuados para los problemas de resumen. [ cita requerida ]
Las funciones submodulares también se han utilizado para otras tareas de resumen. Tschiatschek et al., 2014 muestran [28] que las mezclas de funciones submodulares logran resultados de vanguardia para el resumen de colecciones de imágenes. De manera similar, Bairi et al., 2015 [29] muestran la utilidad de las funciones submodulares para resumir jerarquías de temas de múltiples documentos. Las funciones submodulares también se han utilizado con éxito para resumir conjuntos de datos de aprendizaje automático. [30]
Las aplicaciones específicas del resumen automático incluyen:
La forma más común de evaluar el carácter informativo de los resúmenes automáticos es compararlos con resúmenes de modelos creados por humanos.
La evaluación puede ser intrínseca o extrínseca, [36] e intertextual o intratextual. [37]
La evaluación intrínseca evalúa directamente los resúmenes, mientras que la evaluación extrínseca evalúa cómo el sistema de resumen afecta la realización de alguna otra tarea. Las evaluaciones intrínsecas han evaluado principalmente la coherencia y el carácter informativo de los resúmenes. Las evaluaciones extrínsecas, por otro lado, han probado el impacto del resumen en tareas como la evaluación de la relevancia, la comprensión lectora, etc.
La evaluación intratextual evalúa el resultado de un sistema de resumen específico, mientras que la evaluación intertextual se centra en el análisis contrastivo de los resultados de varios sistemas de resumen.
El criterio humano suele variar mucho en cuanto a lo que considera un "buen" resumen, por lo que crear un proceso de evaluación automático resulta especialmente difícil. Se puede utilizar la evaluación manual, pero es una tarea que requiere mucho tiempo y trabajo, ya que requiere que los humanos lean no solo los resúmenes, sino también los documentos originales. Otros problemas son los relacionados con la coherencia y la cobertura.
La forma más común de evaluar los resúmenes es ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Es muy común para los sistemas de resumen y traducción en las Conferencias de Comprensión de Documentos del NIST .[2] ROUGE es una medida basada en el recuerdo de qué tan bien un resumen cubre el contenido de los resúmenes generados por humanos conocidos como referencias. Calcula las superposiciones de n-gramas entre los resúmenes generados automáticamente y los resúmenes humanos escritos previamente. Se basa en el recuerdo para fomentar la inclusión de todos los temas importantes en los resúmenes. El recuerdo se puede calcular con respecto a la coincidencia de unigramas, bigramas, trigramas o 4-gramas. Por ejemplo, ROUGE-1 es la fracción de unigramas que aparecen tanto en el resumen de referencia como en el resumen automático de todos los unigramas en el resumen de referencia. Si hay varios resúmenes de referencia, se promedian sus puntuaciones. Un alto nivel de superposición debería indicar un alto grado de conceptos compartidos entre los dos resúmenes.
ROUGE no puede determinar si el resultado es coherente, es decir, si las oraciones fluyen juntas de manera sensata. Las medidas de n-gramas de orden superior de ROUGE ayudan hasta cierto punto.
Otro problema no resuelto es la resolución de la anáfora . De manera similar, para el resumen de imágenes, Tschiatschek et al. desarrollaron una puntuación Visual-ROUGE que juzga el desempeño de los algoritmos para el resumen de imágenes. [38]
Las técnicas de resumen independientes del dominio aplican conjuntos de características generales para identificar segmentos de texto ricos en información. Las investigaciones recientes se centran en el resumen específico del dominio utilizando conocimientos específicos del dominio del texto, como conocimientos médicos y ontologías para resumir textos médicos. [39]
El principal inconveniente de los sistemas de evaluación hasta el momento es que necesitamos un resumen de referencia (para algunos métodos, más de uno) para comparar los resúmenes automáticos con los modelos. Esta es una tarea difícil y costosa. Se debe hacer un gran esfuerzo para crear corpus de textos y sus resúmenes correspondientes. Además, algunos métodos requieren la anotación manual de los resúmenes (por ejemplo, SCU en el método de la pirámide). Además, todos realizan una evaluación cuantitativa con respecto a diferentes métricas de similitud.
La primera publicación en el área se remonta a 1957 [40] ( Hans Peter Luhn ), comenzando con una técnica estadística. La investigación aumentó significativamente en 2015. En 2016, se había utilizado la frecuencia de términos-frecuencia de documentos inversa. El resumen basado en patrones fue la opción más poderosa para el resumen de múltiples documentos encontrada en 2016. Al año siguiente, fue superado por el análisis semántico latente (LSA) combinado con la factorización matricial no negativa (NMF). Aunque no reemplazaron a otros enfoques y a menudo se combinan con ellos, en 2019 los métodos de aprendizaje automático dominaron el resumen extractivo de documentos individuales, que se consideró cercano a la madurez. En 2020, el campo todavía estaba muy activo y la investigación se está desplazando hacia la suma abstracta y el resumen en tiempo real. [41]
Recientemente, el auge de los modelos de transformadores que sustituyen a las RNN más tradicionales ( LSTM ) ha proporcionado una flexibilidad en el mapeo de secuencias de texto a secuencias de texto de un tipo diferente, lo que resulta muy adecuado para el resumen automático. Esto incluye modelos como T5 [42] y Pegasus. [43]
{{cite book}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace ){{cite web}}
: CS1 maint: copia archivada como título ( enlace ) CS1 maint: bot: estado de URL original desconocido ( enlace ){{cite book}}
: CS1 maint: varios nombres: lista de autores ( enlace ){{cite book}}
: CS1 maint: varios nombres: lista de autores ( enlace )El algoritmo GRASSHOPPER{{cite book}}
: CS1 maint: varios nombres: lista de autores ( enlace )Estructuras conceptuales para la investigación y la educación en STEM.