El resumen automático es el proceso de acortar un conjunto de datos computacionalmente para crear un subconjunto (un resumen ) que representa la información más importante o relevante dentro del contenido original. Para lograr esto, comúnmente se desarrollan y emplean algoritmos de inteligencia artificial , especializados para diferentes tipos de datos.
El resumen de texto generalmente se implementa mediante métodos de procesamiento del lenguaje natural , diseñados para ubicar las oraciones más informativas en un documento determinado. [1] Por otro lado, el contenido visual se puede resumir utilizando algoritmos de visión por computadora . El resumen de imágenes es objeto de investigación en curso; Los enfoques existentes suelen intentar mostrar las imágenes más representativas de una colección de imágenes determinada o generar un vídeo que solo incluya el contenido más importante de toda la colección. [2] [3] [4] Los algoritmos de resumen de vídeo identifican y extraen del contenido del vídeo original los fotogramas más importantes ( fotogramas clave ) y/o los segmentos de vídeo más importantes ( tomas clave ), normalmente de forma ordenada temporalmente. . [5] [6] [7] [8] Los resúmenes de vídeo simplemente retienen un subconjunto cuidadosamente seleccionado de los fotogramas de vídeo originales y, por lo tanto, no son idénticos a la salida de los algoritmos de sinopsis de vídeo , donde los nuevos fotogramas de vídeo se sintetizan en función de la Contenido de vídeo original.
En 2022, Google Docs lanzó una función de resumen automático. [9]
Hay dos enfoques generales para el resumen automático: extracción y abstracción .
Aquí, el contenido se extrae de los datos originales, pero el contenido extraído no se modifica de ninguna manera. Los ejemplos de contenido extraído incluyen frases clave que se pueden usar para "etiquetar" o indexar un documento de texto, u oraciones clave (incluidos encabezados) que en conjunto comprenden un resumen e imágenes representativas o segmentos de video, como se indicó anteriormente. Para el texto, la extracción es análoga al proceso de hojeado, donde el resumen (si está disponible), los títulos y subtítulos, las figuras, el primer y último párrafo de una sección y, opcionalmente, la primera y la última oración de un párrafo se leen antes de elegir. para leer el documento completo en detalle. [10] Otros ejemplos de extracción que incluyen secuencias clave de texto en términos de relevancia clínica (incluido paciente/problema, intervención y resultado). [11]
Los métodos de resumen abstractivo generan texto nuevo que no existía en el texto original. [12] Esto se ha aplicado principalmente para texto. Los métodos abstractivos construyen una representación semántica interna del contenido original (a menudo llamado modelo de lenguaje) y luego usan esta representación para crear un resumen que se acerque más a lo que un humano podría expresar. La abstracción puede transformar el contenido extraído parafraseando secciones del documento fuente, para condensar un texto con más fuerza que la extracción. Sin embargo, dicha transformación es computacionalmente mucho más desafiante que la extracción, ya que implica tanto el procesamiento del lenguaje natural como, a menudo, una comprensión profunda del dominio del texto original en los casos en que el documento original se relaciona con un campo de conocimiento especial. "Parafrasear" es aún más difícil de aplicar a imágenes y vídeos, razón por la cual la mayoría de los sistemas de resumen son extractivos.
Los enfoques destinados a una mayor calidad de resúmenes se basan en una combinación de software y esfuerzo humano. En el resumen humano asistido por máquina, las técnicas extractivas resaltan pasajes candidatos para su inclusión (a los que el humano agrega o elimina texto). En el resumen automático asistido por humanos, un humano postprocesa la salida del software, de la misma manera que se edita la salida de la traducción automática de Google Translate.
En términos generales, existen dos tipos de tareas de resumen extractivo según en qué se centre el programa de resumen. El primero es el resumen genérico , que se centra en obtener un resumen o resumen genérico de la colección (ya sean documentos, o conjuntos de imágenes, o vídeos, noticias, etc.). El segundo es el resumen relevante para consultas , a veces llamado resumen basado en consultas , que resume objetos específicos de una consulta. Los sistemas de resumen pueden crear tanto resúmenes de texto relevantes para consultas como resúmenes genéricos generados por máquinas, según las necesidades del usuario.
Un ejemplo de problema de resumen es el resumen de documentos, que intenta producir automáticamente un resumen de un documento determinado. A veces, uno puede estar interesado en generar un resumen a partir de un único documento fuente, mientras que otros pueden utilizar varios documentos fuente (por ejemplo, un grupo de artículos sobre el mismo tema). Este problema se llama resumen de múltiples documentos . Una aplicación relacionada resume artículos de noticias. Imagine un sistema que reúne automáticamente artículos de noticias sobre un tema determinado (de la web) y representa de manera concisa las últimas noticias como un resumen.
El resumen de colecciones de imágenes es otro ejemplo de aplicación de resumen automático. Consiste en seleccionar un conjunto representativo de imágenes de un conjunto mayor de imágenes. [13] Un resumen en este contexto es útil para mostrar las imágenes más representativas de los resultados en un sistema de exploración de colección de imágenes . El resumen de vídeo es un dominio relacionado, donde el sistema crea automáticamente un avance de un vídeo largo. Esto también tiene aplicaciones en vídeos personales o de consumo, donde es posible que desees saltarte las acciones aburridas o repetitivas. De manera similar, en los videos de vigilancia, uno querría extraer actividad importante y sospechosa, ignorando todos los fotogramas aburridos y redundantes capturados.
En un nivel muy alto, los algoritmos de resumen intentan encontrar subconjuntos de objetos (como un conjunto de oraciones o un conjunto de imágenes) que cubran información del conjunto completo. Esto también se llama conjunto básico . Estos algoritmos modelan nociones como diversidad, cobertura, información y representatividad del resumen. Técnicas de resumen basadas en consultas, además modelan la relevancia del resumen con la consulta. Algunas técnicas y algoritmos que modelan naturalmente los problemas de resumen son TextRank y PageRank, función de conjunto submodular , proceso de punto determinante , relevancia marginal máxima (MMR), etc.
La tarea es la siguiente. Se le proporciona un fragmento de texto, como un artículo de revista, y debe producir una lista de palabras clave o [frases] clave que capturen los temas principales discutidos en el texto. [14] En el caso de artículos de investigación , muchos autores proporcionan palabras clave asignadas manualmente, pero la mayoría del texto carece de frases clave preexistentes. Por ejemplo, los artículos de noticias rara vez incluyen frases clave adjuntas, pero sería útil poder hacerlo automáticamente para una serie de aplicaciones que se analizan a continuación. Considere el texto de ejemplo de un artículo de noticias:
Un extractor de frases clave podría seleccionar "Cuerpo de Ingenieros del Ejército", "Presidente Bush", "Nueva Orleans" y "bombas de control de inundaciones defectuosas" como frases clave. Estos están extraídos directamente del texto. Por el contrario, un sistema de frases clave abstractivo de alguna manera internalizaría el contenido y generaría frases clave que no aparecen en el texto, pero que se parecen más a lo que un ser humano podría producir, como "negligencia política" o "protección inadecuada contra inundaciones". La abstracción requiere una comprensión profunda del texto , lo que lo dificulta para un sistema informático. Las frases clave tienen muchas aplicaciones. Pueden permitir la exploración de documentos proporcionando un breve resumen, mejorar la recuperación de información (si los documentos tienen frases clave asignadas, un usuario podría buscar por frase clave para producir resultados más confiables que una búsqueda de texto completo ) y usarse para generar entradas de índice para una gran cantidad de documentos. corpus de texto.
Dependiendo de la diferente literatura y de la definición de términos, palabras o frases clave, la extracción de palabras clave es un tema muy relacionado.
A partir del trabajo de Turney, [15] muchos investigadores han abordado la extracción de frases clave como un problema de aprendizaje automático supervisado . Dado un documento, construimos un ejemplo para cada unigrama , bigrama y trigrama que se encuentran en el texto (aunque también son posibles otras unidades de texto, como se analiza a continuación). Luego calculamos varias características que describen cada ejemplo (por ejemplo, ¿la frase comienza con una letra mayúscula?). Suponemos que hay frases clave conocidas disponibles para un conjunto de documentos de formación. Usando las frases clave conocidas, podemos asignar etiquetas positivas o negativas a los ejemplos. Luego aprendemos un clasificador que puede discriminar entre ejemplos positivos y negativos en función de las características. Algunos clasificadores realizan una clasificación binaria para un ejemplo de prueba, mientras que otros asignan una probabilidad de ser una frase clave. Por ejemplo, en el texto anterior, podríamos aprender una regla que dice que las frases con letras mayúsculas iniciales probablemente sean frases clave. Después de capacitar a un alumno, podemos seleccionar frases clave para los documentos de prueba de la siguiente manera. Aplicamos la misma estrategia de generación de ejemplos a los documentos de prueba y luego ejecutamos cada ejemplo con el alumno. Podemos determinar las frases clave observando las decisiones de clasificación binaria o las probabilidades devueltas por nuestro modelo aprendido. Si se dan probabilidades, se utiliza un umbral para seleccionar las frases clave. Los extractores de frases clave generalmente se evalúan mediante precisión y recuperación . La precisión mide cuántas de las frases clave propuestas son realmente correctas. La recuperación mide cuántas de las frases clave verdaderas propuso su sistema. Las dos medidas se pueden combinar en una puntuación F, que es la media armónica de las dos ( F = 2 PR /( P + R )). Las coincidencias entre las frases clave propuestas y las frases clave conocidas se pueden verificar después de derivar o aplicar alguna otra normalización de texto.
Diseñar un sistema de extracción de frases clave supervisado implica decidir entre varias opciones (algunas de ellas también se aplican a los sistemas no supervisados). La primera opción es exactamente cómo generar ejemplos. Turney y otros han utilizado todos los unigramas, bigramas y trigramas posibles sin intervención de puntuación y después de eliminar las palabras vacías. Hulth demostró que se pueden obtener algunas mejoras seleccionando ejemplos para que sean secuencias de tokens que coincidan con ciertos patrones de etiquetas de parte del discurso. Idealmente, el mecanismo para generar ejemplos produce todas las frases clave etiquetadas conocidas como candidatas, aunque este no suele ser el caso. Por ejemplo, si utilizamos sólo unigramas, bigramas y trigramas, nunca podremos extraer una frase clave conocida que contenga cuatro palabras. Por lo tanto, la recuperación puede verse afectada. Sin embargo, generar demasiados ejemplos también puede dar lugar a una baja precisión.
También necesitamos crear características que describan los ejemplos y sean lo suficientemente informativas como para permitir que un algoritmo de aprendizaje discrimine las frases clave de las que no lo son. Normalmente, las características implican varias frecuencias de términos (cuántas veces aparece una frase en el texto actual o en un corpus más grande), la longitud del ejemplo, la posición relativa de la primera aparición, varias características sintácticas booleanas (por ejemplo, contiene todo en mayúsculas), etc. El artículo de Turney utilizó alrededor de 12 de estas características. Hulth utiliza un conjunto reducido de funciones, que tuvieron mayor éxito en el trabajo KEA (algoritmo de extracción de frases clave) derivado del artículo fundamental de Turney.
Al final, el sistema necesitará devolver una lista de frases clave para un documento de prueba, por lo que necesitamos una manera de limitar el número. Se han utilizado métodos de conjunto (es decir, el uso de votos de varios clasificadores) para producir puntuaciones numéricas que pueden establecerse como umbrales para proporcionar un número de frases clave proporcionadas por el usuario. Esta es la técnica utilizada por Turney con los árboles de decisión C4.5. Hulth utilizó un único clasificador binario para que el algoritmo de aprendizaje determine implícitamente el número apropiado.
Una vez creados los ejemplos y las funciones, necesitamos una forma de aprender a predecir frases clave. Se podría utilizar prácticamente cualquier algoritmo de aprendizaje supervisado, como árboles de decisión, Naive Bayes e inducción de reglas. En el caso del algoritmo GenEx de Turney, se utiliza un algoritmo genético para aprender parámetros para un algoritmo de extracción de frases clave de dominio específico. El extractor sigue una serie de heurísticas para identificar frases clave. El algoritmo genético optimiza los parámetros de estas heurísticas con respecto al rendimiento en documentos de entrenamiento con frases clave conocidas.
Otro algoritmo de extracción de frases clave es TextRank. Si bien los métodos supervisados tienen algunas propiedades interesantes, como la capacidad de producir reglas interpretables para las características que caracterizan una frase clave, también requieren una gran cantidad de datos de entrenamiento . Se necesitan muchos documentos con frases clave conocidas. Además, el entrenamiento en un dominio específico tiende a personalizar el proceso de extracción para ese dominio, por lo que el clasificador resultante no es necesariamente portátil, como lo demuestran algunos de los resultados de Turney. La extracción de frases clave no supervisadas elimina la necesidad de datos de entrenamiento. Aborda el problema desde un ángulo diferente. En lugar de intentar aprender características explícitas que caracterizan las frases clave, el algoritmo TextRank [16] explota la estructura del texto mismo para determinar frases clave que parecen "centrales" para el texto de la misma manera que PageRank selecciona páginas web importantes. Recordemos que esto se basa en la noción de "prestigio" o "recomendación" de las redes sociales . De esta manera, TextRank no depende en absoluto de ningún dato de entrenamiento previo, sino que puede ejecutarse en cualquier fragmento de texto arbitrario y puede producir resultados basados simplemente en las propiedades intrínsecas del texto. Por tanto, el algoritmo es fácilmente portátil a nuevos dominios e idiomas.
TextRank es un algoritmo de clasificación basado en gráficos de propósito general para PNL . Básicamente, ejecuta PageRank en un gráfico especialmente diseñado para una tarea de PNL en particular. Para la extracción de frases clave, crea un gráfico utilizando un conjunto de unidades de texto como vértices. Los bordes se basan en alguna medida de similitud semántica o léxica entre los vértices de la unidad de texto. A diferencia del PageRank, los bordes normalmente no están dirigidos y pueden ponderarse para reflejar un grado de similitud. Una vez construido el gráfico, se utiliza para formar una matriz estocástica, combinada con un factor de amortiguación (como en el "modelo de surfista aleatorio"), y la clasificación sobre los vértices se obtiene encontrando el vector propio correspondiente al valor propio 1 (es decir, el distribución estacionaria del paseo aleatorio en el gráfico).
Los vértices deben corresponder a lo que queremos clasificar. Potencialmente, podríamos hacer algo similar a los métodos supervisados y crear un vértice para cada unigrama, bigrama, trigrama, etc. Sin embargo, para mantener el gráfico pequeño, los autores deciden clasificar los unigramas individuales en un primer paso y luego incluir un segundo. Paso que fusiona unigramas adyacentes altamente clasificados para formar frases de varias palabras. Esto tiene el agradable efecto secundario de permitirnos producir frases clave de longitud arbitraria. Por ejemplo, si clasificamos los unigramas y encontramos que "avanzado", "natural", "lenguaje" y "procesamiento" obtienen clasificaciones altas, entonces miraríamos el texto original y veríamos que estas palabras aparecen consecutivamente y crearíamos una clasificación final. frase clave usando los cuatro juntos. Tenga en cuenta que los unigramas colocados en el gráfico se pueden filtrar por parte de la oración. Los autores encontraron que los adjetivos y sustantivos eran los mejores para incluir. Por tanto, en este paso entran en juego algunos conocimientos lingüísticos.
Los bordes se crean en función de la coexistencia de palabras en esta aplicación de TextRank. Dos vértices están conectados por una arista si los unigramas aparecen dentro de una ventana de tamaño N en el texto original. N suele estar entre 2 y 10. Por tanto, "natural" y "lenguaje" podrían estar vinculados en un texto sobre PNL. "Natural" y "procesamiento" también estarían vinculados porque ambos aparecerían en la misma cadena de N palabras. Estos bordes se basan en la noción de " cohesión del texto " y la idea de que las palabras que aparecen cerca unas de otras probablemente estén relacionadas de manera significativa y se "recomienden" entre sí al lector.
Dado que este método simplemente clasifica los vértices individuales, necesitamos una forma de establecer un umbral o producir un número limitado de frases clave. La técnica elegida es establecer un recuento T para que sea una fracción especificada por el usuario del número total de vértices en el gráfico. Luego, los vértices/unigramas T superiores se seleccionan en función de sus probabilidades estacionarias. Luego se aplica un paso de posprocesamiento para fusionar instancias adyacentes de estos unigramas T. Como resultado, se producirán potencialmente más o menos de T frases clave finales, pero el número debe ser aproximadamente proporcional a la longitud del texto original.
Inicialmente no está claro por qué la aplicación de PageRank a un gráfico de coocurrencia produciría frases clave útiles. Una forma de pensarlo es la siguiente. Una palabra que aparece varias veces a lo largo de un texto puede tener muchos vecinos concurrentes diferentes. Por ejemplo, en un texto sobre aprendizaje automático, el unigrama "aprendizaje" puede aparecer junto con "máquina", "supervisado", "no supervisado" y "semisupervisado" en cuatro oraciones diferentes. Así, el vértice de "aprendizaje" sería un "centro" central que conecta con estas otras palabras modificadoras. Es probable que ejecutar PageRank/TextRank en el gráfico otorgue una clasificación alta al "aprendizaje". De manera similar, si el texto contiene la frase "clasificación supervisada", habría una diferencia entre "supervisada" y "clasificación". Si la "clasificación" aparece en varios otros lugares y por tanto tiene muchos vecinos, su importancia contribuiría a la importancia de "supervisado". Si termina con un rango alto, será seleccionado como uno de los mejores unigramas T, junto con "aprendizaje" y probablemente "clasificación". En el paso final de posprocesamiento, terminaríamos con las frases clave "aprendizaje supervisado" y "clasificación supervisada".
En resumen, el gráfico de coocurrencia contendrá regiones densamente conectadas para términos que aparecen con frecuencia y en diferentes contextos. Un paseo aleatorio sobre este gráfico tendrá una distribución estacionaria que asigna grandes probabilidades a los términos en los centros de los conglomerados. Esto es similar a páginas web densamente conectadas que obtienen una clasificación alta en PageRank. Este enfoque también se ha utilizado en el resumen de documentos, que se analiza a continuación.
Al igual que la extracción de frases clave, el resumen de documentos tiene como objetivo identificar la esencia de un texto. La única diferencia real es que ahora estamos tratando con unidades de texto más grandes: oraciones completas en lugar de palabras y frases.
El resumen de texto supervisado es muy parecido a la extracción supervisada de frases clave. Básicamente, si tiene una colección de documentos y resúmenes generados por humanos para ellos, puede aprender características de las oraciones que las convierten en buenas candidatas para su inclusión en el resumen. Las características pueden incluir la posición en el documento (es decir, las primeras oraciones probablemente sean importantes), el número de palabras en la oración, etc. La principal dificultad en el resumen extractivo supervisado es que los resúmenes conocidos deben crearse manualmente extrayendo oraciones de manera que Las oraciones de un documento de formación original pueden etiquetarse como "en resumen" o "no en resumen". Normalmente, no es así como la gente crea resúmenes, por lo que simplemente utilizar resúmenes de revistas o resúmenes existentes no suele ser suficiente. Las oraciones de estos resúmenes no necesariamente coinciden con las oraciones del texto original, por lo que sería difícil asignar etiquetas a los ejemplos para capacitación. Sin embargo, tenga en cuenta que estos resúmenes naturales aún se pueden utilizar con fines de evaluación, ya que la evaluación de ROUGE-1 solo considera unigramas.
Durante los talleres de evaluación de DUC de 2001 y 2002, TNO desarrolló un sistema de extracción de oraciones para el resumen de múltiples documentos en el ámbito de las noticias. El sistema se basó en un sistema híbrido que utiliza un clasificador Naive Bayes y modelos de lenguaje estadístico para modelar la prominencia. Aunque el sistema mostró buenos resultados, los investigadores querían explorar la efectividad de un clasificador de máxima entropía (ME) para la tarea de resumen de reuniones, ya que se sabe que ME es robusto contra las dependencias de características. La entropía máxima también se ha aplicado con éxito para resumir en el ámbito de las noticias transmitidas.
Un enfoque prometedor es el resumen adaptable de documentos/textos. [17] Implica primero reconocer el género del texto y luego aplicar algoritmos de resumen optimizados para este género. Se ha creado dicho software. [18]
El enfoque no supervisado del resumen también es bastante similar en espíritu a la extracción de frases clave no supervisadas y soluciona el problema de los costosos datos de entrenamiento. Algunos enfoques de resumen no supervisados se basan en encontrar una oración " centroide ", que es el vector de palabras medias de todas las oraciones del documento. Luego las oraciones se pueden clasificar con respecto a su similitud con esta oración centroide.
Una forma más basada en principios de estimar la importancia de las oraciones es utilizar paseos aleatorios y centralidad de vector propio. LexRank [19] es un algoritmo esencialmente idéntico a TextRank, y ambos utilizan este enfoque para el resumen de documentos. Los dos métodos fueron desarrollados por diferentes grupos al mismo tiempo, y LexRank simplemente se centró en el resumen, pero podría usarse con la misma facilidad para la extracción de frases clave o cualquier otra tarea de clasificación de PNL.
Tanto en LexRank como en TextRank, se construye un gráfico creando un vértice para cada oración del documento.
Los límites entre oraciones se basan en alguna forma de similitud semántica o superposición de contenido. Mientras que LexRank usa la similitud del coseno de los vectores TF-IDF , TextRank usa una medida muy similar basada en la cantidad de palabras que dos oraciones tienen en común ( normalizada por la longitud de las oraciones). El artículo de LexRank exploró el uso de aristas no ponderadas después de aplicar un umbral a los valores del coseno, pero también experimentó con el uso de aristas con pesos iguales a la puntuación de similitud. TextRank utiliza puntuaciones de similitud continua como ponderaciones.
En ambos algoritmos, las frases se clasifican aplicando PageRank al gráfico resultante. Un resumen se forma combinando las oraciones mejor clasificadas, utilizando un umbral o límite de longitud para limitar el tamaño del resumen.
Vale la pena señalar que TextRank se aplicó al resumen exactamente como se describe aquí, mientras que LexRank se usó como parte de un sistema de resumen más amplio (MEAD) que combina la puntuación LexRank (probabilidad estacionaria) con otras características como la posición y longitud de la oración usando una combinación lineal. con pesos especificados por el usuario o ajustados automáticamente. En este caso, es posible que se necesiten algunos documentos de capacitación, aunque los resultados de TextRank muestran que las funciones adicionales no son absolutamente necesarias.
A diferencia de TextRank, LexRank se ha aplicado al resumen de varios documentos.
El resumen de múltiples documentos es un procedimiento automático destinado a extraer información de múltiples textos escritos sobre el mismo tema. El informe resumido resultante permite a los usuarios individuales, como los consumidores de información profesionales, familiarizarse rápidamente con la información contenida en un gran grupo de documentos. De esta manera, los sistemas de resumen de múltiples documentos complementan a los agregadores de noticias que dan el siguiente paso en el camino para hacer frente a la sobrecarga de información . También se puede realizar un resumen de varios documentos en respuesta a una pregunta. [20] [11]
El resumen de varios documentos crea informes de información que son a la vez concisos y completos. Con diferentes opiniones reunidas y delineadas, cada tema se describe desde múltiples perspectivas en un solo documento. Si bien el objetivo de un resumen breve es simplificar la búsqueda de información y reducir el tiempo señalando los documentos fuente más relevantes, un resumen integral de varios documentos debe contener la información requerida, limitando así la necesidad de acceder a los archivos originales a los casos en los que es necesario perfeccionarlo. requerido. Los resúmenes automáticos presentan información extraída de múltiples fuentes algorítmicamente, sin ningún toque editorial ni intervención humana subjetiva, lo que los hace completamente imparciales. [ dudoso ]
El resumen extractivo de múltiples documentos enfrenta un problema de redundancia. Idealmente, queremos extraer oraciones que sean a la vez "centrales" (es decir, que contengan las ideas principales) y "diversas" (es decir, que difieran unas de otras). Por ejemplo, en un conjunto de artículos de noticias sobre algún evento, es probable que cada artículo tenga muchas oraciones similares. Para abordar este problema, LexRank aplica un paso de posprocesamiento heurístico que agrega oraciones en orden de clasificación, pero descarta oraciones que son demasiado similares a las que ya están en el resumen. Este método se llama subsunción de información entre oraciones (CSIS). Estos métodos funcionan basándose en la idea de que las frases "recomiendan" al lector otras frases similares. Por lo tanto, si una oración es muy similar a muchas otras, probablemente será una oración de gran importancia. Su importancia también deriva de la importancia de las frases que lo "recomiendan". Por lo tanto, para obtener una clasificación alta y ser colocada en un resumen, una oración debe ser similar a muchas oraciones que a su vez también son similares a muchas otras oraciones. Esto tiene sentido intuitivo y permite que los algoritmos se apliquen a un texto nuevo arbitrario. Los métodos son independientes del dominio y fácilmente portátiles. Uno podría imaginar que las características que indican oraciones importantes en el ámbito de las noticias podrían variar considerablemente del ámbito biomédico. Sin embargo, el enfoque basado en "recomendaciones" no supervisado se aplica a cualquier dominio.
Un método relacionado es la Relevancia Marginal Máxima (MMR), [21] que utiliza un algoritmo de clasificación basado en gráficos de propósito general como Page/Lex/TextRank que maneja tanto la "centralidad" como la "diversidad" en un marco matemático unificado basado en la absorción de Markov. caminatas aleatorias en cadena (una caminata aleatoria donde ciertos estados finalizan la caminata). El algoritmo se llama GRASSHOPPER. [22] Además de promover explícitamente la diversidad durante el proceso de clasificación, GRASSHOPPER incorpora una clasificación previa (basada en la posición de la oración en el caso de un resumen).
Los resultados más avanzados para el resumen de múltiples documentos se obtienen utilizando mezclas de funciones submodulares. Estos métodos han logrado resultados de última generación para Document Sumarization Corpora, DUC 04 - 07. [23] Se lograron resultados similares con el uso de procesos de puntos determinantes (que son un caso especial de funciones submodulares) para DUC-04. [24]
Un nuevo método para el resumen multilingüe de documentos múltiples que evita la redundancia genera ideogramas para representar el significado de cada oración en cada documento y luego evalúa la similitud comparando la forma y posición del ideograma. No utiliza frecuencia de palabras, entrenamiento o preprocesamiento. Utiliza dos parámetros proporcionados por el usuario: equivalencia (¿cuándo dos oraciones se consideran equivalentes?) y relevancia (¿cuánto dura el resumen deseado?).
La idea de una función de conjunto submodular ha surgido recientemente como una poderosa herramienta de modelado para diversos problemas de resumen. Las funciones submodulares modelan naturalmente nociones de cobertura , información , representación y diversidad . Además, varios problemas importantes de optimización combinatoria ocurren como casos especiales de optimización submodular. Por ejemplo, el problema de cobertura de conjuntos es un caso especial de optimización submodular, ya que la función de cobertura de conjuntos es submodular. La función de cobertura de conjuntos intenta encontrar un subconjunto de objetos que cubran un conjunto determinado de conceptos. Por ejemplo, en el resumen de documentos, a uno le gustaría que el resumen cubra todos los conceptos importantes y relevantes del documento. Este es un ejemplo de cobertura establecida. De manera similar, el problema de ubicación de instalaciones es un caso especial de funciones submodulares. La función Ubicación de instalaciones también modela naturalmente la cobertura y la diversidad. Otro ejemplo de un problema de optimización submodular es el uso de un proceso de puntos determinantes para modelar la diversidad. De manera similar, el procedimiento de Máxima Relevancia Marginal también puede verse como un ejemplo de optimización submodular. Todos estos importantes modelos que fomentan la cobertura, la diversidad y la información son todos submodulares. Además, las funciones submodulares se pueden combinar de manera eficiente y la función resultante sigue siendo submodular. Por lo tanto, se podría combinar una función submodular que modele la diversidad, otra que modele la cobertura y utilizar la supervisión humana para aprender un modelo correcto de una función submodular para el problema.
Si bien las funciones submodulares son problemas apropiados para el resumen, también admiten algoritmos de optimización muy eficientes. Por ejemplo, un algoritmo codicioso simple admite una garantía de factor constante. [25] Además, el algoritmo codicioso es extremadamente simple de implementar y puede escalarse a grandes conjuntos de datos, lo cual es muy importante para los problemas de resumen.
Las funciones submodulares han alcanzado la última tecnología para casi todos los problemas de resumen. Por ejemplo, el trabajo de Lin y Bilmes, 2012 [26] muestra que las funciones submodulares logran los mejores resultados hasta la fecha en los sistemas DUC-04, DUC-05, DUC-06 y DUC-07 para el resumen de documentos. De manera similar, el trabajo de Lin y Bilmes, 2011, [27] muestra que muchos sistemas existentes para el resumen automático son instancias de funciones submodulares. Este fue un resultado revolucionario que estableció las funciones submodulares como los modelos adecuados para los problemas de resumen. [ cita necesaria ]
Las funciones submodulares también se han utilizado para otras tareas de resumen. Tschiatschek et al., 2014 muestran [28] que las mezclas de funciones submodulares logran resultados de última generación para el resumen de colecciones de imágenes. De manera similar, Bairi et al., 2015 [29] muestran la utilidad de funciones submodulares para resumir jerarquías de temas de múltiples documentos. Las funciones submodulares también se han utilizado con éxito para resumir conjuntos de datos de aprendizaje automático. [30]
Las aplicaciones específicas del resumen automático incluyen:
La forma más común de evaluar el contenido informativo de los resúmenes automáticos es compararlos con resúmenes de modelos creados por humanos.
La evaluación puede ser intrínseca o extrínseca, [36] e intertextual o intratextual. [37]
La evaluación intrínseca evalúa los resúmenes directamente, mientras que la evaluación extrínseca evalúa cómo el sistema de resumen afecta la realización de alguna otra tarea. Las evaluaciones intrínsecas han valorado principalmente la coherencia y el carácter informativo de los resúmenes. Las evaluaciones extrínsecas, por otro lado, han probado el impacto de la resumición en tareas como la evaluación de relevancia, la comprensión lectora, etc.
La evaluación intratextual evalúa los resultados de un sistema de resumen específico, mientras que la evaluación intertextual se centra en el análisis contrastivo de los resultados de varios sistemas de resumen.
El juicio humano a menudo varía mucho en lo que considera un "buen" resumen, por lo que crear un proceso de evaluación automático es particularmente difícil. Se puede utilizar la evaluación manual, pero requiere mucho tiempo y trabajo, ya que requiere que los humanos lean no solo los resúmenes sino también los documentos originales. Otras cuestiones son las relativas a la coherencia y la cobertura.
La forma más común de evaluar resúmenes es ROUGE (Suplente orientado a la recuperación para la evaluación de Gisting). Es muy común para los sistemas de resumen y traducción en las Conferencias de comprensión de documentos del NIST .[2] ROUGE es una medida basada en recuerdos de qué tan bien un resumen cubre el contenido de resúmenes generados por humanos conocidos como referencias. Calcula superposiciones de n-gramas entre resúmenes generados automáticamente y resúmenes humanos escritos previamente. Se basa en recuerdos para fomentar la inclusión de todos los temas importantes en los resúmenes. La recuperación se puede calcular con respecto a la coincidencia de unigramas, bigramas, trigramas o 4 gramos. Por ejemplo, ROUGE-1 es la fracción de unigramas que aparecen tanto en el resumen de referencia como en el resumen automático de todos los unigramas en el resumen de referencia. Si hay varios resúmenes de referencias, se promedian sus puntuaciones. Un alto nivel de superposición debería indicar un alto grado de conceptos compartidos entre los dos resúmenes.
ROUGE no puede determinar si el resultado es coherente, es decir, si las frases fluyen juntas de forma sensata. Las medidas ROUGE de n-gramas de alto orden ayudan hasta cierto punto.
Otro problema sin resolver es la resolución de anáforas . De manera similar, para el resumen de imágenes, Tschiatschek et al. desarrollaron una puntuación Visual-ROUGE que juzga el rendimiento de los algoritmos para el resumen de imágenes. [38]
Las técnicas de resumen independientes del dominio aplican conjuntos de características generales para identificar segmentos de texto ricos en información. La investigación reciente se centra en el resumen de un dominio específico utilizando conocimientos específicos del dominio del texto, como el conocimiento médico y las ontologías para resumir textos médicos. [39]
El principal inconveniente de los sistemas de evaluación hasta ahora es que necesitamos un resumen de referencia (para algunos métodos, más de uno), para comparar resúmenes automáticos con modelos. Ésta es una tarea difícil y costosa. Hay que hacer muchos esfuerzos para crear corpus de textos y sus correspondientes resúmenes. Además, algunos métodos requieren anotaciones manuales de los resúmenes (por ejemplo, SCU en el método de la pirámide). Además, todos realizan una evaluación cuantitativa con respecto a diferentes métricas de similitud.
La primera publicación en el área data de 1957 [40] ( Hans Peter Luhn ), partiendo de una técnica estadística. La investigación aumentó significativamente en 2015. En 2016 se había utilizado frecuencia de términos-frecuencia de documentos inversa. El resumen basado en patrones fue la opción más poderosa para el resumen de múltiples documentos encontrada en 2016. Al año siguiente fue superada por el análisis semántico latente (LSA). combinado con factorización matricial no negativa (NMF). Aunque no reemplazaron a otros enfoques y a menudo se combinan con ellos, en 2019 los métodos de aprendizaje automático dominaron el resumen extractivo de documentos individuales, que se consideraba que estaba cerca de su madurez. En 2020, el campo todavía estaba muy activo y la investigación se está desplazando hacia la suma abstracta y la suma en tiempo real. [41]
Recientemente, el auge de los modelos de transformadores que reemplazan a los RNN más tradicionales ( LSTM ) ha proporcionado flexibilidad en el mapeo de secuencias de texto a secuencias de texto de un tipo diferente, lo que se adapta bien al resumen automático. Esto incluye modelos como T5 [42] y Pegasus. [43]
{{cite book}}
: Mantenimiento CS1: falta el editor de la ubicación ( enlace ){{cite web}}
: Mantenimiento CS1: copia archivada como título ( enlace ) Mantenimiento CS1: bot: estado de la URL original desconocido ( enlace ){{cite book}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace ){{cite book}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace ), El algoritmo GRASSHOPPER{{cite book}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace ), Estructuras Conceptuales para la Investigación y Educación STEM.