stringtranslate.com

Resumen automático

El resumen automático es el proceso de acortar un conjunto de datos computacionalmente para crear un subconjunto (un resumen ) que representa la información más importante o relevante dentro del contenido original. Para lograr esto, comúnmente se desarrollan y emplean algoritmos de inteligencia artificial , especializados para diferentes tipos de datos.

El resumen de texto generalmente se implementa mediante métodos de procesamiento del lenguaje natural , diseñados para ubicar las oraciones más informativas en un documento determinado. [1] Por otro lado, el contenido visual se puede resumir utilizando algoritmos de visión por computadora . El resumen de imágenes es objeto de investigación en curso; Los enfoques existentes suelen intentar mostrar las imágenes más representativas de una colección de imágenes determinada o generar un vídeo que solo incluya el contenido más importante de toda la colección. [2] [3] [4] Los algoritmos de resumen de vídeo identifican y extraen del contenido del vídeo original los fotogramas más importantes ( fotogramas clave ) y/o los segmentos de vídeo más importantes ( tomas clave ), normalmente de forma ordenada temporalmente. . [5] [6] [7] [8] Los resúmenes de vídeo simplemente retienen un subconjunto cuidadosamente seleccionado de los fotogramas de vídeo originales y, por lo tanto, no son idénticos a la salida de los algoritmos de sinopsis de vídeo , donde los nuevos fotogramas de vídeo se sintetizan en función de la Contenido de vídeo original.

Productos comerciales

En 2022, Google Docs lanzó una función de resumen automático. [9]

Enfoques

Hay dos enfoques generales para el resumen automático: extracción y abstracción .

Resumen basado en extracción

Aquí, el contenido se extrae de los datos originales, pero el contenido extraído no se modifica de ninguna manera. Los ejemplos de contenido extraído incluyen frases clave que se pueden usar para "etiquetar" o indexar un documento de texto, u oraciones clave (incluidos encabezados) que en conjunto comprenden un resumen e imágenes representativas o segmentos de video, como se indicó anteriormente. Para el texto, la extracción es análoga al proceso de hojeado, donde el resumen (si está disponible), los títulos y subtítulos, las figuras, el primer y último párrafo de una sección y, opcionalmente, la primera y la última oración de un párrafo se leen antes de elegir. para leer el documento completo en detalle. [10] Otros ejemplos de extracción que incluyen secuencias clave de texto en términos de relevancia clínica (incluido paciente/problema, intervención y resultado). [11]

Resumen basado en abstractivos

Los métodos de resumen abstractivo generan texto nuevo que no existía en el texto original. [12] Esto se ha aplicado principalmente para texto. Los métodos abstractivos construyen una representación semántica interna del contenido original (a menudo llamado modelo de lenguaje) y luego usan esta representación para crear un resumen que se acerque más a lo que un humano podría expresar. La abstracción puede transformar el contenido extraído parafraseando secciones del documento fuente, para condensar un texto con más fuerza que la extracción. Sin embargo, dicha transformación es computacionalmente mucho más desafiante que la extracción, ya que implica tanto el procesamiento del lenguaje natural como, a menudo, una comprensión profunda del dominio del texto original en los casos en que el documento original se relaciona con un campo de conocimiento especial. "Parafrasear" es aún más difícil de aplicar a imágenes y vídeos, razón por la cual la mayoría de los sistemas de resumen son extractivos.

resumen asistido

Los enfoques destinados a una mayor calidad de resúmenes se basan en una combinación de software y esfuerzo humano. En el resumen humano asistido por máquina, las técnicas extractivas resaltan pasajes candidatos para su inclusión (a los que el humano agrega o elimina texto). En el resumen automático asistido por humanos, un humano postprocesa la salida del software, de la misma manera que se edita la salida de la traducción automática de Google Translate.

Aplicaciones y sistemas de resumen.

En términos generales, existen dos tipos de tareas de resumen extractivo según en qué se centre el programa de resumen. El primero es el resumen genérico , que se centra en obtener un resumen o resumen genérico de la colección (ya sean documentos, o conjuntos de imágenes, o vídeos, noticias, etc.). El segundo es el resumen relevante para consultas , a veces llamado resumen basado en consultas , que resume objetos específicos de una consulta. Los sistemas de resumen pueden crear tanto resúmenes de texto relevantes para consultas como resúmenes genéricos generados por máquinas, según las necesidades del usuario.

Un ejemplo de problema de resumen es el resumen de documentos, que intenta producir automáticamente un resumen de un documento determinado. A veces, uno puede estar interesado en generar un resumen a partir de un único documento fuente, mientras que otros pueden utilizar varios documentos fuente (por ejemplo, un grupo de artículos sobre el mismo tema). Este problema se llama resumen de múltiples documentos . Una aplicación relacionada resume artículos de noticias. Imagine un sistema que reúne automáticamente artículos de noticias sobre un tema determinado (de la web) y representa de manera concisa las últimas noticias como un resumen.

El resumen de colecciones de imágenes es otro ejemplo de aplicación de resumen automático. Consiste en seleccionar un conjunto representativo de imágenes de un conjunto mayor de imágenes. [13] Un resumen en este contexto es útil para mostrar las imágenes más representativas de los resultados en un sistema de exploración de colección de imágenes . El resumen de vídeo es un dominio relacionado, donde el sistema crea automáticamente un avance de un vídeo largo. Esto también tiene aplicaciones en vídeos personales o de consumo, donde es posible que desees saltarte las acciones aburridas o repetitivas. De manera similar, en los videos de vigilancia, uno querría extraer actividad importante y sospechosa, ignorando todos los fotogramas aburridos y redundantes capturados.

En un nivel muy alto, los algoritmos de resumen intentan encontrar subconjuntos de objetos (como un conjunto de oraciones o un conjunto de imágenes) que cubran información del conjunto completo. Esto también se llama conjunto básico . Estos algoritmos modelan nociones como diversidad, cobertura, información y representatividad del resumen. Técnicas de resumen basadas en consultas, además modelan la relevancia del resumen con la consulta. Algunas técnicas y algoritmos que modelan naturalmente los problemas de resumen son TextRank y PageRank, función de conjunto submodular , proceso de punto determinante , relevancia marginal máxima (MMR), etc.

Extracción de frases clave

La tarea es la siguiente. Se le proporciona un fragmento de texto, como un artículo de revista, y debe producir una lista de palabras clave o [frases] clave que capturen los temas principales discutidos en el texto. [14] En el caso de artículos de investigación , muchos autores proporcionan palabras clave asignadas manualmente, pero la mayoría del texto carece de frases clave preexistentes. Por ejemplo, los artículos de noticias rara vez incluyen frases clave adjuntas, pero sería útil poder hacerlo automáticamente para una serie de aplicaciones que se analizan a continuación. Considere el texto de ejemplo de un artículo de noticias:

"El Cuerpo de Ingenieros del Ejército, apresurándose a cumplir la promesa del Presidente Bush de proteger Nueva Orleans para el inicio de la temporada de huracanes de 2006, instaló el año pasado bombas de control de inundaciones defectuosas a pesar de las advertencias de su propio experto de que el equipo fallaría durante una tormenta, según a documentos obtenidos por The Associated Press".

Un extractor de frases clave podría seleccionar "Cuerpo de Ingenieros del Ejército", "Presidente Bush", "Nueva Orleans" y "bombas de control de inundaciones defectuosas" como frases clave. Estos están extraídos directamente del texto. Por el contrario, un sistema de frases clave abstractivo de alguna manera internalizaría el contenido y generaría frases clave que no aparecen en el texto, pero que se parecen más a lo que un ser humano podría producir, como "negligencia política" o "protección inadecuada contra inundaciones". La abstracción requiere una comprensión profunda del texto , lo que lo dificulta para un sistema informático. Las frases clave tienen muchas aplicaciones. Pueden permitir la exploración de documentos proporcionando un breve resumen, mejorar la recuperación de información (si los documentos tienen frases clave asignadas, un usuario podría buscar por frase clave para producir resultados más confiables que una búsqueda de texto completo ) y usarse para generar entradas de índice para una gran cantidad de documentos. corpus de texto.

Dependiendo de la diferente literatura y de la definición de términos, palabras o frases clave, la extracción de palabras clave es un tema muy relacionado.

Enfoques de aprendizaje supervisado

A partir del trabajo de Turney, [15] muchos investigadores han abordado la extracción de frases clave como un problema de aprendizaje automático supervisado . Dado un documento, construimos un ejemplo para cada unigrama , bigrama y trigrama que se encuentran en el texto (aunque también son posibles otras unidades de texto, como se analiza a continuación). Luego calculamos varias características que describen cada ejemplo (por ejemplo, ¿la frase comienza con una letra mayúscula?). Suponemos que hay frases clave conocidas disponibles para un conjunto de documentos de formación. Usando las frases clave conocidas, podemos asignar etiquetas positivas o negativas a los ejemplos. Luego aprendemos un clasificador que puede discriminar entre ejemplos positivos y negativos en función de las características. Algunos clasificadores realizan una clasificación binaria para un ejemplo de prueba, mientras que otros asignan una probabilidad de ser una frase clave. Por ejemplo, en el texto anterior, podríamos aprender una regla que dice que las frases con letras mayúsculas iniciales probablemente sean frases clave. Después de capacitar a un alumno, podemos seleccionar frases clave para los documentos de prueba de la siguiente manera. Aplicamos la misma estrategia de generación de ejemplos a los documentos de prueba y luego ejecutamos cada ejemplo con el alumno. Podemos determinar las frases clave observando las decisiones de clasificación binaria o las probabilidades devueltas por nuestro modelo aprendido. Si se dan probabilidades, se utiliza un umbral para seleccionar las frases clave. Los extractores de frases clave generalmente se evalúan mediante precisión y recuperación . La precisión mide cuántas de las frases clave propuestas son realmente correctas. La recuperación mide cuántas de las frases clave verdaderas propuso su sistema. Las dos medidas se pueden combinar en una puntuación F, que es la media armónica de las dos ( F  = 2 PR /( P  +  R )). Las coincidencias entre las frases clave propuestas y las frases clave conocidas se pueden verificar después de derivar o aplicar alguna otra normalización de texto.

Diseñar un sistema de extracción de frases clave supervisado implica decidir entre varias opciones (algunas de ellas también se aplican a los sistemas no supervisados). La primera opción es exactamente cómo generar ejemplos. Turney y otros han utilizado todos los unigramas, bigramas y trigramas posibles sin intervención de puntuación y después de eliminar las palabras vacías. Hulth demostró que se pueden obtener algunas mejoras seleccionando ejemplos para que sean secuencias de tokens que coincidan con ciertos patrones de etiquetas de parte del discurso. Idealmente, el mecanismo para generar ejemplos produce todas las frases clave etiquetadas conocidas como candidatas, aunque este no suele ser el caso. Por ejemplo, si utilizamos sólo unigramas, bigramas y trigramas, nunca podremos extraer una frase clave conocida que contenga cuatro palabras. Por lo tanto, la recuperación puede verse afectada. Sin embargo, generar demasiados ejemplos también puede dar lugar a una baja precisión.

También necesitamos crear características que describan los ejemplos y sean lo suficientemente informativas como para permitir que un algoritmo de aprendizaje discrimine las frases clave de las que no lo son. Normalmente, las características implican varias frecuencias de términos (cuántas veces aparece una frase en el texto actual o en un corpus más grande), la longitud del ejemplo, la posición relativa de la primera aparición, varias características sintácticas booleanas (por ejemplo, contiene todo en mayúsculas), etc. El artículo de Turney utilizó alrededor de 12 de estas características. Hulth utiliza un conjunto reducido de características, que tuvieron mayor éxito en el trabajo KEA (algoritmo de extracción de frases clave) derivado del artículo fundamental de Turney.

Al final, el sistema necesitará devolver una lista de frases clave para un documento de prueba, por lo que necesitamos una manera de limitar el número. Se han utilizado métodos de conjunto (es decir, el uso de votos de varios clasificadores) para producir puntuaciones numéricas que pueden establecerse como umbrales para proporcionar un número de frases clave proporcionadas por el usuario. Esta es la técnica utilizada por Turney con los árboles de decisión C4.5. Hulth utilizó un único clasificador binario para que el algoritmo de aprendizaje determine implícitamente el número apropiado.

Una vez creados los ejemplos y las funciones, necesitamos una forma de aprender a predecir frases clave. Se podría utilizar prácticamente cualquier algoritmo de aprendizaje supervisado, como árboles de decisión, Naive Bayes e inducción de reglas. En el caso del algoritmo GenEx de Turney, se utiliza un algoritmo genético para aprender parámetros para un algoritmo de extracción de frases clave de dominio específico. El extractor sigue una serie de heurísticas para identificar frases clave. El algoritmo genético optimiza los parámetros de estas heurísticas con respecto al rendimiento en documentos de entrenamiento con frases clave conocidas.

Enfoque no supervisado: TextRank

Otro algoritmo de extracción de frases clave es TextRank. Si bien los métodos supervisados ​​tienen algunas propiedades interesantes, como la capacidad de producir reglas interpretables para las características que caracterizan una frase clave, también requieren una gran cantidad de datos de entrenamiento . Se necesitan muchos documentos con frases clave conocidas. Además, el entrenamiento en un dominio específico tiende a personalizar el proceso de extracción para ese dominio, por lo que el clasificador resultante no es necesariamente portátil, como lo demuestran algunos de los resultados de Turney. La extracción de frases clave no supervisadas elimina la necesidad de datos de entrenamiento. Aborda el problema desde un ángulo diferente. En lugar de intentar aprender características explícitas que caracterizan las frases clave, el algoritmo TextRank [16] explota la estructura del texto mismo para determinar frases clave que parecen "centrales" para el texto de la misma manera que PageRank selecciona páginas web importantes. Recordemos que esto se basa en la noción de "prestigio" o "recomendación" de las redes sociales . De esta manera, TextRank no depende en absoluto de ningún dato de entrenamiento previo, sino que puede ejecutarse en cualquier fragmento de texto arbitrario y puede producir resultados basados ​​simplemente en las propiedades intrínsecas del texto. Por tanto, el algoritmo es fácilmente portátil a nuevos dominios e idiomas.

TextRank es un algoritmo de clasificación basado en gráficos de propósito general para PNL . Básicamente, ejecuta PageRank en un gráfico especialmente diseñado para una tarea de PNL en particular. Para la extracción de frases clave, crea un gráfico utilizando un conjunto de unidades de texto como vértices. Los bordes se basan en alguna medida de similitud semántica o léxica entre los vértices de la unidad de texto. A diferencia del PageRank, los bordes normalmente no están dirigidos y pueden ponderarse para reflejar cierto grado de similitud. Una vez construido el gráfico, se utiliza para formar una matriz estocástica, combinada con un factor de amortiguación (como en el "modelo de surfista aleatorio"), y la clasificación sobre los vértices se obtiene encontrando el vector propio correspondiente al valor propio 1 (es decir, el distribución estacionaria del paseo aleatorio en el gráfico).

Los vértices deben corresponder a lo que queremos clasificar. Potencialmente, podríamos hacer algo similar a los métodos supervisados ​​y crear un vértice para cada unigrama, bigrama, trigrama, etc. Sin embargo, para mantener el gráfico pequeño, los autores deciden clasificar los unigramas individuales en un primer paso y luego incluir un segundo. Paso que fusiona unigramas adyacentes altamente clasificados para formar frases de varias palabras. Esto tiene el agradable efecto secundario de permitirnos producir frases clave de longitud arbitraria. Por ejemplo, si clasificamos los unigramas y encontramos que "avanzado", "natural", "lenguaje" y "procesamiento" obtienen clasificaciones altas, entonces miraríamos el texto original y veríamos que estas palabras aparecen consecutivamente y crearíamos una clasificación final. frase clave usando los cuatro juntos. Tenga en cuenta que los unigramas colocados en el gráfico se pueden filtrar por parte de la oración. Los autores encontraron que los adjetivos y sustantivos eran los mejores para incluir. Por tanto, en este paso entran en juego algunos conocimientos lingüísticos.

Los bordes se crean en función de la coexistencia de palabras en esta aplicación de TextRank. Dos vértices están conectados por una arista si los unigramas aparecen dentro de una ventana de tamaño N en el texto original. N suele estar entre 2 y 10. Por tanto, "natural" y "lenguaje" podrían estar vinculados en un texto sobre PNL. "Natural" y "procesamiento" también estarían vinculados porque ambos aparecerían en la misma cadena de N palabras. Estos bordes se basan en la noción de " cohesión del texto " y la idea de que las palabras que aparecen cerca unas de otras probablemente estén relacionadas de manera significativa y se "recomienden" entre sí al lector.

Dado que este método simplemente clasifica los vértices individuales, necesitamos una forma de establecer un umbral o producir un número limitado de frases clave. La técnica elegida es establecer un recuento T para que sea una fracción especificada por el usuario del número total de vértices en el gráfico. Luego, los vértices/unigramas T superiores se seleccionan en función de sus probabilidades estacionarias. Luego se aplica un paso de posprocesamiento para fusionar instancias adyacentes de estos unigramas T. Como resultado, se producirán potencialmente más o menos de T frases clave finales, pero el número debe ser aproximadamente proporcional a la longitud del texto original.

Inicialmente no está claro por qué la aplicación de PageRank a un gráfico de coocurrencia produciría frases clave útiles. Una forma de pensarlo es la siguiente. Una palabra que aparece varias veces a lo largo de un texto puede tener muchos vecinos concurrentes diferentes. Por ejemplo, en un texto sobre aprendizaje automático, el unigrama "aprendizaje" puede aparecer junto con "máquina", "supervisado", "no supervisado" y "semisupervisado" en cuatro oraciones diferentes. Así, el vértice de "aprendizaje" sería un "centro" central que conecta con estas otras palabras modificadoras. Es probable que ejecutar PageRank/TextRank en el gráfico otorgue una clasificación alta al "aprendizaje". De manera similar, si el texto contiene la frase "clasificación supervisada", habría una diferencia entre "supervisada" y "clasificación". Si la "clasificación" aparece en varios otros lugares y por tanto tiene muchos vecinos, su importancia contribuiría a la importancia de "supervisado". Si termina con un rango alto, será seleccionado como uno de los mejores unigramas T, junto con "aprendizaje" y probablemente "clasificación". En el paso final de posprocesamiento, terminaríamos con las frases clave "aprendizaje supervisado" y "clasificación supervisada".

En resumen, el gráfico de coocurrencia contendrá regiones densamente conectadas para términos que aparecen con frecuencia y en diferentes contextos. Un paseo aleatorio sobre este gráfico tendrá una distribución estacionaria que asigna grandes probabilidades a los términos en los centros de los conglomerados. Esto es similar a páginas web densamente conectadas que obtienen una clasificación alta en PageRank. Este enfoque también se ha utilizado en el resumen de documentos, que se analiza a continuación.

Resumen de documentos

Al igual que la extracción de frases clave, el resumen de documentos tiene como objetivo identificar la esencia de un texto. La única diferencia real es que ahora estamos tratando con unidades de texto más grandes: oraciones completas en lugar de palabras y frases.

Enfoques de aprendizaje supervisado

El resumen de texto supervisado es muy parecido a la extracción supervisada de frases clave. Básicamente, si tiene una colección de documentos y resúmenes generados por humanos para ellos, puede aprender características de las oraciones que las convierten en buenas candidatas para su inclusión en el resumen. Las características pueden incluir la posición en el documento (es decir, las primeras oraciones probablemente sean importantes), el número de palabras en la oración, etc. La principal dificultad en el resumen extractivo supervisado es que los resúmenes conocidos deben crearse manualmente extrayendo oraciones de manera que Las oraciones de un documento de formación original pueden etiquetarse como "en resumen" o "no en resumen". Normalmente, no es así como la gente crea resúmenes, por lo que simplemente utilizar resúmenes de revistas o resúmenes existentes no suele ser suficiente. Las oraciones de estos resúmenes no necesariamente coinciden con las oraciones del texto original, por lo que sería difícil asignar etiquetas a los ejemplos para capacitación. Sin embargo, tenga en cuenta que estos resúmenes naturales aún se pueden utilizar con fines de evaluación, ya que la evaluación de ROUGE-1 solo considera unigramas.

Resumen máximo basado en entropía

Durante los talleres de evaluación de DUC de 2001 y 2002, TNO desarrolló un sistema de extracción de oraciones para el resumen de múltiples documentos en el ámbito de las noticias. El sistema se basó en un sistema híbrido que utiliza un clasificador Naive Bayes y modelos de lenguaje estadístico para modelar la prominencia. Aunque el sistema mostró buenos resultados, los investigadores querían explorar la efectividad de un clasificador de máxima entropía (ME) para la tarea de resumen de reuniones, ya que se sabe que ME es robusto contra las dependencias de características. La entropía máxima también se ha aplicado con éxito para resumir en el ámbito de las noticias transmitidas.

Resumen adaptativo

Un enfoque prometedor es el resumen adaptable de documentos/textos. [17] Implica primero reconocer el género del texto y luego aplicar algoritmos de resumen optimizados para este género. Se ha creado dicho software. [18]

TextRank y LexRank

El enfoque no supervisado del resumen también es bastante similar en espíritu a la extracción de frases clave no supervisadas y soluciona el problema de los costosos datos de entrenamiento. Algunos enfoques de resumen no supervisados ​​se basan en encontrar una oración " centroide ", que es el vector de palabras medias de todas las oraciones del documento. Luego las oraciones se pueden clasificar con respecto a su similitud con esta oración centroide.

Una forma más basada en principios de estimar la importancia de las oraciones es utilizar paseos aleatorios y centralidad de vector propio. LexRank [19] es un algoritmo esencialmente idéntico a TextRank, y ambos utilizan este enfoque para el resumen de documentos. Los dos métodos fueron desarrollados por diferentes grupos al mismo tiempo, y LexRank simplemente se centró en el resumen, pero podría usarse con la misma facilidad para la extracción de frases clave o cualquier otra tarea de clasificación de PNL.

Tanto en LexRank como en TextRank, se construye un gráfico creando un vértice para cada oración del documento.

Los límites entre oraciones se basan en alguna forma de similitud semántica o superposición de contenido. Mientras que LexRank usa la similitud del coseno de los vectores TF-IDF , TextRank usa una medida muy similar basada en la cantidad de palabras que dos oraciones tienen en común ( normalizada por la longitud de las oraciones). El artículo de LexRank exploró el uso de aristas no ponderadas después de aplicar un umbral a los valores del coseno, pero también experimentó con el uso de aristas con pesos iguales a la puntuación de similitud. TextRank utiliza puntuaciones de similitud continua como ponderaciones.

En ambos algoritmos, las frases se clasifican aplicando PageRank al gráfico resultante. Un resumen se forma combinando las oraciones mejor clasificadas, utilizando un umbral o límite de longitud para limitar el tamaño del resumen.

Vale la pena señalar que TextRank se aplicó al resumen exactamente como se describe aquí, mientras que LexRank se usó como parte de un sistema de resumen más amplio (MEAD) que combina la puntuación LexRank (probabilidad estacionaria) con otras características como la posición y longitud de la oración usando una combinación lineal. con pesos especificados por el usuario o ajustados automáticamente. En este caso, es posible que se necesiten algunos documentos de capacitación, aunque los resultados de TextRank muestran que las funciones adicionales no son absolutamente necesarias.

A diferencia de TextRank, LexRank se ha aplicado al resumen de varios documentos.

Resumen de varios documentos

El resumen de múltiples documentos es un procedimiento automático destinado a extraer información de múltiples textos escritos sobre el mismo tema. El informe resumido resultante permite a los usuarios individuales, como los consumidores de información profesionales, familiarizarse rápidamente con la información contenida en un gran grupo de documentos. De esta manera, los sistemas de resumen de múltiples documentos complementan a los agregadores de noticias que dan el siguiente paso en el camino para hacer frente a la sobrecarga de información . También se puede realizar un resumen de varios documentos en respuesta a una pregunta. [20] [11]

El resumen de varios documentos crea informes de información que son a la vez concisos y completos. Con diferentes opiniones reunidas y delineadas, cada tema se describe desde múltiples perspectivas en un solo documento. Si bien el objetivo de un resumen breve es simplificar la búsqueda de información y reducir el tiempo señalando los documentos fuente más relevantes, un resumen integral de varios documentos debe contener la información requerida, limitando así la necesidad de acceder a los archivos originales a los casos en los que es necesario perfeccionarlo. requerido. Los resúmenes automáticos presentan información extraída de múltiples fuentes algorítmicamente, sin ningún toque editorial ni intervención humana subjetiva, lo que los hace completamente imparciales. [ dudoso ]

Diversidad

El resumen extractivo de múltiples documentos enfrenta un problema de redundancia. Idealmente, queremos extraer oraciones que sean a la vez "centrales" (es decir, que contengan las ideas principales) y "diversas" (es decir, que difieran unas de otras). Por ejemplo, en un conjunto de artículos de noticias sobre algún evento, es probable que cada artículo tenga muchas oraciones similares. Para abordar este problema, LexRank aplica un paso de posprocesamiento heurístico que agrega oraciones en orden de clasificación, pero descarta oraciones que son demasiado similares a las que ya están en el resumen. Este método se llama subsunción de información entre oraciones (CSIS). Estos métodos funcionan basándose en la idea de que las frases "recomiendan" al lector otras frases similares. Por lo tanto, si una oración es muy similar a muchas otras, probablemente será una oración de gran importancia. Su importancia también deriva de la importancia de las frases que lo "recomiendan". Por lo tanto, para obtener una clasificación alta y ser colocada en un resumen, una oración debe ser similar a muchas oraciones que a su vez también son similares a muchas otras oraciones. Esto tiene sentido intuitivo y permite que los algoritmos se apliquen a un texto nuevo arbitrario. Los métodos son independientes del dominio y fácilmente portátiles. Uno podría imaginar que las características que indican oraciones importantes en el ámbito de las noticias podrían variar considerablemente del ámbito biomédico. Sin embargo, el enfoque basado en "recomendaciones" no supervisado se aplica a cualquier dominio.

Un método relacionado es la Relevancia Marginal Máxima (MMR), [21] que utiliza un algoritmo de clasificación basado en gráficos de propósito general como Page/Lex/TextRank que maneja tanto la "centralidad" como la "diversidad" en un marco matemático unificado basado en la absorción de Markov. caminatas aleatorias en cadena (una caminata aleatoria donde ciertos estados finalizan la caminata). El algoritmo se llama GRASSHOPPER. [22] Además de promover explícitamente la diversidad durante el proceso de clasificación, GRASSHOPPER incorpora una clasificación previa (basada en la posición de la oración en el caso de un resumen).

Los resultados más avanzados para el resumen de múltiples documentos se obtienen utilizando mezclas de funciones submodulares. Estos métodos han logrado resultados de última generación para Document Sumarization Corpora, DUC 04 - 07. [23] Se lograron resultados similares con el uso de procesos de puntos determinantes (que son un caso especial de funciones submodulares) para DUC-04. [24]

Un nuevo método para el resumen multilingüe de documentos múltiples que evita la redundancia genera ideogramas para representar el significado de cada oración en cada documento y luego evalúa la similitud comparando la forma y posición del ideograma. No utiliza frecuencia de palabras, entrenamiento o preprocesamiento. Utiliza dos parámetros proporcionados por el usuario: equivalencia (¿cuándo dos oraciones se consideran equivalentes?) y relevancia (¿cuánto dura el resumen deseado?).

Funciones submodulares como herramientas genéricas de resumen.

La idea de una función de conjunto submodular ha surgido recientemente como una poderosa herramienta de modelado para diversos problemas de resumen. Las funciones submodulares modelan naturalmente nociones de cobertura , información , representación y diversidad . Además, varios problemas importantes de optimización combinatoria ocurren como casos especiales de optimización submodular. Por ejemplo, el problema de cobertura de conjuntos es un caso especial de optimización submodular, ya que la función de cobertura de conjuntos es submodular. La función de cobertura de conjuntos intenta encontrar un subconjunto de objetos que cubran un conjunto determinado de conceptos. Por ejemplo, en el resumen de documentos, a uno le gustaría que el resumen cubra todos los conceptos importantes y relevantes del documento. Este es un ejemplo de cobertura establecida. De manera similar, el problema de ubicación de instalaciones es un caso especial de funciones submodulares. La función Ubicación de instalaciones también modela naturalmente la cobertura y la diversidad. Otro ejemplo de un problema de optimización submodular es el uso de un proceso de puntos determinantes para modelar la diversidad. De manera similar, el procedimiento de Máxima Relevancia Marginal también puede verse como un ejemplo de optimización submodular. Todos estos importantes modelos que fomentan la cobertura, la diversidad y la información son todos submodulares. Además, las funciones submodulares se pueden combinar de manera eficiente y la función resultante sigue siendo submodular. Por lo tanto, se podría combinar una función submodular que modele la diversidad, otra que modele la cobertura y utilizar la supervisión humana para aprender un modelo correcto de una función submodular para el problema.

Si bien las funciones submodulares son problemas apropiados para el resumen, también admiten algoritmos de optimización muy eficientes. Por ejemplo, un algoritmo codicioso simple admite una garantía de factor constante. [25] Además, el algoritmo codicioso es extremadamente simple de implementar y puede escalarse a grandes conjuntos de datos, lo cual es muy importante para los problemas de resumen.

Las funciones submodulares han alcanzado la última tecnología para casi todos los problemas de resumen. Por ejemplo, el trabajo de Lin y Bilmes, 2012 [26] muestra que las funciones submodulares logran los mejores resultados hasta la fecha en los sistemas DUC-04, DUC-05, DUC-06 y DUC-07 para el resumen de documentos. De manera similar, el trabajo de Lin y Bilmes, 2011, [27] muestra que muchos sistemas existentes para el resumen automático son instancias de funciones submodulares. Este fue un resultado revolucionario que estableció las funciones submodulares como los modelos adecuados para los problemas de resumen. [ cita necesaria ]

Las funciones submodulares también se han utilizado para otras tareas de resumen. Tschiatschek et al., 2014 muestran [28] que las mezclas de funciones submodulares logran resultados de última generación para el resumen de colecciones de imágenes. De manera similar, Bairi et al., 2015 [29] muestran la utilidad de funciones submodulares para resumir jerarquías de temas de múltiples documentos. Las funciones submodulares también se han utilizado con éxito para resumir conjuntos de datos de aprendizaje automático. [30]

Aplicaciones

Las aplicaciones específicas del resumen automático incluyen:

Evaluación

La forma más común de evaluar el contenido informativo de los resúmenes automáticos es compararlos con resúmenes de modelos creados por humanos.

La evaluación puede ser intrínseca o extrínseca, [36] e intertextual o intratextual. [37]

Intrínseco versus extrínseco

La evaluación intrínseca evalúa los resúmenes directamente, mientras que la evaluación extrínseca evalúa cómo el sistema de resumen afecta la realización de alguna otra tarea. Las evaluaciones intrínsecas han valorado principalmente la coherencia y el carácter informativo de los resúmenes. Las evaluaciones extrínsecas, por otro lado, han probado el impacto de la resumición en tareas como la evaluación de relevancia, la comprensión lectora, etc.

Intertextual versus intratextual

La evaluación intratextual evalúa los resultados de un sistema de resumen específico, mientras que la evaluación intertextual se centra en el análisis contrastivo de los resultados de varios sistemas de resumen.

El juicio humano a menudo varía mucho en lo que considera un "buen" resumen, por lo que crear un proceso de evaluación automático es particularmente difícil. Se puede utilizar la evaluación manual, pero requiere mucho tiempo y trabajo, ya que requiere que los humanos lean no solo los resúmenes sino también los documentos originales. Otras cuestiones son las relativas a la coherencia y la cobertura.

La forma más común de evaluar resúmenes es ROUGE (Suplente orientado a la recuperación para la evaluación de Gisting). Es muy común para los sistemas de resumen y traducción en las Conferencias de comprensión de documentos del NIST .[2] ROUGE es una medida basada en recuerdos de qué tan bien un resumen cubre el contenido de resúmenes generados por humanos conocidos como referencias. Calcula superposiciones de n-gramas entre resúmenes generados automáticamente y resúmenes humanos escritos previamente. Se basa en recuerdos para fomentar la inclusión de todos los temas importantes en los resúmenes. La recuperación se puede calcular con respecto a la coincidencia de unigramas, bigramas, trigramas o 4 gramos. Por ejemplo, ROUGE-1 es la fracción de unigramas que aparecen tanto en el resumen de referencia como en el resumen automático de todos los unigramas en el resumen de referencia. Si hay varios resúmenes de referencias, se promedian sus puntuaciones. Un alto nivel de superposición debería indicar un alto grado de conceptos compartidos entre los dos resúmenes.

ROUGE no puede determinar si el resultado es coherente, es decir, si las frases fluyen juntas de forma sensata. Las medidas ROUGE de n-gramas de alto orden ayudan hasta cierto punto.

Otro problema sin resolver es la resolución de anáforas . De manera similar, para el resumen de imágenes, Tschiatschek et al. desarrollaron una puntuación Visual-ROUGE que juzga el rendimiento de los algoritmos para el resumen de imágenes. [38]

Resumen específico del dominio versus resumen independiente del dominio

Las técnicas de resumen independientes del dominio aplican conjuntos de características generales para identificar segmentos de texto ricos en información. La investigación reciente se centra en el resumen de un dominio específico utilizando conocimientos específicos del dominio del texto, como el conocimiento médico y las ontologías para resumir textos médicos. [39]

Cualitativo

El principal inconveniente de los sistemas de evaluación hasta ahora es que necesitamos un resumen de referencia (para algunos métodos, más de uno), para comparar resúmenes automáticos con modelos. Ésta es una tarea difícil y costosa. Hay que hacer muchos esfuerzos para crear corpus de textos y sus correspondientes resúmenes. Además, algunos métodos requieren anotaciones manuales de los resúmenes (por ejemplo, SCU en el método de la pirámide). Además, todos realizan una evaluación cuantitativa con respecto a diferentes métricas de similitud.

Historia

La primera publicación en el área data de 1957 [40] ( Hans Peter Luhn ), partiendo de una técnica estadística. La investigación aumentó significativamente en 2015. En 2016 se había utilizado frecuencia de términos-frecuencia de documentos inversa. El resumen basado en patrones fue la opción más poderosa para el resumen de múltiples documentos encontrada en 2016. Al año siguiente fue superada por el análisis semántico latente (LSA). combinado con factorización matricial no negativa (NMF). Aunque no reemplazaron a otros enfoques y a menudo se combinan con ellos, en 2019 los métodos de aprendizaje automático dominaron el resumen extractivo de documentos individuales, que se consideraba que estaba cerca de su madurez. En 2020, el campo todavía estaba muy activo y la investigación se está desplazando hacia la suma abstracta y la suma en tiempo real. [41]

Enfoques recientes

Recientemente, el auge de los modelos de transformadores que reemplazan a los RNN más tradicionales ( LSTM ) ha proporcionado flexibilidad en el mapeo de secuencias de texto a secuencias de texto de un tipo diferente, lo que se adapta bien al resumen automático. Esto incluye modelos como T5 [42] y Pegasus. [43]

Ver también

Referencias

  1. ^ Torres-Moreno, Juan-Manuel (1 de octubre de 2014). Resumen automático de texto. Wiley. págs. 320–. ISBN 978-1-848-21668-6.
  2. ^ Pan, Xingjia; Tang, ventilador; Dong, Weiming; Mamá, Chongyang; Meng, Yiping; Huang, Feiyue; Lee, Tong-Yee; Xu, Changsheng (1 de abril de 2021). "Resumen visual basado en contenido para la recopilación de imágenes". Transacciones IEEE sobre visualización y gráficos por computadora . 27 (4): 2298–2312. doi :10.1109/tvcg.2019.2948611. ISSN  1077-2626. PMID  31647438. S2CID  204865221.
  3. ^ "La OMPI PUBLICA PATENTE DE KT PARA" SISTEMA Y MÉTODO DE RESUMEN DE IMÁGENES "(INVENTORES DE COREA DEL SUR)". Servicio de noticias de la Reserva Federal de EE. UU . 10 de enero de 2018. ProQuest  1986931333 . Consultado el 22 de enero de 2021 .
  4. ^ Li Tan; Canción Yangqiu; Shixia Liu ; Lexing Xie (febrero de 2012). "ImageHive: resumen de imágenes interactivo según el contenido". Aplicaciones y gráficos por computadora IEEE . 32 (1): 46–55. doi : 10.1109/mcg.2011.89. ISSN  0272-1716. PMID  24808292. S2CID  7668289.
  5. ^ Sankar K. Pal; Alfredo Petrosino; Lucía Maddalena (25 de enero de 2012). Manual sobre informática informática para videovigilancia. Prensa CRC. págs.81–. ISBN 978-1-4398-5685-7.
  6. ^ Elhamifar, Ehsan; Sapiro, Guillermo; Vidal, René (2012). "Vea todo mirando algunos: modelado disperso para encontrar objetos representativos". Conferencia IEEE 2012 sobre visión por computadora y reconocimiento de patrones. IEEE. págs. 1600-1607. doi :10.1109/CVPR.2012.6247852. ISBN 978-1-4673-1228-8. S2CID  5909301 . Consultado el 4 de diciembre de 2022 .
  7. ^ Mademlis, Ioannis; Tefas, Anastasio; Nikolaidis, Nikos; Pitas, Ioannis (2016). "Resumen de películas estereoscópicas multimodales conforme a características narrativas" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 25 (12). IEEE: 5828–5840. Código Bib : 2016ITIP...25.5828M. doi :10.1109/TIP.2016.2615289. hdl :1983/2bcdd7a5-825f-4ac9-90ec-f2f538bfcb72. PMID  28113502. S2CID  18566122 . Consultado el 4 de diciembre de 2022 .
  8. ^ Mademlis, Ioannis; Tefas, Anastasio; Pitas, Ioannis (2018). "Un marco destacado de aprendizaje de diccionarios para el resumen de vídeos de actividades mediante extracción de fotogramas clave". Ciencias de la Información . 432 . Elsevier: 319–331. doi : 10.1016/j.ins.2017.12.020 . Consultado el 4 de diciembre de 2022 .
  9. ^ "Resúmenes generados automáticamente en Google Docs". Blog de IA de Google . 23 de marzo de 2022 . Consultado el 3 de abril de 2022 .
  10. ^ Richard Sutz, Peter Weverka. Cómo hojear el texto. https://www.dummies.com/education/language-arts/speed-reading/how-to-skim-text/ Consultado en diciembre de 2019.
  11. ^ ab Afzal M, Alam F, Malik KM, Malik GM, Resumen de textos biomédicos conscientes del contexto clínico utilizando una red neuronal profunda: desarrollo y validación de modelos, J Med Internet Res 2020;22(10):e19810, DOI: 10.2196/19810, PMID 33095174
  12. ^ Zhai, ChengXiang (2016). Gestión y análisis de datos de texto: una introducción práctica a la recuperación de información y la minería de textos. Sean Massung. [Nueva York, NY]. pag. 321.ISBN 978-1-970001-19-8. OCLC  957355971.{{cite book}}: Mantenimiento CS1: falta el editor de la ubicación ( enlace )
  13. ^ Jorge E. Camargo y Fabio A. González. Un método de alineación del kernel multiclase para el resumen de colecciones de imágenes. En Actas de la XIV Conferencia Iberoamericana sobre Reconocimiento de Patrones: Avances en Reconocimiento de Patrones, Análisis de Imágenes, Visión por Computadora y Aplicaciones (CIARP '09), Eduardo Bayro-Corrochano y Jan-Olof Eklundh (Eds.). Springer-Verlag, Berlín, Heidelberg, 545-552. doi :10.1007/978-3-642-10268-4_64
  14. ^ Alrehamy, Hassan H; Caminante, Coral (2018). "SemCluster: extracción automática de frases clave sin supervisión mediante propagación por afinidad". Avances en Sistemas de Inteligencia Computacional . Avances en Sistemas Inteligentes y Computación. vol. 650, págs. 222-235. doi :10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  15. ^ Turney, Peter D (2002). "Algoritmos de aprendizaje para la extracción de frases clave". Recuperación de información . 2 (4): 303–336. arXiv : cs/0212020 . Código Bib : 2002cs.......12020T. doi :10.1023/A:1009976227802. S2CID  7007323.
  16. ^ Rada Mihalcea y Paul Tarau, 2004: TextRank: Poner orden en los textos , Departamento de Ciencias de la Computación de la Universidad del Norte de Texas "Copia archivada" (PDF) . Archivado desde el original el 17 de junio de 2012 . Consultado el 20 de julio de 2012 .{{cite web}}: Mantenimiento CS1: copia archivada como título ( enlace ) Mantenimiento CS1: bot: estado de la URL original desconocido ( enlace )
  17. ^ Yatsko, VA; Starikov, MS; Butakov, AV (2010). "Reconocimiento automático de género y resumen de texto adaptativo". Documentación Automática y Lingüística Matemática . 44 (3): 111-120. doi :10.3103/S0005105510030027. S2CID  1586931.
  18. ^ UNIS (Resumen universal)
  19. ^ Güneş Erkan y Dragomir R. Radev: LexRank: centralidad léxica basada en gráficos como prominencia en el resumen de texto [1]
  20. ^ "Sistemas versátiles de respuesta a preguntas: ver en síntesis", Revista internacional de sistemas de bases de datos de información inteligentes, 5 (2), 119-142, 2011.
  21. ^ Carbonell, Jaime y Jade Goldstein. "El uso de MMR, reclasificación basada en la diversidad para reordenar documentos y producir resúmenes". Actas de la 21ª conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en recuperación de información. ACM, 1998.
  22. ^ Zhu, Xiaojin y otros. "Mejorar la diversidad en la clasificación mediante paseos aleatorios absorbentes". HLT-NAACL. 2007.
  23. ^ Hui Lin, Jeff Bilmes. "Aprendizaje de mezclas de capas submodulares con aplicación al resumen de documentos.
  24. ^ Alex Kulesza y Ben Taskar, Procesos de puntos determinantes para el aprendizaje automático. Fundamentos y tendencias del aprendizaje automático, diciembre de 2012.
  25. ^ Nemhauser, George L., Laurence A. Wolsey y Marshall L. Fisher. "Un análisis de aproximaciones para maximizar funciones de conjuntos submodulares: I". Programación Matemática 14.1 (1978): 265-294.
  26. ^ Hui Lin, Jeff Bilmes. "Aprendizaje de mezclas de capas submodulares con aplicación al resumen de documentos", UAI, 2012
  27. ^ Hui Lin, Jeff Bilmes. "Una clase de funciones submodulares para el resumen de documentos", 49.ª reunión anual de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano (ACL-HLT), 2011
  28. ^ Sebastian Tschiatschek, Rishabh Iyer, Hoachen Wei y Jeff Bilmes, Aprendizaje de mezclas de funciones submodulares para el resumen de la colección de imágenes, En avances de los sistemas de procesamiento de información neuronal (NIPS), Montreal, Canadá, diciembre de 2014.
  29. ^ Ramakrishna Bairi, Rishabh Iyer, Ganesh Ramakrishnan y Jeff Bilmes, Resumen de jerarquías temáticas de varios documentos utilizando mezclas submodulares, que aparecerá en la reunión anual de la Asociación de Lingüística Computacional (ACL), Beijing, China, julio de 2015
  30. ^ Kai Wei, Rishabh Iyer y Jeff Bilmes, Submodularidad en la selección de subconjuntos de datos y aprendizaje activo Archivado el 13 de marzo de 2017 en Wayback Machine , aparecerá en proceso. Conferencia internacional sobre aprendizaje automático (ICML), Lille, Francia, junio de 2015
  31. ^ "descripción general de autotldr". Reddit . Consultado el 9 de febrero de 2017 .
  32. ^ Escudero, Megan (29 de agosto de 2016). Dominar la minería de datos con Python: encuentre patrones ocultos en sus datos. Packt Publishing Ltd. ISBN 9781785885914. Consultado el 9 de febrero de 2017 .
  33. ^ "¿Qué es 'TLDR'?". Cable de vida . Consultado el 9 de febrero de 2017 .
  34. ^ "¿Qué significa TL;DR? ¿AMA? ¿TIL? Glosario de términos y abreviaturas de Reddit". Tiempos de negocios internacionales . 29 de marzo de 2012 . Consultado el 9 de febrero de 2017 .
  35. ^ Potthast, Hagen y Stein 2016, pág. 11-12.
  36. ^ Mani, I. Evaluación de resumen: descripción general
  37. ^ Yatsko, VA; Vishnyakov, TN (2007). "Un método para evaluar sistemas modernos de resumen automático de textos". Documentación Automática y Lingüística Matemática . 41 (3): 93-103. doi :10.3103/S0005105507030041. S2CID  7853204.
  38. ^ Sebastian Tschiatschek, Rishabh Iyer, Hoachen Wei y Jeff Bilmes, Aprendizaje de mezclas de funciones submodulares para el resumen de la recopilación de imágenes, En avances de los sistemas de procesamiento de información neuronal (NIPS), Montreal, Canadá, diciembre de 2014. (PDF)
  39. ^ Sarker, Abeed; Mollá, Diego; París, Cecile (2013). "Un enfoque para el resumen de texto centrado en consultas para la medicina basada en evidencia". Inteligencia artificial en medicina . Apuntes de conferencias sobre informática. vol. 7885, págs. 295–304. doi :10.1007/978-3-642-38326-7_41. ISBN 978-3-642-38325-0.
  40. ^ Luhn, Hans Peter (1957). "Un enfoque estadístico para la codificación y búsqueda mecanizada de información literaria" (PDF). Revista IBM de investigación y desarrollo. 1 (4): 309–317. doi:10.1147/rd.14.0309.
  41. ^ Widyassari, Adhika Pramita; Rustad, Supriadi; Shidik, Guruh Fajar; Noersasongko, Edi; Syukur, Abdul; Affandy, Affandy; Setiadi, De Rosal Ignacio Moisés (2020-05-20). "Revisión de técnicas y métodos de resumen automático de textos". Revista de la Universidad King Saud - Ciencias de la información y la informática . 34 (4): 1029–1046. doi : 10.1016/j.jksuci.2020.05.006 . ISSN  1319-1578.
  42. ^ "Explorando el aprendizaje por transferencia con T5: el transformador de transferencia de texto a texto". Blog de IA de Google . 24 de febrero de 2020 . Consultado el 3 de abril de 2022 .
  43. ^ Zhang, J., Zhao, Y., Saleh, M. y Liu, P. (noviembre de 2020). Pegasus: entrenamiento previo con oraciones vacías extraídas para un resumen abstracto. En Conferencia internacional sobre aprendizaje automático (págs. 11328-11339). PMLR.

Trabajos citados

Otras lecturas