Procedimiento de extracción de información de documentos similares
El resumen de múltiples documentos es un procedimiento automático que tiene como objetivo extraer información de múltiples textos escritos sobre el mismo tema. El informe resumido resultante permite a los usuarios individuales, como los consumidores de información profesionales, familiarizarse rápidamente con la información contenida en un gran conjunto de documentos. De esta manera, los sistemas de resumen de múltiples documentos complementan a los agregadores de noticias y dan el siguiente paso en la lucha contra la sobrecarga de información .
Principales ventajas y dificultades
El resumen de varios documentos crea informes de información que son a la vez concisos y completos. Al reunir y resumir diferentes opiniones, cada tema se describe desde múltiples perspectivas en un solo documento. Si bien el objetivo de un resumen breve es simplificar la búsqueda de información y reducir el tiempo señalando los documentos fuente más relevantes, el resumen completo de varios documentos debería, en teoría, contener la información requerida, lo que limita la necesidad de acceder a los archivos originales a los casos en que se requiere un refinamiento. En la práctica, es difícil resumir varios documentos con puntos de vista y sesgos conflictivos. De hecho, es casi imposible lograr un resumen extractivo claro de documentos con puntos de vista conflictivos. El resumen abstractivo es el método preferido en este caso.
Los resúmenes automáticos presentan información extraída de múltiples fuentes de forma algorítmica, sin ningún tipo de retoque editorial ni intervención humana subjetiva, lo que los hace completamente imparciales. Las dificultades persisten si se realizan resúmenes extractivos automáticos de documentos con opiniones contradictorias.
Desafíos tecnológicos
La tarea de resumen de múltiples documentos es más compleja que la de resumir un solo documento , incluso uno extenso. La dificultad surge de la diversidad temática dentro de un gran conjunto de documentos. Una buena tecnología de resumen apunta a combinar los temas principales con integridad, legibilidad y concisión. Las Conferencias de Comprensión de Documentos, [1] realizadas anualmente por el NIST , han desarrollado criterios de evaluación sofisticados para las técnicas que aceptan el desafío del resumen de múltiples documentos.
Un sistema ideal de resumen de múltiples documentos no solo acorta los textos fuente, sino que también presenta la información organizada en torno a los aspectos clave para representar diversos puntos de vista. El éxito produce una visión general de un tema determinado. Estas compilaciones de textos también deben cumplir con los requisitos básicos para un texto de visión general compilado por un ser humano. Los criterios de calidad del resumen de múltiples documentos son los siguientes:
- Estructura clara, que incluye un esquema del contenido principal, desde el que es fácil navegar a las secciones de texto completo.
- El texto dentro de las secciones se divide en párrafos significativos.
- Transición gradual de aspectos temáticos más generales a más específicos.
- Buena legibilidad .
El último punto merece una nota adicional. Se ha tomado la precaución de garantizar que la vista general automática muestre:
- No hay " ruido informativo " no relacionado con el papel de los respectivos documentos (por ejemplo, páginas web)
- No hay referencias que indiquen lo que no se menciona ni explica en la descripción general.
- Ningún texto se divide en dos partes
- sin redundancia semántica
Sistemas de la vida real
La tecnología de resumen de múltiples documentos está alcanzando su madurez: una visión respaldada por una selección de sistemas avanzados basados en la web que se encuentran actualmente disponibles.
- ReviewChomp presenta resúmenes de las opiniones de los clientes sobre cualquier producto o servicio. Algunos productos tienen miles de opiniones en línea, lo que hace que las opiniones sean ilegibles para los humanos en tiempo real. La búsqueda del producto o servicio la realiza el sitio web.
- Ultimate Research Assistant [2] : realiza minería de texto en los resultados de búsqueda de Internet para ayudar a resumirlos y organizarlos y facilitar al usuario la realización de investigaciones en línea. Las técnicas específicas de minería de texto que utiliza la herramienta incluyen extracción de conceptos, resumen de texto, agrupamiento jerárquico de conceptos (por ejemplo, generación automática de taxonomías) y varias técnicas de visualización, incluidas nubes de etiquetas y mapas mentales.
- iResearch Reporter [3] - Sistema comercial de extracción y resumen de texto, el sitio de demostración gratuito acepta consultas ingresadas por el usuario, las pasa al motor de búsqueda de Google, recupera múltiples documentos relevantes, produce informes de resumen en lenguaje natural categorizados y de fácil lectura que cubren múltiples documentos en el conjunto recuperado, todos los extractos vinculados a documentos originales en la Web, posprocesamiento, extracción de entidades, extracción de eventos y relaciones , extracción de texto, agrupamiento de extractos, análisis lingüístico, múltiples documentos, texto completo, procesamiento del lenguaje natural, reglas de categorización, agrupamiento, análisis lingüístico, conjunto de herramientas de construcción de resumen de texto.
- Newsblaster [4] es un sistema que ayuda a los usuarios a encontrar las noticias que más les interesan. El sistema recopila, agrupa, categoriza y resume automáticamente noticias de varios sitios de la web ( CNN , Reuters , Fox News , etc.) a diario y ofrece a los usuarios una interfaz para explorar los resultados.
- NewsInEssence [5] se puede utilizar para recuperar y resumir un conjunto de artículos de la web. Puede comenzar desde una URL y recuperar documentos similares, o puede recuperar documentos que coincidan con un conjunto determinado de palabras clave. NewsInEssence también descarga artículos de noticias a diario y produce conjuntos de noticias a partir de ellos.
- NewsFeed Researcher [6] es un portal de noticias que realiza resúmenes automáticos y continuos de documentos agrupados inicialmente por los agregadores de noticias (por ejemplo, Google News ). NewsFeed Researcher está respaldado por un motor en línea gratuito que cubre los principales eventos relacionados con los negocios, la tecnología, las noticias de EE. UU. e internacionales. Esta herramienta también está disponible en modo a pedido, lo que permite al usuario crear resúmenes sobre temas seleccionados.
- Scrape This [7] es como un motor de búsqueda, pero en lugar de proporcionar enlaces a los sitios web más relevantes según una consulta, extrae la información pertinente de los sitios web relevantes y proporciona al usuario un resumen consolidado de múltiples documentos, junto con definiciones de diccionario, imágenes y videos.
- JistWeb [8] es un resumidor de múltiples documentos específicos para consultas.
A medida que los resúmenes de múltiples documentos generados automáticamente se parecen cada vez más a las descripciones generales escritas por un ser humano, el uso de fragmentos de texto extraídos puede enfrentar algún día problemas de derechos de autor en relación con el concepto de derechos de autor de uso justo .
Bibliografía
- Günes Erkan; Dragomir R. Radev (1 de diciembre de 2004). "LexRank: Graph-based Lexical Centrality as Salience in Text Summarization". Revista de investigación en inteligencia artificial . 22 : 457–479. arXiv : 1109.2128 . doi :10.1613/JAIR.1523. ISSN 1076-9757. Wikidata Q81312697.
- Dragomir R. Radev, Hongyan Jing, Malgorzata Styś y Daniel Tam. Resumen basado en centroides de múltiples documentos. Procesamiento y gestión de la información, 40:919–938, diciembre de 2004. [5]
- Kathleen R. McKeown y Dragomir R. Radev. Generación de resúmenes de múltiples artículos de noticias. En Actas de la Conferencia ACM sobre Investigación y Desarrollo en Recuperación de Información SIGIR'95, páginas 74–82, Seattle, Washington, julio de 1995. [6]
- C.-Y. Lin, E. Hovy, "Del resumen de un solo documento al de varios: un sistema prototipo y su evaluación", en "Proceedings of the ACL", págs. 457–464, 2002
- Kathleen McKeown, Rebecca J. Passonneau, David K. Elson, Ani Nenkova, Julia Hirschberg, "¿Son útiles los resúmenes? Una evaluación basada en tareas de la elaboración de resúmenes de múltiples documentos", SIGIR'05, Salvador, Brasil, 15-19 de agosto de 2005 [7]
- R. Barzilay, N. Elhadad, KR McKeown, "Inferencia de estrategias para ordenar oraciones en resúmenes de noticias de múltiples documentos", Journal of Artificial Intelligence Research, v. 17, págs. 35–55, 2002
- M. Soubbotin, S. Soubbotin, "Compensación entre factores que influyen en la calidad del resumen", Taller sobre comprensión de documentos (DUC), Vancouver, BC, Canadá, 9 y 10 de octubre de 2005 [8]
- C. Ravindranath Chowdary y P. Sreenivasa Kumar. "Esum: un sistema eficiente para la generación de resúmenes de múltiples documentos para consultas específicas". En ECIR (Advances in Information Retrieval), págs. 724–728. Springer Berlin Heidelberg, 2009.
Véase también
Referencias
- ^ "Documento de comprensión de conferencias". Nlpir.nist.gov . 2014-09-09 . Consultado el 2016-01-10 .
- ^ "Generar informe de investigación". Ultimate Research Assistant . Consultado el 10 de enero de 2016 .
- ^ "Servicio iResearch Reporter". Iresearch-reporter.com . Archivado desde el original el 2013-06-09 . Consultado el 2016-01-10 .
- ^ [1] Archivado el 16 de abril de 2013 en Wayback Machine .
- ^ [2] Archivado el 11 de abril de 2011 en Wayback Machine .
- ^ "Investigador de fuentes de noticias | Cosas generales". Newsfeedresearcher.com . Consultado el 10 de enero de 2016 .
- ^ [3] Archivado el 19 de septiembre de 2009 en Wayback Machine .
- ^ [4] Archivado el 29 de mayo de 2013 en Wayback Machine .
Enlaces externos
- Conferencias sobre comprensión de documentos
- Proyectos de PNL de Columbia
- NewsInEssence: resumen de noticias basado en la web
- ReseñaChomp