stringtranslate.com

Extracción de información

La extracción de información ( IE ) es la tarea de extraer automáticamente información estructurada de documentos no estructurados y/o semiestructurados legibles por máquina y otras fuentes representadas electrónicamente. Normalmente, esto implica procesar textos en lenguaje humano mediante el procesamiento del lenguaje natural (PLN). [1] Las actividades recientes en el procesamiento de documentos multimedia , como la anotación automática y la extracción de contenido de imágenes/audio/vídeo/documentos, podrían verse como extracción de información.

Los avances recientes en las técnicas de PNL han permitido un rendimiento significativamente mejorado en comparación con años anteriores. [2] Un ejemplo es la extracción de informes de noticias sobre fusiones corporativas, como lo denota la relación formal:

,

de una frase de noticias en línea como:

"Ayer, Foo Inc., con sede en Nueva York, anunció la adquisición de Bar Corp."

Un objetivo amplio de IE es permitir que se realicen cálculos sobre datos previamente no estructurados. Un objetivo más específico es permitir el razonamiento automatizado sobre la forma lógica de los datos de entrada. Los datos estructurados son datos semánticamente bien definidos de un dominio objetivo elegido, interpretados con respecto a la categoría y el contexto .

La extracción de información es la parte de un rompecabezas mayor que aborda el problema de idear métodos automáticos para la gestión de textos, más allá de su transmisión, almacenamiento y visualización. La disciplina de recuperación de información (IR) [3] ha desarrollado métodos automáticos, típicamente de tipo estadístico, para indexar grandes colecciones de documentos y clasificar documentos. Otro enfoque complementario es el del procesamiento del lenguaje natural (PNL), que ha resuelto el problema de modelar el procesamiento del lenguaje humano con considerable éxito teniendo en cuenta la magnitud de la tarea. En términos de dificultad y énfasis, IE se ocupa de tareas intermedias entre IR y PNL. En términos de entrada, IE supone la existencia de un conjunto de documentos en los que cada documento sigue una plantilla, es decir, describe una o más entidades o eventos de una manera similar a los de otros documentos pero que difieren en los detalles. Un ejemplo, consideremos un grupo de artículos de noticias sobre el terrorismo latinoamericano y se presume que cada artículo se basa en uno o más actos terroristas. También definimos para cualquier tarea de IE determinada una plantilla, que es un (o un conjunto de) marcos de casos para contener la información contenida en un solo documento. Para el ejemplo del terrorismo, una plantilla tendría espacios correspondientes al autor, la víctima y el arma del acto terrorista, y la fecha en que ocurrió el evento. Para este problema, un sistema IE necesita "comprender" un artículo de ataque sólo lo suficiente para encontrar los datos correspondientes a las ranuras en esta plantilla.

Historia

La extracción de información se remonta a finales de la década de 1970, en los primeros días de la PNL. [4] Uno de los primeros sistemas comerciales de mediados de la década de 1980 fue JASPER, construido para Reuters por Carnegie Group Inc con el objetivo de proporcionar noticias financieras en tiempo real a los operadores financieros. [5]

A partir de 1987, IE fue impulsado por una serie de conferencias sobre comprensión de mensajes . MUC es una conferencia basada en competencias [6] que se centró en los siguientes dominios:

Un apoyo considerable provino de la Agencia de Proyectos de Investigación Avanzada de Defensa de Estados Unidos ( DARPA ), que deseaba automatizar tareas mundanas realizadas por analistas gubernamentales, como escanear periódicos en busca de posibles vínculos con el terrorismo. [ cita necesaria ]

Importancia actual

La importancia actual de la IE se debe a la creciente cantidad de información disponible en forma no estructurada. Tim Berners-Lee , inventor de la World Wide Web , se refiere a la Internet existente como una red de documentos [7] y aboga por que una mayor parte del contenido esté disponible como una red de datos . [8] Hasta que esto suceda, la web se compone en gran medida de documentos no estructurados que carecen de metadatos semánticos . El conocimiento contenido en estos documentos se puede hacer más accesible para el procesamiento automático mediante la transformación a un formato relacional o marcando con etiquetas XML . Un agente inteligente que monitorea una fuente de datos de noticias requiere que IE transforme los datos no estructurados en algo con lo que se pueda razonar. Una aplicación típica de IE es escanear un conjunto de documentos escritos en un lenguaje natural y completar una base de datos con la información extraída. [9]

Tareas y subtareas

La aplicación de la extracción de información al texto está vinculada al problema de la simplificación del texto para crear una vista estructurada de la información presente en el texto libre. El objetivo general es crear un texto más fácilmente legible por máquina para procesar las oraciones. Las tareas y subtareas típicas de IE incluyen:

Tenga en cuenta que esta lista no es exhaustiva y que el significado exacto de las actividades de IE no es comúnmente aceptado y que muchos enfoques combinan múltiples subtareas de IE para lograr un objetivo más amplio. En IE se utilizan a menudo el aprendizaje automático, el análisis estadístico y/o el procesamiento del lenguaje natural.

La IE en documentos no textuales se está convirtiendo en un tema cada vez más interesante [ ¿cuándo? ] en la investigación, y la información extraída de documentos multimedia ahora puede [ ¿cuándo? ] expresarse en una estructura de alto nivel como se hace en el texto. Naturalmente, esto conduce a la fusión de información extraída de múltiples tipos de documentos y fuentes.

Aplicaciones de la World Wide Web

IE ha sido el foco de las conferencias MUC. Sin embargo, la proliferación de la Web intensificó la necesidad de desarrollar sistemas IE que ayuden a las personas a hacer frente a la enorme cantidad de datos disponibles en línea. Los sistemas que realizan IE a partir de texto en línea deben cumplir con los requisitos de bajo costo, flexibilidad en el desarrollo y fácil adaptación a nuevos dominios. Los sistemas MUC no cumplen con esos criterios. Además, el análisis lingüístico realizado para texto no estructurado no explota las etiquetas HTML/ XML ni los formatos de diseño disponibles en los textos en línea. Como resultado, se han desarrollado enfoques menos intensivos lingüísticamente para IE en la Web utilizando contenedores , que son conjuntos de reglas altamente precisas que extraen el contenido de una página en particular. El desarrollo manual de envoltorios ha demostrado ser una tarea que requiere mucho tiempo y un alto nivel de experiencia. Se han utilizado técnicas de aprendizaje automático , ya sea supervisadas o no supervisadas , para inducir dichas reglas automáticamente.

Los contenedores normalmente manejan colecciones de páginas web altamente estructuradas, como catálogos de productos y directorios telefónicos. Sin embargo, fallan cuando el tipo de texto está menos estructurado, lo que también es común en la Web. Los esfuerzos recientes en la extracción adaptativa de información motivan el desarrollo de sistemas IE que pueden manejar diferentes tipos de texto, desde texto bien estructurado hasta texto casi libre (donde los envoltorios comunes fallan), incluidos tipos mixtos. Estos sistemas pueden explotar el conocimiento superficial del lenguaje natural y, por tanto, también pueden aplicarse a textos menos estructurados.

Un reciente [ ¿ cuándo? ] El desarrollo es la extracción de información visual, [16] [17] que se basa en representar una página web en un navegador y crear reglas basadas en la proximidad de regiones en la página web representada. Esto ayuda a extraer entidades de páginas web complejas que pueden exhibir un patrón visual, pero que carecen de un patrón discernible en el código fuente HTML.

Enfoques

Actualmente se aceptan ampliamente los siguientes enfoques estándar:

Existen muchos otros enfoques para IE, incluidos enfoques híbridos que combinan algunos de los enfoques estándar enumerados anteriormente.

Software y servicios gratuitos o de código abierto

Ver también

Extracción
Minería, rastreo, raspado y reconocimiento.
Búsqueda y traducción
General
Liza

Referencias

  1. ^ nombre = Kariampuzha2023 Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Extracción de información de precisión para la epidemiología de enfermedades raras a escala". Revista de medicina traslacional . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC  9972634 . PMID  36855134.
  2. ^ Christina Niklaus, Matthias Cetto, André Freitas y Siegfried Handschuh. 2018. Una encuesta sobre extracción de información abierta. En Actas de la 27ª Conferencia Internacional sobre Lingüística Computacional , páginas 3866–3878, Santa Fe, Nuevo México, EE. UU. Asociación de Lingüística Computacional.
  3. ^ FREITAG, DAYNE. "Aprendizaje automático para la extracción de información en dominios informales" (PDF) . 2000 Editores académicos de Kluwer. Impreso en los Países Bajos .
  4. ^ Cowie, Jim; Wilks, Yorick (1996). Extracción de información (PDF) . pag. 3. CiteSeerX 10.1.1.61.6480 . S2CID  10237124. Archivado desde el original (PDF) el 20 de febrero de 2019. 
  5. ^ Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). "Extracción automática de hechos de comunicados de prensa para generar noticias". Actas de la tercera conferencia sobre procesamiento aplicado del lenguaje natural - . págs. 170-177. CiteSeerX 10.1.1.14.7943 . doi : 10.3115/974499.974531. S2CID  14746386. 
  6. ^ Marco Costantino, Paolo Coletti, Extracción de información en finanzas, Wit Press, 2008. ISBN 978-1-84564-146-7 
  7. ^ "Datos vinculados: la historia hasta ahora" (PDF) .
  8. ^ "Tim Berners-Lee en la próxima Web". Archivado desde el original el 10 de abril de 2011 . Consultado el 27 de marzo de 2010 .
  9. ^ RK Srihari , W. Li, C. Niu y T. Cornell, "InfoXtract: un motor de extracción de información de nivel intermedio personalizable", Journal of Natural Language Engineering, [ enlace muerto ] Cambridge U. Press, 14 (1), 2008, 33-69.
  10. ^ ab Dat Quoc Nguyen y Karin Verspoor (2019). "Extracción de relaciones neuronales de un extremo a otro mediante atención biafina profunda". Actas de la 41ª Conferencia Europea sobre Recuperación de Información (ECIR) . arXiv : 1812.11275 . doi :10.1007/978-3-030-15712-8_47.
  11. ^ ab Milosevic N, Gregson C, Hernandez R, Nenadic G (febrero de 2019). "Un marco para la extracción de información de tablas en la literatura biomédica". Revista Internacional de Análisis y Reconocimiento de Documentos . 22 (1): 55–78. arXiv : 1902.10031 . Código Bib : 2019arXiv190210031M. doi :10.1007/s10032-019-00317-0. S2CID  62880746.
  12. ^ Milosevic, Nikola (2018). Un enfoque de múltiples capas para la extracción de información de tablas en documentos biomédicos (PDF) (Doctor). Universidad de Manchester.
  13. ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (junio de 2016). "Desenredar la estructura de las tablas en la literatura científica" (PDF) . Sistemas de información y procesamiento del lenguaje natural . Apuntes de conferencias sobre informática. vol. 21. págs. 162-174. doi :10.1007/978-3-319-41754-7_14. ISBN 978-3-319-41753-0. S2CID  19538141.
  14. ^ Milosevic, Nikola (2018). Un enfoque de múltiples capas para la extracción de información de tablas en documentos biomédicos (PDF) (Doctor). Universidad de Manchester.
  15. ^ A.Zils, F.Pachet, O.Delerue y F. Gouyon, Extracción automática de pistas de batería de señales de música polifónica Archivado el 29 de agosto de 2017 en Wayback Machine , Actas de WedelMusic, Darmstadt, Alemania, 2002.
  16. ^ Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: un álgebra para expresar reglas espaciales y textuales para la extracción de información". arXiv : 1506.08454 [cs.CL].
  17. ^ Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). "Extracción de información visual web con Lixto". págs. 119-128. CiteSeerX 10.1.1.21.8236 . 
  18. ^ Peng, F.; McCallum, A. (2006). "Extracción de información de trabajos de investigación mediante campos aleatorios condicionales ☆". Procesamiento y gestión de información . 42 (4): 963. doi :10.1016/j.ipm.2005.09.002.
  19. ^ Shimizu, Nobuyuki; Hass, Andrés (2006). "Extracción de representación del conocimiento basada en marcos a partir de instrucciones de ruta" (PDF) . Archivado desde el original (PDF) el 1 de septiembre de 2006 . Consultado el 27 de marzo de 2010 .

enlaces externos