Extracción de información

La extracción de información ( IE ) es la tarea de extraer automáticamente información estructurada de documentos no estructurados y/o semiestructurados legibles por máquina y otras fuentes representadas electrónicamente. Normalmente, esto implica procesar textos en lenguaje humano mediante el procesamiento del lenguaje natural (PLN). ^[1] Las actividades recientes en el procesamiento de documentos multimedia , como la anotación automática y la extracción de contenido de imágenes/audio/vídeo/documentos, podrían verse como extracción de información.

Los avances recientes en las técnicas de PNL han permitido un rendimiento significativamente mejorado en comparación con años anteriores. ^[2] Un ejemplo es la extracción de informes de noticias sobre fusiones corporativas, como lo denota la relación formal:

\mathrm {Fusión entre} (empresa_ {1}, empresa_ {2}, fecha)

de una frase de noticias en línea como:

"Ayer, Foo Inc., con sede en Nueva York, anunció la adquisición de Bar Corp."

Un objetivo amplio de IE es permitir que se realicen cálculos sobre datos previamente no estructurados. Un objetivo más específico es permitir el razonamiento automatizado sobre la forma lógica de los datos de entrada. Los datos estructurados son datos semánticamente bien definidos de un dominio objetivo elegido, interpretados con respecto a la categoría y el contexto .

La extracción de información es la parte de un rompecabezas mayor que aborda el problema de idear métodos automáticos para la gestión de textos, más allá de su transmisión, almacenamiento y visualización. La disciplina de recuperación de información (IR) ^[3] ha desarrollado métodos automáticos, típicamente de tipo estadístico, para indexar grandes colecciones de documentos y clasificar documentos. Otro enfoque complementario es el del procesamiento del lenguaje natural (PNL), que ha resuelto el problema de modelar el procesamiento del lenguaje humano con considerable éxito teniendo en cuenta la magnitud de la tarea. En términos de dificultad y énfasis, IE se ocupa de tareas intermedias entre IR y PNL. En términos de entrada, IE supone la existencia de un conjunto de documentos en los que cada documento sigue una plantilla, es decir, describe una o más entidades o eventos de una manera similar a los de otros documentos pero que difieren en los detalles. Un ejemplo, consideremos un grupo de artículos de noticias sobre el terrorismo latinoamericano y se presume que cada artículo se basa en uno o más actos terroristas. También definimos para cualquier tarea de IE determinada una plantilla, que es un (o un conjunto de) marcos de casos para contener la información contenida en un solo documento. Para el ejemplo del terrorismo, una plantilla tendría espacios correspondientes al autor, la víctima y el arma del acto terrorista, y la fecha en que ocurrió el evento. Para este problema, un sistema IE necesita "comprender" un artículo de ataque sólo lo suficiente para encontrar los datos correspondientes a las ranuras en esta plantilla.

Historia

La extracción de información se remonta a finales de la década de 1970, en los primeros días de la PNL. ^[4] Uno de los primeros sistemas comerciales de mediados de la década de 1980 fue JASPER, construido para Reuters por Carnegie Group Inc con el objetivo de proporcionar noticias financieras en tiempo real a los operadores financieros. ^[5]

A partir de 1987, IE fue impulsado por una serie de conferencias sobre comprensión de mensajes . MUC es una conferencia basada en competencias ^[6] que se centró en los siguientes dominios:

MUC-1 (1987), MUC-3 (1989): Mensajes de operaciones navales.
MUC-3 (1991), MUC-4 (1992): Terrorismo en países latinoamericanos.
MUC-5 (1993): Empresas conjuntas y dominio de la microelectrónica.
MUC-6 (1995): Artículos periodísticos sobre cambios de gestión.
MUC-7 (1998): Informes de lanzamiento de satélites.

Un apoyo considerable provino de la Agencia de Proyectos de Investigación Avanzada de Defensa de Estados Unidos ( DARPA ), que deseaba automatizar tareas mundanas realizadas por analistas gubernamentales, como escanear periódicos en busca de posibles vínculos con el terrorismo. ^{[ cita necesaria ]}

Importancia actual

La importancia actual de la IE se debe a la creciente cantidad de información disponible en forma no estructurada. Tim Berners-Lee , inventor de la World Wide Web , se refiere a la Internet existente como una red de documentos ^[7] y aboga por que una mayor parte del contenido esté disponible como una red de datos . ^[8] Hasta que esto suceda, la web se compone en gran medida de documentos no estructurados que carecen de metadatos semánticos . El conocimiento contenido en estos documentos se puede hacer más accesible para el procesamiento automático mediante la transformación a un formato relacional o marcando con etiquetas XML . Un agente inteligente que monitorea una fuente de datos de noticias requiere que IE transforme los datos no estructurados en algo con lo que se pueda razonar. Una aplicación típica de IE es escanear un conjunto de documentos escritos en un lenguaje natural y completar una base de datos con la información extraída. ^[9]

Tareas y subtareas

La aplicación de la extracción de información al texto está vinculada al problema de la simplificación del texto para crear una vista estructurada de la información presente en el texto libre. El objetivo general es crear un texto más fácilmente legible por máquina para procesar las oraciones. Las tareas y subtareas típicas de IE incluyen:

Relleno de plantilla: extraer un conjunto fijo de campos de un documento, por ejemplo, extraer autores, víctimas, hora, etc. de un artículo periodístico sobre un ataque terrorista.
- Extracción de eventos: dado un documento de entrada, genere cero o más plantillas de eventos. Por ejemplo, un artículo de periódico podría describir múltiples ataques terroristas.
Población de la base de conocimientos : llenar una base de datos de hechos dado un conjunto de documentos. Normalmente, la base de datos tiene la forma de tripletes (entidad 1, relación, entidad 2), por ejemplo ( Barack Obama , Cónyuge, Michelle Obama ) .
- Reconocimiento de entidades nombradas : reconocimiento de nombres de entidades conocidas (para personas y organizaciones), nombres de lugares, expresiones temporales y ciertos tipos de expresiones numéricas, empleando el conocimiento existente del dominio o información extraída de otras oraciones. ^[10] Normalmente, la tarea de reconocimiento implica asignar un identificador único a la entidad extraída. Una tarea más sencilla se denomina detección de entidades , cuyo objetivo es detectar entidades sin tener ningún conocimiento sobre las instancias de las entidades. Por ejemplo, al procesar la oración "A M. Smith le gusta pescar", la detección de entidad nombrada denotaría detectar que la frase "M. Smith" se refiere a una persona, pero sin necesariamente tener (o usar) ningún conocimiento sobre un determinado M. Smith , quien es (o "podría ser") la persona específica de la que habla esa oración.
- Resolución de correferencia : detección de correferencia y enlaces anafóricos entre entidades de texto. En las tareas de IE, esto normalmente se limita a encontrar vínculos entre entidades nombradas previamente extraídas. Por ejemplo, "International Business Machines" e "IBM" se refieren a la misma entidad del mundo real. Si tomamos las dos frases "A M. Smith le gusta pescar. Pero no le gusta andar en bicicleta", sería beneficioso detectar que "él" se refiere a la persona previamente detectada "M. Smith".
- Extracción de relaciones : identificación de relaciones entre entidades, ^[10] tales como:
  - PERSONA trabaja para ORGANIZACIÓN (extraído de la frase "Bill trabaja para IBM.")
  - PERSONA ubicada en UBICACIÓN (extraído de la frase "Bill está en Francia").
Extracción de información semiestructurada que puede referirse a cualquier IE que intente restaurar algún tipo de estructura de información que se haya perdido mediante la publicación, como por ejemplo:
- Extracción de tablas: buscar y extraer tablas de documentos. ^[11]^[12]
- Extracción de información de tablas: extraer información de forma estructurada de las tablas. Esta tarea es más compleja que la extracción de tablas, ya que la extracción de tablas es solo el primer paso, mientras que comprender las funciones de las celdas, filas y columnas, vincular la información dentro de la tabla y comprender la información presentada en la tabla son tareas adicionales necesarias para la extracción de tablas. extracción de información. ^[11]^[13]^[14]
- Extracción de comentarios: extraer comentarios del contenido real de los artículos para restablecer el vínculo entre los autores de cada una de las frases.
Análisis de lenguaje y vocabulario.
- Extracción de terminología : encontrar los términos relevantes para un corpus determinado
Extracción de audio
- Extracción de música basada en plantillas: encontrar características relevantes en una señal de audio extraída de un repertorio determinado; por ejemplo ^[15] se pueden extraer índices de tiempo de apariciones de sonidos de percusión para representar el componente rítmico esencial de una pieza musical.

Tenga en cuenta que esta lista no es exhaustiva y que el significado exacto de las actividades de IE no es comúnmente aceptado y que muchos enfoques combinan múltiples subtareas de IE para lograr un objetivo más amplio. En IE se utilizan a menudo el aprendizaje automático, el análisis estadístico y/o el procesamiento del lenguaje natural.

La IE en documentos no textuales se está convirtiendo en un tema cada vez más interesante ^{[ ¿cuándo? ]} en la investigación, y la información extraída de documentos multimedia ahora puede ^{[ ¿cuándo? ]} expresarse en una estructura de alto nivel como se hace en el texto. Naturalmente, esto conduce a la fusión de información extraída de múltiples tipos de documentos y fuentes.

Aplicaciones de la World Wide Web

IE ha sido el foco de las conferencias MUC. Sin embargo, la proliferación de la Web intensificó la necesidad de desarrollar sistemas IE que ayuden a las personas a hacer frente a la enorme cantidad de datos disponibles en línea. Los sistemas que realizan IE a partir de texto en línea deben cumplir con los requisitos de bajo costo, flexibilidad en el desarrollo y fácil adaptación a nuevos dominios. Los sistemas MUC no cumplen con esos criterios. Además, el análisis lingüístico realizado para texto no estructurado no explota las etiquetas HTML/ XML ni los formatos de diseño disponibles en los textos en línea. Como resultado, se han desarrollado enfoques menos intensivos lingüísticamente para IE en la Web utilizando contenedores , que son conjuntos de reglas altamente precisas que extraen el contenido de una página en particular. El desarrollo manual de envoltorios ha demostrado ser una tarea que requiere mucho tiempo y un alto nivel de experiencia. Se han utilizado técnicas de aprendizaje automático , ya sea supervisadas o no supervisadas , para inducir dichas reglas automáticamente.

Los contenedores normalmente manejan colecciones de páginas web altamente estructuradas, como catálogos de productos y directorios telefónicos. Sin embargo, fallan cuando el tipo de texto está menos estructurado, lo que también es común en la Web. Los esfuerzos recientes en la extracción adaptativa de información motivan el desarrollo de sistemas IE que pueden manejar diferentes tipos de texto, desde texto bien estructurado hasta texto casi libre (donde los envoltorios comunes fallan), incluidos tipos mixtos. Estos sistemas pueden explotar el conocimiento superficial del lenguaje natural y, por tanto, también pueden aplicarse a textos menos estructurados.

Un reciente ^{[ ¿ cuándo? ]} El desarrollo es la extracción de información visual, ^[16]^[17] que se basa en representar una página web en un navegador y crear reglas basadas en la proximidad de regiones en la página web representada. Esto ayuda a extraer entidades de páginas web complejas que pueden exhibir un patrón visual, pero que carecen de un patrón discernible en el código fuente HTML.

Enfoques

Actualmente se aceptan ampliamente los siguientes enfoques estándar:

Expresiones regulares escritas a mano (o grupo anidado de expresiones regulares)
Usando clasificadores
- Generativo: clasificador ingenuo de Bayes
- Discriminativos: modelos de máxima entropía como la regresión logística multinomial
Modelos de secuencia
- Red neuronal recurrente
- Modelo de Markov oculto
- Modelo de Markov condicional (CMM) / Modelo de Markov de máxima entropía (MEMM)
- Los campos aleatorios condicionales (CRF) se utilizan comúnmente junto con IE para tareas tan variadas como extraer información de artículos de investigación ^[18] hasta extraer instrucciones de navegación. ^[19]

Existen muchos otros enfoques para IE, incluidos enfoques híbridos que combinan algunos de los enfoques estándar enumerados anteriormente.

Software y servicios gratuitos o de código abierto

La Arquitectura General para Ingeniería de Texto (GATE) se incluye con un sistema de extracción de información gratuito
Apache OpenNLP es un conjunto de herramientas de aprendizaje automático Java para el procesamiento del lenguaje natural
OpenCalais es un servicio web de extracción automatizada de información de Thomson Reuters (versión limitada gratuita)
Machine Learning for Language Toolkit (Mallet) es un paquete basado en Java para una variedad de tareas de procesamiento de lenguaje natural, incluida la extracción de información.
DBpedia Spotlight es una herramienta de código abierto en Java/Scala (y un servicio web gratuito) que se puede utilizar para el reconocimiento y la resolución de nombres de entidades nombradas .
Natural Language Toolkit es un conjunto de bibliotecas y programas para el procesamiento simbólico y estadístico del lenguaje natural (NLP) para el lenguaje de programación Python.
Ver también implementaciones de CRF

Ver también

Extracción

Minería, rastreo, raspado y reconocimiento.

Búsqueda y traducción

General

Liza

Referencias

^ nombre = Kariampuzha2023 Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Extracción de información de precisión para la epidemiología de enfermedades raras a escala". Revista de medicina traslacional . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634 . PMID 36855134.
^ Christina Niklaus, Matthias Cetto, André Freitas y Siegfried Handschuh. 2018. Una encuesta sobre extracción de información abierta. En Actas de la 27ª Conferencia Internacional sobre Lingüística Computacional , páginas 3866–3878, Santa Fe, Nuevo México, EE. UU. Asociación de Lingüística Computacional.
^ FREITAG, DAYNE. "Aprendizaje automático para la extracción de información en dominios informales" (PDF) . 2000 Editores académicos de Kluwer. Impreso en los Países Bajos .
^ Cowie, Jim; Wilks, Yorick (1996). Extracción de información (PDF) . pag. 3. CiteSeerX 10.1.1.61.6480 . S2CID 10237124. Archivado desde el original (PDF) el 20 de febrero de 2019.
^ Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). "Extracción automática de hechos de comunicados de prensa para generar noticias". Actas de la tercera conferencia sobre procesamiento aplicado del lenguaje natural - . págs. 170-177. CiteSeerX 10.1.1.14.7943 . doi : 10.3115/974499.974531. S2CID 14746386.
^ Marco Costantino, Paolo Coletti, Extracción de información en finanzas, Wit Press, 2008. ISBN 978-1-84564-146-7
^ "Datos vinculados: la historia hasta ahora" (PDF) .
^ "Tim Berners-Lee en la próxima Web". Archivado desde el original el 10 de abril de 2011 . Consultado el 27 de marzo de 2010 .
^ RK Srihari , W. Li, C. Niu y T. Cornell, "InfoXtract: un motor de extracción de información de nivel intermedio personalizable", Journal of Natural Language Engineering, ^{[ enlace muerto ]} Cambridge U. Press, 14 (1), 2008, 33-69.
^ ab Dat Quoc Nguyen y Karin Verspoor (2019). "Extracción de relaciones neuronales de un extremo a otro mediante atención biafina profunda". Actas de la 41ª Conferencia Europea sobre Recuperación de Información (ECIR) . arXiv : 1812.11275 . doi :10.1007/978-3-030-15712-8_47.
^ ab Milosevic N, Gregson C, Hernandez R, Nenadic G (febrero de 2019). "Un marco para la extracción de información de tablas en la literatura biomédica". Revista Internacional de Análisis y Reconocimiento de Documentos . 22 (1): 55–78. arXiv : 1902.10031 . Código Bib : 2019arXiv190210031M. doi :10.1007/s10032-019-00317-0. S2CID 62880746.
^ Milosevic, Nikola (2018). Un enfoque de múltiples capas para la extracción de información de tablas en documentos biomédicos (PDF) (Doctor). Universidad de Manchester.
^ Milosevic N, Gregson C, Hernandez R, Nenadic G (junio de 2016). "Desenredar la estructura de las tablas en la literatura científica" (PDF) . Sistemas de información y procesamiento del lenguaje natural . Apuntes de conferencias sobre informática. vol. 21. págs. 162-174. doi :10.1007/978-3-319-41754-7_14. ISBN 978-3-319-41753-0. S2CID 19538141.
^ Milosevic, Nikola (2018). Un enfoque de múltiples capas para la extracción de información de tablas en documentos biomédicos (PDF) (Doctor). Universidad de Manchester.
^ A.Zils, F.Pachet, O.Delerue y F. Gouyon, Extracción automática de pistas de batería de señales de música polifónica Archivado el 29 de agosto de 2017 en Wayback Machine , Actas de WedelMusic, Darmstadt, Alemania, 2002.
^ Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: un álgebra para expresar reglas espaciales y textuales para la extracción de información". arXiv : 1506.08454 [cs.CL].
^ Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). "Extracción de información visual web con Lixto". págs. 119-128. CiteSeerX 10.1.1.21.8236 .
^ Peng, F.; McCallum, A. (2006). "Extracción de información de trabajos de investigación mediante campos aleatorios condicionales ☆". Procesamiento y gestión de información . 42 (4): 963. doi :10.1016/j.ipm.2005.09.002.
^ Shimizu, Nobuyuki; Hass, Andrés (2006). "Extracción de representación del conocimiento basada en marcos a partir de instrucciones de ruta" (PDF) . Archivado desde el original (PDF) el 1 de septiembre de 2006 . Consultado el 27 de marzo de 2010 .

enlaces externos

Página de "competencia" Alias-I Una lista de conjuntos de herramientas académicas y conjuntos de herramientas industriales para la extracción de información en lenguaje natural.
Página de Gabor Melli en IE Descripción detallada de la tarea de extracción de información.