Una tarea de extracción de relaciones requiere la detección y clasificación de menciones de relaciones semánticas dentro de un conjunto de artefactos , generalmente de documentos de texto o XML . La tarea es muy similar a la de extracción de información (IE), pero IE requiere además la eliminación de relaciones repetidas (desambiguación) y generalmente se refiere a la extracción de muchas relaciones diferentes.
El concepto de extracción de relaciones se introdujo por primera vez durante la 7.ª Conferencia de comprensión de mensajes en 1998. [1] La extracción de relaciones implica la identificación de relaciones entre entidades y, por lo general, se centra en la extracción de relaciones binarias. [2] Los dominios de aplicación en los que la extracción de relaciones es útil incluyen las relaciones entre genes y enfermedades, [3] la interacción proteína-proteína, [4] etc.
Los estudios actuales sobre extracción de relaciones utilizan tecnologías de aprendizaje automático, que abordan la extracción de relaciones como un problema de clasificación. [1] Never-Ending Language Learning es un sistema de aprendizaje automático semántico desarrollado por un equipo de investigación de la Universidad Carnegie Mellon que extrae relaciones de la web abierta.
Existen varios métodos utilizados para extraer relaciones y estos incluyen la extracción de relaciones basada en texto. Estos métodos se basan en el uso de información de estructura de relación entrenada previamente o podrían implicar el aprendizaje de la estructura para revelar relaciones. [5] Otro enfoque para este problema implica el uso de ontologías de dominio . [6] [7] También existe el enfoque que implica la detección visual de relaciones significativas en valores paramétricos de objetos enumerados en una tabla de datos que cambian de posición a medida que la tabla se permuta automáticamente según lo controlado por el usuario del software. La escasa cobertura, rareza y costo de desarrollo relacionados con recursos estructurados como léxicos semánticos (por ejemplo, WordNet , UMLS ) y ontologías de dominio (por ejemplo, Gene Ontology ) han dado lugar a nuevos enfoques basados en un conocimiento de fondo amplio y dinámico en la Web. Por ejemplo, la técnica ARCHILES [8] usa solo Wikipedia y el recuento de páginas del motor de búsqueda para adquirir relaciones de grano grueso para construir ontologías livianas.
Las relaciones se pueden representar mediante una variedad de formalismos y lenguajes. Uno de estos lenguajes de representación de datos en la Web es RDF .
Más recientemente, se han propuesto sistemas de extremo a extremo que aprenden conjuntamente a extraer menciones de entidades y sus relaciones semánticas con un gran potencial para obtener un alto rendimiento. [9]
La mayoría de los sistemas reportados han demostrado su enfoque en conjuntos de datos en inglés. Sin embargo, se han descrito datos y sistemas para otros idiomas, por ejemplo, ruso [10] y vietnamita [11] .
Los investigadores han construido múltiples conjuntos de datos para evaluar los métodos de extracción de relaciones. [12] Uno de estos conjuntos de datos fue el conjunto de datos de extracción de relaciones a nivel de documento llamado DocRED publicado en 2019. Utiliza relaciones de Wikidata y texto de la Wikipedia en inglés . [12] El conjunto de datos ha sido utilizado por otros investigadores y se ha organizado una competencia de predicción en CodaLab. [13] [14]
{{cite book}}
: |journal=
ignorado ( ayuda )