stringtranslate.com

Extracción de relaciones

Una tarea de extracción de relaciones requiere la detección y clasificación de menciones de relaciones semánticas dentro de un conjunto de artefactos , generalmente de documentos de texto o XML . La tarea es muy similar a la de extracción de información (IE), pero IE requiere además la eliminación de relaciones repetidas (desambiguación) y generalmente se refiere a la extracción de muchas relaciones diferentes.

Concepto y aplicaciones

El concepto de extracción de relaciones se introdujo por primera vez durante la 7.ª Conferencia de comprensión de mensajes en 1998. [1] La extracción de relaciones implica la identificación de relaciones entre entidades y, por lo general, se centra en la extracción de relaciones binarias. [2] Los dominios de aplicación en los que la extracción de relaciones es útil incluyen las relaciones entre genes y enfermedades, [3] la interacción proteína-proteína, [4] etc.

Los estudios actuales sobre extracción de relaciones utilizan tecnologías de aprendizaje automático, que abordan la extracción de relaciones como un problema de clasificación. [1] Never-Ending Language Learning es un sistema de aprendizaje automático semántico desarrollado por un equipo de investigación de la Universidad Carnegie Mellon que extrae relaciones de la web abierta.

Aproches

Existen varios métodos utilizados para extraer relaciones y estos incluyen la extracción de relaciones basada en texto. Estos métodos se basan en el uso de información de estructura de relación entrenada previamente o podrían implicar el aprendizaje de la estructura para revelar relaciones. [5] Otro enfoque para este problema implica el uso de ontologías de dominio . [6] [7] También existe el enfoque que implica la detección visual de relaciones significativas en valores paramétricos de objetos enumerados en una tabla de datos que cambian de posición a medida que la tabla se permuta automáticamente según lo controlado por el usuario del software. La escasa cobertura, rareza y costo de desarrollo relacionados con recursos estructurados como léxicos semánticos (por ejemplo, WordNet , UMLS ) y ontologías de dominio (por ejemplo, Gene Ontology ) han dado lugar a nuevos enfoques basados ​​​​en un conocimiento de fondo amplio y dinámico en la Web. Por ejemplo, la técnica ARCHILES [8] usa solo Wikipedia y el recuento de páginas del motor de búsqueda para adquirir relaciones de grano grueso para construir ontologías livianas.

Las relaciones se pueden representar mediante una variedad de formalismos y lenguajes. Uno de estos lenguajes de representación de datos en la Web es RDF .

Más recientemente, se han propuesto sistemas de extremo a extremo que aprenden conjuntamente a extraer menciones de entidades y sus relaciones semánticas con un gran potencial para obtener un alto rendimiento. [9]

La mayoría de los sistemas reportados han demostrado su enfoque en conjuntos de datos en inglés. Sin embargo, se han descrito datos y sistemas para otros idiomas, por ejemplo, ruso [10] y vietnamita [11] .

Conjuntos de datos

Los investigadores han construido múltiples conjuntos de datos para evaluar los métodos de extracción de relaciones. [12] Uno de estos conjuntos de datos fue el conjunto de datos de extracción de relaciones a nivel de documento llamado DocRED publicado en 2019. Utiliza relaciones de Wikidata y texto de la Wikipedia en inglés . [12] El conjunto de datos ha sido utilizado por otros investigadores y se ha organizado una competencia de predicción en CodaLab. [13] [14]

Véase también

Referencias

  1. ^ ab Ning, Huansheng (2019). Datos e inteligencia en el ciberespacio, y vida cibernética, síndrome y salud: Congreso internacional sobre el ciberespacio 2019, CyberDI y CyberLife, Pekín, China, 16-18 de diciembre de 2019, Actas, Parte II . Singapur: Springer Nature. pág. 260. ISBN 978-981-15-1924-6.
  2. ^ Nasar, Zara; Jaffry, Syed Waqar; Malik, Muhammad Kamran (11 de febrero de 2021). "Reconocimiento de entidades nombradas y extracción de relaciones: estado del arte". Encuestas de computación de ACM . 54 (1): 20:1–20:39. doi :10.1145/3445965. ISSN  0360-0300. S2CID  233353895.
  3. ^ Hong-Woo Chun; Yoshimasa Tsuruoka; Jin-Dong Kim; Rie Shiba; Naoki Nagata; Teruyoshi Hishiki; Jun-ichi Tsujii (2006). "Extracción de relaciones entre genes y enfermedades de Medline mediante diccionarios de dominio y aprendizaje automático". Simposio del Pacífico sobre bioinformática . CiteSeerX 10.1.1.105.9656 . 
  4. ^ Minlie Huang y Xiaoyan Zhu y Yu Hao y Donald G. Payan y Kunbin Qu y Ming Li (2004). "Descubrimiento de patrones para extraer interacciones proteína-proteína de textos completos". Bioinformática . 20 (18): 3604–3612. doi : 10.1093/bioinformatics/bth451 . PMID  15284092.
  5. ^ Tickoo, Omesh; Iyer, Ravi (2016). Dando sentido a los sensores: algoritmos de extremo a extremo y diseño de infraestructura desde dispositivos portátiles hasta centros de datos . Portland: Apress. pág. 68. ISBN 978-1-4302-6592-4.
  6. ^ TCRindflesch y L.Tanabe y JNWeinstein y L.Hunter (2000). "EDGAR: Extracción de fármacos, genes y relaciones de la literatura biomédica". Proc. Pacific Symposium on Biocomputing . págs. 514–525. PMC 2709525 . 
  7. ^ C. Ramakrishnan y KJ Kochut y AP Sheth (2006). "Un marco para el descubrimiento de relaciones basado en esquemas a partir de texto no estructurado". Proc. International Semantic Web Conference . págs. 583–596.
  8. ^ W. Wong y W. Liu y M. Bennamoun (2009). "Adquisición de relaciones semánticas mediante la Web para la construcción de ontologías ligeras". Proc. 13.ª Conferencia Pacífico-Asia sobre descubrimiento de conocimiento y minería de datos (PAKDD) . doi :10.1007/978-3-642-01307-2_26.
  9. ^ Dat Quoc Nguyen y Karin Verspoor (2019). "Extracción de relaciones neuronales de extremo a extremo utilizando atención biafín profunda". Actas de la 41.ª Conferencia Europea sobre Recuperación de Información (ECIR) . arXiv : 1812.11275 . doi :10.1007/978-3-030-15712-8_47.
  10. Elena Bruches; Alexey Pauls; Tatiana Batura; Vladimir Isachenko (14 de diciembre de 2020), Reconocimiento de entidades y extracción de relaciones de textos científicos y técnicos en ruso (PDF) , arXiv : 2011.09817 , Wikidata  Q104419957
  11. ^ Pham Quang Nhat Minh (18 de diciembre de 2020). "Un estudio empírico del uso de modelos BERT preentrenados para la tarea de extracción de relaciones vietnamitas en VLSP 2020" (PDF) . arXiv . arXiv : 2012.10275 . ISSN  2331-8422. Wikidata  Q104418048.
  12. ^ ab Yuan Yao; Deming Ye; Peng Li; et al. (2019). DocRED: un conjunto de datos de extracción de relaciones a nivel de documento a gran escala (PDF) . págs. 764–777. arXiv : 1906.06127 . doi :10.18653/V1/P19-1074. ISBN. 978-1-950737-48-2. Wikidata  Q104419388. {{cite book}}: |journal=ignorado ( ayuda )
  13. ^ Wang Xu; Kehai Chen; Tiejun Zhao (21 de diciembre de 2020). "Extracción de relación a nivel de documento con reconstrucción" (PDF) . arXiv . arXiv : 2012.11384 . ISSN  2331-8422. Wikidata  Q104417795.
  14. ^ "DocRED. Concurso. CodaLab".