Reconocimiento de entidad nombrada

El reconocimiento de entidades nombradas ( NER ) (también conocido como identificación de entidades (nombradas) , fragmentación de entidades y extracción de entidades ) es una subtarea de extracción de información que busca localizar y clasificar entidades nombradas mencionadas en texto no estructurado en categorías predefinidas, como persona. nombres, organizaciones, ubicaciones, códigos médicos , expresiones de tiempo, cantidades, valores monetarios, porcentajes, etc.

La mayoría de las investigaciones sobre sistemas NER/NEE se han estructurado tomando un bloque de texto sin anotaciones, como este:

Jim compró 300 acciones de Acme Corp. en 2006.

Y produciendo un bloque de texto anotado que resalta los nombres de las entidades:

[Jim] _Person compró 300 acciones de la _{organización} [Acme Corp.] en [2006] _Time .

En este ejemplo, se ha detectado y clasificado un nombre de persona que consta de un token, un nombre de empresa de dos tokens y una expresión temporal.

Los sistemas NER de última generación para inglés producen un rendimiento casi humano. Por ejemplo, el mejor sistema que ingresó a MUC-7 obtuvo un 93,39 % de la medida F , mientras que los anotadores humanos obtuvieron un 97,60 % y un 96,95 %. ^[1]^[2]

Plataformas de reconocimiento de entidades nombradas

Las plataformas NER notables incluyen:

GATE admite NER en muchos idiomas y dominios de forma inmediata, utilizable a través de una interfaz gráfica y una API de Java .
OpenNLP incluye reconocimiento estadístico y basado en reglas de entidades nombradas.
SpaCy presenta un NER estadístico rápido, así como un visualizador de entidades nombradas de código abierto.
Transformers presenta clasificación de tokens utilizando modelos de aprendizaje profundo. ^[3]^[4]

Definición del problema

En la expresión denominada entidad , la palabra denominada restringe la tarea a aquellas entidades para las cuales una o varias cadenas, como palabras o frases, representan (bastante) consistentemente algún referente. Esto está estrechamente relacionado con los designadores rígidos , tal como los define Kripke , ^[5]^[6] aunque en la práctica NER trata con muchos nombres y referentes que no son filosóficamente "rígidos". Por ejemplo, la empresa automotriz creada por Henry Ford en 1903 puede denominarse Ford o Ford Motor Company , aunque "Ford" también puede referirse a muchas otras entidades (ver Ford ). Los designadores rígidos incluyen nombres propios así como términos para ciertas especies y sustancias biológicas, ^[7] pero excluyen pronombres (como "ello"; ver resolución de correferencia ), descripciones que seleccionan un referente por sus propiedades (ver también De dicto y de re ), y nombres de tipos de cosas en lugar de individuos (por ejemplo, "Banco").

El reconocimiento completo de entidades nombradas a menudo se desglosa, conceptualmente y posiblemente también en las implementaciones, ^[8] como dos problemas distintos: detección de nombres y clasificación de los nombres por el tipo de entidad a la que se refieren (por ejemplo, persona, organización o ubicación). ). ^[9] La primera fase generalmente se simplifica a un problema de segmentación: los nombres se definen como tramos contiguos de tokens, sin anidamiento, de modo que "Bank of America" sea un nombre único, sin tener en cuenta el hecho de que dentro de este nombre, la subcadena "Estados Unidos" es en sí mismo un nombre. Este problema de segmentación es formalmente similar a la fragmentación . La segunda fase requiere elegir una ontología mediante la cual organizar categorías de cosas.

Las expresiones temporales y algunas expresiones numéricas (por ejemplo, dinero, porcentajes, etc.) también pueden considerarse entidades nombradas en el contexto de la tarea NER. Si bien algunos casos de este tipo son buenos ejemplos de designadores rígidos (por ejemplo, el año 2001), también hay muchos que no son válidos (por ejemplo, tomo mis vacaciones en “junio”). En el primer caso, el año 2001 se refiere al año 2001 del calendario gregoriano . En el segundo caso, el mes junio puede referirse al mes de un año indefinido ( junio pasado , junio próximo , cada junio , etc.). Es discutible que la definición de entidad nombrada se relaje en tales casos por razones prácticas. Por lo tanto, la definición del término entidad nombrada no es estricta y, a menudo, debe explicarse en el contexto en el que se utiliza. ^[10]

En la literatura se han propuesto ciertas jerarquías de tipos de entidades con nombre. Las categorías BBN , propuestas en 2002, se utilizan para responder preguntas y constan de 29 tipos y 64 subtipos. ^[11] La jerarquía ampliada de Sekine, propuesta en 2002, está compuesta por 200 subtipos. ^[12] Más recientemente, en 2011, Ritter utilizó una jerarquía basada en tipos de entidades comunes de Freebase en experimentos innovadores sobre NER sobre texto de redes sociales . ^[13]

Evaluación formal

Para evaluar la calidad del resultado de un sistema NER, se han definido varias medidas. Las medidas habituales se denominan precisión, recuperación y puntuación F1 . Sin embargo, persisten varias cuestiones sobre cómo calcular esos valores.

Estas medidas estadísticas funcionan razonablemente bien para los casos obvios de encontrar o perder exactamente una entidad real; y para encontrar una no entidad. Sin embargo, NER puede fallar de muchas otras maneras, muchas de las cuales son posiblemente "parcialmente correctas" y no deben considerarse como un éxito o un fracaso total. Por ejemplo, identificar una entidad real, pero:

con menos tokens de los deseados (por ejemplo, falta el último token de "John Smith, MD")
con más tokens de los deseados (por ejemplo, incluyendo la primera palabra de "La Universidad de MD")
dividir entidades adyacentes de manera diferente (por ejemplo, tratar a "Smith, Jones Robinson" como entidades de 2 frente a 3)
asignarle un tipo completamente incorrecto (por ejemplo, llamar a un nombre personal una organización)
asignándole un tipo relacionado pero inexacto (por ejemplo, "sustancia" frente a "droga" o "escuela" frente a "organización")
identificar correctamente una entidad, cuando lo que el usuario quería era una entidad de menor o mayor alcance (por ejemplo, identificar "James Madison" como nombre personal, cuando es parte de "James Madison University"). Algunos sistemas NER imponen la restricción de que las entidades nunca pueden superponerse o anidarse, lo que significa que en algunos casos uno debe tomar decisiones arbitrarias o específicas de una tarea.

Un método demasiado simple para medir la precisión es simplemente contar qué fracción de todos los tokens en el texto se identificaron correcta o incorrectamente como parte de referencias de entidades (o como entidades del tipo correcto). Esto sufre al menos dos problemas: primero, la gran mayoría de los tokens en el texto del mundo real no forman parte de los nombres de las entidades, por lo que la precisión básica (siempre predice "no es una entidad") es extravagantemente alta, típicamente >90%; y segundo, predecir erróneamente la extensión completa del nombre de una entidad no se penaliza adecuadamente (encontrar solo el nombre de una persona cuando le sigue su apellido podría calificarse como ½ de precisión).

En conferencias académicas como CoNLL, se ha definido una variante de la puntuación F1 de la siguiente manera: ^[9]

La precisión es el número de intervalos de nombres de entidades previstos que se alinean exactamente con los intervalos de los datos de evaluación del estándar de oro . Es decir, cuando se predice [ _Persona Hans] [ _{Persona Blick] pero se requiere [}_Persona Hans Blick], la precisión del nombre predicho es cero. Luego se promedia la precisión de todos los nombres de entidades previstos.
La recuperación es también la cantidad de nombres en el patrón oro que aparecen exactamente en el mismo lugar en las predicciones.
La puntuación F1 es la media armónica de estos dos.

De la definición anterior se deduce que cualquier predicción que omita un solo token, incluya un token espurio o tenga la clase incorrecta, es un error grave y no contribuye positivamente ni a la precisión ni a la recuperación. Por lo tanto, se puede decir que esta medida es pesimista: puede darse el caso de que muchos "errores" estén cerca de ser correctos y podrían ser adecuados para un propósito determinado. Por ejemplo, un sistema siempre puede omitir títulos como "Sra." o "Ph.D.", pero compararse con un sistema o datos reales que esperan que se incluyan títulos. En ese caso, cada uno de esos nombres se trata como un error. Debido a estas cuestiones, es importante examinar los tipos de errores y decidir qué importancia tienen teniendo en cuenta los objetivos y requisitos de cada uno.

Se han propuesto modelos de evaluación basados en el emparejamiento token por token. ^[14] A estos modelos se les puede dar crédito parcial por coincidencias superpuestas (como el uso del criterio de Intersección sobre Unión ). Permiten una evaluación y comparación más detallada de los sistemas de extracción.

Enfoques

Se han creado sistemas NER que utilizan técnicas basadas en gramática lingüística , así como modelos estadísticos como el aprendizaje automático . Los sistemas basados en gramática hechos a mano generalmente obtienen una mayor precisión, pero a costa de una menor recuperación y meses de trabajo por parte de lingüistas computacionales experimentados . ^[15] Los sistemas estadísticos NER generalmente requieren una gran cantidad de datos de entrenamiento anotados manualmente . Se han sugerido enfoques semisupervisados para evitar parte del esfuerzo de anotación. ^[16]^[17]

Se han utilizado muchos tipos diferentes de clasificadores para realizar NER aprendido por máquina, siendo los campos aleatorios condicionales una opción típica. ^[18]

Dominios problemáticos

En 2001, una investigación indicó que incluso los sistemas NER más modernos eran frágiles, lo que significa que los sistemas NER desarrollados para un dominio normalmente no funcionaban bien en otros dominios. ^[19] Se requiere un esfuerzo considerable para ajustar los sistemas NER para que funcionen bien en un nuevo dominio; Esto es válido tanto para los sistemas estadísticos basados en reglas como para los sistemas entrenables.

Los primeros trabajos en sistemas NER en la década de 1990 estaban dirigidos principalmente a la extracción de artículos periodísticos. La atención se centró entonces en la tramitación de los despachos e informes militares. Las etapas posteriores de la evaluación de extracción automática de contenido (ACE) también incluyeron varios tipos de estilos de texto informales, como blogs web y transcripciones de texto de conversaciones telefónicas. Desde aproximadamente 1998, ha habido un gran interés en la identificación de entidades en las comunidades de biología molecular , bioinformática y procesamiento médico del lenguaje natural . La entidad de interés más común en ese dominio han sido los nombres de genes y productos genéticos. También ha habido un gran interés en el reconocimiento de entidades químicas y fármacos en el contexto del concurso CHEMDNER, en el que participaron 27 equipos. ^[20]

Retos e investigaciones actuales

A pesar de los altos números de F1 reportados en el conjunto de datos MUC-7, el problema del reconocimiento de entidades nombradas está lejos de estar resuelto. Los principales esfuerzos están dirigidos a reducir el trabajo de anotaciones mediante el empleo de aprendizaje semisupervisado , ^[16]^[21] un rendimiento sólido en todos los dominios ^[22]^[23] y la ampliación a tipos de entidades detalladas. ^[12]^[24] En los últimos años, muchos proyectos han recurrido al crowdsourcing , que es una solución prometedora para obtener juicios humanos agregados de alta calidad para enfoques de aprendizaje automático supervisados y semisupervisados para NER. ^[25] Otra tarea desafiante es diseñar modelos para abordar contextos lingüísticamente complejos como Twitter y consultas de búsqueda. ^[26]

Hay algunos investigadores que hicieron algunas comparaciones sobre el rendimiento de NER de diferentes modelos estadísticos como HMM ( modelo oculto de Markov ), ME ( entropía máxima ) y CRF ( campos aleatorios condicionales ) y conjuntos de características. ^[27] Y algunos investigadores propusieron recientemente un modelo de aprendizaje semisupervisado basado en gráficos para tareas NER específicas del lenguaje. ^[28]

Una tarea recientemente emergente de identificar "expresiones importantes" en el texto y vincularlas con Wikipedia ^[29]^[30]^[31] puede verse como un ejemplo de reconocimiento de entidades nombradas extremadamente fino, donde los tipos son los reales. Páginas de Wikipedia que describen los conceptos (potencialmente ambiguos). A continuación se muestra un ejemplo de resultado de un sistema de Wikificación:

<ENTITY url= "https://en.wikipedia.org/wiki/Named_entity_recognition/Michael_I._Jordan" > Michael Jordan </ENTITY> es profesor en <ENTITY url= " https://en.wikipedia.org/wiki/Named_entity_recognition/University_of_California ,_Berkeley" > Berkeley </ENTITY>

Otro campo que ha experimentado avances pero que sigue siendo un desafío es la aplicación de NER a Twitter y otros microblogs, considerados "ruidosos" debido a la ortografía no estándar, la brevedad y la informalidad de los textos. ^[32]^[33] Las comunidades de investigación han organizado desafíos NER en tweets en inglés para comparar el rendimiento de varios enfoques, como LSTM bidireccionales , Learning-to-Search o CRF. ^[34]^[35]^[36]

Ver también

Vocabulario controlado
Resolución de correferencia
Vinculación de entidades (también conocida como normalización de entidades con nombre, desambiguación de entidades)
Extracción de información
Extracción de conocimiento
Onomástica
Vinculación de registros
Etiqueta inteligente (Microsoft)

Referencias

^ Elaine Marsh, Dennis Perzanowski, "Evaluación MUC-7 de la tecnología IE: descripción general de los resultados", 29 de abril de 1998 PDF
^ Procedimientos MUC-07 (tareas de entidad nombrada)
^ Lobo; Debut, Lisandro; Sanh, Víctor; Chaumond, Julien; Delangue, Clemente; Yo, Antonio; Cistac, Pierric; Rault, Tim; Louf, Rémi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; Von Platen, Patrick; Mamá, Clara; Jernita, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Téven; Gugger, Sylvain; Drama, Mariama; Lhoest, Quentin; Lobo, Tomás; Rush, Alejandro (2020). Transformers: procesamiento del lenguaje natural de última generación . Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural: demostraciones de sistemas . págs. 38–45.
^ Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Extracción de información de precisión para la epidemiología de enfermedades raras a escala". Revista de medicina traslacional . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634 . PMID 36855134.
^ Kripke, Saúl (1971). "Identidad y Necesidad". En MK Munitz (ed.). Identidad e Individuación . Nueva York: Prensa de la Universidad de Nueva York. págs. 135–64.
^ LaPorte, José (2018). "Designadores rígidos". La Enciclopedia de Filosofía de Stanford .
^ Nadeau, David; Sekine, Satoshi (2007). Una encuesta sobre el reconocimiento y la clasificación de entidades nombradas (PDF) . Investigaciones Lingvisticae.
^ Carreras, Xavier; Márquez, Lluís; Padró, Lluís (2003). Un extractor de entidades con nombre simple que utiliza AdaBoost (PDF) . CONLL.
^ ab Tjong Kim Sang, Erik F.; De Meulder, Fien (2003). Introducción a la tarea compartida CoNLL-2003: reconocimiento de entidades nombradas independientes del idioma. CONLL.
^ Definición de entidad nombrada. Webknox.com. Recuperado el 21 de julio de 2013.
^ Brunstein, Ada. "Pautas de anotación para tipos de respuestas". Catálogo de PMA . Consorcio de Datos Lingüísticos. Archivado desde el original el 16 de abril de 2016 . Consultado el 21 de julio de 2013 .
^ ab Jerarquía de entidades con nombre extendida de Sekine. Nlp.cs.nyu.edu. Recuperado el 21 de julio de 2013.
^ Ritter, A.; Clark, S.; Mausam; Etzioni., O. (2011). Reconocimiento de entidades nombradas en tweets: un estudio experimental (PDF) . Proc. Métodos empíricos en el procesamiento del lenguaje natural.
^ Esulí, Andrea; Sebastiani, Fabrizio (2010). Evaluación de la extracción de información (PDF) . Foro de evaluación multilingüe (CLEF). págs. 100-111.
^ Kapetanos, Epaminondas; tártaro, doina; Sacarea, cristiano (14 de noviembre de 2013). Procesamiento del lenguaje natural: aspectos semánticos. Prensa CRC. pag. 298.ISBN _ 9781466584969.
^ ab Lin, Dekang; Wu, Xiaoyun (2009). Agrupación de frases para el aprendizaje discriminativo (PDF) . Reunión Anual de la ACL y IJCNLP. págs. 1030-1038.
^ Nothman, Joel; et al. (2013). "Aprender el reconocimiento de entidades con nombre multilingüe de Wikipedia" . Inteligencia artificial . 194 : 151-175. doi : 10.1016/j.artint.2012.03.006 .
^ Jenny Rose Finkel; Trond Granadero; Christopher Manning (2005). Incorporación de información no local en sistemas de extracción de información mediante Gibbs Sampling (PDF) . 43ª Reunión Anual de la Asociación de Lingüística Computacional . págs. 363–370.
^ Poibeau, Thierry; Kosseim, Leila (2001). «Extracción de nombres propios de textos no periodísticos» (PDF) . Lenguaje y Computadoras . 37 (1): 144-157. doi :10.1163/9789004333901_011. S2CID 12591786. Archivado desde el original (PDF) el 30 de julio de 2019.
^ Krallinger, M; Leitner, F; Rabal, O; Vázquez, M; Oyarzabal, J; Valencia, A (2013). "Descripción general de la tarea de reconocimiento de nombres de medicamentos y compuestos químicos (CHEMDNER)". Actas del Cuarto Taller de Evaluación del Desafío BioCreativo vol. 2 . págs. 6–37. CiteSeerX 10.1.1.684.4118 .
^ Turian, J., Ratinov, L. y Bengio, Y. (julio de 2010). Representaciones de palabras: un método simple y general para el aprendizaje semisupervisado. En actas de la 48.ª reunión anual de la Asociación de Lingüística Computacional (págs. 384–394). Asociación de Lingüística Computacional. PDF
^ Ratinov, L. y Roth, D. (junio de 2009). Desafíos de diseño y conceptos erróneos en el reconocimiento de entidades nombradas. En Actas de la Decimotercera Conferencia sobre Aprendizaje Computacional de Lenguajes Naturales (págs. 147-155). Asociación de Lingüística Computacional.
^ "Adaptación de dominio frustrantemente fácil" (PDF) . Archivado desde el original (PDF) el 13 de junio de 2010 . Consultado el 5 de abril de 2012 .
^ Lee, Changki; Hwang, Yi-Gyu; Oh, Hyo-Jung; Lim, Soojong; Heo, Jeong; Lee, Chung Hee; Kim, Hyeon-Jin; Wang, Ji-Hyun; Jang, Myung-Gil (2006). "Reconocimiento detallado de entidades nombradas utilizando campos aleatorios condicionales para responder preguntas". Tecnología de recuperación de información . Apuntes de conferencias sobre informática. vol. 4182, págs. 581–587. doi :10.1007/11880592_49. ISBN 978-3-540-45780-0.
^ Crowdsourcing basado en Web 2.0 para el desarrollo de estándares de oro de alta calidad en el procesamiento clínico del lenguaje natural
^ Eiselt, Andrés; Figueroa, Alejandro (2013). Un reconocedor de entidades con nombre de dos pasos para consultas de búsqueda de dominio abierto. IJCNLP. págs. 829–833.
^ Han, Li-Feng Aaron, Wong, Fai, Chao, Lidia Sam. (2013). Reconocimiento de entidades nombradas chinas con campos aleatorios condicionales a la luz de las características chinas. Actas de la Conferencia Internacional sobre Procesamiento del Lenguaje y Sistemas de Información Inteligentes. MA Klopotek et al. (Eds.): IIS 2013, LNCS vol. 7912, págs. 57–68 [1]
^ Han, Li-Feng Aaron, Wong, Zeng, Xiaodong, Derek Fai, Chao, Lidia Sam. (2015). Reconocimiento de entidades nombradas chinas con modelo de aprendizaje semisupervisado basado en gráficos. En Actas del taller SIGHAN en ACL-IJCNLP. 2015. [2]
^ Vincular documentos al conocimiento enciclopédico.
^ "Aprender a vincular con Wikipedia" (PDF) . Archivado desde el original (PDF) el 25 de enero de 2019 . Consultado el 21 de julio de 2014 .
^ Algoritmos locales y globales de desambiguación en Wikipedia.
^ Derczynski, Leon y Diana Maynard , Giuseppe Rizzo, Marieke van Erp, Genevieve Gorrell, Raphael Troncy, Johann Petrak y Kalian Botcheva (2014). “Análisis del reconocimiento de entidades nombradas y vinculación de tweets”. Procesamiento y gestión de la información 51 (2): páginas 32–49.
^ Baldwin, Timoteo; de Marneffe, María Catalina; Han, Bo; Kim, Young-Bum; Ritter, Alan; Xu, Wei (julio de 2015). "Tareas compartidas del taller de 2015 sobre texto ruidoso generado por usuarios: normalización léxica de Twitter y reconocimiento de entidades nombradas". Actas del taller sobre texto ruidoso generado por usuarios . Beijing, China: Asociación de Lingüística Computacional: 126–135. doi : 10.18653/v1/W15-4319 . S2CID 14500933.
^ "Taller COLING 2016 sobre texto ruidoso generado por usuarios (W-NUT)". texto-ruidoso.github.io . Consultado el 13 de agosto de 2022 .
^ Partalas, Ioannis; López, Cédric; Derbas, Nadia; Kalitvianski, Ruslan (diciembre de 2016). "Aprender a buscar para reconocer entidades nombradas en Twitter". Actas del segundo taller sobre texto ruidoso generado por usuarios (WNUT) . Osaka, Japón: Comité Organizador de COLING 2016: 171–177.
^ Limsopatham, nuez; Collier, Nigel (diciembre de 2016). "LSTM bidireccional para el reconocimiento de entidades nombradas en mensajes de Twitter". Actas del segundo taller sobre texto ruidoso generado por usuarios (WNUT) . Osaka, Japón: Comité organizador de COLING 2016: 145–152.