Reconocimiento de entidades nombradas

El reconocimiento de entidades nombradas ( NER ) (también conocido como identificación de entidades (nombradas) , fragmentación de entidades y extracción de entidades ) es una subtarea de extracción de información que busca localizar y clasificar entidades nombradas mencionadas en texto no estructurado en categorías predefinidas, como nombres de personas, organizaciones, ubicaciones, códigos médicos , expresiones de tiempo, cantidades, valores monetarios, porcentajes, etc.

La mayor parte de las investigaciones sobre los sistemas NER/NEE se han estructurado tomando un bloque de texto sin anotaciones, como éste:

Jim compró 300 acciones de Acme Corp. en 2006.

Y producir un bloque de texto anotado que resalta los nombres de las entidades:

[Jim] _Person compró 300 acciones de _{la Organización} [Acme Corp.] en [2006] _Time .

En este ejemplo, se ha detectado y clasificado un nombre de persona compuesto de un token, un nombre de empresa de dos tokens y una expresión temporal.

Los sistemas NER de última generación para inglés producen un rendimiento casi humano. Por ejemplo, el mejor sistema que entró en el MUC-7 obtuvo una puntuación del 93,39 % de la medida F , mientras que los anotadores humanos obtuvieron una puntuación del 97,60 % y del 96,95 % respectivamente. ^[1]^[2]

Plataformas de reconocimiento de entidades nombradas

Las plataformas NER notables incluyen:

GATE admite NER en muchos idiomas y dominios de forma inmediata, y se puede utilizar a través de una interfaz gráfica y una API de Java .
OpenNLP incluye reconocimiento de entidades con nombre basado en reglas y estadístico.
SpaCy cuenta con un NER estadístico rápido, así como un visualizador de entidades con nombre de código abierto.
Transformers presenta una clasificación de tokens utilizando modelos de aprendizaje profundo. ^[3]^[4]

Definición del problema

En la expresión entidad nombrada , la palabra nombrada restringe la tarea a aquellas entidades para las cuales una o muchas cadenas, como palabras o frases, representan (bastante) consistentemente algún referente. Esto está estrechamente relacionado con los designadores rígidos , como los define Kripke , ^[5]^[6] aunque en la práctica NER trata con muchos nombres y referentes que no son filosóficamente "rígidos". Por ejemplo, la compañía automotriz creada por Henry Ford en 1903 puede ser referida como Ford o Ford Motor Company , aunque "Ford" también puede referirse a muchas otras entidades (ver Ford ). Los designadores rígidos incluyen nombres propios así como términos para ciertas especies y sustancias biológicas, ^[7] pero excluyen pronombres (como "eso"; ver resolución de correferencia ), descripciones que seleccionan un referente por sus propiedades (ver también De dicto y de re ), y nombres para tipos de cosas en oposición a individuos (por ejemplo "Banco").

El reconocimiento completo de entidades nombradas se suele dividir, conceptualmente y posiblemente también en las implementaciones, ^[8] en dos problemas distintos: detección de nombres y clasificación de los nombres por el tipo de entidad al que hacen referencia (por ejemplo, persona, organización o ubicación). ^[9] La primera fase se suele simplificar a un problema de segmentación: los nombres se definen como tramos contiguos de tokens, sin anidación, de modo que "Bank of America" es un solo nombre, sin tener en cuenta el hecho de que dentro de este nombre, la subcadena "America" es en sí misma un nombre. Este problema de segmentación es formalmente similar a la fragmentación . La segunda fase requiere elegir una ontología mediante la cual organizar categorías de cosas.

Las expresiones temporales y algunas expresiones numéricas (por ejemplo, dinero, porcentajes, etc.) también pueden considerarse entidades con nombre en el contexto de la tarea NER. Si bien algunas instancias de estos tipos son buenos ejemplos de designadores rígidos (por ejemplo, el año 2001), también hay muchos que no son válidos (por ejemplo, tomo mis vacaciones en “junio”). En el primer caso, el año 2001 se refiere al año 2001 del calendario gregoriano . En el segundo caso, el mes junio puede referirse al mes de un año indefinido ( junio pasado , junio próximo , cada junio , etc.). Se puede argumentar que la definición de entidad con nombre se flexibiliza en tales casos por razones prácticas. Por lo tanto, la definición del término entidad con nombre no es estricta y a menudo debe explicarse en el contexto en el que se utiliza. ^[10]

En la literatura se han propuesto ciertas jerarquías de tipos de entidades con nombre. Las categorías BBN , propuestas en 2002, se utilizan para responder preguntas y constan de 29 tipos y 64 subtipos. ^[11] La jerarquía extendida de Sekine, propuesta en 2002, está compuesta por 200 subtipos. ^[12] Más recientemente, en 2011, Ritter utilizó una jerarquía basada en tipos de entidades comunes de Freebase en experimentos innovadores sobre NER sobre texto de redes sociales . ^[13]

Evaluación formal

Para evaluar la calidad de la salida de un sistema NER, se han definido varias medidas. Las medidas habituales se denominan precisión, recuperación y puntuación F1 . Sin embargo, quedan varios problemas por resolver en cuanto a cómo calcular esos valores.

Estas medidas estadísticas funcionan razonablemente bien para los casos obvios de encontrar o no una entidad real con exactitud; y para encontrar una entidad no real. Sin embargo, la NER puede fallar de muchas otras maneras, muchas de las cuales podrían decirse que son "parcialmente correctas", y no deberían considerarse como éxitos o fracasos completos. Por ejemplo, identificar una entidad real, pero:

con menos tokens de los deseados (por ejemplo, falta el último token de "John Smith, MD")
con más tokens de los deseados (por ejemplo, incluyendo la primera palabra de "La Universidad de MD")
Particionar entidades adyacentes de forma diferente (por ejemplo, tratar "Smith, Jones Robinson" como 2 o 3 entidades)
asignándole un tipo completamente incorrecto (por ejemplo, llamar organización a un nombre personal)
asignándole un tipo relacionado pero inexacto (por ejemplo, "sustancia" vs. "droga", o "escuela" vs. "organización")
Identificar correctamente una entidad, cuando lo que el usuario quería era una entidad de alcance más pequeño o más grande (por ejemplo, identificar "James Madison" como un nombre personal, cuando es parte de "James Madison University"). Algunos sistemas NER imponen la restricción de que las entidades nunca pueden superponerse o anidarse, lo que significa que en algunos casos uno debe tomar decisiones arbitrarias o específicas para la tarea.

Un método demasiado simple para medir la precisión consiste simplemente en contar qué fracción de todos los tokens del texto se identificaron correcta o incorrectamente como parte de referencias de entidades (o como entidades del tipo correcto). Esto presenta al menos dos problemas: primero, la gran mayoría de tokens en el texto del mundo real no son parte de nombres de entidades, por lo que la precisión de referencia (predecir siempre "no es una entidad") es extravagantemente alta, típicamente >90%; y segundo, predecir incorrectamente el rango completo de un nombre de entidad no se penaliza adecuadamente (encontrar solo el nombre de pila de una persona cuando aparece su apellido puede calificarse como una precisión de ½).

En conferencias académicas como CoNLL, se ha definido una variante de la puntuación F1 de la siguiente manera: ^[9]

La precisión es la cantidad de intervalos de nombres de entidades predichos que coinciden exactamente con los intervalos de los datos de evaluación del estándar de oro . Es decir, cuando se predice [ _Persona Hans] [ _{Persona Blick] pero se requiere [}_Persona Hans Blick], la precisión para el nombre predicho es cero. Luego, la precisión se promedia sobre todos los nombres de entidades predichos.
De manera similar, el recuerdo es el número de nombres en el patrón oro que aparecen exactamente en el mismo lugar en las predicciones.
La puntuación F1 es la media armónica de estos dos.

De la definición anterior se desprende que cualquier predicción que no incluya un solo token, incluya un token espurio o tenga la clase incorrecta es un error grave y no contribuye positivamente ni a la precisión ni a la recuperación. Por lo tanto, se puede decir que esta medida es pesimista: puede darse el caso de que muchos "errores" estén cerca de ser correctos y podrían ser adecuados para un propósito determinado. Por ejemplo, un sistema podría omitir siempre títulos como "Ms." o "Ph.D.", pero compararse con un sistema o datos de verdad fundamental que espera que se incluyan títulos. En ese caso, cada uno de esos nombres se trata como un error. Debido a estos problemas, es importante examinar realmente los tipos de errores y decidir qué importancia tienen en función de los objetivos y requisitos de cada uno.

Se han propuesto modelos de evaluación basados en un emparejamiento token por token. ^[14] A estos modelos se les puede dar crédito parcial por emparejamientos superpuestos (como el uso del criterio de intersección sobre unión ). Permiten una evaluación y comparación más detallada de los sistemas de extracción.

Aproches

Se han creado sistemas NER que utilizan técnicas basadas en gramática lingüística , así como modelos estadísticos como el aprendizaje automático . Los sistemas basados en gramática elaborados a mano suelen obtener una mayor precisión, pero a costa de una menor capacidad de recuperación y meses de trabajo por parte de lingüistas computacionales experimentados . ^[15] Los sistemas NER estadísticos suelen requerir una gran cantidad de datos de entrenamiento anotados manualmente. Se han sugerido enfoques semisupervisados para evitar parte del esfuerzo de anotación. ^[16]^[17]

Se han utilizado muchos tipos diferentes de clasificadores para realizar NER aprendido por máquina, siendo los campos aleatorios condicionales una opción típica. ^[18]

Dominios problemáticos

En 2001, una investigación indicó que incluso los sistemas NER de última generación eran frágiles, lo que significa que los sistemas NER desarrollados para un dominio no solían tener un buen desempeño en otros dominios. ^[19] Se requiere un esfuerzo considerable para ajustar los sistemas NER para que funcionen bien en un nuevo dominio; esto es cierto tanto para los sistemas estadísticos entrenables como para los basados en reglas.

Los primeros trabajos en sistemas NER en la década de 1990 se dirigieron principalmente a la extracción de artículos periodísticos. Luego, la atención se centró en el procesamiento de despachos e informes militares. Las etapas posteriores de la evaluación de la extracción automática de contenido (ACE) también incluyeron varios tipos de estilos de texto informales, como blogs y transcripciones de texto de conversaciones telefónicas. Desde aproximadamente 1998, ha habido un gran interés en la identificación de entidades en las comunidades de biología molecular , bioinformática y procesamiento del lenguaje natural médico . La entidad de interés más común en ese dominio ha sido los nombres de genes y productos genéticos. También ha habido un interés considerable en el reconocimiento de entidades químicas y medicamentos en el contexto de la competencia CHEMDNER, con 27 equipos participando en esta tarea. ^[20]

Desafíos actuales e investigación

A pesar de los altos números de F1 reportados en el conjunto de datos MUC-7, el problema del reconocimiento de entidades nombradas está lejos de ser resuelto. Los principales esfuerzos están dirigidos a reducir el trabajo de anotaciones mediante el empleo de aprendizaje semi-supervisado , ^[16]^[21] rendimiento robusto en todos los dominios ^[22]^[23] y escalamiento a tipos de entidad de grano fino. ^[12]^[24] En los últimos años, muchos proyectos han recurrido al crowdsourcing , que es una solución prometedora para obtener juicios humanos agregados de alta calidad para enfoques de aprendizaje automático supervisados y semi-supervisados para NER. ^[25] Otra tarea desafiante es diseñar modelos para lidiar con contextos lingüísticamente complejos como Twitter y consultas de búsqueda. ^[26]

Hay algunos investigadores que hicieron algunas comparaciones sobre el rendimiento de NER de diferentes modelos estadísticos como HMM ( modelo oculto de Markov ), ME ( entropía máxima ) y CRF ( campos aleatorios condicionales ) y conjuntos de características. ^[27] Y algunos investigadores propusieron recientemente un modelo de aprendizaje semisupervisado basado en gráficos para tareas NER específicas del lenguaje. ^[28]

Una tarea que ha surgido recientemente para identificar "expresiones importantes" en el texto y vincularlas con Wikipedia ^[29]^[30]^[31] puede verse como un ejemplo de reconocimiento de entidades nombradas de grano extremadamente fino, donde los tipos son las páginas reales de Wikipedia que describen los conceptos (potencialmente ambiguos). A continuación se muestra un ejemplo de salida de un sistema de wikificación:

<ENTITY url= "https://en.wikipedia.org/wiki/Named_entity_recognition/Michael_I._Jordan" > Michael Jordan </ENTITY> es profesor en la <ENTITY url = "https://en.wikipedia.org/wiki/Named_entity_recognition/University_of_California,_Berkeley" > Berkeley </ENTITY>

Otro campo que ha experimentado avances pero que sigue siendo desafiante es la aplicación de NER a Twitter y otros microblogs, considerados "ruidosos" debido a la ortografía no estándar, la brevedad y la informalidad de los textos. ^[32]^[33] Las comunidades de investigación han organizado desafíos de NER en tweets en inglés para comparar el rendimiento de varios enfoques, como LSTM bidireccionales , aprendizaje para buscar o CRF. ^[34]^[35]^[36]

Véase también

Vocabulario controlado
Resolución de correferencia
Vinculación de entidades (también conocida como normalización de entidades con nombre, desambiguación de entidades)
Extracción de información
Extracción de conocimiento
Onomástica
Vinculación de registros
Etiqueta inteligente (Microsoft)

Referencias

^ Elaine Marsh, Dennis Perzanowski, "Evaluación MUC-7 de la tecnología IE: descripción general de los resultados", 29 de abril de 1998 PDF
^ Actas MUC-07 (Tareas de la entidad nombrada)
^ Wolf; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Wolf, Thomas; Rush, Alexander (2020). Transformers: Procesamiento de lenguaje natural de última generación . Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural: demostraciones de sistemas . págs. 38–45.
^ Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Extracción de información de precisión para la epidemiología de enfermedades raras a escala". Revista de Medicina Traslacional . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634 . PMID 36855134.
^ Kripke, Saul (1971). "Identidad y necesidad". En MK Munitz (ed.). Identidad e individuación . Nueva York: New York University Press. pp. 135–64.
^ LaPorte, Joseph (2018). "Designadores rígidos". La enciclopedia de filosofía de Stanford .
^ Nadeau, David; Sekine, Satoshi (2007). Un estudio sobre el reconocimiento y la clasificación de entidades nombradas (PDF) . Lingvisticae Investigationes.
^ Carreras, Xavier; Márquez, Lluís; Padró, Lluís (2003). Un extractor de entidades con nombre simple que utiliza AdaBoost (PDF) . CONLL.
^ ab Tjong Kim Sang, Erik F.; De Meulder, Fien (2003). Introducción a la tarea compartida CoNLL-2003: reconocimiento de entidades nombradas independientes del lenguaje. CoNLL.
^ Definición de entidad nombrada. Webknox.com. Consultado el 21 de julio de 2013.
^ Brunstein, Ada. "Pautas de anotación para tipos de respuesta". Catálogo LDC . Consorcio de Datos Lingüísticos. Archivado desde el original el 16 de abril de 2016. Consultado el 21 de julio de 2013 .
^ ab Jerarquía de entidades con nombre extendida de Sekine. Nlp.cs.nyu.edu. Recuperado el 21 de julio de 2013.
^ Ritter, A.; Clark, S.; Mausam; Etzioni., O. (2011). Reconocimiento de entidades nombradas en tuits: un estudio experimental (PDF) . Proc. Métodos empíricos en el procesamiento del lenguaje natural.
^ Esuli, Andrea; Sebastiani, Fabrizio (2010). Evaluación de la extracción de información (PDF) . Cross-Language Evaluation Forum (CLEF). pp. 100–111.
^ Kapetanios, Epaminondas; Tatar, Doina; Sacarea, Christian (14 de noviembre de 2013). Procesamiento del lenguaje natural: aspectos semánticos. CRC Press. pág. 298. ISBN 9781466584969.
^ ab Lin, Dekang; Wu, Xiaoyun (2009). Agrupamiento de frases para el aprendizaje discriminativo (PDF) . Reunión anual de la ACL y la IJCNLP. págs. 1030–1038.
^ Nothman, Joel; et al. (2013). "Aprendizaje del reconocimiento de entidades con nombre multilingües a partir de Wikipedia" . Inteligencia artificial . 194 : 151–175. doi : 10.1016/j.artint.2012.03.006 .
^ Jenny Rose Finkel; Trond Grenager; Christopher Manning (2005). Incorporación de información no local en sistemas de extracción de información mediante muestreo de Gibbs (PDF) . 43.ª Reunión Anual de la Asociación de Lingüística Computacional . págs. 363–370.
^ Poibeau, Thierry; Kosseim, Leila (2001). "Extracción de nombres propios de textos no periodísticos" (PDF) . Lenguaje y Computación . 37 (1): 144–157. doi :10.1163/9789004333901_011. S2CID 12591786. Archivado desde el original (PDF) el 2019-07-30.
^ Krallinger, M; Leitner, F; Rabal, O; Vazquez, M; Oyarzabal, J; Valencia, A (2013). "Descripción general de la tarea de reconocimiento de nombres de fármacos y compuestos químicos (CHEMDNER)". Actas del Cuarto Taller de Evaluación del Desafío BioCreativo vol. 2 . págs. 6–37. CiteSeerX 10.1.1.684.4118 .
^ Turian, J., Ratinov, L. y Bengio, Y. (julio de 2010). Representaciones de palabras: un método simple y general para el aprendizaje semisupervisado. En Actas de la 48.ª reunión anual de la Asociación de Lingüística Computacional (pp. 384-394). Asociación de Lingüística Computacional. PDF
^ Ratinov, L., y Roth, D. (junio de 2009). Desafíos de diseño y conceptos erróneos en el reconocimiento de entidades nombradas. En Actas de la Decimotercera Conferencia sobre Aprendizaje Computacional de Lenguaje Natural (pp. 147-155). Asociación de Lingüística Computacional.
^ "Adaptación de dominios frustrantemente fácil" (PDF) . Archivado desde el original (PDF) el 2010-06-13 . Consultado el 2012-04-05 .
^ Lee, Changki; Hwang, Yi-Gyu; Oh, Hyo-Jung; Lim, Soojong; Heo, Jeong; Lee, Chung-Hee; Kim, Hyeon-Jin; Wang, Ji-Hyun; Jang, Myung-Gil (2006). "Reconocimiento de entidades con nombre de grano fino utilizando campos aleatorios condicionales para responder preguntas". Tecnología de recuperación de información . Apuntes de clase en informática. Vol. 4182. págs. 581–587. doi :10.1007/11880592_49. ISBN 978-3-540-45780-0.
^ Crowdsourcing basado en la Web 2.0 para el desarrollo de estándares de oro de alta calidad en el procesamiento del lenguaje natural clínico
^ Eiselt, Andreas; Figueroa, Alejandro (2013). Un reconocedor de entidades con nombre en dos pasos para consultas de búsqueda de dominio abierto. IJCNLP. págs. 829–833.
^ Han, Li-Feng Aaron, Wong, Fai, Chao, Lidia Sam. (2013). Reconocimiento de entidades nombradas en chino con campos aleatorios condicionales a la luz de las características chinas. Actas de la Conferencia internacional sobre procesamiento del lenguaje y sistemas de información inteligentes. MA Klopotek et al. (Eds.): IIS 2013, LNCS Vol. 7912, págs. 57–68 [1]
^ Han, Li-Feng Aaron, Wong, Zeng, Xiaodong, Derek Fai, Chao, Lidia Sam. (2015). Reconocimiento de entidades nombradas en chino con un modelo de aprendizaje semisupervisado basado en gráficos. En las actas del taller SIGHAN en ACL-IJCNLP. 2015. [2]
^ Vinculando documentos al conocimiento enciclopédico.
^ "Aprendiendo a enlazar con Wikipedia" (PDF) . Archivado desde el original (PDF) el 25 de enero de 2019. Consultado el 21 de julio de 2014 .
^ Algoritmos locales y globales para desambiguación en Wikipedia.
^ Derczynski, Leon y Diana Maynard , Giuseppe Rizzo, Marieke van Erp, Genevieve Gorrell, Raphael Troncy, Johann Petrak y Kalian Botcheva (2014). “Análisis del reconocimiento y vinculación de entidades nombradas para tuits”. Procesamiento y gestión de la información 51(2): páginas 32–49.
^ Baldwin, Timothy; de Marneffe, Marie Catherine; Han, Bo; Kim, Young-Bum; Ritter, Alan; Xu, Wei (julio de 2015). "Tareas compartidas del taller de 2015 sobre texto ruidoso generado por el usuario: normalización léxica de Twitter y reconocimiento de entidades con nombre". Actas del taller sobre texto ruidoso generado por el usuario . Pekín, China: Asociación de Lingüística Computacional: 126–135. doi : 10.18653/v1/W15-4319 . S2CID 14500933.
^ "Taller COLING 2016 sobre texto ruidoso generado por el usuario (W-NUT)". noisy-text.github.io . Consultado el 13 de agosto de 2022 .
^ Partalas, Ioannis; Lopez, Cédric; Derbas, Nadia; Kalitvianski, Ruslan (diciembre de 2016). "Aprender a buscar para reconocer entidades nombradas en Twitter". Actas del 2.º taller sobre texto ruidoso generado por el usuario (WNUT) . Osaka, Japón: Comité organizador de COLING 2016: 171–177.
^ Limsopatham, Nut; Collier, Nigel (diciembre de 2016). "LSTM bidireccional para el reconocimiento de entidades con nombre en mensajes de Twitter". Actas del 2.º taller sobre texto ruidoso generado por el usuario (WNUT) . Osaka, Japón: Comité organizador de COLING 2016: 145–152.