stringtranslate.com

Extracción automática de contenido

La extracción automática de contenido ( ACE ) es un programa de investigación para el desarrollo de tecnologías avanzadas de extracción de información convocado por el NIST entre 1999 y 2008, sucediendo a MUC y la Conferencia de Análisis de Texto que lo precedió.

Metas y esfuerzos

En términos generales, el programa ACE está motivado por y aborda los mismos problemas que el programa MUC que lo precedió. Sin embargo, el programa ACE define los objetivos de la investigación en términos de los objetos objetivo (es decir, las entidades, las relaciones y los eventos) en lugar de en términos de las palabras del texto. Por ejemplo, la llamada tarea de "entidad nombrada", tal como se define en MUC, consiste en identificar aquellas palabras (en la página) que son nombres de entidades. En ACE, por otro lado, la tarea correspondiente es identificar la entidad nombrada de esa manera. Esta es una tarea diferente, más abstracta y que implica una inferencia más explícita para producir una respuesta. En un sentido real, la tarea consiste en detectar cosas que "no están ahí".

Si bien el programa ACE está orientado a la extracción de información de fuentes de audio e imágenes además de texto puro, el esfuerzo de investigación se limita a la extracción de información del texto. La transducción real de datos de audio e imágenes a texto no forma parte del esfuerzo de investigación de ACE, aunque sí lo es el procesamiento de la salida de ASR y OCR de dichos transductores.

El esfuerzo implica:

Temas y ejercicios

Dado un texto en lenguaje natural , el desafío de ACE es detectar:

  1. entidades mencionadas en el texto, tales como: personas, organizaciones, lugares, instalaciones, armas, vehículos y entidades geopolíticas.
  2. relaciones entre entidades, tales como: la persona A es el gerente de la empresa B. Los tipos de relación incluyen: rol, parte, ubicado, cercano y social.
  3. eventos mencionados en el texto, tales como: interacción, movimiento, transferencia, creación y destrucción.

El programa se relaciona con textos en inglés , árabe y chino .

El corpus ACE es uno de los puntos de referencia estándar para probar nuevos algoritmos de extracción de información .

Referencias

Enlaces externos