Extracción automática de contenido

La extracción automática de contenido ( ACE ) es un programa de investigación para el desarrollo de tecnologías avanzadas de extracción de información convocado por el NIST entre 1999 y 2008, sucediendo a MUC y la Conferencia de Análisis de Texto que lo precedió.

Metas y esfuerzos

En términos generales, el programa ACE está motivado por y aborda los mismos problemas que el programa MUC que lo precedió. Sin embargo, el programa ACE define los objetivos de la investigación en términos de los objetos objetivo (es decir, las entidades, las relaciones y los eventos) en lugar de en términos de las palabras del texto. Por ejemplo, la llamada tarea de "entidad nombrada", tal como se define en MUC, consiste en identificar aquellas palabras (en la página) que son nombres de entidades. En ACE, por otro lado, la tarea correspondiente es identificar la entidad nombrada de esa manera. Esta es una tarea diferente, más abstracta y que implica una inferencia más explícita para producir una respuesta. En un sentido real, la tarea consiste en detectar cosas que "no están ahí".

Si bien el programa ACE está orientado a la extracción de información de fuentes de audio e imágenes además de texto puro, el esfuerzo de investigación se limita a la extracción de información del texto. La transducción real de datos de audio e imágenes a texto no forma parte del esfuerzo de investigación de ACE, aunque sí lo es el procesamiento de la salida de ASR y OCR de dichos transductores.

El esfuerzo implica:

definir en detalle las tareas de investigación,
recopilar y anotar los datos necesarios para la capacitación, el desarrollo y la evaluación,
Apoyando la investigación con herramientas de evaluación y talleres de investigación.

Temas y ejercicios

Dado un texto en lenguaje natural , el desafío de ACE es detectar:

entidades mencionadas en el texto, tales como: personas, organizaciones, lugares, instalaciones, armas, vehículos y entidades geopolíticas.
relaciones entre entidades, tales como: la persona A es el gerente de la empresa B. Los tipos de relación incluyen: rol, parte, ubicado, cercano y social.
eventos mencionados en el texto, tales como: interacción, movimiento, transferencia, creación y destrucción.

El programa se relaciona con textos en inglés , árabe y chino .

El corpus ACE es uno de los puntos de referencia estándar para probar nuevos algoritmos de extracción de información .

Referencias

George Doddington@NIS T, Alexis Mitchell@LD C, Mark Przybocki@NIS T, Lance Ramshaw@BB N, Stephanie Strassel@LD C, Ralph Weischedel@BB N. El programa de extracción automática de contenido (ACE): tareas, datos y evaluación. 2004

Enlaces externos

MUC - El predecesor de ACE.
ACE Archivado el 25 de septiembre de 2013 en Wayback Machine. (LDC)
ACE (NIST)