Extracción de la información

Estos textos pueden estar en forma semiestructurada o desestructurada.

Estos documentos pueden ser muy variopintos desde artículos de prensa hasta informes científicos que en general están escritos en un lenguaje humano.

Esta tarea es muy compleja ya que estos programas suelen operar con unos dominios muy restringidos.

Lo que dificulta extraer la información de textos con un lenguaje poco formal o imágenes.

Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años: