Arquitectura General para Ingeniería de Texto o GATE es un conjunto de herramientas Java desarrollado originalmente en la Universidad de Sheffield a partir de 1995 y ahora utilizado en todo el mundo por una amplia comunidad de científicos, empresas, profesores y estudiantes para muchas tareas de procesamiento del lenguaje natural , incluida la extracción de información en muchos lenguajes. [1]
Al 28 de mayo de 2011, 881 personas están en la lista de correo de usuarios de Gate en SourceForge.net, y se han registrado 111.932 descargas de SourceForge desde que el proyecto se trasladó a SourceForge en 2005. [2] El documento "GATE: A framework and graphical entorno de desarrollo para herramientas y aplicaciones robustas de PNL" [3] ha recibido más de 2000 citas desde su publicación (según Google Scholar). Los libros que cubren el uso de GATE, además de la Guía del usuario de GATE, [4] incluyen "Creación de aplicaciones de búsqueda: Lucene, LingPipe y Gate", de Manu Konchady, [5] e "Introducción a la anotación lingüística y el análisis de texto", por Graham Wilcock. [6]
La comunidad y la investigación de GATE han participado en varios proyectos de investigación europeos, entre ellos: Transitioning Applications to Ontologies, SEKT, NeOn, Media-Campaign, Musing, Service-Finder, LIRICS y KnowledgeWeb .
GATE incluye un sistema de extracción de información llamado ANNIE ( Un sistema de extracción de información casi nuevo ), que es un conjunto de módulos que comprende un tokenizador , un nomenclátor , un divisor de oraciones , un etiquetador de partes del discurso , un transductor de entidades nombradas y un etiquetador de correferencia . ANNIE se puede utilizar tal cual para proporcionar una funcionalidad básica de extracción de información o proporcionar un punto de partida para tareas más específicas.
Los idiomas que actualmente se manejan en GATE incluyen inglés , chino , árabe , búlgaro , francés , alemán , hindi , italiano , cebuano , rumano , ruso y danés .
Se incluyen complementos para el aprendizaje automático con Weka , RASP, MAXENT, SVM Light, así como una integración LIBSVM y una implementación interna de perceptrones , para gestionar ontologías como WordNet , para consultar motores de búsqueda como Google o Yahoo , para etiquetado de parte del habla. con Brill o TreeTagger, y muchos más. También están disponibles muchos complementos externos, para gestionar, por ejemplo, tweets . [7]
GATE acepta entradas en varios formatos, como TXT , HTML , XML , Doc , documentos PDF y bases de datos Java Serial , PostgreSQL , Lucene y Oracle con ayuda de almacenamiento RDBMS sobre JDBC .
Los transductores JAPE se utilizan dentro de GATE para manipular anotaciones en el texto. La documentación se proporciona en la Guía del usuario de GATE. [8] Press Association Images también ha escrito un tutorial. [9]
La captura de pantalla muestra el visor de documentos utilizado para mostrar un documento y sus anotaciones. En rosa están <a>
las anotaciones de hipervínculos de un archivo HTML . La lista de la derecha es la lista de conjuntos de anotaciones y la tabla inferior es la lista de anotaciones. En el centro está la ventana del editor de anotaciones.
GATE genera grandes cantidades de información que incluye; texto en lenguaje natural, anotaciones semánticas e información ontológica. A veces, los datos en sí son el producto final de una aplicación, pero a menudo la información sería más útil si se pudiera buscar de manera eficiente. GATE Mimir proporciona soporte para indexar y buscar información lingüística y semántica generada por dichas aplicaciones y permite consultar la información utilizando combinaciones arbitrarias de texto, información estructural y SPARQL .