stringtranslate.com

Arquitectura General para Ingeniería de Textos

Arquitectura General para Ingeniería de Texto o GATE es un conjunto de herramientas Java desarrollado originalmente en la Universidad de Sheffield a partir de 1995 y ahora utilizado en todo el mundo por una amplia comunidad de científicos, empresas, profesores y estudiantes para muchas tareas de procesamiento del lenguaje natural , incluida la extracción de información en muchos lenguajes. [1]

Al 28 de mayo de 2011, 881 personas están en la lista de correo de usuarios de Gate en SourceForge.net, y se han registrado 111.932 descargas de SourceForge desde que el proyecto se trasladó a SourceForge en 2005. [2] El documento "GATE: A framework and graphical entorno de desarrollo para herramientas y aplicaciones robustas de PNL" [3] ha recibido más de 2000 citas desde su publicación (según Google Scholar). Los libros que cubren el uso de GATE, además de la Guía del usuario de GATE, [4] incluyen "Creación de aplicaciones de búsqueda: Lucene, LingPipe y Gate", de Manu Konchady, [5] e "Introducción a la anotación lingüística y el análisis de texto", por Graham Wilcock. [6]

La comunidad y la investigación de GATE han participado en varios proyectos de investigación europeos, entre ellos: Transitioning Applications to Ontologies, SEKT, NeOn, Media-Campaign, Musing, Service-Finder, LIRICS y KnowledgeWeb .

Características

GATE incluye un sistema de extracción de información llamado ANNIE ( Un sistema de extracción de información casi nuevo ), que es un conjunto de módulos que comprende un tokenizador , un nomenclátor , un divisor de oraciones , un etiquetador de partes del discurso , un transductor de entidades nombradas y un etiquetador de correferencia . ANNIE se puede utilizar tal cual para proporcionar una funcionalidad básica de extracción de información o proporcionar un punto de partida para tareas más específicas.

Los idiomas que actualmente se manejan en GATE incluyen inglés , chino , árabe , búlgaro , francés , alemán , hindi , italiano , cebuano , rumano , ruso y danés .

Se incluyen complementos para el aprendizaje automático con Weka , RASP, MAXENT, SVM Light, así como una integración LIBSVM y una implementación interna de perceptrones , para gestionar ontologías como WordNet , para consultar motores de búsqueda como Google o Yahoo , para etiquetado de parte del habla. con Brill o TreeTagger, y muchos más. También están disponibles muchos complementos externos, para gestionar, por ejemplo, tweets . [7]

GATE acepta entradas en varios formatos, como TXT , HTML , XML , Doc , documentos PDF y bases de datos Java Serial , PostgreSQL , Lucene y Oracle con ayuda de almacenamiento RDBMS sobre JDBC .

Los transductores JAPE se utilizan dentro de GATE para manipular anotaciones en el texto. La documentación se proporciona en la Guía del usuario de GATE. [8] Press Association Images también ha escrito un tutorial. [9]

Desarrollador de puerta

Ventana principal de la PUERTA 5.

La captura de pantalla muestra el visor de documentos utilizado para mostrar un documento y sus anotaciones. En rosa están <a>las anotaciones de hipervínculos de un archivo HTML . La lista de la derecha es la lista de conjuntos de anotaciones y la tabla inferior es la lista de anotaciones. En el centro está la ventana del editor de anotaciones.

PUERTA Mimir

GATE genera grandes cantidades de información que incluye; texto en lenguaje natural, anotaciones semánticas e información ontológica. A veces, los datos en sí son el producto final de una aplicación, pero a menudo la información sería más útil si se pudiera buscar de manera eficiente. GATE Mimir proporciona soporte para indexar y buscar información lingüística y semántica generada por dichas aplicaciones y permite consultar la información utilizando combinaciones arbitrarias de texto, información estructural y SPARQL .

Ver también

Referencias

  1. ^ Los idiomas mencionados en https://gate.ac.uk/gate/plugins/ incluyen árabe, búlgaro, cebuano, chino, francés, alemán, hindi, italiano, rumano y ruso.
  2. ^ "PUERTA" . Consultado el 17 de diciembre de 2016 .
  3. ^ "GATE: un marco y un entorno de desarrollo gráfico para herramientas y aplicaciones robustas de PNL", por Cunningham H., Maynard D. , Bontcheva K. y Tablan V. (en proceso de la reunión del 40 aniversario de la Asociación de Lingüística Computacional, 2002)
  4. ^ "GATE.ac.uk - venta/tao/split.html" . Consultado el 17 de diciembre de 2016 .
  5. ^ Konchady, Manu. Creación de aplicaciones de búsqueda: Lucene, LingPipe y Gate. Editorial Mustru. 2008.
  6. ^ Wilcock, Graham (1 de enero de 2009). Introducción a la anotación lingüística y al análisis de texto. Editores Morgan y Claypool. ISBN 9781598297386. Consultado el 17 de diciembre de 2016 a través de Google Books.
  7. ^ "GATE.ac.uk - wiki/twitie.html" . Consultado el 17 de diciembre de 2016 .
  8. ^ "GATE.ac.uk - venta/tao/splitch8.html" . Consultado el 17 de diciembre de 2016 .
  9. ^ Thakker, Dhavalkumar (17 de julio de 2009). "Realización de la Web Semántica: tutorial de gramática JAPE" . Consultado el 17 de diciembre de 2016 .

enlaces externos