Sketch Engine es un software de análisis de texto y de gestión de corpus desarrollado por Lexical Computing desde 2003. Su finalidad es permitir a las personas que estudian el comportamiento lingüístico ( lexicógrafos , investigadores en lingüística de corpus , traductores o estudiantes de idiomas ) realizar búsquedas en grandes colecciones de textos de acuerdo con consultas complejas y motivadas lingüísticamente. Sketch Engine obtuvo su nombre a raíz de una de sus características clave, los bosquejos de palabras : resúmenes automáticos de una página, derivados del corpus, del comportamiento gramatical y colocacional de una palabra. [2] Actualmente, admite y proporciona corpus en más de 90 idiomas. [3]
Sketch Engine es un producto de Lexical Computing, una empresa fundada en 2003 por el lexicógrafo e investigador científico Adam Kilgarriff . [4] Comenzó una colaboración con Pavel Rychlý, un científico informático que trabaja en el Centro de Procesamiento del Lenguaje Natural de la Universidad de Masaryk , [5] y el desarrollador de Manatee y Bonito (dos partes principales de la suite de software). Kilgarriff también introdujo el concepto de bocetos de palabras .
Desde entonces, Sketch Engine ha sido un software comercial, sin embargo, todas las características principales de Manatee y Bonito que se desarrollaron en 2003 (y se ampliaron desde entonces) están disponibles gratuitamente bajo la licencia GPL dentro de la suite NoSketch Engine. [6]
Una lista de herramientas disponibles en Sketch Engine:
Sketch Engine puede realizar una extracción automática de términos mediante la identificación de palabras típicas de un corpus, documento o texto en particular. Se pueden extraer palabras individuales y unidades de varias palabras de textos monolingües o bilingües. La función de extracción de terminología proporciona una lista de términos relevantes basada en la comparación con un gran corpus de lenguaje general. Esta funcionalidad también está disponible como un servicio independiente llamado OneClick Terms con una interfaz dedicada. [8]
SKELL (anteriormente SkELL ) es un servicio web gratuito basado en Sketch Engine y dirigido a estudiantes y profesores de idiomas . Aprovecha la función de puntuación GDEX (Good Dictionary Examples) propia de Sketch Engine para proporcionar oraciones de ejemplo auténticas para palabras objetivo específicas. Los resultados se extraen de un corpus especial de textos de alta calidad que abarcan el lenguaje cotidiano, estándar, formal y profesional y se muestran como una concordancia . SKELL también incluye versiones simplificadas de las funciones de tesauro y bosquejo de palabras de Sketch Engine . [9]
Se ha sugerido que SKELL puede usarse, por ejemplo, para ayudar a los estudiantes a comprender el significado y/o el uso de una palabra o frase; para ayudar a los profesores que quieran usar oraciones de ejemplo en una clase; para descubrir y explorar colocaciones ; para crear ejercicios de completar espacios ; para enseñar varios tipos de homónimos y palabras polisémicas . [10] [11] SKELL se presentó por primera vez en 2014, cuando solo se admitía inglés . [9] Más tarde, se agregó soporte para ruso , [12] checo , [13] alemán , [14] italiano , [15] y estonio . [16]
Sketch Engine proporciona acceso a más de 700 corpus de texto. Hay corpus monolingües y multilingües de diferentes tamaños (desde miles de palabras hasta 60 mil millones de palabras) y de diversas fuentes (por ejemplo, web, libros, subtítulos, documentos legales). La lista de corpus incluye British National Corpus , Brown Corpus , Cambridge Academic English Corpus y Cambridge Learner Corpus, corpus CHILDES de lenguaje infantil, OpenSubtitles (un conjunto de 60 corpus paralelos), 24 corpus multilingües de documentos EUR-Lex , la familia TenTen Corpus (corpus web de miles de millones) y corpus Trends (corpus de monitorización con actualizaciones diarias).
Sketch Engine consta de tres componentes principales: un sistema de gestión de base de datos subyacente llamado Manatee, una interfaz web de búsqueda llamada Bonito y una interfaz web para la creación y gestión de corpus llamada Corpus Architect. [17]
Manatee es un sistema de gestión de bases de datos diseñado específicamente para la indexación eficaz de grandes corpus de texto. Se basa en la idea de la indexación invertida (mantener un índice de todas las posiciones de una palabra dada en el texto). Se ha utilizado para indexar corpus de texto que comprenden decenas de miles de millones de palabras. [18]
La búsqueda de corpus indexados por Manatee se realiza mediante la formulación de consultas en el lenguaje de consulta de corpus (CQL). [19]
Manatee está escrito en C++ y ofrece una API para varios otros lenguajes de programación, incluidos Python , Java , Perl y Ruby . Recientemente, se reescribió en Go para un procesamiento más rápido de las consultas de corpus. [20]
Bonito es una interfaz web para Manatee que brinda acceso a la búsqueda de corpus. En el modelo cliente-servidor , Manatee es el servidor y Bonito desempeña el papel de cliente. Está escrito en Python . [17]
Corpus Architect es una interfaz web que ofrece funciones de creación y gestión de corpus. También está escrita en Python .
Sketch Engine ha sido utilizado por importantes editoriales británicas y de otros países para producir diccionarios como Macmillan English Dictionary , Dictionnaires Le Robert , Oxford University Press o Shogakukan . Cuatro de las cinco editoriales de diccionarios más importantes del Reino Unido utilizan Sketch Engine. [21]