stringtranslate.com

Motor de bocetos

Sketch Engine es un software de análisis de texto y de gestión de corpus desarrollado por Lexical Computing desde 2003. Su finalidad es permitir a las personas que estudian el comportamiento lingüístico ( lexicógrafos , investigadores en lingüística de corpus , traductores o estudiantes de idiomas ) realizar búsquedas en grandes colecciones de textos de acuerdo con consultas complejas y motivadas lingüísticamente. Sketch Engine obtuvo su nombre a raíz de una de sus características clave, los bosquejos de palabras : resúmenes automáticos de una página, derivados del corpus, del comportamiento gramatical y colocacional de una palabra. [2] Actualmente, admite y proporciona corpus en más de 90 idiomas. [3]

Historia del desarrollo

Sketch Engine es un producto de Lexical Computing, una empresa fundada en 2003 por el lexicógrafo e investigador científico Adam Kilgarriff . [4] Comenzó una colaboración con Pavel Rychlý, un científico informático que trabaja en el Centro de Procesamiento del Lenguaje Natural de la Universidad de Masaryk , [5] y el desarrollador de Manatee y Bonito (dos partes principales de la suite de software). Kilgarriff también introdujo el concepto de bocetos de palabras .

Desde entonces, Sketch Engine ha sido un software comercial, sin embargo, todas las características principales de Manatee y Bonito que se desarrollaron en 2003 (y se ampliaron desde entonces) están disponibles gratuitamente bajo la licencia GPL dentro de la suite NoSketch Engine. [6]

Características

Una lista de herramientas disponibles en Sketch Engine:

Extracción de palabras clave y terminología

Sketch Engine puede realizar una extracción automática de términos mediante la identificación de palabras típicas de un corpus, documento o texto en particular. Se pueden extraer palabras individuales y unidades de varias palabras de textos monolingües o bilingües. La función de extracción de terminología proporciona una lista de términos relevantes basada en la comparación con un gran corpus de lenguaje general. Esta funcionalidad también está disponible como un servicio independiente llamado OneClick Terms con una interfaz dedicada. [8]

CALLEJÓN

SKELL (anteriormente SkELL ) es un servicio web gratuito basado en Sketch Engine y dirigido a estudiantes y profesores de idiomas . Aprovecha la función de puntuación GDEX (Good Dictionary Examples) propia de Sketch Engine para proporcionar oraciones de ejemplo auténticas para palabras objetivo específicas. Los resultados se extraen de un corpus especial de textos de alta calidad que abarcan el lenguaje cotidiano, estándar, formal y profesional y se muestran como una concordancia . SKELL también incluye versiones simplificadas de las funciones de tesauro y bosquejo de palabras de Sketch Engine . [9]

Se ha sugerido que SKELL puede usarse, por ejemplo, para ayudar a los estudiantes a comprender el significado y/o el uso de una palabra o frase; para ayudar a los profesores que quieran usar oraciones de ejemplo en una clase; para descubrir y explorar colocaciones ; para crear ejercicios de completar espacios ; para enseñar varios tipos de homónimos y palabras polisémicas . [10] [11] SKELL se presentó por primera vez en 2014, cuando solo se admitía inglés . [9] Más tarde, se agregó soporte para ruso , [12] checo , [13] alemán , [14] italiano , [15] y estonio . [16]

Lista de corpus de textos

Sketch Engine proporciona acceso a más de 700 corpus de texto. Hay corpus monolingües y multilingües de diferentes tamaños (desde miles de palabras hasta 60 mil millones de palabras) y de diversas fuentes (por ejemplo, web, libros, subtítulos, documentos legales). La lista de corpus incluye British National Corpus , Brown Corpus , Cambridge Academic English Corpus y Cambridge Learner Corpus, corpus CHILDES de lenguaje infantil, OpenSubtitles (un conjunto de 60 corpus paralelos), 24 corpus multilingües de documentos EUR-Lex , la familia TenTen Corpus (corpus web de miles de millones) y corpus Trends (corpus de monitorización con actualizaciones diarias).

Arquitectura

Página de sinónimos de Sketch Engine
Nube de sinónimos del trabajo de lemas en Sketch Engine

Sketch Engine consta de tres componentes principales: un sistema de gestión de base de datos subyacente llamado Manatee, una interfaz web de búsqueda llamada Bonito y una interfaz web para la creación y gestión de corpus llamada Corpus Architect. [17]

Manatí

Manatee es un sistema de gestión de bases de datos diseñado específicamente para la indexación eficaz de grandes corpus de texto. Se basa en la idea de la indexación invertida (mantener un índice de todas las posiciones de una palabra dada en el texto). Se ha utilizado para indexar corpus de texto que comprenden decenas de miles de millones de palabras. [18]

La búsqueda de corpus indexados por Manatee se realiza mediante la formulación de consultas en el lenguaje de consulta de corpus (CQL). ​​[19]

Manatee está escrito en C++ y ofrece una API para varios otros lenguajes de programación, incluidos Python , Java , Perl y Ruby . Recientemente, se reescribió en Go para un procesamiento más rápido de las consultas de corpus. [20]

Bonito

Bonito es una interfaz web para Manatee que brinda acceso a la búsqueda de corpus. En el modelo cliente-servidor , Manatee es el servidor y Bonito desempeña el papel de cliente. Está escrito en Python . [17]

Arquitecto del corpus

Corpus Architect es una interfaz web que ofrece funciones de creación y gestión de corpus. También está escrita en Python .

Aplicaciones

Sketch Engine ha sido utilizado por importantes editoriales británicas y de otros países para producir diccionarios como Macmillan English Dictionary , Dictionnaires Le Robert , Oxford University Press o Shogakukan . Cuatro de las cinco editoriales de diccionarios más importantes del Reino Unido utilizan Sketch Engine. [21]

Referencias

  1. ^ Companies House Buscado en el registro de empresas del Reino Unido (Nombre de la empresa: LEXICAL COMPUTING LIMITED o Número de empresa: 04841901)
  2. ^ Kilgarriff, Adán; Baisa, Vít; Busta, enero; Jakubíček, Miloš; Kovář, Vojtěch; Michelfeit, enero; Rychlý, Pavel; Suchomel, Vít (10 de julio de 2014). "The Sketch Engine: diez años después". Lexicografía . 1 (1): 7–36. doi : 10.1007/s40607-014-0009-9 . ISSN  2197-4292.
  3. ^ "Lenguajes en Sketch Engine". Sketch Engine . Lexical Computing CZ sro 7 de junio de 2016 . Consultado el 22 de enero de 2018 .
  4. ^ Página de inicio de Adam Kilgarriff
  5. ^ Centro de procesamiento del lenguaje natural, Universidad Masaryk
  6. ^ Motor NoSketch
  7. ^ Kilgarriff, Adán; Herman, Ondřej; Busta, enero; Rychlý, Pavel; Jakubíček, Miloš (2015). "DIACRAN: un marco para el análisis diacrónico" (PDF) . Lingüística de corpus 2015 : 65–70.
  8. ^ Baisa, Vít (2017). "Simplificando la extracción de terminología: Términos OneClick" (PDF) . Actas de la 9.ª Conferencia Internacional de Lingüística de Corpus .
  9. ^ ab Baisa, Vít; Suchomel, Vít (2014). "SkELL: Interfaz web para el aprendizaje del idioma inglés" (PDF) . Octavo taller sobre avances recientes en el procesamiento del lenguaje natural eslavo . NLP Consulting: 63–70.
  10. ^ Brown, Michael H. (7 de abril de 2016). «SkELL: fácil de usar para profesores y estudiantes». Lingüística de corpus 4 EFL . Consultado el 3 de diciembre de 2018 .
  11. ^ Brown, Michael H. (19 de abril de 2016). "SkELL: Homonimia y polisemia". Corpus Linguistics 4 EFL . Consultado el 3 de diciembre de 2018 .
  12. ^ Valentina, A., Vitalevna, BO, Малолетняя, А. П., Olga, K., y Vit, B. (2016). RuSkELL: herramienta de aprendizaje de idiomas en línea para el idioma ruso. En Actas del XVII Congreso Internacional EURALEX. Lexicografía y diversidad lingüística (6-10 de septiembre de 2016) (pp. 292-300). Universidad Estatal Ivane Javakhishvili de Tbilisi.
  13. ^ Cukr, Michal (2017). Český korpus příkladových vět (corpus checo de oraciones de ejemplo) (tesis de maestría) (en checo). Brno: Universidad Masaryk , Facultad de Artes . Consultado el 22 de junio de 2017 .
  14. ^ "deSkELL – Corpus alemán para SkELL | Sketch Engine". www.sketchengine.eu . Consultado el 3 de diciembre de 2018 .
  15. ^ "itSkELL – Corpus italiano para SkELL | Sketch Engine". www.sketchengine.eu . Consultado el 3 de diciembre de 2018 .
  16. ^ "etSkELL – Corpus estonio para SkELL | Sketch Engine". www.sketchengine.eu . Consultado el 3 de diciembre de 2018 .
  17. ^ ab Rychlý, Pavel (2007). "Manatee/bonito–un gestor de corpus modular" (PDF) . 1er Taller sobre Avances Recientes en el Procesamiento del Lenguaje Natural Eslavo : 65–70.
  18. ^ Pomikálek, enero; Jakubíček, Miloš; Rychlý, Pavel (2012). "Construcción de un corpus de 70 mil millones de palabras en inglés a partir de ClueWeb" (PDF) . Actas de la Octava Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC'12) .
  19. ^ "CQL – Lenguaje de consulta de corpus". Sketch Engine . Lexical Computing CZ sro 15 de mayo de 2015 . Consultado el 22 de enero de 2018 .
  20. ^ Rychlý, Pavel; Rábara, Radoslav (2015). "Procesamiento concurrente de consultas de corpus de texto" (PDF) . Taller sobre avances recientes en el procesamiento del lenguaje natural eslavo : 49–58.
  21. ^ "Uso de lexicografía computacional para la producción de diccionarios con Sketch Engine". Estudios de caso de impacto de REF . Universidad de Brighton . Consultado el 18 de abril de 2015 .

Lectura adicional

Enlaces externos