plWordNet es una base de datos léxico-semántica del idioma polaco . Incluye conjuntos de unidades léxicas sinónimas ( synsets ) seguidas de definiciones breves. plWordNet funciona como un diccionario de sinónimos donde los conceptos (synsets) y los significados de palabras individuales ( unidades léxicas ) se definen por su ubicación en la red de relaciones mutuas, reflejando el sistema léxico-semántico del idioma polaco. [1] plWordNet también se utiliza como uno de los recursos básicos para la construcción de herramientas de procesamiento del lenguaje natural para el polaco. [1]
plWordNet se está desarrollando en la Universidad Tecnológica de Breslavia como parte de CLARIN . Los trabajos han sido realizados por el Grupo de Tecnología del Lenguaje G4.19 de la Universidad desde 2005, [2] financiado por el Ministerio de Ciencia y Educación Superior y por la UE. El tesauro ha sido construido desde cero por lexicógrafos e ingenieros del lenguaje natural. [3] La primera versión de plWordNet se publicó en 2009: contenía 20.223 lemas, 26.990 unidades léxicas y 17.695 synsets. [4] La versión 4.0 se lanzó en 2018. La versión más reciente es plWordNet 4.2.
Actualmente, plWordNet contiene 195k lemas , 295k unidades léxicas y 228k synsets. [5] Ya ha superado a Princeton WordNet con respecto al número de unidades léxicas. plWordNet consta de sustantivos (135k), verbos (21k), adjetivos (29k) y adverbios (8k). [5] Cada significado de una palabra dada es una unidad léxica separada. Las unidades que representan el mismo concepto y no difieren significativamente en el registro estilístico se han combinado en synsets: conjuntos de sinónimos. Cada unidad léxica se asigna a uno de los dominios (categorías semánticas), lo que indica su significado general. Los dominios de plWordNet corresponden a los archivos de lexicógrafos de Princeton WordNet .
Se proporcionan algunas unidades léxicas con información sobre el registro estilístico, una definición breve, ejemplos de uso y un enlace al artículo de Wikipedia correspondiente.
El elemento más importante que define el significado de las palabras son las relaciones léxico-semánticas y derivacionales, que se dan entre los synsets y entre las unidades léxicas. Un synset agrupa dichas unidades léxicas, que comparten el mismo conjunto de relaciones. [9] Con base en las relaciones asignadas a los synsets y las unidades, las herramientas para el procesamiento del lenguaje natural pueden concluir acerca del significado del lema, lo cual es importante, por ejemplo, en la desambiguación del sentido de las palabras .
Los synsets polacos están conectados a los synsets de Princeton WordNet correspondientes con un conjunto de relaciones léxico-semánticas interlingüísticas (como por ejemplo sinonimia, sinonimia parcial, hiponimia ). Hasta ahora se han mapeado 91 578 synsets (lo que equivale a aproximadamente 2/3 de los synsets de plWordNet, entre los que se encuentran principalmente sustantivos). [10] El mapeo permite la aplicación de plWordNet en la traducción automática , por ejemplo en el servicio en línea ofrecido por Google Translate . El mapeo puede ser fundamental para aprovechar las herramientas de análisis textual del inglés al polaco. [11]
plWordNet está disponible con licencia de acceso abierto , lo que permite su libre navegación. Se ha puesto a disposición de los usuarios en forma de diccionario en línea, aplicación móvil y servicios web. Algunas aplicaciones de plWordNet: