stringtranslate.com

PlWordNet

plWordNet es una base de datos léxico-semántica del idioma polaco . Incluye conjuntos de unidades léxicas sinónimas ( synsets ) seguidas de definiciones breves. plWordNet funciona como un diccionario de sinónimos donde los conceptos (synsets) y los significados de palabras individuales ( unidades léxicas ) se definen por su ubicación en la red de relaciones mutuas, reflejando el sistema léxico-semántico del idioma polaco. [1] plWordNet también se utiliza como uno de los recursos básicos para la construcción de herramientas de procesamiento del lenguaje natural para el polaco. [1]

Historia

plWordNet se está desarrollando en la Universidad Tecnológica de Breslavia como parte de CLARIN . Los trabajos han sido realizados por el Grupo de Tecnología del Lenguaje G4.19 de la Universidad desde 2005, [2] financiado por el Ministerio de Ciencia y Educación Superior y por la UE. El tesauro ha sido construido desde cero por lexicógrafos e ingenieros del lenguaje natural. [3] La primera versión de plWordNet se publicó en 2009: contenía 20.223 lemas, 26.990 unidades léxicas y 17.695 synsets. [4] La versión 4.0 se lanzó en 2018. La versión más reciente es plWordNet 4.2.

Contenido

Datos recuperados el 30/05/2014

Actualmente, plWordNet contiene 195k lemas , 295k unidades léxicas y 228k synsets. [5] Ya ha superado a Princeton WordNet con respecto al número de unidades léxicas. plWordNet consta de sustantivos (135k), verbos (21k), adjetivos (29k) y adverbios (8k). [5] Cada significado de una palabra dada es una unidad léxica separada. Las unidades que representan el mismo concepto y no difieren significativamente en el registro estilístico se han combinado en synsets: conjuntos de sinónimos. Cada unidad léxica se asigna a uno de los dominios (categorías semánticas), lo que indica su significado general. Los dominios de plWordNet corresponden a los archivos de lexicógrafos de Princeton WordNet .

Categorías semánticas en plWordNet

Descripción de la unidad léxica

Se proporcionan algunas unidades léxicas con información sobre el registro estilístico, una definición breve, ejemplos de uso y un enlace al artículo de Wikipedia correspondiente.

El elemento más importante que define el significado de las palabras son las relaciones léxico-semánticas y derivacionales, que se dan entre los synsets y entre las unidades léxicas. Un synset agrupa dichas unidades léxicas, que comparten el mismo conjunto de relaciones. [9] Con base en las relaciones asignadas a los synsets y las unidades, las herramientas para el procesamiento del lenguaje natural pueden concluir acerca del significado del lema, lo cual es importante, por ejemplo, en la desambiguación del sentido de las palabras .

Relaciones de sustantivos seleccionados[9]

Los synsets polacos están conectados a los synsets de Princeton WordNet correspondientes con un conjunto de relaciones léxico-semánticas interlingüísticas (como por ejemplo sinonimia, sinonimia parcial, hiponimia ). Hasta ahora se han mapeado 91 578 synsets (lo que equivale a aproximadamente 2/3 de los synsets de plWordNet, entre los que se encuentran principalmente sustantivos). [10] El mapeo permite la aplicación de plWordNet en la traducción automática , por ejemplo en el servicio en línea ofrecido por Google Translate . El mapeo puede ser fundamental para aprovechar las herramientas de análisis textual del inglés al polaco. [11]

Aplicaciones

plWordNet está disponible con licencia de acceso abierto , lo que permite su libre navegación. Se ha puesto a disposición de los usuarios en forma de diccionario en línea, aplicación móvil y servicios web. Algunas aplicaciones de plWordNet:

Referencias

  1. ^ desde "Słowosieć".
  2. ^ Maziarz M., Piasecki M., Szpakowicz S., Acercándose a plWordNet 2.0, http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
  3. ^ "PlWordNet 3.1".
  4. ^ Piasecki M., Szpakowicz S., Broda B., Un Wordnet desde cero, Wrocław 2009, s. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf
  5. ^ Se pueden encontrar estadísticas comparativas detalladas de plWN y PWN en la página web de plWN: http://plwordnet.pwr.wroc.pl/wordnet/stats [acceso: 30.06.2014]
  6. ^ Rabiega-Wiśniewska J., Maziarz M., Piasecki M., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Rzeczownik, s. 4.
  7. ^ Hojka B., Maziarz M., Piasecki M., Rabiega-Wiśniewska J., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Czasownik, s. 15-16.
  8. ^ Maziarz M., Szpakowicz S., Piasecki M., Relaciones semánticas entre adjetivos en polaco WordNet 2.0: un nuevo conjunto de relaciones, discusión y evaluación, Cognitive Studies / Études Cognitives, t. 12, s. 149–179, 2012.
  9. ^ ab Maziarz M., Piasecki M., Szpakowicz S., Rabiega-Wiśniewska J., Relaciones semánticas entre sustantivos en Wordnet polaco basadas en la tradición lexicográfica y semántica, Cognitive Studies/Études Cognitives, t, 11, s. 161-181, 2011.
  10. ^ http://plwordnet.pwr.wroc.pl/wordnet/stats [acceso: 30.05.2014]
  11. ^ Klimczak, Karol M. (2020). "Análisis de texto en finanzas: los desafíos para una aplicación eficiente". Innovación en servicios financieros: equilibrio entre intereses públicos y privados. Routledge. pág. 199-216. doi :10.4324/9781003051664-15. ISBN 9781003051664.