El Corpus Nacional del Polaco (en polaco: Narodowy Korpus Języka Polskiego NKJP) es el corpus más grande e importante de la lengua polaca . Un corpus lingüístico es una colección de textos en los que se puede encontrar el uso típico de una sola palabra o frase, así como su significado y función gramatical.
El Corpus Nacional del Polaco es una iniciativa conjunta de cuatro instituciones: el Instituto de Informática y el Instituto de Lengua Polaca de la Academia Polaca de Ciencias , la Editorial Científica Polaca PWN y el Departamento de Lingüística Computacional y de Corpus de la Universidad de Łódź . Está registrado como proyecto de investigación y desarrollo del Ministerio de Ciencia y Educación Superior .
El tamaño previsto del Corpus Nacional del Polaco es de más de mil millones de palabras, de las cuales se ha equilibrado cuidadosamente un subcorpus de 300 millones de palabras y se ha publicado un corpus de un millón de palabras anotado manualmente bajo una licencia abierta. El corpus está disponible en línea en http://nkjp.pl/poliqarp/
El corpus contiene literatura clásica, periódicos diarios, publicaciones periódicas y revistas especializadas, transcripciones de conversaciones y una variedad de textos breves y de Internet. [1]
El primer corpus que surgió fue desarrollado por el Instituto de Lengua Polaca de la Academia Polaca de Ciencias (no está disponible al público), seguido por el corpus de los editores de PWN, luego el corpus del grupo PELCRA de la Universidad de Łódź y, finalmente, el corpus del Instituto de Ciencias Informáticas de la Academia Polaca de Ciencias. Los cuatro equipos decidieron unir fuerzas en 2006 y formaron el Consorcio para el Corpus Nacional de Polaco. [2]