El British National Corpus ( BNC ) es un corpus de texto de 100 millones de palabras de muestras de inglés escrito y hablado de una amplia gama de fuentes. [1] El corpus cubre el inglés británico de finales del siglo XX de una amplia variedad de géneros , con la intención de que sea una muestra representativa del inglés británico hablado y escrito de esa época. Se utiliza en lingüística de corpus para el análisis de corpus.
El proyecto de creación de la BNC implicó la colaboración de tres editoriales (con Oxford University Press como colaborador principal, Longman y W. & R. Chambers ), dos universidades (la Universidad de Oxford y la Universidad de Lancaster ) y la Biblioteca Británica . [2] La creación de la BNC comenzó en 1991 bajo la gestión del consorcio BNC, y el proyecto finalizó en 1994. No se han añadido nuevas muestras después de 1994, pero la BNC sufrió ligeras revisiones antes del lanzamiento de la segunda edición BNC World (2001) y la tercera edición BNC XML Edition (2007). [3]
La BNC fue la visión de los lingüistas computacionales cuyo objetivo era un corpus de lenguaje moderno (en el momento de construir el corpus), que se produce de forma natural en forma de habla y texto o escritura , que pudiera analizarse mediante una computadora. Por lo tanto, se compiló como un corpus general para allanar el camino para la búsqueda y el procesamiento automáticos en el campo de la lingüística de corpus . Una de las formas en que la BNC se diferenciaría de los corpus existentes en ese momento era abrir los datos no solo a la investigación académica, sino también a usos comerciales y educativos. [4]
El corpus se limitó únicamente al inglés británico y no se amplió para cubrir los ingleses del mundo . Esto se debió en parte a que una parte importante del coste del proyecto estaba siendo financiada por el gobierno británico, que lógicamente estaba interesado en respaldar la documentación de su propia variedad lingüística . [4] Debido a su tamaño potencialmente sin precedentes, la BNC también requirió fondos de las instituciones comerciales y académicas. A su vez, los datos de la BNC quedaron disponibles para la investigación comercial y académica. [4]
El BNC es un corpus monolingüe, ya que registra muestras del uso del idioma en inglés británico únicamente, aunque ocasionalmente también pueden estar presentes palabras y frases de otros idiomas. Es un corpus sincrónico , ya que solo se representan los usos del idioma de finales del siglo XX; el BNC no pretende ser un registro histórico del desarrollo del inglés británico a lo largo de los siglos. [3] Desde el principio, quienes participaron en la recopilación de datos escritos buscaron hacer del BNC un corpus equilibrado y, por lo tanto, buscaron datos en varios medios. [4]
El 90% del BNC son muestras de uso de corpus escritos . Estas muestras fueron extraídas de periódicos regionales y nacionales, revistas de investigación publicadas o publicaciones periódicas de diversos campos académicos, libros de ficción y no ficción, otro material publicado y material inédito como folletos, panfletos, cartas, ensayos escritos por estudiantes de diferentes niveles académicos, discursos, guiones y muchos otros tipos de textos. [5]
El 10% restante del BNC son muestras del uso del lenguaje hablado . Estas se presentan y registran en forma de transcripciones ortográficas. El corpus hablado consta de dos partes: una parte es demográfica , que contiene las transcripciones de conversaciones naturales espontáneas producidas por voluntarios de varios grupos de edad, clases sociales y originarios de diferentes regiones. Estas conversaciones se produjeron en diferentes situaciones, desde reuniones formales de negocios o gubernamentales hasta conversaciones en programas de radio y llamadas telefónicas. [5] Estas tenían como objetivo dar cuenta tanto de la distribución demográfica del lenguaje hablado como de las variaciones lingüísticamente significativas debido al contexto. [6]
La otra parte incluye muestras regidas por el contexto, como transcripciones de grabaciones realizadas en tipos específicos de reuniones y eventos. Todas las grabaciones originales transcritas para su inclusión en la BNC se han depositado en el Archivo Sonoro de la Biblioteca Británica . La mayoría de las grabaciones están disponibles de forma gratuita en el Laboratorio de Fonética de la Universidad de Oxford .
Se han publicado dos subcorpus (subconjuntos de los datos de BNC): BNC Baby y BNC Sampler. Ambos subcorpus se pueden solicitar en línea a través de la página web de BNC. [7] BNC Baby es un subcorpus de BNC que consta de cuatro conjuntos de muestras, cada uno de los cuales contiene un millón de palabras etiquetadas tal como están en BNC. Las palabras de cada conjunto de muestras corresponden a una etiqueta de género específica. Un conjunto de muestras contiene conversación hablada y los otros tres conjuntos de muestras contienen texto escrito: escritura académica , ficción y periódicos respectivamente. [8] Se ha publicado la última (tercera) edición y viene en formato XML. [9] BNC Sampler es un subcorpus de dos partes, una parte para datos escritos y otra para datos hablados; cada parte contiene un millón de palabras. BNC Sampler se utilizó originalmente en un proyecto para determinar cómo mejorar el proceso de etiquetado de BNC, lo que finalmente condujo a la edición BNC World. A lo largo del proyecto, BNC Sampler se mejoró con una mayor experiencia y conocimiento para el etiquetado hasta llegar a su forma actual. [10]
El corpus BNC ha sido etiquetado para obtener información gramatical ( parte del discurso ). El sistema de etiquetado, llamado CLAWS, pasó por mejoras para producir el último sistema CLAWS4, que se utiliza para etiquetar el BNC. CLAWS1 se basó en un modelo oculto de Markov y, cuando se empleó en el etiquetado automático, logró etiquetar con éxito entre el 96% y el 97% de cada texto analizado. CLAWS1 se actualizó a CLAWS2 eliminando la necesidad de procesamiento manual para preparar los textos para el etiquetado automático. La última versión, CLAWS4, incluye mejoras como capacidades más potentes de desambiguación del sentido de las palabras (WSD) y la capacidad de lidiar con la variación en la ortografía y el lenguaje de marcado . El trabajo posterior en el sistema de etiquetado buscó aumentar las tasas de éxito en el etiquetado automático y reducir el trabajo necesario para el procesamiento manual, manteniendo al mismo tiempo la efectividad y la eficiencia mediante la introducción de software para reemplazar parte del trabajo manual. [2] [11] Posteriormente, se introdujo un nuevo programa llamado "Template Tagger" para una función correctiva. Posteriormente se añadieron etiquetas que indicaban ambigüedad. El etiquetado manual sigue siendo necesario, ya que CLAWS4 aún no puede manejar palabras extranjeras. [12] [13]
El corpus está marcado siguiendo las recomendaciones de la Text Encoding Initiative (TEI) e incluye anotación lingüística completa e información contextual. [14] La licencia para el etiquetador de categorías gramaticales CLAWS4 se puede comprar para utilizar el etiquetador. [15] Alternativamente, se ofrece un servicio de etiquetado en la Universidad de Lancaster . [16] El propio BNC se puede solicitar con una licencia personal o institucional. La edición disponible es la edición BNC XML y viene con el software de motor de búsqueda Xaira . El pedido se puede realizar a través del sitio web de BNC. [17] Se ha desarrollado un administrador de corpus en línea , BNCweb, para la edición BNC XML. La interfaz está diseñada para ser fácil de usar, y el programa ofrece características de consulta y funciones para el análisis de corpus. Los usuarios pueden recuperar resultados y datos de búsquedas y análisis. [18]
La BNC fue el primer corpus de textos de su tamaño que se puso a disposición de todo el mundo. Esto podría atribuirse a las formas estándar de acuerdo, entre los propietarios de los derechos y el Consorcio por un lado, y entre los usuarios del corpus y el Consorcio por el otro. Se pidió a los propietarios de los derechos de propiedad intelectual que aceptaran la licencia estándar, incluida la disposición a incorporar sus materiales en el corpus sin ningún tipo de pago. Este acuerdo puede haber sido facilitado por la originalidad del concepto y la prominencia asociada con el proyecto. Sin embargo, fue un desafío mantener oculta la identidad de los colaboradores sin desacreditar el valor de su trabajo. Cualquier alusión distintiva a la identidad de los colaboradores fue eliminada en gran medida; se discutió la solución alternativa de sustituir la identidad de un colaborador por un nombre diferente, pero no se consideró viable. [6]
Además, anteriormente se había pedido a los colaboradores que sólo incorporaran versiones transcritas de sus discursos y no el discurso en sí. Si bien se podía pedir permiso a los primeros colaboradores, la falta de éxito en el proceso de anonimización significaba que sería difícil conseguir materiales de los primeros colaboradores. Al mismo tiempo, dos factores agravaron la renuencia de los titulares de derechos a donar sus materiales: se excluirían los textos completos y no había motivación para que difundieran información utilizando el corpus, en particular porque el corpus funciona sobre una base no comercial. [6]
En 2001, la BNC aún no tenía una categorización textual para los textos escritos más allá de la del dominio, y ninguna categorización para los textos hablados excepto por contexto y clases demográficas o socioeconómicas . Por ejemplo, una amplia variedad de textos imaginativos ( novelas , cuentos , poemas y guiones de teatro) estaban incluidos en la BNC, pero tales inclusiones se consideraban inútiles ya que los investigadores no podían recuperar fácilmente los subgéneros en los que querían trabajar (por ejemplo, poesía). Debido a que estos metadatos se omitieron en los encabezados de los archivos y en toda la documentación de la BNC, no había forma de saber si un texto "imaginativo" provenía en realidad de una novela, un cuento, un guión de teatro o una colección de poemas a menos que el título realmente incluyera palabras como "novela" o "poema". [19]
Con la introducción en 2002 de una nueva versión, la BNC World Edition, la BNC intentó abordar este problema. Además del dominio, ahora hay 70 categorías de género para datos tanto hablados como escritos, por lo que los investigadores ahora pueden recuperar textos específicamente por género. Sin embargo, incluso después de estas incorporaciones, la implementación sigue siendo complicada, ya que asignar un género o subgénero a un texto no es sencillo. Las divisiones son menos claras para los datos hablados que para los datos escritos, ya que había más variación en el tema y la ejecución. Además, siempre habrá posibles subconjuntos de géneros de cada subgénero. Hasta qué punto se subdividen los géneros está predeterminado por el bien de un valor predeterminado, pero los investigadores tienen la opción de hacer las divisiones más generales o específicas según sus necesidades. La categorización también es un problema, ya que ciertos textos, aunque se consideran pertenecientes a un género interdisciplinario como la lingüística, incluyen contenido que posteriormente se clasifica en categorías de artes o ciencias debido a la naturaleza de su contenido. [20]
Algunos textos fueron clasificados en la categoría incorrecta, generalmente debido a un título engañoso. Los usuarios no siempre pueden confiar en los títulos de los archivos como indicaciones de su contenido real: por ejemplo, muchos textos que tienen la palabra "conferencia" en su título son en realidad debates en el aula o seminarios tutoriales que involucran a un grupo muy pequeño de personas, o eran conferencias populares (dirigidas a un público general en lugar de a estudiantes de una institución de educación superior). [19] Una razón es que las etiquetas de género y subgénero solo se pueden asignar a la mayoría de los textos en una categoría. Hay subgéneros dentro de los géneros, y para cada texto el contenido puede no ser uniforme en todo momento y puede abarcar múltiples subgéneros. [20] Además, las presiones de producción junto con la información insuficiente llevaron a decisiones apresuradas, lo que resultó en inexactitud e inconsistencia en los registros. [6]
La proporción de material escrito y hablado en el BNC es de 10:1, lo que hace que el material hablado esté subrepresentado. Esto se debe a que el costo de recopilar y transcribir un millón de palabras de habla natural es al menos 10 veces mayor que el costo de agregar otro millón de palabras de texto de periódico. Algunos lingüistas han argumentado que esto representa una deficiencia en el corpus, ya que el habla y la escritura son igualmente importantes en una lengua. [6] El BNC no es ideal para el estudio de muchas características del discurso hablado, ya que la mayoría de sus transcripciones son ortográficas . Las características paralingüísticas solo se indican de manera aproximada. [21]
A pesar de ser una excelente fuente de información léxica , la BNC sólo puede utilizarse realmente para estudiar un conjunto limitado de patrones gramaticales, en particular aquellos que tienen correlatos léxicos distintivos. Si bien es bastante fácil encontrar todas las ocurrencias de "enjoy" y ordenarlas según la categoría gramatical de la palabra siguiente, se requiere trabajo adicional para encontrar todos los casos de verbos seguidos de un gerundio , ya que el índice SARA de la BNC no incluye categorías gramaticalmente correctas como "todos los verbos" o "todas las formas V-ing". [21]
Algunos correlatos léxicos son también demasiado ambiguos para permitir su uso en las consultas: cualquier búsqueda de cláusulas relativas restrictivas proporcionaría al usuario datos irrelevantes, dada la cantidad de otros usos de los pronombres wh y de that en la lengua (por no mencionar la imposibilidad de identificar cláusulas relativas con supresión de pronombres, como en "el hombre que vi"). Categorías semánticas y pragmáticas particulares (duda, conocimiento, desacuerdos, resúmenes, etc.) son difíciles de localizar por la misma razón. Esto significa, por ejemplo, que mientras se puede comparar el habla de los hombres y de las mujeres, no se puede comparar el habla de las mujeres y de los hombres. [21]
La naturaleza de la BNC como un gran corpus mixto la hace inadecuada para el estudio de tipos de textos o géneros muy específicos, ya que es probable que cualquiera de ellos esté representado de forma inadecuada y no sea reconocible a partir de la codificación. Por ejemplo, hay muy pocas cartas comerciales y encuentros de servicio en la BNC, y quienes deseen explorar sus convenciones específicas harían mejor en compilar un pequeño corpus que incluya solo textos de esos tipos. [21]
Hay dos formas generales en las que se puede utilizar el material del corpus en la enseñanza de idiomas. [21]
En primer lugar, los editores e investigadores podían utilizar muestras de corpus para crear referencias, programas de estudio y otras herramientas o materiales relacionados con el aprendizaje de idiomas. Por ejemplo, un grupo de investigadores japoneses utilizó la BNC como herramienta para crear un sitio web de aprendizaje de inglés para estudiantes de inglés con fines específicos (ESP). [22] El sitio web permitía a los estudiantes de inglés descargar patrones de oraciones que escuchaban y utilizaban con frecuencia y, a continuación, basar su propio uso del idioma inglés en estos patrones de oraciones. La BNC sirvió como fuente de la que se extraían las expresiones de uso frecuente. Al utilizar este sitio web, los usuarios dependían de muestras de referencia de la BNC para guiarse en su aprendizaje del idioma inglés. Esta creación de materiales que facilitan el aprendizaje de idiomas normalmente implica el uso de corpus muy grandes (comparables al tamaño de la BNC), así como de software y tecnología avanzados. Se invierte una gran cantidad de dinero, tiempo y experiencia en el campo de la lingüística computacional en el desarrollo de este tipo de material de aprendizaje de idiomas. [21]
En segundo lugar, el análisis del corpus puede incorporarse directamente al entorno de enseñanza y aprendizaje de idiomas. Con este método, los estudiantes de idiomas tienen la oportunidad de categorizar los datos lingüísticos del corpus y, posteriormente, sacar conclusiones sobre los patrones y las características de su lengua meta a partir de sus categorizaciones. Este método implica una mayor cantidad de trabajo por parte del estudiante de idiomas y Tim Johns lo denomina "aprendizaje basado en datos". Los datos del corpus utilizados para el aprendizaje basado en datos son relativamente más pequeños y, en consecuencia, las generalizaciones realizadas sobre la lengua meta pueden tener un valor limitado. [21] En general, el BNC es útil como fuente de referencia para los fines de producir y percibir textos. El BNC puede utilizarse como fuente de referencia al estudiar el uso de palabras individuales en varios contextos, de modo que los estudiantes se familiaricen con las diferentes formas de usar palabras particulares en contextos adecuados. [21] Además de la información relacionada con el idioma, en el BNC también se encuentra información enciclopédica. Los estudiantes que examinan los datos del BNC también se familiarizan con las características y los estereotipos culturales británicos . [21]
El BNC fue la fuente de más de 12.000 palabras y frases utilizadas para la producción de una gama de diccionarios bilingües en la India en 2012, traduciendo 22 idiomas locales al inglés. Esto fue parte de un movimiento más amplio para impulsar mejoras en la educación, la preservación de las lenguas vernáculas de la India y el desarrollo del trabajo de traducción . [23] El gran tamaño del BNC proporciona un recurso a gran escala en el que probar programas. [24] Se ha utilizado como banco de pruebas para las directrices de la Iniciativa de codificación de texto (TEI). El BNC también se ha utilizado para proporcionar 20 millones de palabras para evaluar los sistemas de adquisición de subcategorización en inglés para la iniciativa Senseval para el análisis computacional del significado. [25]
Hoffman y Lehmann (2000) exploraron los mecanismos que subyacen a la capacidad de los hablantes para manipular su amplio inventario de colocaciones que están listas para su uso y que pueden ampliarse fácilmente gramatical o sintácticamente para adaptarse a la situación de habla actual. Se extrajeron combinaciones de palabras que se dan en baja frecuencia del BNC para ofrecer una idea al respecto. [26]
Pearce (2008) examinó la representación de hombres y mujeres en este corpus utilizando Sketch Engine . La herramienta de consulta de corpus se utilizó para explorar el comportamiento gramatical de los lemas nominales "man" y "woman" (es decir, los sustantivos "man"/"men" y "woman"/"women"). [27]
Fernández y Ginzburg (2002) investigaron el diálogo que incluía expresiones no sintagmáticas utilizando el BNC. [28]
Lee y Swales (2006) diseñaron un curso experimental en inglés basado en corpus para fines académicos (EAP) para estudiantes de doctorado en el Instituto de Lengua Inglesa (ELI) de la Universidad de Michigan en los EE. UU. [29].
Los participantes utilizaron tres corpus principales como base de sus investigaciones: el Hyland's Research Article Corpus, el Michigan Corpus of Academic Spoken English (MICASE) y textos académicos de la BNC. [29]
Como parte del trabajo en curso sobre el procesamiento morfológico, un área clave del procesamiento del lenguaje natural (PLN), se utilizaron datos del BNC para probar la precisión, confiabilidad y rapidez de las herramientas computacionales desarrolladas para facilitar el análisis y procesamiento de marcadores morfológicos en inglés británico . [30] Las herramientas computacionales involucraron un programa que permitió el análisis de la morfología flexiva en inglés británico (conocido como analizador) y un programa que generó marcas morfológicas basadas en el análisis del analizador. Los datos del BNC también se utilizaron para construir un amplio repositorio de información sobre los marcadores morfológicos del inglés británico. En particular, se extrajeron aproximadamente 1100 lemas del BNC y se compilaron en una lista de verificación que fue consultada por el generador morfológico antes de que los verbos que permitían la duplicación de consonantes se flexionaran con precisión. [30] Dado que la BNC representa un esfuerzo reconocible para recopilar y posteriormente procesar una cantidad tan grande de datos, se ha convertido en un precursor influyente en el campo y en un modelo o corpus ejemplar en el que se basó el desarrollo de corpus posteriores. [31]
En julio de 2014, Cambridge University Press y el Centro de Enfoques Corpus para las Ciencias Sociales (CASS) anunciaron en la Universidad de Lancaster que se estaba compilando un nuevo Corpus Nacional Británico, el BNC2014 [32] . [33] La primera etapa del proyecto colaborativo entre las dos instituciones fue compilar un nuevo corpus hablado de inglés británico de principios a mediados de la década de 2010. [34] El Corpus Nacional Británico Hablado 2014, de 11,5 millones de palabras, se publicó al público el 25 de septiembre de 2017. [35] El componente escrito de 100 millones de palabras del BNC2014 se ha compilado y se publicó una versión restringida el 19 de noviembre de 2021. [36] Sin embargo, a diferencia de su edición anterior, los textos del corpus en el componente escrito del BNC2014 no se han puesto a disposición del público de forma gratuita. Actualmente, se ofrecen funciones de consulta limitadas a través de un software personalizado desarrollado por la Universidad de Lancaster. [37]