Corpus Nacional Británico

El Corpus Nacional Británico ( BNC ) es un corpus de texto de 100 millones de palabras de muestras de inglés hablado y escrito de una amplia gama de fuentes. ^[1] El corpus abarca el inglés británico de finales del siglo XX desde una amplia variedad de géneros , con la intención de que sea una muestra representativa del inglés británico hablado y escrito de esa época. Se utiliza en lingüística de corpus para el análisis de corpus.

Historia

El proyecto para crear el BNC implicó la colaboración de tres editoriales (con Oxford University Press como colaborador principal, Longman y W. & R. Chambers ), dos universidades (la Universidad de Oxford y la Universidad de Lancaster ) y la Biblioteca Británica . ^[2] La creación del BNC comenzó en 1991 bajo la dirección del consorcio BNC, y el proyecto finalizó en 1994. No se han añadido nuevas muestras después de 1994, pero el BNC sufrió ligeras revisiones antes del lanzamiento del segundo. edición BNC World (2001) y la tercera edición BNC XML Edition (2007). ^[3]

El BNC fue la visión de lingüistas computacionales cuyo objetivo era un corpus de lenguaje moderno (en el momento de construir el corpus), de origen natural en forma de habla y texto o escritura que pudiera ser analizado por una computadora. Por lo tanto, se compiló como un corpus general para allanar el camino para la búsqueda y el procesamiento automáticos en el campo de la lingüística de corpus . Una de las formas en que el BNC debía diferenciarse de los corpus existentes en ese momento era abrir los datos no sólo a la investigación académica, sino también a usos comerciales y educativos. ^[4]

El corpus se limitó únicamente al inglés británico y no se amplió para abarcar los ingleses del mundo . Esto se debió en parte a que una parte importante del coste del proyecto estaba siendo financiada por el gobierno británico, que lógicamente estaba interesado en documentar su propia variedad lingüística . ^[4] Debido a su tamaño potencialmente sin precedentes, el BNC también requirió fondos de las instituciones comerciales y académicas. A su vez, los datos del BNC estuvieron disponibles para la investigación comercial y académica. ^[4]

Descripción

El BNC es un corpus monolingüe, ya que registra muestras del uso del idioma únicamente en inglés británico , aunque ocasionalmente también pueden estar presentes palabras y frases de otros idiomas. Se trata de un corpus sincrónico , pues sólo se representan usos lingüísticos de finales del siglo XX; El BNC no pretende ser un registro histórico del desarrollo del inglés británico a lo largo de los siglos. ^[3] Desde el principio, quienes participaron en la recopilación de datos escritos buscaron hacer del BNC un corpus equilibrado y, por lo tanto, buscaron datos en varios medios. ^[4]

Componentes y contenido

El 90% del BNC son muestras de uso de corpus escritos . Estas muestras se extrajeron de periódicos regionales y nacionales, revistas de investigación publicadas o publicaciones periódicas de diversos campos académicos, libros de ficción y no ficción, otro material publicado y material inédito como folletos, folletos, cartas y ensayos escritos por estudiantes de diferentes niveles académicos. , discursos, guiones y muchos otros tipos de textos. ^[5]

El 10% restante del BNC son muestras de uso del lenguaje hablado . Estos se presentan y registran en forma de transcripciones ortográficas. El corpus hablado consta de dos partes: una parte es demográfica , que contiene las transcripciones de conversaciones naturales espontáneas producidas por voluntarios de diversos grupos de edad, clases sociales y procedentes de diferentes regiones. Estas conversaciones se produjeron en diferentes situaciones, desde reuniones formales de negocios o gubernamentales hasta conversaciones en programas de radio y llamadas telefónicas. ^[5] Estos debían dar cuenta tanto de la distribución demográfica del lenguaje hablado como de aquellas con variaciones lingüísticamente significativas debido al contexto. ^[6]

La otra parte involucra muestras gobernadas por el contexto, como transcripciones de grabaciones realizadas en tipos específicos de reuniones y eventos. Todas las grabaciones originales transcritas para su inclusión en el BNC se han depositado en el Archivo de Sonido de la Biblioteca Británica . La mayoría de las grabaciones están disponibles gratuitamente en el Laboratorio de Fonética de la Universidad de Oxford .

Subcorpus y etiquetado

Se han publicado dos subcorpus (subconjuntos de datos de BNC): BNC Baby y BNC Sampler. Ambos subcorpus se pueden solicitar en línea a través de la página web del BNC. ^[7] BNC Baby es un subcorpus de BNC que consta de cuatro conjuntos de muestras, cada una de las cuales contiene un millón de palabras etiquetadas tal como están en el propio BNC. Las palabras de cada conjunto de muestra corresponden a una etiqueta de género específica . Un conjunto de muestras contiene conversaciones habladas y los otros tres conjuntos de muestras contienen texto escrito: escritura académica , ficción y periódicos, respectivamente. ^[8] Se ha publicado la última (tercera) edición y viene en formato XML. ^[9] El BNC Sampler es un subcorpus de dos partes, una parte para datos escritos y otro para datos hablados; cada parte contiene un millón de palabras. El BNC Sampler se utilizó originalmente en un proyecto para descubrir cómo mejorar el proceso de etiquetado del BNC, lo que finalmente condujo a la edición BNC World. A lo largo del proyecto, se mejoró el BNC Sampler con una experiencia y un conocimiento cada vez mayores para que el etiquetado llegara a su forma actual. ^[10]

El corpus BNC ha sido etiquetado para información gramatical ( parte del discurso ). El sistema de etiquetado, denominado CLAWS, pasó por mejoras para producir el último sistema CLAWS4, que se utiliza para etiquetar el BNC. CLAWS1 se basó en un modelo oculto de Markov y, cuando se empleó en etiquetado automático, logró etiquetar con éxito entre el 96% y el 97% de cada texto analizado. CLAWS1 se actualizó a CLAWS2 eliminando la necesidad de procesamiento manual para preparar los textos para el etiquetado automático. La última versión, CLAWS4, incluye mejoras como capacidades más poderosas de desambiguación del sentido de las palabras (WSD) y la capacidad de lidiar con variaciones en la ortografía y el lenguaje de marcado . El trabajo posterior en el sistema de etiquetado buscó aumentar las tasas de éxito en el etiquetado automático y reducir el trabajo necesario para el procesamiento manual, manteniendo al mismo tiempo la efectividad y la eficiencia mediante la introducción de software para reemplazar parte del trabajo manual. ^[2]^[11] Posteriormente, se introdujo un nuevo programa llamado "Template Tagger" para una función correctiva. Posteriormente se agregaron etiquetas que indican ambigüedad. El etiquetado manual sigue siendo necesario, ya que CLAWS4 todavía no puede manejar palabras extranjeras. ^[12]^[13]

TEI y acceso

El corpus está marcado siguiendo las recomendaciones de la Text Encoding Initiative (TEI) e incluye anotaciones lingüísticas completas e información contextual. ^[14] La licencia para el etiquetador de parte de discurso CLAWS4 se puede comprar para utilizar el etiquetador. ^[15] Alternativamente, se ofrece un servicio de etiquetado en la Universidad de Lancaster . ^[16] El propio BNC puede solicitarse con una licencia personal o institucional. La edición disponible es la edición BNC XML y viene con el software del buscador Xaira . Los pedidos se pueden realizar a través del sitio web del BNC. ^[17] Se ha desarrollado un administrador de corpus en línea, BNCweb, para la edición BNC XML. La interfaz está diseñada para ser fácil de usar y el programa ofrece características de consulta y funciones para el análisis de corpus. Los usuarios pueden recuperar resultados y datos de búsquedas y análisis. ^[18]

Problemas de permisos

El BNC fue el primer corpus de texto de su tamaño que estuvo ampliamente disponible. Esto podría atribuirse a las formas estándar de acuerdo, entre los titulares de derechos y el Consorcio, por un lado, y entre los usuarios del corpus y el Consorcio, por el otro. Se buscó a los propietarios de los derechos de propiedad intelectual por su acuerdo con la licencia estándar, incluida la voluntad de incorporar sus materiales al corpus sin ningún cargo. Este arreglo puede haber sido facilitado por la originalidad del concepto y la prominencia asociada con el proyecto. Sin embargo, fue un desafío mantener oculta la identidad de los contribuyentes sin desacreditar el valor de su trabajo. Se eliminó en gran medida cualquier alusión clara a la identidad de los contribuyentes; Se discutió la solución alternativa de sustituir la identidad de un contribuyente por un nombre diferente, pero no se consideró factible. ^[6]

Además, anteriormente se había pedido a los contribuyentes que solo incorporaran versiones transcritas de su discurso y no el discurso en sí. Si bien se podría solicitar nuevamente el permiso de los contribuyentes iniciales, la falta de éxito en el proceso de anonimización significó que sería un desafío obtener materiales de los contribuyentes iniciales. Al mismo tiempo, dos factores agravaron la falta de voluntad de los titulares de derechos para donar sus materiales: se debían excluir los textos completos y no había ninguna motivación para difundir información utilizando el corpus, particularmente porque el corpus opera sobre una base no comercial. . ^[6]

Problemas y limitaciones

Categorías

En 2001, el BNC todavía no tenía una categorización de textos escritos más allá del dominio, ni ninguna categorización de textos hablados excepto por contexto y clases demográficas o socioeconómicas . Por ejemplo, en el BNC se incluyó una amplia variedad de textos imaginativos ( novelas , cuentos , poemas y guiones dramáticos), pero dichas inclusiones se consideraron inútiles ya que los investigadores no podían recuperar fácilmente los subgéneros en los que querían trabajar (por ejemplo, , poesía). Debido a que estos metadatos se omitieron en los encabezados de los archivos y en toda la documentación del BNC, no había forma de saber si un texto "imaginativo" realmente provenía de una novela, un cuento, un guión dramático o una colección de poemas, a menos que el título realmente incluyera palabras como "novela" o "poema". ^[19]

Con la introducción en 2002 de una nueva versión, BNC World Edition, BNC intentó solucionar este problema. Además del dominio, ahora hay 70 categorías por género para datos tanto hablados como escritos, por lo que los investigadores ahora pueden recuperar textos específicamente por género. Sin embargo, incluso después de estas adiciones, la implementación sigue siendo complicada, ya que asignar un género o subgénero a un texto no es sencillo. Las divisiones son menos claras para los datos hablados que para los escritos, ya que hubo más variación en el tema y la ejecución. Además, siempre habrá posibles subconjuntos de géneros de cada subgénero. Hasta qué punto se subdividen los géneros está predeterminado por defecto, pero los investigadores tienen la opción de hacer las divisiones más generales o específicas según sus necesidades. La categorización también es un problema, ya que ciertos textos, aunque se consideran pertenecientes a un género interdisciplinario como la lingüística, incluyen contenido que posteriormente se clasifica en categorías de artes o ciencias debido a la naturaleza de su contenido. ^[20]

Clasificación y discurso

Algunos textos se clasificaron en categorías incorrectas, generalmente debido a un título engañoso. Los usuarios no siempre pueden confiar en los títulos de los archivos como indicaciones de su contenido real: por ejemplo, muchos textos con "conferencia" en su título son en realidad debates en el aula o seminarios tutoriales en los que participa un grupo muy pequeño de personas, o fueron conferencias populares (dirigidas a una audiencia general en lugar de a estudiantes de una institución de educación superior). ^[19] Una razón es que las etiquetas de género y subgénero solo se pueden asignar para la mayoría de los textos de una categoría. Hay subgéneros dentro de los géneros y, para cada texto, el contenido puede no ser uniforme y abarcar varios subgéneros. ^[20] Además, las presiones de producción combinadas con información insuficiente condujeron a decisiones apresuradas, lo que resultó en inexactitud e inconsistencia en los registros. ^[6]

La proporción de material escrito a hablado en el BNC es de 10:1, lo que hace que el material hablado esté subrepresentado. Esto se debe a que el costo de recopilar y transcribir un millón de palabras de habla natural es al menos 10 veces mayor que el costo de agregar otro millón de palabras de texto de periódico. Algunos lingüistas han argumentado que esto representa una deficiencia en el corpus, ya que el habla y la escritura son igualmente importantes en una lengua. ^[6] El BNC no es ideal para el estudio de muchas características del discurso hablado, ya que la mayoría de sus transcripciones son ortográficas . Los rasgos paralingüísticos sólo se indican de forma aproximada. ^[21]

Limitaciones y apropiaciones indebidas

A pesar de ser una excelente fuente de información léxica , el BNC sólo puede utilizarse para estudiar un conjunto limitado de patrones gramaticales, particularmente aquellos que tienen correlatos léxicos distintivos. Si bien es bastante fácil encontrar todas las apariciones de "disfrutar" y ordenarlas según la categoría de parte del discurso de la siguiente palabra, se requiere trabajo adicional para encontrar todos los casos de verbos seguidos de un gerundio , ya que el El índice SARA del BNC no incluye categorías de partes del discurso como "todos los verbos" o "todas las formas V-ing". ^[21]

Algunos correlatos léxicos también son demasiado ambiguos para permitir su uso en consultas: cualquier búsqueda de cláusulas relativas restrictivas proporcionaría al usuario datos irrelevantes, dado el número de otros usos de los pronombres wh- y de that en el idioma (sin mencionar la imposibilidad de identificar cláusulas relativas con eliminación de pronombres, como en "el hombre que vi"). Es difícil localizar categorías semánticas y pragmáticas particulares (dudas, conocimientos, desacuerdos, resúmenes, etc.) por la misma razón. Esto significa, por ejemplo, que si bien se puede comparar el discurso de hombres y mujeres, no se puede comparar el discurso de mujeres y hombres . ^[21]

La naturaleza del BNC como un gran corpus mixto lo hace inadecuado para el estudio de tipos o géneros de texto muy específicos, ya que es probable que cualquiera de ellos esté representado de manera inadecuada y no sea reconocible a partir de la codificación. Por ejemplo, hay muy pocas cartas comerciales y encuentros de servicio en el BNC, y aquellos que deseen explorar sus convenciones específicas harían mejor en compilar un pequeño corpus que incluya sólo textos de ese tipo. ^[21]

Usos

educación del idioma ingles

Hay dos formas generales en las que se puede utilizar el material del corpus en la enseñanza de idiomas. ^[21]

En primer lugar, los editores e investigadores podrían utilizar muestras de corpus para crear referencias, programas de estudios y otras herramientas o materiales relacionados con el aprendizaje de idiomas. Por ejemplo, un grupo de investigadores japoneses utilizó el BNC como herramienta en la creación de un sitio web de aprendizaje del idioma inglés para estudiantes de inglés con fines específicos (ESP). ^[22] El sitio web permitió a los estudiantes de inglés descargar patrones de oraciones que escuchan y usan con frecuencia, y luego basar su propio uso del idioma inglés en estos patrones de oraciones. El BNC sirvió como fuente de donde se extrajeron las expresiones de uso frecuente. Al utilizar este sitio web, los usuarios confiaron en muestras de referencia del BNC para guiarlos en su aprendizaje del idioma inglés. Esta creación de materiales que facilitan el aprendizaje de idiomas normalmente implica el uso de corpus muy grandes (comparables al tamaño del BNC), así como software y tecnología avanzados. En el desarrollo de este material para el aprendizaje de idiomas se invierte una gran cantidad de dinero, tiempo y experiencia en el campo de la lingüística computacional . ^[21]

En segundo lugar, el análisis del corpus puede incorporarse directamente al entorno de enseñanza y aprendizaje de lenguas. Con este método, los estudiantes de idiomas tienen la oportunidad de categorizar los datos lingüísticos del corpus y posteriormente sacar conclusiones sobre los patrones y características de su idioma de destino a partir de sus categorizaciones. Este método implica una mayor cantidad de trabajo por parte de quien aprende el idioma y Tim Johns lo denomina "aprendizaje basado en datos". Los datos del corpus utilizados para el aprendizaje basado en datos son relativamente más pequeños y, en consecuencia, las generalizaciones realizadas sobre la lengua de destino pueden tener un valor limitado. ^[21] En general, el BNC es útil como fuente de referencia a los efectos de producir y percibir texto. El BNC se puede utilizar como fuente de referencia al estudiar el uso de palabras individuales en diversos contextos, de modo que los alumnos se familiaricen con las diferentes formas de utilizar palabras concretas en contextos adecuados. ^[21] Además de la información relacionada con el idioma, también se encuentra información enciclopédica en el BNC. Los estudiantes que examinan los datos del BNC también conocen las características y estereotipos culturales británicos . ^[21]

Diccionarios bilingües, tests y evaluación.

El BNC fue la fuente de más de 12.000 palabras y frases utilizadas para la producción de una variedad de diccionarios bilingües en la India en 2012, traduciendo 22 idiomas locales al inglés. Esto fue parte de un movimiento más amplio para impulsar mejoras en la educación, la preservación de las lenguas vernáculas de la India y el desarrollo del trabajo de traducción . ^[23] El gran tamaño del BNC proporciona un recurso a gran escala para probar programas. ^[24] Se ha utilizado como banco de pruebas para las directrices de la Iniciativa de codificación de texto (TEI). El BNC también se ha utilizado para proporcionar 20 millones de palabras para evaluar los sistemas de adquisición de subcategorización en inglés para la iniciativa Senseval para el análisis computacional del significado. ^[25]

Investigación

Evidencia colocacional del corpus nacional británico

Hoffman y Lehmann (2000) exploraron los mecanismos detrás de la capacidad de los hablantes para manipular su gran inventario de colocaciones que están listas para su uso y pueden ampliarse fácilmente gramatical o sintácticamente para adaptarse a la situación actual del habla. Las combinaciones de palabras que aparecen con baja frecuencia se extrajeron del BNC para ofrecer una idea de ello. ^[26]

Comportamiento colocacional del hombre y la mujer.

Pearce (2008) examinó la representación de hombres y mujeres en este corpus utilizando Sketch Engine . La herramienta de consulta de corpus se utilizó para explorar el comportamiento gramatical de los lemas sustantivos " hombre" y "mujer" (es decir, los sustantivos "hombre"/"hombres" y "mujer"/"mujeres"). ^[27]

Declaraciones no oracionales: un estudio de corpus

Fernández y Ginzburg (2002) investigaron el diálogo que incluía expresiones no sensibles utilizando el BNC. ^[28]

Un curso EAP basado en corpus para estudiantes de doctorado de NNS

Lee y Swales (2006) diseñaron un curso experimental de inglés para fines académicos (EAP) basado en corpus para estudiantes de doctorado en el English Language Institute (ELI) de la Universidad de Michigan en Estados Unidos. ^[29]

Los participantes utilizaron tres corpus principales como base de sus investigaciones: el Corpus de artículos de investigación de Hyland, el Corpus de inglés hablado académico de Michigan (MICASE) y textos académicos del BNC. ^[29]

Trabajo futuro

Procesamiento morfológico

Como parte del trabajo en curso sobre procesamiento morfológico, un área clave del procesamiento del lenguaje natural (PLN), se utilizaron datos del BNC para probar la precisión, confiabilidad y rapidez de las herramientas computacionales desarrolladas para facilitar el análisis y el procesamiento de marcadores morfológicos en inglés británico. . ^[30] Las herramientas computacionales involucraron un programa que permitió el análisis de la morfología flexional en inglés británico (conocido como analizador) y un programa que generó marcas morfológicas basadas en el análisis del analizador. Los datos del BNC también se utilizaron para crear un extenso depósito de información sobre los marcadores morfológicos del inglés británico. En particular, se extrajeron aproximadamente 1.100 lemas del BNC y se compilaron en una lista de verificación que el generador morfológico consultó antes de declinar con precisión los verbos que permitían la duplicación de consonantes. ^[30] Dado que el BNC representa un esfuerzo reconocible para recopilar y posteriormente procesar una cantidad tan grande de datos, se ha convertido en un precursor influyente en el campo y en un modelo o corpus ejemplar en el que se basó el desarrollo de corpus posteriores. ^[31]

BNC2014

En julio de 2014, Cambridge University Press y el Center for Corpus Approaches to Social Science (CASS) anunciaron en la Universidad de Lancaster que se estaba compilando un nuevo Corpus Nacional Británico, el BNC2014 ^{[32] .}^[33] La primera etapa del proyecto de colaboración entre las dos instituciones fue compilar un nuevo corpus hablado de inglés británico desde principios hasta mediados de la década de 2010. ^[34] El Corpus Nacional Británico Hablado de 2014, de 11,5 millones de palabras, se publicó al público el 25 de septiembre de 2017. ^[35] Se compiló el componente escrito de 100 millones de palabras del BNC2014 y se publicó una versión restringida para el público en general. público el 19 de noviembre de 2021. ^[36] Sin embargo, a diferencia de su edición anterior, los textos del corpus en el componente escrito de BNC2014 no se han puesto a disposición de forma gratuita. Actualmente se proporcionan funciones de consulta limitadas a través de un software personalizado desarrollado por la Universidad de Lancaster. ^[37]

Ver también

Referencias

^ Burnard, Lou; Aston, chico (1998). El manual del BNC: exploración del corpus nacional británico . Edimburgo: Prensa de la Universidad de Edimburgo. pag. xiii. ISBN 0-7486-1055-3.
^ ab sanguijuela, Geoffrey; Garside, Roger; Bryant, Michael (1994). "Investigación del lenguaje basada en corpus: en honor a Jan Aarts". En N. Oostdjik y P. Haan (ed.). El etiquetado gramatical de texto a gran escala: experiencia con el corpus nacional británico . Países Bajos: Editorial Rodopi. págs. 47–63.
^ ab ¿ Qué es el BNC? Consultado el 12 de marzo de 2012.
^ abcd Leech, Geoffrey (1993). "100 millones de palabras en inglés". Ingles hoy . 9 (1): 9–15. doi :10.1017/S0266078400006854. S2CID 143529960.
^ ab Corpus Nacional Británico. Consultado el 12 de marzo de 2012.
^ abcde Burnard, Lou (2002). "¿En qué nos equivocamos? Una mirada retrospectiva al Corpus Nacional Británico" (PDF) . Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 14 de marzo de 2012 .
^ "Productos BNC" . Consultado el 18 de marzo de 2012 .
^ Burnard, Lou (2003). «Guía de referencia para BNC-baby» . Consultado el 18 de marzo de 2012 .
^ "Nueva edición de BNC Baby disponible" . Consultado el 19 de marzo de 2012 .
^ "BNC Sampler: edición XML" (PDF) . 2008 . Consultado el 18 de marzo de 2012 .
^ Sanguijuela, Geoffrey; Garside, Roger; Bryant, Michael (1994). Claws4: El etiquetado del corpus nacional británico . Actas de la XV Conferencia Internacional sobre Lingüística Computacional (COLING 94). Trabajo presentado en COLING'94, Lancaster: Reino Unido. CiteSeerX 10.1.1.13.3622 .
^ Sanguijuela, Geoffrey; Smith, Nicolás (2000). "El corpus nacional británico (versión 2) con etiquetado de clases de palabras mejorado". UCREL, Universidad de Lancaster, Reino Unido . Consultado el 17 de marzo de 2012 .
^ Sanguijuela, Geoffrey; Smith, Nicolás (2000). "Etiquetado POS automático del Corpus". UCREL, Universidad de Lancaster, Reino Unido . Consultado el 17 de marzo de 2012 .
^ Burnard, Lou (1995). "Guía de referencia para usuarios del corpus nacional británico" (PDF) . Consultado el 18 de marzo de 2012 .
^ "Obtención de una licencia para el etiquetador CLAWS". UCREL, Universidad de Lancaster, Reino Unido . Consultado el 17 de marzo de 2012 .
^ "El servicio de etiquetado CLAWS". UCREL, Universidad de Lancaster, Reino Unido . Consultado el 17 de marzo de 2012 .
^ "Cómo realizar un pedido" . Consultado el 17 de marzo de 2012 .
^ Hoffmann, Sebastián; Evert, Stefan (2008). Lingüística de corpus con BNCweb: una guía práctica . Pedro Lang. ISBN 978-3-631-56315-1.
^ ab Lee, David (2001). «GÉNEROS, REGISTROS, TIPOS DE TEXTO, DOMINIOS Y ESTILOS» (PDF) . Aprendizaje de idiomas y tecnología . 5 (3): 37–72. Archivado desde el original (PDF) el 9 de noviembre de 2001 . Consultado el 24 de abril de 2022 .
^ ab Lee, David (2002). «NOTAS QUE ACOMPAÑAN AL ÍNDICE (BIBLIOGRÁFICO) DE LA EDICIÓN MUNDIAL BNC» (PDF) . Archivado desde el original (PDF) el 23 de septiembre de 2013 . Consultado el 17 de marzo de 2012 .
^ abcdefghi Aston, chico (1998). "Aprender inglés con el Corpus Nacional Británico". Ponencia presentada en la VI Jornada de Corpus, Barcelona: UPF. Archivado desde el original el 25 de diciembre de 2009 . Consultado el 16 de marzo de 2012 .
^ Minn, Danny; Sano, Hiroshi; Ino, María; Nakamura, Takahiro (2005). "Uso del BNC para crear y desarrollar materiales educativos y un sitio web para estudiantes de inglés" (PDF) . Revista ICAME . 29 : 99-113 . Consultado el 12 de marzo de 2012 .
^ "Diccionarios bilingües para promover las lenguas maternas de la India". Tiempos de Omán . 14 de marzo de 2012. Archivado desde el original el 31 de diciembre de 2010 . Consultado el 17 de marzo de 2012 .
^ "¿Qué puedo hacer con el BNC?" . Consultado el 18 de marzo de 2012 .
^ Korhonen, Anna (2002). "RECURSOS DE EVALUACIÓN de Sistemas de Adquisición de Subcategorización en Inglés". Archivado desde el original el 13 de diciembre de 2012 . Consultado el 18 de marzo de 2012 .
^ Hoffman, Sebastián; Lehmann, Hans Martín (2000). "Evidencia de colocación del corpus nacional británico". En Kirk, John M. (ed.). Corpora Galore: análisis y técnicas para describir el inglés . Ámsterdam: Rodopi. ISBN 9789042004191.
^ Pearce, Michael (noviembre de 2008). "Investigando el comportamiento de colocación de HOMBRE y MUJER en el BNC usando Sketch Engine" (PDF) . Corporaciones . 3 (1): 1–29. doi :10.3366/E174950320800004X. S2CID 14920248. Archivado desde el original (PDF) el 27 de junio de 2015.
^ Fernández, Raquel; Jonathan Ginzburg (29 de junio de 2002). "Enunciados no oracionales: un estudio de corpus" (PDF) . Archivado desde el original (PDF) el 27 de junio de 2015.
^ ab Lee, David; John Swales (2006). "Un curso de EAP basado en corpus para estudiantes de doctorado de NNS: pasar de corpus especializados disponibles a corpus autocompilados". Inglés para Propósitos Específicos . 25 (1): 56–75. doi :10.1016/j.esp.2005.02.010.
^ ab Minnen, Guido; Carroll, Juan; Pearce, Darren (2001). «Procesamiento Morfológico Aplicado del Inglés» (PDF) . Ingeniería del Lenguaje Natural . 7 (3): 207–223. doi :10.1017/s1351324901002728. S2CID 34553826.
^ Čermák, František (2003). "La lingüística de corpus actual: algunas preguntas abiertas". Revista Internacional de Lingüística de Corpus . 7 (2): 265–282. doi :10.1075/ijcl.7.2.06cer.
^ "Corpus Nacional Británico 2014".
^ Centro ESRC de Enfoques de Corpus en Ciencias Sociales (CASS) (28 de julio de 2014). "Anuncio hablado del proyecto BNC2014" . Consultado el 7 de octubre de 2016 .
^ "Centro de Enfoques de Corpus en Ciencias Sociales". Consultado el 17 de marzo de 2015.
^ "Publicación de John Benjamins".
^ "Corpus Nacional Británico 2014".
^ "El Corpus Nacional Británico 2014".

enlaces externos

Sitio web del Corpus Nacional Británico
Interfaz BNC gratuita
Audio BNC
Índice BNC de audio
Lista de fuentes
BNC con registros de audio
Frecuencias de palabras BNC
BNCweb (regístrate aquí)