Cuerpo marrón

El Brown University Standard Corpus of Present-Day American English , más conocido simplemente como Brown Corpus , es una colección electrónica de muestras de textos del inglés estadounidense, el primer corpus estructurado importante de géneros variados. Este corpus estableció por primera vez el estándar para el estudio científico de la frecuencia y distribución de categorías de palabras en el uso cotidiano del lenguaje. Compilado por Henry Kučera y W. Nelson Francis en la Brown University , en Rhode Island , es un corpus de lenguaje general que contiene 500 muestras de inglés, con un total de aproximadamente un millón de palabras, compiladas a partir de obras publicadas en los Estados Unidos en 1961.

Historia

En 1967, Kučera y Francis publicaron su obra clásica, titulada "Análisis computacional del inglés americano actual" , que proporcionó estadísticas básicas sobre lo que hoy se conoce simplemente como el Corpus Brown . ^[1]

El Brown Corpus fue una selección cuidadosamente compilada del inglés estadounidense actual, con un total de aproximadamente un millón de palabras extraídas de una amplia variedad de fuentes. Kučera y Francis lo sometieron a una variedad de análisis computacionales, a partir de los cuales compilaron una obra rica y variada, que combina elementos de lingüística, psicología, estadística y sociología. Se ha utilizado ampliamente en lingüística computacional y durante muchos años fue uno de los recursos más citados en el campo. ^[2]

Poco después de la publicación del primer análisis lexicoestadístico , la editorial de Boston Houghton-Mifflin se puso en contacto con Kučera para que le proporcionara una base de citas de tres líneas y un millón de palabras para su nuevo American Heritage Dictionary . Este innovador diccionario, que apareció por primera vez en 1969, fue el primer diccionario que se compiló utilizando lingüística de corpus para la frecuencia de las palabras y otra información.

El Corpus Brown inicial solo contenía las palabras en sí, más un identificador de ubicación para cada una. Durante los años siguientes se aplicaron etiquetas de categorías gramaticales. El programa de etiquetado de Greene y Rubin (ver etiquetado de categorías gramaticales ) ayudó considerablemente en esto, pero la alta tasa de error significaba que se requería una extensa corrección manual.

El Corpus Brown etiquetado utilizó una selección de aproximadamente 80 partes del discurso, así como indicadores especiales para formas compuestas, contracciones, palabras extranjeras y algunos otros fenómenos, y formó el modelo para muchos corpus posteriores como el Corpus Lancaster-Oslo-Bergen (inglés británico de principios de la década de 1990) y el Corpus Freiburg-Brown de inglés americano (FROWN) (inglés americano de principios de la década de 1990). ^[3]^[4] El etiquetado del corpus permitió un análisis estadístico mucho más sofisticado, como el trabajo programado por Andrew Mackie y documentado en libros sobre gramática inglesa. ^[5]

Un resultado interesante es que incluso para muestras bastante grandes, graficar las palabras en orden decreciente de frecuencia de ocurrencia muestra una hipérbola : la frecuencia de la n -ésima palabra más frecuente es aproximadamente proporcional a 1/ n . Así, "the" constituye casi el 7% del Brown Corpus, "to" y "of" más de otro 3% cada uno; mientras que aproximadamente la mitad del vocabulario total de unas 50.000 palabras son hapax legomena : palabras que aparecen solo una vez en el corpus. ^[6] Esta simple relación de rango versus frecuencia fue observada para una extraordinaria variedad de fenómenos por George Kingsley Zipf (por ejemplo, véase su The Psychobiology of Language ), y se conoce como la ley de Zipf .

Aunque el Corpus Brown fue pionero en el campo de la lingüística de corpus, a día de hoy los corpus típicos (como el Corpus of Contemporary American English , el Corpus Nacional Británico o el Corpus Internacional de Inglés ) tienden a ser mucho más grandes, del orden de 100 millones de palabras.

Distribución de la muestra

El corpus consta de 500 muestras, distribuidas en 15 géneros en proporción aproximada a la cantidad publicada en 1961 en cada uno de esos géneros. Todas las obras incluidas en la muestra se publicaron en 1961; hasta donde se pudo determinar, se publicaron por primera vez en esa fecha y fueron escritas por hablantes nativos de inglés estadounidense.

Cada muestra comenzaba en un límite de oración aleatorio en el artículo u otra unidad elegida y continuaba hasta el límite de la primera oración después de 2000 palabras. En muy pocos casos, los errores de recuento dieron lugar a muestras de poco menos de 2000 palabras.

La entrada original de datos se hacía en máquinas perforadoras que sólo aceptaban letras mayúsculas ; las mayúsculas se indicaban con un asterisco precedente, y varios elementos especiales, como fórmulas, también tenían códigos especiales.

El corpus original (1961) contenía 1.014.312 palabras extraídas de 15 categorías de texto:

A. PRENSA: Reportaje ( 44 textos )
- Político
- Deportes
- Sociedad
- Noticias de último momento
- Financiero
- Cultural
B. PRENSA: Editorial ( 27 textos )
- Diario Institucional
- Personal
- Cartas al editor
C. PRENSA: Reseñas ( 17 textos )
- teatro
- libros
- música
- bailar
D. RELIGIÓN ( 17 textos )
- Libros
- Publicaciones periódicas
- Tratados
E. HABILIDADES Y AFICIONES ( 36 textos )
- Libros
- Publicaciones periódicas
F. SABIDURÍA POPULAR ( 48 textos )
- Libros
- Publicaciones periódicas
G. BELLES-LETTRES - Biografía, Memorias, etc. ( 75 textos )
- Libros
- Publicaciones periódicas
H. MISCELÁNEOS: Gobierno de los EE. UU. y órganos de la Cámara de Representantes ( 30 textos )
- Documentos gubernamentales
- Informes de la Fundación
- Informes de la industria
- Catálogo de la universidad
- Órgano de la Casa de la Industria
J. APRENDIÓ ( 80 textos )
- Ciencias naturales
- Medicamento
- Matemáticas
- Ciencias sociales y del comportamiento
- Ciencias políticas, derecho, educación
- Humanidades
- Tecnología e ingeniería
K. FICCIÓN: General ( 29 textos )
- Novelas
- Cuentos cortos
L. FICCIÓN: Novela policiaca y de misterio ( 24 textos )
- Novelas
- Cuentos cortos
M. FICCIÓN: Ciencia ( 6 textos )
- Novelas
- Cuentos cortos
N. FICCIÓN: Aventura y Western ( 29 textos )
- Novelas
- Cuentos cortos
P. FICCIÓN: Romance y Historia de Amor ( 29 textos )
- Novelas
- Cuentos cortos
R. HUMOR ( 9 textos )
- Novelas
- Ensayos, etc.

Etiquetas de partes del discurso utilizadas

Véase también

LOB Corpus , un corpus de inglés británico basado en los mismos parámetros que el Brown Corpus
Corpus Nacional Británico

Referencias

^ Francis, W. Nelson y Henry Kucera. 1967. Análisis computacional del inglés americano actual. Providence, RI: Brown University Press.
^ Francis, W. Nelson y Henry Kucera. 1979. MANUAL DEL CORPUS BROWN: Manual de información para acompañar un corpus estándar de inglés americano editado actual para su uso con computadoras digitales. http://icame.uib.no/brown/bcm.html.
^ Hundt, Marianne, Andrea Sand y Rainer Siemund. 1998. Manual de información para acompañar el corpus Freiburg-Brown de inglés americano (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM Archivado el 3 de abril de 2014 en Wayback Machine.
^ Leech, Geoffrey y Nicholas Smith. 2005. Ampliando las posibilidades de la investigación basada en corpus sobre el inglés en el siglo XX: una precuela de LOB y FLOB. ICAME Journal 29. 83–98.
^ Winthrop Nelson Francis y Henry Kučera. 1983. Análisis de frecuencia del uso del inglés: léxico y gramática, Houghton Mifflin.
^ Kirsten Malmkjær, The Linguistics Encyclopedia , 2.ª ed., Routledge, 2002, ISBN 0-415-22210-9 , pág. 87.

Enlaces externos

Manual del Corpus Brown
Descargar el Corpus Brown
Búsqueda, a través de Sketch Engine, en el Brown Corpus anotado por TreeTagger v2
Más detalles sobre el conjunto de etiquetas Brown Corpus
Software Python para un acceso cómodo al Corpus Brown
PHP (Etiquetado de partes del discurso)