stringtranslate.com

Corpus marrón

El Departamento de Ciencias Cognitivas, Lingüísticas y Psicológicas de la Universidad de Brown

El Corpus estándar de inglés americano actual de la Universidad de Brown , más conocido simplemente como Brown Corpus , es una colección electrónica de muestras de texto de inglés americano, el primer corpus estructurado importante de géneros variados. Este corpus estableció por primera vez el estándar para el estudio científico de la frecuencia y distribución de categorías de palabras en el uso cotidiano del lenguaje. Compilado por Henry Kučera y W. Nelson Francis en la Universidad de Brown , en Rhode Island , es un corpus de lenguaje general que contiene 500 muestras de inglés, con un total aproximado de un millón de palabras, recopiladas a partir de trabajos publicados en los Estados Unidos en 1961.

Historia

En 1967, Kučera y Francis publicaron su obra clásica, titulada "Análisis computacional del inglés americano actual" , que proporcionaba estadísticas básicas sobre lo que hoy se conoce simplemente como Brown Corpus . [1]

El Brown Corpus fue una selección cuidadosamente compilada del inglés americano actual, con un total de alrededor de un millón de palabras extraídas de una amplia variedad de fuentes. Kučera y Francis lo sometieron a una variedad de análisis computacionales, a partir de los cuales compilaron una obra rica y variada, que combina elementos de lingüística, psicología, estadística y sociología. Ha sido muy utilizado en lingüística computacional y durante muchos años estuvo entre los recursos más citados en este campo. [2]

Poco después de la publicación del primer análisis lexicoestadístico , el editor de Boston Houghton-Mifflin se acercó a Kučera para que le proporcionara una base de citas de tres líneas y un millón de palabras para su nuevo American Heritage Dictionary . Este nuevo e innovador diccionario, que apareció por primera vez en 1969, fue el primer diccionario compilado utilizando lingüística de corpus para la frecuencia de palabras y otra información.

El Brown Corpus inicial tenía sólo las palabras en sí, además de un identificador de ubicación para cada una. Durante los años siguientes, se aplicaron etiquetas de parte del discurso. El programa de etiquetado de Greene y Rubin (ver la parte del etiquetado del discurso ) ayudó considerablemente en esto, pero la alta tasa de error significó que se requirió una revisión manual exhaustiva.

El Brown Corpus etiquetado utilizó una selección de aproximadamente 80 partes del discurso, así como indicadores especiales para formas compuestas, contracciones, palabras extranjeras y algunos otros fenómenos, y formó el modelo para muchos corpus posteriores, como el Corpus Lancaster-Oslo-Bergen. (inglés británico de principios de los años 1990) y el Freiburg-Brown Corpus of American English (FROWN) (inglés americano de principios de los años 1990). [3] [4] Etiquetar el corpus permitió realizar análisis estadísticos mucho más sofisticados, como el trabajo programado por Andrew Mackie y documentado en libros sobre gramática inglesa. [5]

Un resultado interesante es que incluso para muestras bastante grandes, graficar palabras en orden de frecuencia de aparición decreciente muestra una hipérbola : la frecuencia de la enésima palabra más frecuente es aproximadamente proporcional a 1/ n . Así, "el" constituye casi el 7% del Corpus Marrón, "a" y "de" más de otro 3% cada uno; mientras que aproximadamente la mitad del vocabulario total de unas 50.000 palabras son hapax legomena : palabras que aparecen sólo una vez en el corpus. [6] Esta relación simple de rango versus frecuencia fue observada por George Kingsley Zipf en una extraordinaria variedad de fenómenos (por ejemplo, ver su Psicobiología del lenguaje ), y se conoce como ley de Zipf .

Aunque el Brown Corpus fue pionero en el campo de la lingüística de corpus, en la actualidad los corpus típicos (como el Corpus of Contemporary American English , el British National Corpus o el International Corpus of English ) tienden a ser mucho más grandes, del orden de 100 millones de palabras.

Distribución de muestras

El Corpus consta de 500 muestras, distribuidas en 15 géneros en proporción aproximada a la cantidad publicada en 1961 en cada uno de esos géneros. Todos los trabajos muestreados fueron publicados en 1961; Hasta donde se pudo determinar, se publicaron por primera vez en ese momento y fueron escritos por hablantes nativos de inglés americano.

Cada muestra comenzó en un límite de oración aleatorio en el artículo u otra unidad elegida, y continuó hasta el límite de la primera oración después de 2000 palabras. En muy pocos casos, los errores de conteo llevaron a que las muestras tuvieran poco menos de 2000 palabras.

La entrada de datos original se realizó en máquinas perforadoras que solo usaban mayúsculas ; las capitales se indicaban con un asterisco precedente y varios elementos especiales, como fórmulas, también tenían códigos especiales.

El corpus originalmente (1961) contenía 1.014.312 palabras tomadas de 15 categorías de texto:

Etiquetas de parte del discurso utilizadas

Ver también

Referencias

  1. ^ Francis, W. Nelson y Henry Kucera. 1967. Análisis computacional del inglés americano actual. Providence, RI: Brown University Press.
  2. ^ Francis, W. Nelson y Henry Kucera. 1979. MANUAL DE CORPUS DE BROWN: Manual de información que acompaña a un corpus estándar de inglés americano editado actualmente para su uso con computadoras digitales. http://icame.uib.no/brown/bcm.html.
  3. ^ Hundt, Marianne, Andrea Sand y Rainer Siemund. 1998. Manual de información para acompañar el corpus de inglés americano de Freiburg-Brown (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM Archivado el 3 de abril de 2014 en Wayback Machine.
  4. ^ Sanguijuela, Geoffrey y Nicholas Smith. 2005. Ampliando las posibilidades de la investigación basada en corpus sobre el inglés en el siglo XX: una precuela de LOB y FLOB. Revista ICAME 29. 83–98.
  5. ^ Winthrop Nelson Francis y Henry Kučera. 1983. Análisis de frecuencia del uso del inglés: léxico y gramática, Houghton Mifflin.
  6. ^ Kirsten Malmkjær, The Linguistics Encyclopedia , 2ª ed., Routledge, 2002, ISBN  0-415-22210-9 , p. 87.

enlaces externos