Un corpus de más de 560 millones de palabras de inglés americano
El Corpus of Contemporary American English ( COCA ) es un corpus de mil millones de palabras [1] de inglés americano contemporáneo . Fue creado por Mark Davies , profesor jubilado de lingüística de corpus en la Universidad Brigham Young (BYU). [2] [3]
Contenido
El Corpus of Contemporary American English (COCA) está compuesto por mil millones de palabras en noviembre de 2021. [1] [2] [4] El corpus está en constante crecimiento: en 2009 contenía más de 385 millones de palabras; [5] En 2010, el corpus creció en tamaño a 400 millones de palabras; [6] En marzo de 2019, [7] el corpus había aumentado a 560 millones de palabras. [7]
A noviembre de 2021, el Corpus de inglés americano contemporáneo está compuesto por 485.202 textos. [4] Según el sitio web del corpus, [4] el corpus actual (noviembre de 2021) está compuesto por textos que incluyen entre 24 y 25 millones de palabras para cada año 1990-2019.
Para cada año contenido en el corpus (1990-2019), el corpus se divide uniformemente entre seis registros/géneros: televisión/películas, hablada, ficción, revistas, periódicos y académicos (consulte la página Textos y registros del sitio web de COCA). Además de los seis registros que se enumeraron anteriormente, COCA (a noviembre de 2021) también contiene 125,496,215 palabras de blogs y 129,899,426 de sitios web, lo que lo convierte en un corpus verdaderamente compuesto de inglés contemporáneo (consulte la página Textos y registros de COCA). . [4]
Los textos provienen de diversas fuentes:
- Hablado: (85 millones de palabras) Transcripciones de conversaciones sin guión de casi 150 programas diferentes de radio y televisión.
- Ficción: (81 millones de palabras) Cuentos y obras de teatro, primeros capítulos de libros desde 1990 hasta el presente y guiones de películas.
- Revistas populares: (86 millones de palabras) Casi 100 revistas diferentes, de una variedad de ámbitos como noticias, salud, hogar y jardinería, mujeres, finanzas, religión y deportes.
- Periódicos: (81 millones de palabras) Diez periódicos de todo Estados Unidos, con textos de diferentes secciones de los periódicos, como noticias locales, opinión, deportes y la sección financiera.
- Revistas académicas: (81 millones de palabras) Casi 100 revistas diferentes revisadas por pares. Estos fueron seleccionados para cubrir toda la gama del sistema de clasificación de la Biblioteca del Congreso .
Disponibilidad
El Corpus of Contemporary American English es de búsqueda gratuita para usuarios registrados.
Consultas
- La interfaz es la misma que la interfaz BYU-BNC para el Corpus Nacional Británico de 100 millones de palabras, el Corpus de la Revista Time de 100 millones de palabras y el Corpus de Inglés Americano Histórico (COHA) de 400 millones de palabras, de las décadas de 1810 a 2000 (consulte los enlaces a continuación). )
- Consultas por palabra, frase, alternativas, subcadena, parte del discurso, lema, sinónimos (ver más abajo) y listas personalizadas (ver más abajo)
- El corpus está etiquetado por CLAWS , el mismo etiquetador de parte de la oración (PoS) que se usó para BNC y el corpus Time.
- Listados de gráficos (totales para todas las formas coincidentes en cada género o año, desde 1990 hasta el presente, así como para subgéneros) y listados de tablas (frecuencia para cada forma coincidente en cada género o año)
- Búsqueda completa de colocaciones (hasta diez palabras a la izquierda y a la derecha de la palabra del nodo)
- Concordancias reordenables, que muestran las palabras/cadenas más comunes a la izquierda y a la derecha de la palabra buscada
- Comparaciones entre géneros o períodos de tiempo (por ejemplo, colocaciones de 'silla' en ficción o académico, sustantivos con 'romper la [N]' en periódicos o académicos, adjetivos que aparecen principalmente en revistas deportivas o verbos que son más comunes entre 2005 y 2010 que previamente)
- Comparaciones en un solo paso de colocaciones de palabras relacionadas, para estudiar diferencias semánticas o culturales entre palabras (por ejemplo, comparación de colocaciones de 'pequeño', 'pequeño', 'diminuto', 'minúsculo' o liliputiense o 'demócratas' y 'republicanos' , o 'hombres' y 'mujeres', o 'robar' versus 'robar')
- Los usuarios pueden incluir información semántica de un tesauro de 60.000 entradas directamente como parte de la sintaxis de la consulta (por ejemplo, frecuencia y distribución de sinónimos de "hermoso", sinónimos de "fuerte" que aparecen en la ficción pero no en el ámbito académico, sinónimos de "limpio" + sustantivo (' limpiar el piso', 'lavar los platos'))
- Los usuarios también pueden crear sus propias listas de palabras "personalizadas" y luego reutilizarlas como parte de consultas posteriores (por ejemplo, listas relacionadas con una categoría semántica particular (ropa, comida, emociones) o una parte del discurso definida por el usuario).
- Tenga en cuenta que el corpus está disponible únicamente a través de la interfaz web, debido a restricciones de derechos de autor.
Relacionado
El corpus de inglés global basado en la Web (GloWbE; pronunciado "globo") contiene alrededor de 1.900 millones de palabras de texto de veinte países diferentes. Esto lo hace aproximadamente 100 veces más grande que otros corpus como el International Corpus of English, y permite muchos tipos de búsquedas que de otro modo no serían posibles. Además de esta interfaz en línea, también puede descargar datos de texto completo del corpus.
Es único en el sentido de que permite realizar comparaciones entre diferentes variedades de inglés. GloWbE está relacionado con muchos otros corpus de inglés. [8]
Ver también
Referencias
- ^ ab Milana, Prior (2021). Un estudio de corpus comparativo sobre el uso de intensificadores en registros en inglés americano (Tesis).
- ^ ab "Mark Davies, profesor de lingüística (de corpus), Universidad Brigham Young (BYU)". www.mark-davies.org . Consultado el 9 de noviembre de 2021 .
- ^ Kauhanen, Henri (21 de marzo de 2011). "El corpus del inglés americano contemporáneo: antecedentes e historia". VARIEDAD . Consultado el 13 de octubre de 2011 .
- ^ abcd "Página de inicio". corpus de inglés americano contemporáneo . Consultado el 24 de abril de 2022 .
- ^ Davies, Mark (1 de enero de 2009). "El corpus de más de 385 millones de palabras del inglés americano contemporáneo (1990-2008+): diseño, arquitectura y conocimientos lingüísticos". Revista Internacional de Lingüística de Corpus . 14 (2): 159-190. doi :10.1075/ijcl.14.2.02dav. ISSN 1384-6655.
- ^ Davies, Mark (1 de diciembre de 2010). "El Corpus del inglés americano contemporáneo como el primer corpus de seguimiento fiable del inglés". Computación Literaria y Lingüística . 25 (4): 447–464. doi :10.1093/llc/fqq018. ISSN 0268-1145.
- ^ ab Davies, Mark; Kim, Jong Bok (1 de marzo de 2019). "Las ventajas y desafíos del" big data ": conocimientos del corpus iWeb de 14 mil millones de palabras". Investigación Lingüística . 36 (1): 1–34. doi : 10.17250/khisli.36.1.201903.001 . ISSN 1229-1374. S2CID 133013527.
- ^ "Corpus de inglés global basado en la web". www.english-corpora.org . Consultado el 18 de diciembre de 2019 .
Otras lecturas
- Anderson, Wendy; Corbett, John (2009). Explorando el inglés con corpus en línea . Palgrave Macmillan. pag. 205.ISBN 978-0-230-55140-4.
- Bennett, Gena R. (2010). Uso de Corpora en el aula de aprendizaje de idiomas: lingüística de corpus para profesores . Ann Arbor, Michigan : Universidad de Michigan. pag. 144.ISBN 978-0-472-03385-0.
- Davies, Mark (2005). "La ventaja de utilizar bases de datos relacionales para grandes corpus: velocidad, consultas avanzadas y anotaciones ilimitadas". Revista Internacional de Lingüística de Corpus . Compañía editorial John Benjamins. 10 (3): 307–334(28). doi :10.1075/ijcl.10.3.02dav.
- Davies, Mark (2010). "Más que una mirilla: uso de corpus en línea grandes y diversos". Revista Internacional de Lingüística de Corpus . 15 (3): 405–411. doi :10.1075/ijcl.15.3.13dav.
- Lindquist, Hans (2009). Lingüística de corpus y descripción del inglés . Prensa de la Universidad de Edimburgo. ISBN 978-0-7486-2615-1.
enlaces externos
- Página web oficial
- "El motor de búsqueda lingüística que anuló el mandato federal sobre el uso de mascarillas" - artículo en Verge