Corpus de Cambridge English

El Cambridge International Corpus (CIC) es una colección de más de 800 millones de palabras de inglés real, tanto hablado como escrito . Los textos se almacenan en una base de datos en la que se puede realizar una búsqueda para ver cómo se utiliza el inglés. El CIC también contiene el Cambridge Learner Corpus, una colección única de más de 60.000 exámenes de Cambridge ESOL. Muestra los errores reales que cometen los estudiantes y destaca las partes del inglés que les causan problemas.

El Cambridge International Corpus se utiliza para informar a las publicaciones de Cambridge University Press English Language Teaching , así como para la investigación en lingüística de corpus . El acceso está restringido actualmente a los autores e investigadores que trabajan en proyectos y publicaciones para Cambridge University Press y a los investigadores de Cambridge English Language Assessment . ^[1]

Contiene ejemplos de inglés escrito moderno extraídos de periódicos, revistas, novelas, cartas, correos electrónicos, libros de texto, sitios web y muchas otras fuentes. Los datos orales proceden de muchas fuentes, incluidas conversaciones cotidianas, llamadas telefónicas, emisiones de radio, presentaciones, discursos, reuniones, programas de televisión y conferencias.

Corpus de aprendizaje de Cambridge

El Cambridge Learner Corpus (CLC) es una colección de exámenes escritos por estudiantes que están aprendiendo inglés, creada en colaboración con Cambridge English Language Assessment. El CLC contiene exámenes de más de 180.000 estudiantes, de alrededor de 200 países, que hablan 138 lenguas maternas diferentes y está en constante crecimiento. ^[2] Los exámenes incluidos actualmente son:

Prueba de inglés KET Key (y KET para escuelas)
Prueba preliminar de inglés PET (y PET para escuelas)
Certificado FCE First en inglés
Certificado CAE en Inglés Avanzado
Certificado CPE de Competencia en Inglés
Certificado BEC de inglés comercial (todos los niveles)
Sistema internacional de evaluación del idioma inglés IELTS (formación académica y general)
Certificados CELS en competencias lingüísticas en inglés
Certificado internacional de inglés jurídico ILEC
Certificado Internacional ICFE en Inglés Financiero
Habilidades para la vida

Una característica única del Cambridge Learner Corpus es su sistema de codificación de errores. Los especialistas en lenguas identifican y anotan los errores en los exámenes. Esto significa que el Corpus puede utilizarse para averiguar la frecuencia de los distintos tipos de errores, los contextos en los que se cometen y los grupos de estudiantes que encuentran dificultades en determinadas áreas del lenguaje. ^[3]

Los autores de recursos de enseñanza del idioma inglés de Cambridge pueden usar esta información para identificar errores comunes; por ejemplo, el Cambridge Advanced Learner's Dictionary contiene funciones de "Errores comunes" que resaltan los errores frecuentes de los estudiantes.

Por el contrario, el sistema de codificación de errores también revela lo que los estudiantes pueden lograr en cada nivel. Esto es fundamental para el trabajo de English Profile , un programa colaborativo para mejorar el aprendizaje, la enseñanza y la evaluación del inglés en todo el mundo. ^[4] Los socios fundadores son Cambridge University Press , Cambridge English Language Assessment , la Universidad de Cambridge , la Universidad de Bedfordshire , el British Council y English UK. ^[5] El objetivo del proyecto es describir lo que los estudiantes saben y pueden hacer en inglés en cada nivel del Marco Común Europeo de Referencia (MCER). ^[6]

Corpus especializados

El Cambridge English Corpus contiene una serie de corpus especializados:

Corpus de inglés comercial de Cambridge

El Cambridge Business English Corpus es una gran colección de lenguaje comercial británico y estadounidense, que incluye informes y documentos, libros relacionados con diferentes aspectos de los negocios y las secciones de negocios de muchos periódicos nacionales.

El Cambridge Business English Corpus también incluye el Cambridge and Nottingham Spoken Business English Corpus (CANBEC), resultado de un proyecto conjunto entre Cambridge University Press y la Universidad de Nottingham . Se trata de una colección de grabaciones de inglés de empresas de todos los tamaños, desde grandes multinacionales hasta pequeñas sociedades. Contiene reuniones formales e informales, presentaciones, conversaciones telefónicas, conversaciones a la hora del almuerzo y lenguaje hablado de otras situaciones empresariales.

Corpus de Cambridge Legal English

El Cambridge Legal English Corpus contiene libros, revistas y artículos de periódicos relacionados con la ley y los procesos legales.

Corpus de inglés financiero de Cambridge

El Cambridge Financial English Corpus contiene textos relacionados con la economía y las finanzas, incluidas las principales revistas y periódicos financieros.

Corpus académico de inglés de Cambridge

El Cambridge Academic English Corpus contiene lenguaje académico escrito y hablado de nivel de pregrado y posgrado de una variedad de instituciones de EE. UU. y el Reino Unido, incluidas conferencias, seminarios, presentaciones de estudiantes, revistas, ensayos y libros de texto.

CÓDIGO CAN

El Cambridge and Nottingham Corpus of Discourse in English (CANCODE) es una colección de inglés hablado grabado en cientos de lugares de las Islas Británicas en una amplia variedad de situaciones (por ejemplo, conversaciones informales, socialización, búsqueda de información y debates). El corpus CANCODE es el resultado de un proyecto conjunto entre Cambridge University Press y la Universidad de Nottingham .

El corpus CANCODE contiene alrededor de cinco millones de palabras y es un recurso muy rico para los investigadores del inglés hablado. Sin embargo, los datos tienen algunas limitaciones. La mayoría de las personas sabían que estaban siendo grabadas y conversaban en situaciones informales, como cuando se relajaban en casa, con otras personas de un estatus social bastante similar. Esto significa que las interacciones son generalmente consensuales y colaborativas, por lo que el corpus tiene evidencia mínima de conflictos o intercambios adversarios ^[7].

Corpus Cambridge-Cornell de inglés norteamericano hablado

El Cambridge University Press/Cornell Corpus es una gran colección de conversaciones informales, altamente interactivas y multipartitas entre familiares y amigos en Norteamérica. El corpus Cambridge-Cornell es el resultado de un proyecto conjunto entre Cambridge University Press y la Universidad de Cornell .

CAMSNAE

El Cambridge Corpus of Spoken North American English (CAMSNAE) es una gran colección de inglés norteamericano hablado . Incluye grabaciones de personas en su vida cotidiana: en el trabajo, en casa con sus familias, haciendo compras, comiendo, etc.

Véase también

Referencias

^ Corpus internacional de Cambridge, http://www.cambridge.org/us/esl/catalog/subject/custom/item3637700/Cambridge-International-Corpus-Cambridge-International-Corpus/?site_locale=en_US
^ Corpus de aprendizaje de Cambridge, http://www.cambridge.org/us/esl/catalog/subject/custom/item3646603/Cambridge-International-Corpus-Cambridge-Learner-Corpus/?site_locale=en_US
^ Diane Nicholls, http://ucrel.lancs.ac.uk/publications/CL2003/papers/nicholls.pdf
^ Proyecto de perfil en inglés, http://www.englishprofile.org/index.php?option=com_content&view=article&id=11&Itemid=2 Archivado el 14 de septiembre de 2011 en Wayback Machine.
^ Perfil en inglés, http://www.englishprofile.org/index.php?option=com_content&view=article&id=24&Itemid=22 Archivado el 7 de mayo de 2011 en Wayback Machine.
^ Consejo de Europa, Niveles del MCER, «Copia archivada». Archivado desde el original el 30 de octubre de 2009. Consultado el 5 de noviembre de 2009 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )
^ Carter (2004) Lenguaje y creatividad: el arte del lenguaje cotidiano. Londres: Routledge.

Enlaces externos

cambridge.org/corpus