stringtranslate.com

Corpus de inglés hablado

Spoken English Corpus ( SEC ) es una colección de corpus de habla de grabaciones de inglés británico hablado compiladas entre 1984 y 1987. El manual del corpus se puede encontrar en ICAME . [1]

Historia

El proyecto Spoken English Corpus (SEC) fue financiado conjuntamente en 1984-5 por el Fondo de Investigación en Humanidades de la Universidad de Lancaster y por IBM (Reino Unido) Ltd, y posteriormente por IBM UK Ltd. El proyecto fue financiado por Geoffrey Leech en Lancaster y Geoffrey Kaye en IBM. El proyecto fue una colaboración, financiada por IBM , entre la Unidad de Investigación Informática sobre el Idioma Inglés (UCREL) de la Universidad de Lancaster y el Centro Científico de IBM en Winchester . [2]

Compilación

SEC comprende 53 pasajes grabados, principalmente de la BBC , hablados en el acento que normalmente se conoce como pronunciación recibida o RP. La colección cubre categorías como comentarios, transmisiones de noticias, conferencias, diálogos, poesía y propaganda. [3] El corpus contiene 52.637 palabras, con un total de 339 minutos. La compilación del corpus está descrita por Lita Taylor en su artículo de 1996 "La compilación del corpus de inglés hablado". [4]

Transcripción

Knowles et al., (1996) Un corpus de habla formal en inglés británico, Routledge

Se diseñó un sistema para la transcripción de la entonación del material de las grabaciones. Dos transcriptores, Gerry Knowles y Briony Williams, ambos con el apoyo de Lita Taylor, analizaron todo el corpus. Williams explica el sistema de transcripción [5] y Brian Pickering realizó un experimento para evaluar el grado de acuerdo entre los dos transcriptores en una sección del corpus que contenía alrededor de 1000 unidades de tono que fue transcrita por ambos transcriptores [6] . Se encontró un buen acuerdo.

Un atributo importante de un corpus moderno es que se puede leer en una computadora: un corpus tiende a residir en un disco duro en lugar de en una estantería. Al presentar el corpus en este formato de libro, los autores han tenido en cuenta las necesidades de los lingüistas de corpus establecidos y de aquellos que aún no están familiarizados con los corpus. Cualquiera que tenga el corpus en un disco puede hacer copias físicas de la mayoría de los archivos; pero sin una fuente especial para imprimir los símbolos prosódicos, los textos prosódicos no se podrán imprimir o leer. Por esta razón se ha elegido la versión prosódica para su publicación.

La transcripción completa impresa fue realizada en su forma actual por Peter Alderson, quien más tarde asumió el cargo de Gerente de Investigación del Habla en IBM. El volumen se tituló posteriormente "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus" y fue publicado por primera vez por Longman en 1996, y más tarde por Routledge en 2013. El libro está actualmente disponible en librerías en línea, incluidas Routledge y Book Depository, o en formato electrónico en Google Play Books. [7] [8]

Otros análisis

El etiquetado gramatical de cada palabra, basado en el conjunto de etiquetas CLAWS1 , se agregó al texto del SEC mediante un proceso automático. [9] [10] El hecho de que este etiquetado estuviera en formato legible por máquina hizo posible relacionar la información gramatical y prosódica en los textos. El trabajo posterior utilizó modelos probabilísticos para desarrollar aún más el etiquetado gramatical y producir técnicas de análisis automático . [11]

Anne Wichmann publicó su investigación sobre la entonación SEC, "La entonación en el texto y el discurso: comienzos, medios y finales" en 2000. [12]

Corpus de inglés hablado legible por máquina (MARSEC)

Aunque el texto y su etiquetado asociado existían en forma legible por máquina, las grabaciones en sí mismas existían solo como grabaciones en cinta. Una colaboración, financiada por el Consejo de Investigación Económica y Social en 1992-4, entre científicos del habla de las Universidades de Lancaster y Leeds en el Reino Unido se propuso producir una versión del corpus que contenía las grabaciones en formato digital, vinculadas temporalmente al texto. [13] Los investigadores principales fueron Gerry Knowles y Tamas Varadi (Lancaster) y Peter Roach y Simon Arnfield (Leeds). El esquema del proyecto se establece en Knowles, [14] y la alineación temporal automática está descrita por Roach y Arnfield. [15] Las grabaciones digitalizadas se grabaron en CD-ROM . Posteriormente, se puso a disposición para su descarga con fines de investigación desde la Universidad de Leeds, aunque esta función ya no se admite. [16]

Aix-MARSEC

El trabajo sobre MARSEC en Lancaster y Leeds finalizó alrededor de 1995, pero el corpus ha sido posteriormente objeto de una considerable cantidad de desarrollo posterior en la Universidad de Aix-en-Provence , Francia, bajo la dirección de Daniel Hirst. [17] La ​​base de datos consta de dos componentes principales: las grabaciones digitalizadas de MARSEC y las anotaciones. Hasta ahora se han realizado anotaciones en nueve niveles, incluidos fonemas , sílabas , palabras , pies acentuados, unidades de ritmo y unidades de giro menor y mayor . Pronto se integrarán dos niveles complementarios, la anotación gramatical de CLAWS y un sistema de gramática de propiedades desarrollado en Aix-en-Provence. [18] Una posible desventaja de este tratamiento es que el corpus solo se puede buscar utilizando scripts especialmente escritos. [19] La base de datos, junto con las herramientas, está disponible bajo licencia GNU GPL en el sitio del proyecto Aix-MARSEC. [20]

Referencias

  1. ^ "MANUAL DE INFORMACIÓN PARA ACOMPAÑAR EL CORPUS SEC". korpus.uib.no . Consultado el 15 de octubre de 2020 .
  2. ^ Leech, Geoffrey . (1996). "El corpus del inglés hablado en su contexto". Prólogo. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech . Longman. p. ix. ISBN 9780582045347.
  3. ^ Xiao, Ricardo; Toño, Yukio (2006). MacEnery, Tony (ed.). Estudios lingüísticos basados ​​en corpus: un libro de recursos avanzados. Taylor y Francisco. pag. 63.ISBN 9780415286220.
  4. ^ Taylor, Lita. (1996). "La recopilación del corpus del inglés hablado". Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech . Longman. págs. 20–37. ISBN 9780582045347.
  5. ^ Williams, Briony. (1996). "La formulación de un sistema de transcripción de entonación para el inglés británico". Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech . Longman. págs. 38–57. ISBN 9780582045347.
  6. ^ Pickering, Brian. (1996). "Análisis de las diferencias entre transcriptores en el SEC". Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech . Longman. págs. 61–86. ISBN 9780582045347.
  7. ^ "Un corpus de habla formal en inglés británico: el corpus de inglés hablado de Lancaster/IBM (libro de bolsillo) - Routledge". Routledge.com . Consultado el 22 de julio de 2018 .
  8. ^ "Un corpus de discurso formal en inglés británico: Gerald Knowles: 9781138457768". www.bookdepository.com . Consultado el 30 de enero de 2019 .
  9. ^ Taylor, Lita. (1996). "La recopilación del corpus del inglés hablado". Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech . Longman. pág. 30. ISBN 9780582045347.
  10. ^ "Conjunto de etiquetas UCREL CLAWS1 (LOB)". ucrel.lancs.ac.uk . Consultado el 15 de octubre de 2020 .
  11. ^ Sampson, Geoffrey . (1987). "Modelos probabilísticos de análisis". Garside, Roger; Sampson, Geoffrey ; Leech, Geoffrey (1987). El análisis computacional del inglés . Longman. ISBN 9780582291492.
  12. ^ "Entonación en el texto y el discurso: comienzos, medios y finales". Routledge & CRC Press . Consultado el 15 de octubre de 2020 .
  13. ^ Roach, P., Knowles, G., Varadi, T. y Arnfield, S. (1994) Roach, Peter; Knowles, Gerry; Varadi, Tamas; Arnfield, Simon (1993). "MARSEC: un corpus de inglés hablado legible por máquina". Revista de la Asociación Fonética Internacional . 23 (2): 47–54. doi :10.1017/s0025100300004849. ISSN  0025-1003. S2CID  145797962.
  14. ^ Knowles, G. "Convertir un corpus en una base de datos relacional: SEC se convierte en MARSEC" Geoffrey, Leech ; Myers, Greg; Thomas, Jenny (1995). Inglés hablado en la computadora . Longman. págs. 208–219. ISBN 9780582250215.
  15. ^ Roach, Peter y Arnfield, Simon. "Vinculación de la transcripción prosódica con la dimensión temporal". Geoffrey, Leech ; Myers, Greg; Thomas, Jenny (1995). Inglés hablado en la computadora . Longman. págs. 149-160. ISBN. 9780582250215.
  16. ^ "MARSEC: El corpus de inglés hablado legible por máquina". www.reading.ac.uk . Consultado el 15 de octubre de 2020 .
  17. ^ Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 de julio de 2010). «Base de datos Aix-MARSEC». Archivado desde el original el 23 de enero de 2010. Consultado el 15 de abril de 2013 .
  18. ^ Auron, Cirilo; Bouzon, Carolina (2003). "Phonotactique prédictive et alignement automatique: application au corpus MARSEC et outlooks" [Fonotáctica predictiva y alineación automática: aplicación en el corpus y perspectivas MARSEC]. Travaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (en francés). 22 . Publicaciones de la Universidad de Provence : 33–63 . Consultado el 15 de abril de 2013 .
  19. ^ Wichmann, Anne "Corpus de habla y corpus hablados" Ludeling, Anke; Kyto, Merja (2006). Lingüística de Corpus 1 . Walter de Gruyter. pag. 200.ISBN 9783110180435.
  20. ^ Hirst, Daniel. «Proyecto Aix-MARSEC». Archivado desde el original el 23 de enero de 2010. Consultado el 15 de abril de 2013 .