Corpus del habla de BABEL

El corpus de habla BABEL es un corpus de materiales de habla grabados de cinco idiomas de Europa central y oriental . Diseñado para su uso en aplicaciones de tecnología del habla, fue financiado con una subvención de la Unión Europea y completado en 1998. Lo distribuye la Asociación Europea de Recursos Lingüísticos.

Desarrollo del Proyecto BABEL

Tras la creación de un corpus de habla de lenguas de la Unión Europea por parte del proyecto SAM, la Unión Europea concedió financiación para la creación, siguiendo líneas similares, de un corpus de habla de lenguas de Europa Central y Oriental , con el nombre de BABEL.

El impulso inicial provino del proyecto SAM (Speech Assessment Methods) financiado por la Unión Europea como Proyecto ESPRIT #1541 en 1987-1989. ^[1] Este proyecto fue realizado por un grupo internacional de fonetistas y se aplicó en primera instancia a los idiomas de las Comunidades Europeas danés, holandés, inglés, francés, alemán e italiano (en 1989). SAM produjo muchas herramientas de investigación del habla (incluida la transcripción fonética por computadora SAMPA que también se utilizó para el proyecto BABEL) y un corpus de material de habla grabado distribuido en CD-ROM. ^[2] Se hizo una propuesta a la Unión Europea bajo la iniciativa Copernicus en 1994, con el objetivo de crear un corpus de habla búlgara , estonia , húngara , polaca y rumana , y se otorgó la subvención #1304 para esto. Las Universidades de Sofía (Bulgaria) y Reading (Reino Unido) llevaron a cabo conjuntamente un proyecto piloto para crear un pequeño corpus de búlgaro hablado. ^[3] La reunión inicial de todo el equipo del proyecto tuvo lugar en la Universidad de Reading en 1995.

Material grabado

Dado que el objetivo era producir material adecuado para su uso en aplicaciones de tecnología del habla, las grabaciones digitales se realizaron en condiciones estrictamente controladas en estudios de grabación. Para cada idioma el material tenía la siguiente composición:

Conjunto de muchos hablantes: 30 hombres y 30 mujeres leyeron cada uno 100 números, 3 pasajes de discursos conectados y 5 oraciones de "relleno" (para proporcionar más ejemplos de algunos elementos) o 4 pasajes si no se necesitaban rellenos.
Conjunto de pocos hablantes: 5 hombres y 5 mujeres, normalmente seleccionados del grupo anterior, cada uno lee 5 bloques de 100 números, 15 pasajes y 25 oraciones de relleno, más 5 listas de sílabas.
Conjunto de muy pocos hablantes: 1 hombre y 1 mujer seleccionados de entre los anteriores leen 5 bloques de sílabas, con y sin frases portadoras.

Membresía del Proyecto BABEL

Director del proyecto: Peter Roach (Universidad de Reading)

Líderes de proyectos en Europa Central y del Este

Bulgaria: inicialmente A. Misheva hasta su muerte en 1995, luego S. Dimitrova (Universidad de Sofía).
Estonia: E. Meister (Universidad de Tallin)
Hungría: K. Vicsi (Universidad Técnica de Budapest)
Polonia: R. Gubrynowicz (Academia de Ciencias de Polonia) y W. Gonet (Universidad de Lublin)
Rumania: M. Boldea (Universidad de Timișoara ) )

Miembros del proyecto en Europa Occidental

Francia: L. Lamel (LIMSI, París); A. Marchal (CNRS)
Alemania: W. Barry ( Universidad del Sarre ); K. Marasek (Universidad de Stuttgart)
Reino Unido: J. Wells (University College London); P. Roach (Universidad de Reading)

Resultados del proyecto

En 1996 se celebró una reunión intermedia de evaluación del proyecto en Lublin, Polonia. Luego, el trabajo continuó hasta una evaluación final y presentación de los resultados en Granada, España, en la Primera Conferencia Internacional sobre Evaluación y Recursos Lingüísticos, en 1998. ^[4] El proyecto se completó en diciembre de 1998. El conjunto de corpus resultante se entregó luego a la Asociación Europea de Recursos Lingüísticos. ELRA es la responsable exclusiva de distribuir el material a los usuarios a través de su sitio web. ^[5]

En el momento de su finalización, BABEL era la mayor base de datos de voz de alta calidad disponible para fines de investigación en idiomas como el húngaro ^[6] y el estonio. ^[7] Se ha utilizado para investigaciones sobre temas como el modelado de pronunciación ^[6] y el reconocimiento automático de voz. ^[8] El proyecto también fue parte de lo que se ha llamado el desarrollo reciente más significativo en lingüística de corpus: la creciente gama de lenguas cubiertas por datos de corpus, que promete llevar a una gama más amplia de lenguas los beneficios que la lingüística de corpus ha aportado a el estudio de las lenguas de Europa occidental. ^[9]

Referencias

^ D. Chan, A. Fourcin, D. Gibbon, B. Granstrom, M. Huckvale, G. Kokkinakis, K. Kvale, L. Lamel , B. Lindberg, A. Moreno, J. Mouropoulos, F. Senia, I Trancoso, C. Veld & J. Zeiliger, "EUROM - A Spoken Language Resource for the EU", en Eurospeech'95, Actas de la 4ª Conferencia Europea sobre Comunicación del Habla y Tecnología del Habla . Madrid, España, 18 a 21 de septiembre de 1995. Vol. 1, págs. 867-870
^ "EUROM1 - Corpus de habla multilingüe". University College de Londres . Consultado el 19 de enero de 2015 .
^ Misheva, A., Dimitrova, S., Filipov, V., Grigorova, E., Nikov, M., Roach, P. y Arnfield, S. 'Bulgarian Speech Database: un estudio piloto', Actas de Eurospeech '95 , Madrid, vol. 1, págs. 859-862 (1995)
^ Roach, P., S.Arnfield, W.Barry, S.Dimitrova, M.Boldea, A.Fourcin, W.Gonet, R.Gubrynowicz, E.Hallum, L.Lamel , K.Marasek, A.Marchal, E. Meister, K. Vicsi (1998). 'BABEL: Una base de datos de lenguas de Europa central y oriental', Actas de la primera conferencia internacional sobre evaluación y recursos lingüísticos , eds. A. Rubio et al, Granada, vol. 1, págs. 371-4.
^ "Resultados de la búsqueda para: babel". Asociación Europea de Recursos Lingüísticos . Consultado el 18 de enero de 2015 .
^ ab Fegyó, Tibor; Peter Mihajlik; Peter Tatai; Géza Gordos (2001). "Modelado de pronunciación en el reconocimiento de números húngaros". En INTERSPEECH, págs. 1465-1468.
^ Alumae, Tanel (2004). Reconocimiento continuo de voz de amplio vocabulario en estonio mediante clases de morfemas . INTERSPEECH, Jeju, Corea. págs. 389–392.
^ Mihajlik, Peter; Révész, Tibor; Tatai, Peter (1 de noviembre de 2002). «Transcripción fonética en reconocimiento automático de voz» (PDF) . Acta Lingüística Húngara . 49 (3): 407–425. doi :10.1556/ALing.49.2002.3-4.9.
^ McEnery, Tony (2001). Lingüística de corpus: una introducción . Prensa de la Universidad de Oxford. pag. 188.ISBN 9780748611652.