Corpus de discursos de BABEL

El corpus de voz de BABEL es un corpus de material de voz grabado en cinco idiomas de Europa central y oriental . Destinado a ser utilizado en aplicaciones de tecnología del habla, fue financiado mediante una subvención de la Unión Europea y se completó en 1998. Lo distribuye la Asociación Europea de Recursos Lingüísticos.

Desarrollo del Proyecto BABEL

Tras la creación de un corpus de habla de las lenguas de la Unión Europea por el proyecto SAM, la Unión Europea concedió financiación para la creación, en líneas similares, de un corpus de habla de las lenguas de Europa central y oriental , con el nombre de BABEL.

El impulso inicial provino del proyecto SAM (Speech Assessment Methods) financiado por la Unión Europea como Proyecto ESPRIT #1541 en 1987-89. ^[1] Este proyecto fue llevado a cabo por un grupo internacional de fonetistas, y se aplicó en primera instancia a los idiomas de las Comunidades Europeas danés, holandés, inglés, francés, alemán e italiano (en 1989). SAM produjo muchas herramientas de investigación del habla (incluida la transcripción fonética basada en computadora SAMPA que también se utilizó para el proyecto BABEL) y un corpus de material de habla grabada distribuido en CD-ROM. ^[2] Se hizo una propuesta a la Unión Europea bajo la iniciativa Copernicus en 1994, con el objetivo de crear un corpus de búlgaro hablado , estonio , húngaro , polaco y rumano , y se otorgó la subvención #1304 para esto. Un proyecto piloto para crear un pequeño corpus de búlgaro hablado fue llevado a cabo conjuntamente por las Universidades de Sofía (Bulgaria) y Reading (Reino Unido). ^[3] La reunión inicial de todo el equipo del proyecto tuvo lugar en la Universidad de Reading en 1995.

Material grabado

Dado que el objetivo era producir material adecuado para su uso en aplicaciones de tecnología del habla, las grabaciones digitales se realizaron en condiciones estrictamente controladas en estudios de grabación. Para cada idioma, el material tenía la siguiente composición:

Grupo de hablantes múltiples: 30 hombres y 30 mujeres leyeron cada uno 100 números, 3 pasajes de habla conectada y 5 oraciones de "relleno" (para proporcionar más instancias de algunos elementos) o 4 pasajes si no se necesitaban rellenos.
Grupo de pocos hablantes: 5 hombres y 5 mujeres, normalmente seleccionados del grupo anterior, cada uno lee 5 bloques de 100 números, 15 pasajes y 25 oraciones de relleno, además de 5 listas de sílabas.
Conjunto de muy pocos hablantes: 1 hombre y 1 mujer seleccionados de los anteriores, leen 5 bloques de sílabas, con y sin oraciones portadoras.

Membresía del Proyecto BABEL

Director del proyecto: Peter Roach (Universidad de Reading)

Líderes de proyectos en Europa Central y Oriental

Bulgaria: inicialmente A. Misheva hasta su muerte en 1995, luego S. Dimitrova (Universidad de Sofía).
Estonia: E. Meister (Universidad de Tallin)
Hungría: K. Vicsi (Universidad Técnica de Budapest)
Polonia: R. Gubrynowicz (Academia de Ciencias de Polonia) y W. Gonet (Universidad de Lublin)
Rumania: M. Boldea (Universidad de Timișoara ) )

Miembros del proyecto en Europa Occidental

Francia: L. Lamel (LIMSI, París); A. Marchal (CNRS)
Alemania: W. Barry ( Universidad del Sarre ); K. Marasek (Universidad de Stuttgart)
Reino Unido: J. Wells (University College London); P. Roach (Universidad de Reading)

Resultados del proyecto

En 1996 se celebró en Lublin (Polonia) una reunión de evaluación intermedia del proyecto. A continuación, el trabajo continuó hasta la evaluación final y la presentación de los resultados en Granada (España) en el marco de la Primera Conferencia Internacional sobre Recursos Lingüísticos y Evaluación, celebrada en 1998. ^[4] El proyecto se completó en diciembre de 1998. El conjunto de corpus resultante se entregó a la Asociación Europea de Recursos Lingüísticos. La ELRA es la única responsable de distribuir el material a los usuarios a través de su sitio web. ^[5]

En el momento de su finalización, BABEL era la base de datos de voz de alta calidad más grande disponible para fines de investigación en idiomas como el húngaro ^{[6] y el estonio}^[7] . Se ha utilizado para la investigación en temas como el modelado de la pronunciación ^{[6] y el reconocimiento automático del habla}^[8] . El proyecto también fue parte de lo que se ha llamado el desarrollo reciente más significativo en lingüística de corpus: la creciente gama de idiomas cubiertos por los datos de corpus, que promete llevar a una gama más amplia de idiomas los beneficios que la lingüística de corpus ha aportado al estudio de los idiomas de Europa occidental ^{[9] .}

Referencias

^ D. Chan, A. Fourcin, D. Gibbon, B. Granstrom, M. Huckvale, G. Kokkinakis, K. Kvale, L. Lamel , B. Lindberg, A. Moreno, J. Mouropoulos, F. Senia, I. Trancoso, C. Veld y J. Zeiliger, "EUROM – A Spoken Language Resource for the EU", en Eurospeech'95, Actas de la 4ª Conferencia Europea sobre Comunicación del Habla y Tecnología del Habla . Madrid, España, 18-21 de septiembre de 1995. Vol 1, págs. 867-870.
^ "EUROM1 – Multilingual Speech Corpus". University College London . Consultado el 19 de enero de 2015 .
^ Misheva, A., Dimitrova, S., Filipov, V., Grigorova, E., Nikov, M., Roach, P. y Arnfield, S. 'Bulgarian Speech Database: un estudio piloto', Actas de Eurospeech '95 , Madrid, vol. 1, págs. 859-862 (1995)
^ Roach, P., S. Arnfield, W. Barry, S. Dimitrova, M. Boldea, A. Fourcin, W. Gonet, R. Gubrynowicz, E. Hallum, L. Lamel , K. Marasek, A. Marchal, E. Meister, K. Vicsi (1998). 'BABEL: A Database Of Central And Eastern European Languages', Actas de la Primera Conferencia Internacional sobre Recursos Lingüísticos y Evaluación , eds. A. Rubio et al, Granada, vol. 1, págs. 371-4.
^ "Resultados de la búsqueda de: babel". Asociación Europea de Recursos Lingüísticos . Consultado el 18 de enero de 2015 .
^ ab Fegyó, Tibor; Peter Mihajlik; Peter Tatai; Géza Gordos (2001). "Modelado de pronunciación en el reconocimiento de números húngaros". En INTERSPEECH, págs. 1465-1468.
^ Alumae, Tanel (2004). Reconocimiento continuo del habla de vocabulario amplio para estonio mediante clases de morfemas . INTERSPEECH, Jeju, Corea. págs. 389–392.
^ Mihajlik, Peter; Révész, Tibor; Tatai, Peter (1 de noviembre de 2002). «Transcripción fonética en reconocimiento automático de voz» (PDF) . Acta Lingüística Húngara . 49 (3): 407–425. doi :10.1556/ALing.49.2002.3-4.9.
^ McEnery, Tony (2001). Lingüística de corpus: una introducción . Oxford University Press. pág. 188. ISBN 9780748611652.