El corpus de habla BABEL es un corpus de materiales de habla grabados de cinco idiomas de Europa central y oriental . Diseñado para su uso en aplicaciones de tecnología del habla, fue financiado con una subvención de la Unión Europea y completado en 1998. Lo distribuye la Asociación Europea de Recursos Lingüísticos.
Tras la creación de un corpus de habla de lenguas de la Unión Europea por parte del proyecto SAM, la Unión Europea concedió financiación para la creación, siguiendo líneas similares, de un corpus de habla de lenguas de Europa Central y Oriental , con el nombre de BABEL.
El impulso inicial provino del proyecto SAM (Speech Assessment Methods) financiado por la Unión Europea como Proyecto ESPRIT #1541 en 1987-1989. [1] Este proyecto fue realizado por un grupo internacional de fonetistas y se aplicó en primera instancia a los idiomas de las Comunidades Europeas danés, holandés, inglés, francés, alemán e italiano (en 1989). SAM produjo muchas herramientas de investigación del habla (incluida la transcripción fonética por computadora SAMPA que también se utilizó para el proyecto BABEL) y un corpus de material de habla grabado distribuido en CD-ROM. [2] Se hizo una propuesta a la Unión Europea bajo la iniciativa Copernicus en 1994, con el objetivo de crear un corpus de habla búlgara , estonia , húngara , polaca y rumana , y se otorgó la subvención #1304 para esto. Las Universidades de Sofía (Bulgaria) y Reading (Reino Unido) llevaron a cabo conjuntamente un proyecto piloto para crear un pequeño corpus de búlgaro hablado. [3] La reunión inicial de todo el equipo del proyecto tuvo lugar en la Universidad de Reading en 1995.
Dado que el objetivo era producir material adecuado para su uso en aplicaciones de tecnología del habla, las grabaciones digitales se realizaron en condiciones estrictamente controladas en estudios de grabación. Para cada idioma el material tenía la siguiente composición:
Director del proyecto: Peter Roach (Universidad de Reading)
Bulgaria: inicialmente A. Misheva hasta su muerte en 1995, luego S. Dimitrova (Universidad de Sofía).
Estonia: E. Meister (Universidad de Tallin)
Hungría: K. Vicsi (Universidad Técnica de Budapest)
Polonia: R. Gubrynowicz (Academia de Ciencias de Polonia) y W. Gonet (Universidad de Lublin)
Rumania: M. Boldea (Universidad de Timișoara ) )
Francia: L. Lamel (LIMSI, París); A. Marchal (CNRS)
Alemania: W. Barry ( Universidad del Sarre ); K. Marasek (Universidad de Stuttgart)
Reino Unido: J. Wells (University College London); P. Roach (Universidad de Reading)
En 1996 se celebró una reunión intermedia de evaluación del proyecto en Lublin, Polonia. Luego, el trabajo continuó hasta una evaluación final y presentación de los resultados en Granada, España, en la Primera Conferencia Internacional sobre Evaluación y Recursos Lingüísticos, en 1998. [4] El proyecto se completó en diciembre de 1998. El conjunto de corpus resultante se entregó luego a la Asociación Europea de Recursos Lingüísticos. ELRA es la responsable exclusiva de distribuir el material a los usuarios a través de su sitio web. [5]
En el momento de su finalización, BABEL era la mayor base de datos de voz de alta calidad disponible para fines de investigación en idiomas como el húngaro [6] y el estonio. [7] Se ha utilizado para investigaciones sobre temas como el modelado de pronunciación [6] y el reconocimiento automático de voz. [8] El proyecto también fue parte de lo que se ha llamado el desarrollo reciente más significativo en lingüística de corpus: la creciente gama de lenguas cubiertas por datos de corpus, que promete llevar a una gama más amplia de lenguas los beneficios que la lingüística de corpus ha aportado a el estudio de las lenguas de Europa occidental. [9]