El corpus de voz de BABEL es un corpus de material de voz grabado en cinco idiomas de Europa central y oriental . Destinado a ser utilizado en aplicaciones de tecnología del habla, fue financiado mediante una subvención de la Unión Europea y se completó en 1998. Lo distribuye la Asociación Europea de Recursos Lingüísticos.
Tras la creación de un corpus de habla de las lenguas de la Unión Europea por el proyecto SAM, la Unión Europea concedió financiación para la creación, en líneas similares, de un corpus de habla de las lenguas de Europa central y oriental , con el nombre de BABEL.
El impulso inicial provino del proyecto SAM (Speech Assessment Methods) financiado por la Unión Europea como Proyecto ESPRIT #1541 en 1987-89. [1] Este proyecto fue llevado a cabo por un grupo internacional de fonetistas, y se aplicó en primera instancia a los idiomas de las Comunidades Europeas danés, holandés, inglés, francés, alemán e italiano (en 1989). SAM produjo muchas herramientas de investigación del habla (incluida la transcripción fonética basada en computadora SAMPA que también se utilizó para el proyecto BABEL) y un corpus de material de habla grabada distribuido en CD-ROM. [2] Se hizo una propuesta a la Unión Europea bajo la iniciativa Copernicus en 1994, con el objetivo de crear un corpus de búlgaro hablado , estonio , húngaro , polaco y rumano , y se otorgó la subvención #1304 para esto. Un proyecto piloto para crear un pequeño corpus de búlgaro hablado fue llevado a cabo conjuntamente por las Universidades de Sofía (Bulgaria) y Reading (Reino Unido). [3] La reunión inicial de todo el equipo del proyecto tuvo lugar en la Universidad de Reading en 1995.
Dado que el objetivo era producir material adecuado para su uso en aplicaciones de tecnología del habla, las grabaciones digitales se realizaron en condiciones estrictamente controladas en estudios de grabación. Para cada idioma, el material tenía la siguiente composición:
Director del proyecto: Peter Roach (Universidad de Reading)
Bulgaria: inicialmente A. Misheva hasta su muerte en 1995, luego S. Dimitrova (Universidad de Sofía).
Estonia: E. Meister (Universidad de Tallin)
Hungría: K. Vicsi (Universidad Técnica de Budapest)
Polonia: R. Gubrynowicz (Academia Polaca de Ciencias) y W. Gonet (Universidad de Lublin)
Rumania: M. Boldea (Universidad de Timișoara ) )
Francia: L. Lamel (LIMSI, París); A. Marchal (CNRS)
Alemania: W. Barry ( Universidad del Sarre ); K. Marasek (Universidad de Stuttgart)
Reino Unido: J. Wells (University College London); P. Roach (Universidad de Reading)
En 1996 se celebró en Lublin (Polonia) una reunión de evaluación intermedia del proyecto. A continuación, el trabajo continuó hasta la evaluación final y la presentación de los resultados en Granada (España) en el marco de la Primera Conferencia Internacional sobre Recursos Lingüísticos y Evaluación, celebrada en 1998. [4] El proyecto se completó en diciembre de 1998. El conjunto de corpus resultante se entregó a la Asociación Europea de Recursos Lingüísticos. La ELRA es la única responsable de distribuir el material a los usuarios a través de su sitio web. [5]
En el momento de su finalización, BABEL era la base de datos de voz de alta calidad más grande disponible para fines de investigación en idiomas como el húngaro [6] y el estonio [7] . Se ha utilizado para la investigación en temas como el modelado de la pronunciación [6] y el reconocimiento automático del habla [8] . El proyecto también fue parte de lo que se ha llamado el desarrollo reciente más significativo en lingüística de corpus: la creciente gama de idiomas cubiertos por los datos de corpus, que promete llevar a una gama más amplia de idiomas los beneficios que la lingüística de corpus ha aportado al estudio de los idiomas de Europa occidental [9] .