Base de datos de voz no nativa

Una base de datos de voz no nativa es una base de datos de voz de pronunciaciones no nativas del inglés . Estas bases de datos se utilizan en el desarrollo de: sistemas multilingües de reconocimiento automático de voz , sistemas de texto a voz , entrenadores de pronunciación y sistemas de aprendizaje de segundas lenguas . ^[1]

Lista

La tabla real con información sobre las diferentes bases de datos se muestra en la Tabla 2.

Leyenda

En la tabla de bases de datos no nativas se utilizan algunas abreviaturas para nombres de idiomas. Se enumeran en la Tabla 1. La Tabla 2 brinda la siguiente información sobre cada corpus: El nombre del corpus, la institución donde se puede obtener el corpus, o al menos debe haber más información disponible, el idioma que realmente hablaban los hablantes , el número de hablantes, la lengua materna de los hablantes, la cantidad total de expresiones no nativas que contiene el corpus, la duración en horas de la parte no nativa, la fecha de la primera referencia pública a este corpus, algún texto libre destacando aspectos especiales de esta base de datos y una referencia a otra publicación. La referencia en el último campo es en la mayoría de los casos al artículo que los coleccionistas originales dedican especialmente a describir este corpus. En algunos casos no fue posible identificar dicho documento. En estos casos se hace referencia a un artículo que utiliza este corpus.

Algunas entradas se dejan en blanco y otras están marcadas como desconocido. La diferencia aquí es que las entradas en blanco se refieren a atributos cuyo valor simplemente no se conoce. Sin embargo, las entradas desconocidas indican que no hay información disponible sobre este atributo en la propia base de datos. Por ejemplo, en la base de datos meteorológica de Júpiter ^[46] no se proporciona ninguna información sobre el origen de los hablantes. Por lo tanto, estos datos serían menos útiles para verificar la detección de acentos o problemas similares.

Siempre que sea posible, el nombre es un nombre estándar del corpus; sin embargo, para algunos de los corpus más pequeños no había un nombre establecido y, por lo tanto, se tuvo que crear un identificador. En tales casos, se utiliza una combinación de la institución y el recopilador de la base de datos.

En el caso de que las bases de datos contengan habla nativa y no nativa, solo se enumeran los atributos de la parte no nativa del corpus. La mayoría de los corpus son colecciones de discursos leídos. Si, por el contrario, el corpus se compone total o parcialmente de expresiones espontáneas, esto se menciona en la columna Especiales.

Referencias

^ M. Raab, R. Gruhn y E. Noeth, Bases de datos de habla no nativa , en Proc. ASRU, Kioto, Japón, 2007.
^ Proyecto AMI, "Corpus de reuniones de AMI" [1].
^ R. Gruhn, T. Cincarek y S. Nakamura, "Una base de datos con múltiples acentos en inglés no nativo", en ASJ, 2004.
^ Universidad de Múnich, "Archivo bávaro de corpus extraño de señales de voz", [2].
^ Jurafsky et al., "El proyecto del restaurante Berkeley", Proc. ICSLP 1994.
^ L. Tomokiyo, Reconocimiento del habla no nativa: caracterización y adaptación al uso no nativo en el reconocimiento de voz , Ph.D. tesis, Universidad Carnegie Mellon, Pensilvania, 2001.
^ S. Witt, Uso del reconocimiento de voz en el aprendizaje de idiomas asistido por computadora , Ph.D. tesis, Departamento de Ingeniería de la Universidad de Cambridge, Reino Unido, 1999.
^ H. Ye y S. Young, Mejora del rendimiento del reconocimiento de voz de principiantes en la interacción conversacional hablada para el aprendizaje de idiomas , en Proc. Interspeech, Lisboa, Portugal, 2005.
^ L. Tomokiyo, Reconocimiento del habla no nativa: caracterización y adaptación al uso no nativo en el reconocimiento de voz , Ph.D. tesis, Universidad Carnegie Mellon, Pensilvania, 2001.
^ TP Tan y L. Besacier, Un corpus francés no nativo para el reconocimiento automático de voz , en LREC, Génova, Italia, 2006.
^ T. Lander, CSLU: versión 1.2 en inglés con acento extranjero , Tech. Rep., PMA, Filadelfia, Pensilvania, 2007.
^ Z. Wang, T. Schultz y A. Waibel, Comparación de técnicas de adaptación de modelos acústicos en habla no nativa , en Proc. ICASSP , 2003.
^ S. Schaden, Regelbasierte Modellierung fremdsprachlich akzentbehafteter Aussprachevarianten , Ph.D. tesis, Universidad Duisburg-Essen, 2006.
^ LM Arslan y JH Hansen, Características de frecuencia del habla con acento extranjero , en Proc. de ICASSP , Munich, Alemania, 1997, págs. 1123-1126.
^ N. Minematsu et al., Desarrollo de una base de datos de voz en inglés leída por japoneses para respaldar la investigación CALL , en ICA, Kyoto, Japón, 2004, págs.
^ Christopher Cieri, David Miller, Kevin Walker, The Fisher Corpus: un recurso para las próximas generaciones de conversión de voz a texto , Proc. LREC 2004
^ S. Fitt, La pronunciación de nombres de ciudades nativas y no nativas desconocidas , en Proc. de Eurospeech, 1995, págs. 2227-2230.
^ G. Stemmer, E. Noeth y H. Niemann, Modelado acústico de palabras extranjeras en un sistema de reconocimiento de voz alemán , en Proc. Eurospeech, P. Dalsgaard, B. Lindberg y H. Benner, Eds., 2001, vol. 4, págs. 2745-2748.
^ W. Byrne, E. Knodt, S. Khudanpur y J. Bernstein, ¿Está listo el reconocimiento automático de voz para habla no nativa? Un esfuerzo de recopilación de datos y experimentos iniciales para modelar el inglés hispano conversacional , en STiLL, Marholmen, Suecia, 1998, págs. 37-40.
^ Y. Li, P. Fung, P. Xu e Y. Liu, Modelado acústico asimétrico para el reconocimiento de voz en idiomas mixtos , en ICASSP, Praga, República Checa, 2011, págs.
^ V. Fischer, E. Janke y S. Kunzmann, Avances recientes en la decodificación de habla no nativa con modelos acústicos multilingües , en Proc. de Eurospeech, 2003, págs. 3105-3108.
^ Nancy F. Chen, Rong Tong, Darren Wee, Peixuan Lee, Bin Ma, Haizhou Li, iCALL Corpus: chino mandarín hablado por hablantes no nativos de ascendencia europea , en Proc. de Interspeech, 2015.
^ Nancy F. Chen, Vivaek Shivakumar, Mahesh Harikumar, Bin Ma, Haizhou Li. Caracterización a gran escala de errores de pronunciación del mandarín cometidos por hablantes nativos de lenguas europeas , en Proc. de Interspeech, 2013.
^ W. Menzel, E. Atwell, P. Bonaventura, D. Herron, P. Howarth, R. Morton y C. Souter, El corpus ISLE de inglés hablado no nativo , en LREC, Atenas, Grecia, 2000, págs. 957-963.
^ K. Livescu, Análisis y modelado de habla no nativa para el reconocimiento automático de voz , tesis de maestría, Instituto de Tecnología de Massachusetts, Cambridge, MA, 1999.
^ SC. Rhee y SH. Lee y SK. Kang y YJ. Lee, Diseño y construcción de corpus de inglés hablado en coreano (K-SEC) , Proc. ICSLP 2004
^ L. Tomokiyo, Reconocimiento del habla no nativa: caracterización y adaptación al uso no nativo en el reconocimiento de voz , Ph.D. tesis, Universidad Carnegie Mellon, Pensilvania, 2001.
^ Gut, U., Habla no nativa. Un análisis basado en corpus de las propiedades fonológicas y fonéticas del inglés y el alemán L2 , Frankfurt am Main: Peter Lang, 2009.
^ Instituto de Investigación de Factores Humanos TNO, Interoperabilidad multilingüe de Mist en la base de datos de tecnología del habla , Tech. Rep., ELRA, París, Francia, 2007, Referencia del catálogo ELRA S0238.
^ JC Segura et al., La base de datos HIWIRE, un corpus de habla en inglés ruidoso y no nativo para la comunicación en la cabina , 2007, [3].
^ S. Pigeon, W. Shen y D. van Leeuwen, Diseño y caracterización de la base de datos de comunicaciones de tráfico aéreo militar no nativo , en ICSLP, Amberes, Bélgica, 2007.
^ L. Benarousse et al., El corpus de discursos nativos y no nativos (n4) de la OTAN , en Proc. del taller MIST (ESCA-OTAN), Leusden, septiembre de 1999.
^ Consorcio Onomastica, El léxico de pronunciación interlengua de ONOMASTICA , en Proc. Eurospeech, Madrid, España, 1995, pp. 829-832.
^ C. Hacker, T. Cincarek, A. Maier, A. Hessler y E. Noeth, Mejora de las funciones prosódicas y de pronunciación para detectar malas pronunciaciones de niños no nativos , en Proc. de ICASSP, Honolulu, Hawai, 2007, págs. 197-200.
↑ C. Teixeira, I. Trancoso y A. Serralheiro, Reconocimiento de acentos no nativos , en Proc. Eurospeech, Rodas, Grecia, 1997, págs. 2375-2378.
^ H. Heuvel, K. Choukri, C. Gollan, A. Moreno y D. Mostefa, TC-STAR: Nuevos recursos lingüísticos para fines ASR y SLT , en LREC, Génova, 2006, págs.
^ LF Lamel , F. Schiel, A. Fourcin, J. Mariani y H. Tillmann, The translanguage English Database TED , en ICSLP, Yokohama, Japón, septiembre de 1994.
^ N. Mote, L. Johnson, A. Sethy, J. Silva y S. Narayanan, Detección táctica del lenguaje y modelado de errores del habla del alumno: el caso de la capacitación táctica del lenguaje árabe para angloparlantes estadounidenses , en Proc. de InSTIL, junio de 2004.
^ K. Nishina, Desarrollo de una base de datos de voz japonesa leída por hablantes no nativos para construir el sistema CALL , en ICA, Kyoto, Japón, 2004, págs.
^ Universidad de Múnich, El proyecto Verbmobil , [4].
^ I. Trancoso, C. Viana, I. Mascarenhas y C. Teixeira, Sobre la derivación de reglas para la pronunciación nativizada en consultas de navegación , en Proc. Eurodiscurso, 1999.
^ A. LaRocca y R. Chouairi, Corpus del habla árabe de West Point , Tech. Rep., PMA, Filadelfia, Pensilvania, 2002.
^ A. LaRocca y C. Tomei, Corpus de habla rusa de West Point , Tech. Rep., PMA, Filadelfia, Pensilvania, 2003.
^ J. Morgan, Discurso heroico en español de West Point , Tech. Rep., PMA, Filadelfia, Pensilvania, 2006.
^ I. Amdal, F. Korkmazskiy y AC Surendran, Modelado conjunto de pronunciación de hablantes no nativos utilizando métodos basados en datos , en ICSLP, Beijing, China, 2000, págs.
^ K. Livescu, Análisis y modelado de habla no nativa para el reconocimiento automático de voz , tesis de maestría, Instituto de Tecnología de Massachusetts, Cambridge, MA, 1999.