Un corpus de voz (o corpus hablado ) es una base de datos de archivos de audio de voz y transcripciones de texto . En tecnología del habla , los corpus de voz se utilizan, entre otras cosas, para crear modelos acústicos (que luego pueden usarse con un motor de reconocimiento de voz o de identificación de locutor ). [1]
En lingüística , los corpus hablados se utilizan para realizar investigaciones en fonética , análisis de conversaciones , dialectología y otros campos. [2] [3]
Un corpus es una de esas bases de datos. Corpora es el plural de corpus (es decir, hay muchas bases de datos de este tipo).
Hay dos tipos de corpus de habla:
- Leer discurso, que incluye:
- Extractos de libros
- noticias transmitidas
- Listas de palabras
- secuencias de numeros
- Habla espontánea – que incluye:
- Diálogos – entre dos o más personas (incluye reuniones; uno de esos corpus es el KEC);
- Narrativas: una persona que cuenta una historia (uno de esos corpus es el Buckeye Corpus );
- Tareas de mapas: una persona explica una ruta en un mapa a otra;
- Tareas de cita: dos personas intentan encontrar un horario de reunión común basándose en horarios individuales.
Un tipo especial de corpus de voz son las bases de datos de voz no nativas que contienen voz con acento extranjero.
Ver también
Referencias
- ^ Sarangi, Susanta; Sahidullah, Maryland; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática de hablantes". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . Código Bib : 2020DSP...10402795S. doi : 10.1016/j.dsp.2020.102795. S2CID 220665533.
- ^ Reece, Andrés; Cooney, Gus; Toro, Pedro; Chung, Cristina; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, decano; Liebscher, Alex; Marín, Sebastián (01/03/2022). "Avanzando en una ciencia interdisciplinaria de la conversación: conocimientos de un gran corpus multimodal del habla humana". arXiv : 2203.00674 [cs.CL].
- ^ "Corpus de inglés americano hablado de Santa Bárbara | Departamento de Lingüística - UC Santa Bárbara". www.linguistics.ucsb.edu . Consultado el 26 de abril de 2023 .
- Edwards, Jane / Lampert, Martin (eds.) (1992): Datos parlantes: transcripción y codificación en la investigación del discurso. Hillsdale: Erlbaum.
- Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Inglés hablado en computadora: transcripción, marcado y aplicación. Harlow: Longman.
Enlaces externos
- Corpus de Santa Bárbara de inglés americano hablado
- Buckeye Corpus El Buckeye Corpus del discurso conversacional
- El KEC - El corpus Karl Eberhards de alemán del sur hablado espontáneamente en diálogos - grabaciones de audio y articulatorias
- Corporas de lengua hablada en el Centro de Investigación sobre Multilingüismo
- El corpus turco hablado en METU Ankara
- Corpus Klient hablado con el Corp-Oral Corpus en ILTEC Lisboa
- VoxForge: corpus de voz de código abierto
- OLAC: Comunidad de Archivos de Idiomas Abiertos
- Archivo Bávaro de Señales de Habla de BAS
- Corpus de reconocimiento de voz de Simmortel para inglés indio e hindi
- ELRA: la Asociación Europea de Recursos Lingüísticos
- El corpus conversacional de polaco PELCRA
- El corpus del habla árabe
- Corpus de discursos políticos: acceso gratuito a discursos políticos de políticos estadounidenses y chinos, desarrollado por la Biblioteca de la Universidad Bautista de Hong Kong
- Gran corpus multimodal del habla humana