Un corpus de voz (o corpus hablado ) es una base de datos de archivos de audio de voz y transcripciones de texto . En tecnología del habla , los corpus de voz se utilizan, entre otras cosas, para crear modelos acústicos (que luego se pueden utilizar con un motor de reconocimiento de voz o de identificación de hablantes ). [1]
En lingüística , los corpus hablados se utilizan para realizar investigaciones en fonética , análisis de conversaciones , dialectología y otros campos. [2] [3]
Un corpus es una de esas bases de datos. Corpora es el plural de corpus (es decir, son muchas de esas bases de datos).
Existen dos tipos de corpus de discurso:
- Leer discurso, que incluye:
- Extractos de libros
- Noticias transmitidas
- Listas de palabras
- Secuencias de números
- Habla espontánea, que incluye:
- Diálogos – entre dos o más personas (incluye reuniones; uno de estos corpus es el KEC);
- Narrativas: una persona que cuenta una historia (uno de estos corpus es el Buckeye Corpus );
- Tareas de mapa: una persona le explica una ruta en un mapa a otra;
- Tareas de cita: dos personas intentan encontrar una hora de reunión común basándose en horarios individuales.
Un tipo especial de corpus de habla son las bases de datos de habla no nativa que contienen habla con acento extranjero.
Véase también
Referencias
- ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática de hablantes". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . Código Bibliográfico :2020DSP...10402795S. doi :10.1016/j.dsp.2020.102795. S2CID 220665533.
- ^ Reece, Andrew; Cooney, Gus; Bull, Peter; Chung, Christine; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, Dean; Liebscher, Alex; Marin, Sebastian (1 de marzo de 2022). "Avanzando en una ciencia interdisciplinaria de la conversación: perspectivas a partir de un gran corpus multimodal del habla humana". arXiv : 2203.00674 [cs.CL].
- ^ "Corpus de inglés americano hablado de Santa Bárbara | Departamento de Lingüística - UC Santa Bárbara" www.linguistics.ucsb.edu . Consultado el 26 de abril de 2023 .
- Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data – Transcription and Coding in Discourse Research [Datos que hablan: transcripción y codificación en la investigación del discurso]. Hillsdale: Erlbaum.
- Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Inglés hablado en computadora: transcripción, marcado y aplicación. Harlow: Longman.
Enlaces externos
- Corpus de inglés americano hablado de Santa Bárbara
- Corpus Buckeye El Corpus Buckeye del habla conversacional
- El KEC - El corpus de Karl Eberhards de alemán del sur hablado espontáneamente en diálogos - grabaciones de audio y articulatorias
- Corpora de la lengua hablada en el Centro de Investigación sobre Multilingüismo
- El corpus de turco hablado en la METU de Ankara
- Cliente de Corpus Oral con Corpus Oral en ILTEC Lisboa
- VoxForge: corpus de voz de código abierto
- OLAC: Comunidad de Archivos Lingüísticos Abiertos
- Archivo de señales de voz de Baviera (BAS)
- Corpus de reconocimiento de voz Simmortel para inglés e hindi de la India
- ELRA: Asociación Europea de Recursos Lingüísticos
- El corpus conversacional de polaco PELCRA
- El corpus del habla árabe
- Corpus de discursos políticos: acceso gratuito a discursos políticos de políticos estadounidenses y chinos, desarrollado por la Biblioteca de la Universidad Bautista de Hong Kong
- Gran corpus multimodal del habla humana