Corpus del habla

Un corpus de voz (o corpus hablado ) es una base de datos de archivos de audio de voz y transcripciones de texto . En tecnología del habla , los corpus de voz se utilizan, entre otras cosas, para crear modelos acústicos (que luego pueden usarse con un motor de reconocimiento de voz o de identificación de locutor ). ^[1] En lingüística , los corpus hablados se utilizan para realizar investigaciones en fonética , análisis de conversaciones , dialectología y otros campos. ^[2]^[3]

Un corpus es una de esas bases de datos. Corpora es el plural de corpus (es decir, hay muchas bases de datos de este tipo).

Hay dos tipos de corpus de habla:

Leer discurso, que incluye:
- Extractos de libros
- noticias transmitidas
- Listas de palabras
- secuencias de numeros
Habla espontánea – que incluye:
- Diálogos – entre dos o más personas (incluye reuniones; uno de esos corpus es el KEC);
- Narrativas: una persona que cuenta una historia (uno de esos corpus es el Buckeye Corpus );
- Tareas de mapas: una persona explica una ruta en un mapa a otra;
- Tareas de cita: dos personas intentan encontrar un horario de reunión común basándose en horarios individuales.

Un tipo especial de corpus de voz son las bases de datos de voz no nativas que contienen voz con acento extranjero.

Ver también

^ Sarangi, Susanta; Sahidullah, Maryland; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática de hablantes". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . Código Bib : 2020DSP...10402795S. doi : 10.1016/j.dsp.2020.102795. S2CID 220665533.
^ Reece, Andrés; Cooney, Gus; Toro, Pedro; Chung, Cristina; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, decano; Liebscher, Alex; Marín, Sebastián (01/03/2022). "Avanzando en una ciencia interdisciplinaria de la conversación: conocimientos de un gran corpus multimodal del habla humana". arXiv : 2203.00674 [cs.CL].
^ "Corpus de inglés americano hablado de Santa Bárbara | Departamento de Lingüística - UC Santa Bárbara". www.linguistics.ucsb.edu . Consultado el 26 de abril de 2023 .

Edwards, Jane / Lampert, Martin (eds.) (1992): Datos parlantes: transcripción y codificación en la investigación del discurso. Hillsdale: Erlbaum.
Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Inglés hablado en computadora: transcripción, marcado y aplicación. Harlow: Longman.

Corpus de Santa Bárbara de inglés americano hablado
Buckeye Corpus El Buckeye Corpus del discurso conversacional
El KEC - El corpus Karl Eberhards de alemán del sur hablado espontáneamente en diálogos - grabaciones de audio y articulatorias
Corporas de lengua hablada en el Centro de Investigación sobre Multilingüismo
El corpus turco hablado en METU Ankara
Corpus Klient hablado con el Corp-Oral Corpus en ILTEC Lisboa
VoxForge: corpus de voz de código abierto
OLAC: Comunidad de Archivos de Idiomas Abiertos
Archivo Bávaro de Señales de Habla de BAS
Corpus de reconocimiento de voz de Simmortel para inglés indio e hindi
ELRA: la Asociación Europea de Recursos Lingüísticos
El corpus conversacional de polaco PELCRA
El corpus del habla árabe
Corpus de discursos políticos: acceso gratuito a discursos políticos de políticos estadounidenses y chinos, desarrollado por la Biblioteca de la Universidad Bautista de Hong Kong
Gran corpus multimodal del habla humana