Partición de una secuencia de habla humana según la identidad del hablante
La diarización de hablantes ( o diarización ) es el proceso de dividir un flujo de audio que contiene voz humana en segmentos homogéneos según la identidad de cada hablante. [1] Puede mejorar la legibilidad de una transcripción automática de voz al estructurar el flujo de audio en turnos de habla y, cuando se utiliza junto con sistemas de reconocimiento de hablantes , al proporcionar la verdadera identidad del hablante. [2] Se utiliza para responder a la pregunta "¿quién habló cuándo?" . [3]
La diarización de hablantes es una combinación de segmentación de hablantes y agrupamiento de hablantes. La primera tiene como objetivo encontrar puntos de cambio de hablantes en un flujo de audio. La segunda tiene como objetivo agrupar segmentos de habla sobre la base de las características del hablante.
Con el aumento de la cantidad de transmisiones, grabaciones de reuniones y mensajes de voz recopilados cada año, la diarización de hablantes ha recibido mucha atención por parte de la comunidad de hablantes, como lo demuestran las evaluaciones específicas dedicadas a ella bajo los auspicios del Instituto Nacional de Estándares y Tecnología para el habla telefónica, las noticias transmitidas y las reuniones. [4] Se puede encontrar un rastreador de listas líder de investigaciones sobre diarización de hablantes en el repositorio de github de Quan Wang. [5]
Principales tipos de sistemas de diarización
En la diarización de hablantes, uno de los métodos más populares es utilizar un modelo de mezcla gaussiana para modelar cada uno de los hablantes y asignar los fotogramas correspondientes para cada hablante con la ayuda de un modelo oculto de Markov . Hay dos tipos principales de estrategias de agrupamiento. La primera es, con diferencia, la más popular y se denomina Bottom-Up. El algoritmo comienza dividiendo el contenido de audio completo en una sucesión de clústeres y trata progresivamente de fusionar los clústeres redundantes para llegar a una situación en la que cada clúster corresponde a un hablante real. La segunda estrategia de agrupamiento se denomina Top-Down y comienza con un único clúster para todos los datos de audio e intenta dividirlo iterativamente hasta alcanzar un número de clústeres igual al número de hablantes. Se puede encontrar una revisión de 2010 en [1].
Más recientemente, la diarización de hablantes se realiza a través de redes neuronales que aprovechan la computación GPU a gran escala y los desarrollos metodológicos en aprendizaje profundo . [6]
Software de código abierto para la diarización de hablantes
Existen algunas iniciativas de código abierto para la diarización de oradores (en orden alfabético):
- Diarización de oradores de ALIZE (última actualización del repositorio: julio de 2016; última versión: febrero de 2013, versión: 3.0): Sistema de diarización de ALIZE, desarrollado en la Universidad de Aviñón, ya está disponible la versión 2.0 [2].
- Audioseg (última actualización del repositorio: mayo de 2014; último lanzamiento: enero de 2010, versión: 1.2): AudioSeg es un conjunto de herramientas dedicado a la segmentación de audio y la clasificación de transmisiones de audio. [3].
- pyannote.audio (última actualización del repositorio: agosto de 2022, último lanzamiento: julio de 2022, versión: 2.0): pyannote.audio es un kit de herramientas de código abierto escrito en Python para la diarización de hablantes. [4].
- pyAudioAnalysis (última actualización del repositorio: septiembre de 2022): biblioteca de análisis de audio de Python: extracción de características, clasificación, segmentación y aplicaciones [5]
- SHoUT (última actualización: diciembre de 2010; versión: 0.3): SHoUT es un paquete de software desarrollado en la Universidad de Twente para ayudar a la investigación en reconocimiento de voz. SHoUT es un acrónimo holandés de Speech Recognition Research en la Universidad de Twente . [6]
- LIUM SpkDiarization (última versión: septiembre de 2013, versión: 8.4.1): herramienta LIUM_SpkDiarization [7].
Referencias
- ^ Sahidullah, Maryland; Patiño, José; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Hervé; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vicente, Emmanuel; Evans, Nicolás; Marcel, Sebastián; Squartini, Stefano; Barras, Claude (6 de noviembre de 2019). "La presentación rápida a DIHARD II: contribuciones y lecciones aprendidas". arXiv : 1911.02388 [eess.AS].
- ^ Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "Diario de hablantes mejorado mediante la identificación de hablantes" . Consultado el 25 de enero de 2012 .
- ^ Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "Segmentación y agrupamiento de hablantes" (PDF) . Consultado el 25 de enero de 2012 .
- ^ "Proyecto de evaluación de transcripción enriquecida". NIST . Consultado el 25 de enero de 2012 .
- ^ "Diario de un orador maravilloso". awesome-diarization . Consultado el 17 de septiembre de 2024 .
- ^ Park, Tae Jin; Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (26 de noviembre de 2021). "Una revisión de la diarización de hablantes: avances recientes con aprendizaje profundo". arXiv : 2101.09624 [eess.AS].
Bibliografía
- Anguera, Xavier (2012). "Diarización del hablante: una revisión de la investigación reciente". IEEE Transactions on Audio, Speech, and Language Processing . 20 (2). IEEE/ACM Transactions on Audio, Speech, and Language Processing: 356–370. CiteSeerX 10.1.1.470.6149 . doi :10.1109/TASL.2011.2125954. ISSN 1558-7916. S2CID 206602044.
- Beigi, Homayoon (2011). Fundamentos del reconocimiento de hablantes. Nueva York: Springer. ISBN 978-0-387-77591-3.