stringtranslate.com

Diarización del orador

La diarización de hablantes ( o diarización ) es el proceso de dividir un flujo de audio que contiene voz humana en segmentos homogéneos según la identidad de cada hablante. [1] Puede mejorar la legibilidad de una transcripción automática de voz al estructurar el flujo de audio en turnos de habla y, cuando se utiliza junto con sistemas de reconocimiento de hablantes , al proporcionar la verdadera identidad del hablante. [2] Se utiliza para responder a la pregunta "¿quién habló cuándo?" . [3] La diarización de hablantes es una combinación de segmentación de hablantes y agrupamiento de hablantes. La primera tiene como objetivo encontrar puntos de cambio de hablantes en un flujo de audio. La segunda tiene como objetivo agrupar segmentos de habla sobre la base de las características del hablante.

Con el aumento de la cantidad de transmisiones, grabaciones de reuniones y mensajes de voz recopilados cada año, la diarización de hablantes ha recibido mucha atención por parte de la comunidad de hablantes, como lo demuestran las evaluaciones específicas dedicadas a ella bajo los auspicios del Instituto Nacional de Estándares y Tecnología para el habla telefónica, las noticias transmitidas y las reuniones. [4] Se puede encontrar un rastreador de listas líder de investigaciones sobre diarización de hablantes en el repositorio de github de Quan Wang. [5]

Principales tipos de sistemas de diarización

En la diarización de hablantes, uno de los métodos más populares es utilizar un modelo de mezcla gaussiana para modelar cada uno de los hablantes y asignar los fotogramas correspondientes para cada hablante con la ayuda de un modelo oculto de Markov . Hay dos tipos principales de estrategias de agrupamiento. La primera es, con diferencia, la más popular y se denomina Bottom-Up. El algoritmo comienza dividiendo el contenido de audio completo en una sucesión de clústeres y trata progresivamente de fusionar los clústeres redundantes para llegar a una situación en la que cada clúster corresponde a un hablante real. La segunda estrategia de agrupamiento se denomina Top-Down y comienza con un único clúster para todos los datos de audio e intenta dividirlo iterativamente hasta alcanzar un número de clústeres igual al número de hablantes. Se puede encontrar una revisión de 2010 en [1].

Más recientemente, la diarización de hablantes se realiza a través de redes neuronales que aprovechan la computación GPU a gran escala y los desarrollos metodológicos en aprendizaje profundo . [6]

Software de código abierto para la diarización de hablantes

Existen algunas iniciativas de código abierto para la diarización de oradores (en orden alfabético):

Referencias

  1. ^ Sahidullah, Maryland; Patiño, José; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Hervé; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vicente, Emmanuel; Evans, Nicolás; Marcel, Sebastián; Squartini, Stefano; Barras, Claude (6 de noviembre de 2019). "La presentación rápida a DIHARD II: contribuciones y lecciones aprendidas". arXiv : 1911.02388 [eess.AS].
  2. ^ Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "Diario de hablantes mejorado mediante la identificación de hablantes" . Consultado el 25 de enero de 2012 .
  3. ^ Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "Segmentación y agrupamiento de hablantes" (PDF) . Consultado el 25 de enero de 2012 .
  4. ^ "Proyecto de evaluación de transcripción enriquecida". NIST . Consultado el 25 de enero de 2012 .
  5. ^ "Diario de un orador maravilloso". awesome-diarization . Consultado el 17 de septiembre de 2024 .
  6. ^ Park, Tae Jin; Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (26 de noviembre de 2021). "Una revisión de la diarización de hablantes: avances recientes con aprendizaje profundo". arXiv : 2101.09624 [eess.AS].

Bibliografía