Detección de actividad de voz

La detección de actividad de voz ( VAD ), también conocida como detección de actividad de habla o detección de habla , es la detección de la presencia o ausencia de habla humana, utilizada en el procesamiento de voz . ^[1] Los principales usos de VAD son en la diarización del hablante , la codificación de voz y el reconocimiento de voz . ^[2] Puede facilitar el procesamiento de voz y también se puede utilizar para desactivar algunos procesos durante la sección sin voz de una sesión de audio: puede evitar la codificación /transmisión innecesaria de paquetes de silencio en aplicaciones de Voz sobre Protocolo de Internet (VoIP), ahorrando en computación y en ancho de banda de red .

La detección de voz es una tecnología importante que permite una variedad de aplicaciones basadas en el habla. Por lo tanto, se han desarrollado varios algoritmos de detección de voz que ofrecen distintas características y compromisos entre latencia , sensibilidad , precisión y costo computacional. Algunos algoritmos de detección de voz también proporcionan un análisis más detallado, por ejemplo, si el habla es sonora , sorda o sostenida . La detección de la actividad de la voz suele ser independiente del idioma.

Se investigó por primera vez para su uso en sistemas de interpolación de voz con asignación de tiempo (TASI). ^[3]

Descripción general del algoritmo

El diseño típico de un algoritmo VAD es el siguiente: ^{[ cita requerida ]}

Puede haber primero una etapa de reducción de ruido, por ejemplo mediante sustracción espectral .
Luego se calculan algunas características o cantidades a partir de una sección de la señal de entrada.
Se aplica una regla de clasificación para clasificar la sección como habla o no habla; a menudo, esta regla de clasificación detecta cuándo un valor excede un cierto umbral.

Puede haber alguna retroalimentación en esta secuencia, en la que la decisión VAD se utiliza para mejorar la estimación del ruido en la etapa de reducción de ruido, o para variar de forma adaptativa el umbral o los umbrales. Estas operaciones de retroalimentación mejoran el rendimiento del VAD en ruido no estacionario (es decir, cuando el ruido varía mucho). ^{[ cita requerida ]}

Un conjunto representativo de métodos VAD publicados recientemente formula la regla de decisión cuadro por cuadro utilizando medidas instantáneas de la distancia de divergencia entre el habla y el ruido. ^{[ cita requerida ]} Las diferentes medidas que se utilizan en los métodos VAD incluyen pendiente espectral , coeficientes de correlación, razón de verosimilitud logarítmica, cepstral, cepstral ponderado y medidas de distancia modificada. ^{[ cita requerida ]}

Independientemente de la elección del algoritmo VAD, se debe llegar a un compromiso entre detectar la voz como ruido o detectar el ruido como voz (entre falso positivo y falso negativo ). Un VAD que funcione en un teléfono móvil debe ser capaz de detectar el habla en presencia de una gama muy diversa de tipos de ruido acústico de fondo. En estas difíciles condiciones de detección, a menudo es preferible que un VAD sea a prueba de fallos , indicando que se ha detectado el habla cuando la decisión está en duda, para reducir la posibilidad de perder segmentos de habla. La mayor dificultad en la detección del habla en este entorno es la muy baja relación señal-ruido (SNR) que se encuentra. Puede ser imposible distinguir entre el habla y el ruido utilizando técnicas de detección de nivel simples cuando partes del enunciado del habla están ocultas por debajo del ruido.

Aplicaciones

VAD es una parte integral de diferentes sistemas de comunicación de voz, como audioconferencias , cancelación de eco , reconocimiento de voz , codificación de voz , reconocimiento de hablante y telefonía manos libres .
En el campo de las aplicaciones multimedia, VAD permite aplicaciones simultáneas de voz y datos.
De manera similar, en los sistemas universales de telecomunicaciones móviles (UMTS), controla y reduce la tasa de bits promedio y mejora la calidad general de codificación de la voz.
En los sistemas de radio celular (por ejemplo, los sistemas GSM y CDMA ) basados en el modo de transmisión discontinua (DTX), la VAD es esencial para mejorar la capacidad del sistema al reducir la interferencia cocanal y el consumo de energía en dispositivos digitales portátiles.
En las aplicaciones de procesamiento de voz , la detección de la actividad de voz juega un papel importante, ya que los cuadros que no son de voz a menudo se descartan.

Para una amplia gama de aplicaciones, como la radio móvil digital, la transmisión simultánea de voz y datos (DSVD) o el almacenamiento de voz, es deseable proporcionar una transmisión discontinua de parámetros de codificación de voz. Las ventajas pueden incluir un menor consumo de energía promedio en los teléfonos móviles, una mayor tasa de bits promedio para servicios simultáneos como la transmisión de datos o una mayor capacidad en los chips de almacenamiento . Sin embargo, la mejora depende principalmente del porcentaje de pausas durante el habla y de la fiabilidad del VAD utilizado para detectar estos intervalos. Por un lado, es ventajoso tener un bajo porcentaje de actividad de voz. Por otro lado, el recorte, es decir, la pérdida de milisegundos de voz activa, debe minimizarse para preservar la calidad. Este es el problema crucial para un algoritmo VAD en condiciones de ruido intenso.

Uso en telemarketing

Una aplicación controvertida del VAD es la de los marcadores predictivos que utilizan las empresas de telemarketing. Para maximizar la productividad de los agentes, las empresas de telemarketing configuran marcadores predictivos para llamar a más números de los que tienen agentes disponibles, sabiendo que la mayoría de las llamadas terminarán en "Llamada - No hay respuesta" o en contestadores automáticos. Cuando una persona responde, normalmente habla brevemente (" Hola ", " Buenas noches ", etc.) y luego hay un breve período de silencio. Los mensajes del contestador automático suelen durar entre 3 y 15 segundos de voz continua. Al configurar correctamente los parámetros del VAD, los marcadores pueden determinar si una persona o una máquina respondió la llamada y, si es una persona, transferir la llamada a un agente disponible. Si detecta un mensaje del contestador automático, el marcador cuelga. A menudo, incluso cuando el sistema detecta correctamente que una persona responde a la llamada, puede que no haya ningún agente disponible, lo que da como resultado una " llamada silenciosa ". La detección de llamadas con un mensaje de varios segundos como "Por favor, diga quién es y puedo levantar el teléfono" frustrará este tipo de llamadas automatizadas. ^{[ cita requerida ]}

Evaluación del desempeño

Para evaluar un dispositivo de audio visual, se compara su rendimiento mediante grabaciones de prueba con el de un dispositivo de audio visual "ideal", creado anotando a mano la presencia o ausencia de voz en las grabaciones. El rendimiento de un dispositivo de audio visual se evalúa habitualmente sobre la base de los cuatro parámetros siguientes: ^[4]

FEC (Front End Clipping): recorte introducido al pasar del ruido a la actividad del habla;
MSC (Mid Speech Clipping): recorte debido a que el habla se clasifica erróneamente como ruido;
OVER: ruido interpretado como habla debido a que el indicador VAD permanece activo al pasar de la actividad de habla a ruido;
NDS (Ruido detectado como habla): ruido interpretado como habla dentro de un período de silencio.

Aunque el método descrito anteriormente proporciona información objetiva útil sobre el rendimiento de un VAD, es solo una medida aproximada del efecto subjetivo. Por ejemplo, los efectos del recorte de la señal de voz a veces pueden quedar ocultos por la presencia de ruido de fondo, dependiendo del modelo elegido para la síntesis de ruido de confort, por lo que parte del recorte medido con pruebas objetivas en realidad no es audible. Por lo tanto, es importante realizar pruebas subjetivas en los VAD, cuyo objetivo principal es garantizar que el recorte percibido sea aceptable. En las aplicaciones de VoIP, el recorte del front-end se puede reducir rebobinando hasta poco antes de la detección y enviando datos con un ligero retraso.

Este tipo de prueba requiere que un cierto número de oyentes juzguen las grabaciones que contienen los resultados del procesamiento de los VAD que se están probando, otorgando calificaciones a varias secuencias de habla en las siguientes características:

Calidad;
Dificultad de comprensión;
Audibilidad del recorte.

Estas marcas se utilizan luego para calcular resultados promedio para cada una de las características enumeradas anteriormente, proporcionando así una estimación global del comportamiento del VAD que se está probando.

En conclusión, mientras que los métodos objetivos son muy útiles en una etapa inicial para evaluar la calidad de un VAD, los métodos subjetivos tienen mayor relevancia, ya que requieren la participación de varias personas durante unos días, lo que aumenta el costo, por lo que generalmente solo se utilizan cuando se está por estandarizar una propuesta.

Implementaciones

Un estándar temprano de VAD fue el desarrollado por British Telecom para su uso en el servicio de telefonía móvil digital paneuropeo en 1991. Utiliza un filtrado inverso entrenado en segmentos que no son de voz para filtrar el ruido de fondo, de modo que luego puede usar de manera más confiable un umbral de potencia simple para decidir si hay voz presente. ^[5]
El estándar G.729 calcula las siguientes características para su VAD: frecuencias espectrales de línea , energía de banda completa, energía de banda baja (<1 kHz) y tasa de cruce por cero . Aplica una clasificación simple utilizando un límite de decisión fijo en el espacio definido por estas características y luego aplica suavizado y corrección adaptativa para mejorar la estimación. ^[6]
El estándar GSM incluye dos opciones de VAD desarrolladas por ETSI . ^[7] La opción 1 calcula la relación señal-ruido en nueve bandas y aplica un umbral a estos valores. La opción 2 calcula diferentes parámetros: potencia del canal, métricas de voz y potencia de ruido. Luego establece un umbral para las métricas de voz utilizando un umbral que varía según la relación señal-ruido estimada.
La biblioteca de compresión de audio Speex utiliza un procedimiento llamado Improved Minima Controlled Recursive Averaging , que utiliza una representación suavizada de la potencia espectral y luego observa los mínimos de un periodograma suavizado . ^[8] A partir de la versión 1.2 fue reemplazado por lo que el autor llamó un kludge . ^[9]
Lingua Libre , una herramienta de Wikimedia y un proyecto de documentación de idiomas , que utiliza VAD para permitir la grabación de muchas pronunciaciones en un corto período de tiempo.
La biblioteca VAD Android ^[10] utiliza una combinación de modelos GMM y DNN, como WebRTC GMM, Silero DNN y Yamnet DNN. La biblioteca supera a muchos modelos de nivel de producción tanto en calidad como en rendimiento.

Véase también

Referencias

^ Manoj Bhatia; Jonathan Davidson; Satish Kalidindi; Sudipto Mukherjee; James Peters (20 de octubre de 2006). "VoIP: un análisis en profundidad: detección de actividad de voz". Cisco .
^ Sahidullah, Maryland; Patiño, José; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Hervé; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vicente, Emmanuel; Evans, Nicolás; Marcel, Sebastián; Squartini, Stefano; Barras, Claude (6 de noviembre de 2019). "La presentación rápida a DIHARD II: contribuciones y lecciones aprendidas". arXiv : 1911.02388 [eess.AS].
^ Ravi Ramachandran; Richard Mammone (6 de diciembre de 2012). Métodos modernos de procesamiento del habla. Springer Science & Business Media. pp. 102–. ISBN 978-1-4615-2281-2.
^ Beritelli, F.; Casale, S.; Ruggeri, G.; Serrano, S. (marzo de 2002). "Evaluación del rendimiento y comparación de detectores de actividad de voz difusa/G.729/AMR". IEEE Signal Processing Letters . 9 (3): 85–88. Bibcode :2002ISPL....9...85B. doi :10.1109/97.995824. S2CID 16724847.
^ Freeman, DK (mayo de 1989). "El detector de actividad de voz para el servicio de telefonía móvil celular digital paneuropeo". Proc. Conferencia internacional sobre acústica, habla y procesamiento de señales (ICASSP-89) . Vol. 1. págs. 369–372. doi :10.1109/ICASSP.1989.266442.
^ Benyassine, A.; Shlomot, E.; Huan-yu Su; Massaloux, D.; Lamblin, C.; Petit, J.-P. (septiembre de 1997). "Recomendación UIT-T G.729 Anexo B: un esquema de compresión de silencio para uso con G.729 optimizado para aplicaciones digitales simultáneas de voz y datos V.70". Revista de comunicaciones IEEE . 35 (9): 64–73. doi :10.1109/35.620527.
^ ETSI (1999). "GSM 06.42, Sistema de telecomunicaciones celulares digitales (Fase 2+); Voz a media velocidad; Detector de actividad de voz (VAD) para canales de tráfico de voz a media velocidad" (Documento). ETSI.
^ Cohen, I. (septiembre de 2003). "Estimación del espectro de ruido en entornos adversos: promedio recursivo controlado por mínimos mejorado". IEEE Transactions on Speech and Audio Processing . 11 (5): 466–475. CiteSeerX 10.1.1.620.8768 . doi :10.1109/TSA.2003.811544.
^ "Algoritmo Speex VAD". 30 de septiembre de 2004.
^ "Biblioteca Android Voice Activity Detection (VAD). Admite los modelos WebRTC VAD GMM, Silero VAD DNN y Yamnet VAD DNN". Github . Consultado el 27 de noviembre de 2019 .

Estándares mínimos de rendimiento DMA para la operación de transmisión discontinua de estaciones móviles. Documento TIA y base de datos IS-727, junio de 1998.
MY Appiah, M. Sasikath, R. Makrickaite, M. Gusaite, "Mecanismo robusto de detección de actividad de voz y reducción de ruido ( PDF )", Instituto de Sistemas Electrónicos, Universidad de Aalborg
XL Liu, Y. Liang, YH Lou, H. Li, BS Shan, Detector de actividad de voz robusto al ruido basado en modelos semi-Markov ocultos, Proc. ICPR'10 , 81–84.