La detección de actividad de voz ( VAD ), también conocida como detección de actividad de habla o detección de habla , es la detección de la presencia o ausencia de habla humana, utilizada en el procesamiento de voz . [1] Los principales usos de VAD son en la diarización del hablante , la codificación de voz y el reconocimiento de voz . [2] Puede facilitar el procesamiento de voz y también se puede utilizar para desactivar algunos procesos durante la sección sin voz de una sesión de audio: puede evitar la codificación /transmisión innecesaria de paquetes de silencio en aplicaciones de Voz sobre Protocolo de Internet (VoIP), ahorrando en computación y en ancho de banda de red .
La detección de voz es una tecnología importante que permite una variedad de aplicaciones basadas en el habla. Por lo tanto, se han desarrollado varios algoritmos de detección de voz que ofrecen distintas características y compromisos entre latencia , sensibilidad , precisión y costo computacional. Algunos algoritmos de detección de voz también proporcionan un análisis más detallado, por ejemplo, si el habla es sonora , sorda o sostenida . La detección de la actividad de la voz suele ser independiente del idioma.
Se investigó por primera vez para su uso en sistemas de interpolación de voz con asignación de tiempo (TASI). [3]
El diseño típico de un algoritmo VAD es el siguiente: [ cita requerida ]
Puede haber alguna retroalimentación en esta secuencia, en la que la decisión VAD se utiliza para mejorar la estimación del ruido en la etapa de reducción de ruido, o para variar de forma adaptativa el umbral o los umbrales. Estas operaciones de retroalimentación mejoran el rendimiento del VAD en ruido no estacionario (es decir, cuando el ruido varía mucho). [ cita requerida ]
Un conjunto representativo de métodos VAD publicados recientemente formula la regla de decisión cuadro por cuadro utilizando medidas instantáneas de la distancia de divergencia entre el habla y el ruido. [ cita requerida ] Las diferentes medidas que se utilizan en los métodos VAD incluyen pendiente espectral , coeficientes de correlación, razón de verosimilitud logarítmica, cepstral, cepstral ponderado y medidas de distancia modificada. [ cita requerida ]
Independientemente de la elección del algoritmo VAD, se debe llegar a un compromiso entre detectar la voz como ruido o detectar el ruido como voz (entre falso positivo y falso negativo ). Un VAD que funcione en un teléfono móvil debe ser capaz de detectar el habla en presencia de una gama muy diversa de tipos de ruido acústico de fondo. En estas difíciles condiciones de detección, a menudo es preferible que un VAD sea a prueba de fallos , indicando que se ha detectado el habla cuando la decisión está en duda, para reducir la posibilidad de perder segmentos de habla. La mayor dificultad en la detección del habla en este entorno es la muy baja relación señal-ruido (SNR) que se encuentra. Puede ser imposible distinguir entre el habla y el ruido utilizando técnicas de detección de nivel simples cuando partes del enunciado del habla están ocultas por debajo del ruido.
Para una amplia gama de aplicaciones, como la radio móvil digital, la transmisión simultánea de voz y datos (DSVD) o el almacenamiento de voz, es deseable proporcionar una transmisión discontinua de parámetros de codificación de voz. Las ventajas pueden incluir un menor consumo de energía promedio en los teléfonos móviles, una mayor tasa de bits promedio para servicios simultáneos como la transmisión de datos o una mayor capacidad en los chips de almacenamiento . Sin embargo, la mejora depende principalmente del porcentaje de pausas durante el habla y de la fiabilidad del VAD utilizado para detectar estos intervalos. Por un lado, es ventajoso tener un bajo porcentaje de actividad de voz. Por otro lado, el recorte, es decir, la pérdida de milisegundos de voz activa, debe minimizarse para preservar la calidad. Este es el problema crucial para un algoritmo VAD en condiciones de ruido intenso.
Una aplicación controvertida del VAD es la de los marcadores predictivos que utilizan las empresas de telemarketing. Para maximizar la productividad de los agentes, las empresas de telemarketing configuran marcadores predictivos para llamar a más números de los que tienen agentes disponibles, sabiendo que la mayoría de las llamadas terminarán en "Llamada - No hay respuesta" o en contestadores automáticos. Cuando una persona responde, normalmente habla brevemente (" Hola ", " Buenas noches ", etc.) y luego hay un breve período de silencio. Los mensajes del contestador automático suelen durar entre 3 y 15 segundos de voz continua. Al configurar correctamente los parámetros del VAD, los marcadores pueden determinar si una persona o una máquina respondió la llamada y, si es una persona, transferir la llamada a un agente disponible. Si detecta un mensaje del contestador automático, el marcador cuelga. A menudo, incluso cuando el sistema detecta correctamente que una persona responde a la llamada, puede que no haya ningún agente disponible, lo que da como resultado una " llamada silenciosa ". La detección de llamadas con un mensaje de varios segundos como "Por favor, diga quién es y puedo levantar el teléfono" frustrará este tipo de llamadas automatizadas. [ cita requerida ]
Para evaluar un dispositivo de audio visual, se compara su rendimiento mediante grabaciones de prueba con el de un dispositivo de audio visual "ideal", creado anotando a mano la presencia o ausencia de voz en las grabaciones. El rendimiento de un dispositivo de audio visual se evalúa habitualmente sobre la base de los cuatro parámetros siguientes: [4]
Aunque el método descrito anteriormente proporciona información objetiva útil sobre el rendimiento de un VAD, es solo una medida aproximada del efecto subjetivo. Por ejemplo, los efectos del recorte de la señal de voz a veces pueden quedar ocultos por la presencia de ruido de fondo, dependiendo del modelo elegido para la síntesis de ruido de confort, por lo que parte del recorte medido con pruebas objetivas en realidad no es audible. Por lo tanto, es importante realizar pruebas subjetivas en los VAD, cuyo objetivo principal es garantizar que el recorte percibido sea aceptable. En las aplicaciones de VoIP, el recorte del front-end se puede reducir rebobinando hasta poco antes de la detección y enviando datos con un ligero retraso.
Este tipo de prueba requiere que un cierto número de oyentes juzguen las grabaciones que contienen los resultados del procesamiento de los VAD que se están probando, otorgando calificaciones a varias secuencias de habla en las siguientes características:
Estas marcas se utilizan luego para calcular resultados promedio para cada una de las características enumeradas anteriormente, proporcionando así una estimación global del comportamiento del VAD que se está probando.
En conclusión, mientras que los métodos objetivos son muy útiles en una etapa inicial para evaluar la calidad de un VAD, los métodos subjetivos tienen mayor relevancia, ya que requieren la participación de varias personas durante unos días, lo que aumenta el costo, por lo que generalmente solo se utilizan cuando se está por estandarizar una propuesta.