Medición de la calidad perceptiva del habla

La Medida de la Calidad Perceptual del Habla ( PSQM ) es un algoritmo computacional y de modelado definido en la Recomendación UIT-T P.861 que evalúa y cuantifica objetivamente la calidad de voz de los códecs de voz de banda de voz (300 – 3400 Hz) . Puede utilizarse para clasificar el rendimiento de estos códecs de voz con diferentes niveles de entrada de voz, hablantes, velocidades de bits y transcodificaciones. La Recomendación P.861 fue retirada y reemplazada por la Recomendación UIT-T P.862 ( PESQ ), que contiene un algoritmo mejorado de evaluación de voz.

¿Por qué se utiliza?

El uso del estándar PSQM permite aplicar metodologías de prueba automatizadas y basadas en simulación para evaluar objetivamente tanto la claridad del habla como la calidad de la voz transmitida. Se han desarrollado varios productos de software y/o hardware para facilitar estas pruebas. Esto se traduce en un ahorro considerable de costes y tiempo en comparación con la práctica tradicional de utilizar grandes grupos de personas para evaluar subjetivamente las señales de voz y evaluar la calidad de la voz. Además, se obtienen resultados objetivos que son fiables y reproducibles. Esto es muy importante para los proveedores de telefonía que tienen la obligación de mantener altos estándares de calidad del servicio .

Algoritmo

PSQM utiliza un algoritmo de modelado matemático psicoacústico (tanto perceptivo como cognitivo) para analizar las señales de voz pre y post transmitidas, lo que produce un valor PSQM que es una medida de la degradación de la calidad de la señal y varía de 0 (sin degradación) a 6,5 (degradación máxima). A su vez, este resultado puede traducirse en una puntuación de opinión media (MOS), que es una medida aceptada de la calidad percibida de los medios recibidos en una escala numérica que va de 1 a 5. Un valor de 1 indica una voz de mala calidad inaceptable, mientras que un valor de 5 indica una calidad de voz alta sin problemas perceptibles.

El algoritmo PSQM convierte las señales del dominio físico en el dominio psicoacústico perceptualmente significativo a través de una serie de procesos no lineales como el mapeo de tiempo-frecuencia, la deformación de frecuencia y la deformación de intensidad.

La calidad del habla codificada se juzga en función de las diferencias en la representación interna. La diferencia se utiliza para el cálculo de la perturbación del ruido en función del tiempo y la frecuencia. Además del modelado perceptual, el algoritmo PSQM utiliza el modelado cognitivo, como el escalado de volumen y el enmascaramiento asimétrico, para obtener altas correlaciones entre las mediciones subjetivas y objetivas.

Limitaciones

El PSQM, tal como se concibió originalmente, no fue desarrollado para tener en cuenta las perturbaciones de la calidad de servicio de la red comunes en las aplicaciones de Voz sobre IP , como la pérdida de paquetes, la variación de retardo (jitter) o los paquetes no secuenciales. Estas condiciones suelen dar resultados inadecuados en simulaciones de cargas de red pesadas, sin tener en cuenta una pérdida percibida muy real de la calidad de voz. Los intentos de duplicar las condiciones de falla de la red mediante la introducción de una pérdida significativa de paquetes dan como resultado valores PSQM que corresponden a valores MOS inflados falsamente .

Para superar esta limitación, se desarrolló PSQM+ modificando el algoritmo original. PSQM+ genera resultados que parecen reflejar con mayor precisión el desempeño adverso de los códecs de voz en condiciones de carga de red realistas.

Otras consideraciones

Otros problemas tienen que ver con la falta de estandarización de las señales de prueba utilizadas para evaluar los distintos códecs de voz. El PSQM proporciona valores MOS más fiables y consistentes si se utiliza de acuerdo con los métodos recomendados por la UIT para la evaluación objetiva y subjetiva de la calidad (UIT-T P.800/P.830/P.861). Estas recomendaciones de la UIT-T incluyen el uso de señales de referencia de voz de género masculino y femenino a un nivel medio de −20 dB ^{[ aclaración necesaria ]} . El tipo, el género, la duración y la ganancia de la voz o la señal pueden tener un impacto menor en el valor PSQM o la puntuación MOS, al igual que los niveles de umbral, la cantidad de llamadas realizadas y otros ajustes de configuración del entorno. Al comparar las mediciones de calidad de voz, se deben tener en cuenta la señal, el entorno y las configuraciones.

Existen muchos códecs de voz que se utilizan en una amplia variedad de aplicaciones. Es necesaria una selección cuidadosa de los códecs de voz adecuados para cumplir con los requisitos del sistema. Hay disponible una lista de códecs de voz comunes y sus valores MOS derivados de PSQM/PSQM+ asociados obtenidos en diversas condiciones de carga de red.

Referencias

Recomendación UIT-T P.861 (retirada): Medición objetiva de la calidad de los códecs de voz en la banda telefónica (300–3400 Hz). Se reconoció que la P.861 tenía ciertas limitaciones en áreas específicas de aplicación. Fue reemplazada por la P.862, que contiene un algoritmo mejorado de evaluación objetiva de la calidad de la voz.
Recomendación UIT-T P.862 (2001-02): Evaluación perceptual de la calidad de la voz (PESQ): Un método objetivo para la evaluación de la calidad de la voz de extremo a extremo de redes telefónicas de banda estrecha y códecs de voz
"Foro de la revista AES » Una medida de la calidad perceptual del habla basada en una representación psicoacústica del sonido". secure.aes.org . Consultado el 18 de abril de 2024.

Véase también

Puntuación media de opinión (MOS)
Evaluación perceptual de la calidad del habla (PESQ), la tecnología sucesora de PSQM
Voz sobre IP