Análisis de la calidad de la escucha objetiva perceptiva

Análisis de la calidad de escucha objetiva perceptual ( POLQA ) fue el título provisional de una norma ITU-T que cubre un modelo para predecir la calidad del habla mediante el análisis de señales de voz digitales. ^[1] El modelo fue estandarizado como Recomendación ITU-T P.863 (Evaluación de la calidad de escucha objetiva perceptual) en 2011. La segunda edición de la norma apareció en 2014, y la tercera edición, actualmente en vigor, fue adoptada en 2018 bajo el título Predicción de la calidad de escucha objetiva perceptual. ^[2]

Alcance de la medición

POLQA cubre un modelo para predecir la calidad del habla, ^[3]^[4] mediante el análisis de señales de voz digitales. Las predicciones de esas medidas objetivas deben acercarse lo más posible a las puntuaciones de calidad subjetivas obtenidas en pruebas de escucha subjetiva. Por lo general, se predice una puntuación de opinión media (MOS). POLQA utiliza el habla real como estímulo de prueba para evaluar las redes de telefonía.

Capacidades tecnológicas

POLQA es el sucesor de PESQ (Recomendación UIT-T P.862). ^[5] POLQA evita las debilidades del modelo P.862 actual y se extiende al manejo de señales de audio de mayor ancho de banda. Otras mejoras apuntan al manejo de señales llamadas en el tiempo y señales con muchas variaciones de retardo. De manera similar a P.862, POLQA admite mediciones en la banda de telefonía común (300–3400 Hz), pero además tiene un segundo modo operativo para evaluar HD-Voice en señales de voz de banda ancha y superancha (50–14000 Hz). POLQA también apunta a la evaluación de señales de voz grabadas acústicamente por una cabeza artificial con simuladores de boca y oído.

Historial de desarrollo

Las actividades de POLQA comenzaron en el UIT-T a principios de 2006 bajo el nombre de P.OLQA. A mediados de 2009, se inició un concurso para evaluar varios modelos candidatos. En mayo de 2010, el UIT-T seleccionó modelos candidatos de tres empresas (OPTICOM, SwissQual / Rohde & Schwarz y TNO ( Organización de los Países Bajos para la Investigación Científica Aplicada )). Las tres empresas fusionaron sus enfoques en un único modelo, que se adoptó como Recomendación UIT-T P.863. ^[2]

Genealogía de normas relacionadas

La familia de mediciones objetivas de calidad de voz de referencia completa de la UIT-T comenzó en 1997 con la Recomendación UIT-T P.861 (PSQM), que fue reemplazada por la UIT-T P.862 (PESQ) ^[5] en 2001. La P.862 se complementó posteriormente con las Recomendaciones UIT-T P.862.1 ^[6] (mapeo de las puntuaciones PESQ a una escala MOS), UIT-T P.862.2 ^[7] (mediciones de banda ancha) y UIT-T P.862.3 ^[8] (guía de aplicación). La primera edición de la UIT-T P.863 (POLQA) ^[2] entró en vigor en 2011. En 2019 se aprobó una guía de aplicación para la Recomendación UIT-T P.863 y se publicó como UIT-T P.863.1. ^[9]

Además de los métodos de referencia completos enumerados anteriormente, la lista de normas objetivas de medición de la calidad de voz de la UIT-T también incluye la UIT-T P.563 ^[10] (algoritmo sin referencia).

Tipología de pruebas

POLQA, similar a P.862 PESQ, es un algoritmo de referencia completa (FR) que califica una señal de voz degradada o procesada en relación con la señal original. Compara cada muestra de la señal de referencia (lado del hablante) con cada muestra correspondiente de la señal degradada (lado del oyente). Las diferencias perceptuales entre ambas señales se puntúan como diferencias. El modelo psicoacústico perceptual se basa en modelos similares de percepción humana como MP3 o AAC. Básicamente, las señales se analizan en el dominio de frecuencia (en bandas críticas) después de aplicar funciones de enmascaramiento. Las diferencias no enmascaradas entre las dos representaciones de señales se contabilizarán como distorsiones. Finalmente, las distorsiones acumuladas en el archivo de voz se asignan a una escala de calidad de 1 a 5 como es habitual en las pruebas MOS. Las mediciones FR ofrecen la mayor precisión y repetibilidad, pero solo se pueden aplicar para pruebas dedicadas en redes en vivo (por ejemplo, herramientas de prueba de conducción para evaluaciones comparativas de redes móviles).

POLQA es un algoritmo de referencia completa que analiza la señal de voz muestra por muestra después de una alineación temporal de los extractos correspondientes de la señal de referencia y de prueba. POLQA se puede aplicar para proporcionar una evaluación de calidad de extremo a extremo (E2E) para una red o para caracterizar componentes de red individuales.

Los resultados de POLQA modelan principalmente puntuaciones de opinión medias (MOS) que cubren una escala de 1 (malo) a 5 (excelente).

Descripción del algoritmo POLQA

Las entradas del algoritmo son dos formas de onda representadas por dos vectores de datos que contienen muestras PCM de 16 bits. El primer vector contiene las muestras de la señal de referencia (sin distorsión), mientras que el segundo vector contiene las muestras de la señal degradada. El algoritmo POLQA consta de un bloque de alineación temporal, un estimador de frecuencia de muestreo de un convertidor de frecuencia de muestreo, que se utiliza para compensar las diferencias en la frecuencia de muestreo de las señales de entrada, y el modelo central real, que realiza el cálculo MOS. En un primer paso, se determina el retraso entre las dos señales de entrada y se estima la frecuencia de muestreo de las dos señales entre sí. La estimación de la frecuencia de muestreo se basa en la información de retraso calculada por la alineación temporal. Si la frecuencia de muestreo difiere en más de aproximadamente el 1%, se realiza un muestreo descendente de la señal con la frecuencia de muestreo más alta. Después de cada paso, los resultados se almacenan junto con un indicador de confiabilidad de retraso promedio, que es una medida de la calidad de la estimación de retraso. Finalmente, se elige el resultado del paso de remuestreo, que arrojó la confiabilidad general más alta. Una vez que se determina el retardo correcto y se han compensado las diferencias de frecuencia de muestreo, las señales y la información del retardo se pasan al modelo central, que calcula la perceptibilidad y la molestia de las distorsiones y las asigna a una escala MOS. Se puede encontrar una descripción mucho más detallada y completa del algoritmo en ^[2] . Las siguientes secciones solo tienen como objetivo brindar una descripción general de los conceptos básicos de la estructura interna de POLQA.

El modelo central

El elemento principal del modelo central es el modelo perceptual, que se calcula cuatro veces utilizando diferentes parámetros para hacer frente a los diferentes tipos de distorsión principales. Estos tipos de distorsión se pueden dividir en distorsiones aditivas y distorsiones sustraídas. Para ambos tipos se hace una distinción adicional entre efectos muy fuertes y más débiles. Las entradas de los modelos perceptuales son formas de onda e información de retardo. La salida es la densidad de perturbación, que es una medida de la perceptibilidad de las distorsiones en las señales. El modelo perceptual para la rama principal también produce indicadores para distorsiones de frecuencia, ruido y reverberación. Un interruptor posterior que se activa mediante un detector para distorsiones muy fuertes reduce los cuatro valores de densidad de perturbación a dos, uno para distorsiones añadidas y otro para distorsiones sustraídas. Hasta ahora, la densidad de perturbación es solo un indicador de la perceptibilidad de las distorsiones y aún no se tienen en cuenta los efectos cognitivos. Sin embargo, los aspectos cognitivos son importantes cuando se pide a los seres humanos que califiquen la calidad de lo que pueden percibir. Básicamente, convierten la medida de perceptibilidad de la densidad de perturbaciones en una medida de molestia. Esta conversión se realiza corrigiendo los valores de densidad de perturbaciones para situaciones con:

Variaciones significativas de nivel
Muchas repeticiones de cuadros
Timbre fuerte
Planitud espectral
Cambio de ruido durante las pausas del habla
Muchas variaciones de retraso
Fuertes variaciones de la densidad de perturbaciones a lo largo del tiempo
Fuertes variaciones de la intensidad de las señales.

En este paso también se calculan dos indicadores más, uno para la planitud espectral y otro para las variaciones de nivel.

Hasta ahora, todas las operaciones se realizaron en cuadros con una duración de aproximadamente 32 y 43 ms (según la frecuencia de muestreo y utilizando una superposición del 50 %) y para cada banda de Bark por separado. En un paso final, todos los indicadores se integran en el tiempo y la frecuencia para calcular el valor LQO MOS final.

El modelo perceptual

El concepto clave dentro del modelo perceptual es la idealización. La idea detrás de esto es que POLQA simula las pruebas de calificación de categoría absoluta (ACR). Sin embargo, en una prueba ACR, los sujetos no tienen comparación con la señal de referencia real cuando califican una señal de voz. En cambio, se supone que los sujetos comprenden cómo suena una señal ideal y la usan como su propia referencia. En consecuencia, si se les pide que califiquen una señal de referencia que no es absolutamente perfecta (por ejemplo, tiene el volumen incorrecto o contiene demasiado timbre, ruido o reverberación), se calificará peor que perfecta. Por lo tanto, en su paso de idealización, POLQA corrige pequeñas imperfecciones de las señales de referencia para derivar la misma referencia ideal para la comparación con la señal degradada que los sujetos humanos usarían en sus mentes. De manera similar a la idealización de la señal de referencia, algunas distorsiones presentes en la señal degradada que son apenas perceptibles en una prueba ACR se compensarán parcialmente (por ejemplo, pequeños cambios de tono, distorsiones de frecuencia lineal). El modelo perceptual comienza con el escalado de la señal de referencia a un nivel de voz activo promedio ideal de aproximadamente -26 dBov. No se realiza dicho escalado en la señal degradada. Se supone que cualquier desviación del nivel de la señal degradada con respecto al nivel ideal de -26 dBov se contabilizará como una degradación de la señal. A continuación, se calculan los espectros de ambas señales utilizando una FFT con fotogramas superpuestos al 50% con una duración de entre 32 ms y 43 ms (según la frecuencia de muestreo). Posteriormente se eliminarán los pequeños cambios de tono de la señal degradada (corrección de frecuencia). Ahora, los espectros se transformarán a una escala de tono motivada psicoacústicamente, combinando líneas espectrales individuales (contenedores FFT) en las denominadas bandas críticas. La escala de tono utilizada es similar a la escala Bark con una resolución media de 0,3 Bark por banda. El resultado es la densidad de potencia de tono. En esta etapa se calculan los tres primeros indicadores de distorsión para las distorsiones de respuesta de frecuencia, el ruido aditivo y las reverberaciones de la sala. Después de esto, se deriva la excitación de cada banda. Esto incluye el modelado de los efectos de enmascaramiento en el dominio de frecuencia y en el dominio temporal. El resultado es para cada cuadro de cada señal una representación interna de la cabeza que indica aproximadamente cuán fuerte se percibiría cada componente de frecuencia. Ahora, se lleva a cabo un paso de idealización adicional de la señal de referencia filtrando el timbre excesivo y el ruido estacionario de bajo nivel. Al mismo tiempo, las distorsiones de frecuencia lineal y el ruido estacionario se eliminan parcialmente de la señal degradada. Una sustracción de las excitaciones idealizadas finalmente conduce a la densidad de distorsión, que es una medida de la audibilidad de las distorsiones.

POLQA en la investigación

Se puede encontrar un artículo que utiliza POLQA para investigar el impacto del lenguaje tonal y la escucha no nativa en la medición de la calidad del habla en. ^[11]

Véase también

Referencias

^ "POLQA - El estándar de prueba de calidad de voz móvil de próxima generación". www.polqa.info . Consultado el 11 de abril de 2021 .
^ abcd «P.863: Predicción de la calidad de escucha objetiva perceptiva». www.itu.int . Consultado el 11 de abril de 2021 .
^ Beerends, John G.; Schmidmer, Christian; Berger, Jens; Obermann, Matthias; Ullmann, Raphael; Pomy, Joachim; Keyhl, Michael (8 de julio de 2013). "Evaluación objetiva perceptual de la calidad de escucha (POLQA), la norma ITU-T de tercera generación para la medición de la calidad del habla de extremo a extremo, parte I: alineación temporal". Revista de la Sociedad de Ingeniería de Audio . 61 (6): 366–384.
^ Beerends, John G.; Schmidmer, Christian; Berger, Jens; Obermann, Matthias; Ullmann, Raphael; Pomy, Joachim; Keyhl, Michael (8 de julio de 2013). "Evaluación objetiva de la calidad de escucha perceptual (POLQA), la norma ITU-T de tercera generación para la medición de la calidad del habla de extremo a extremo, parte II: modelo perceptual". Revista de la Sociedad de Ingeniería de Audio . 61 (6): 385–402.
^ ab "P.862: Evaluación perceptual de la calidad de la voz (PESQ): Un método objetivo para la evaluación de la calidad de la voz de extremo a extremo de redes telefónicas de banda estrecha y códecs de voz". www.itu.int . Consultado el 11 de abril de 2021 .
^ "P.862.1: Función de mapeo para transformar las puntuaciones de resultados brutos de P.862 en MOS-LQO". www.itu.int . Consultado el 11 de abril de 2021 .
^ "P.862.2: Extensión de banda ancha de la Recomendación P.862 para la evaluación de redes telefónicas de banda ancha y códecs de voz". www.itu.int . Consultado el 11 de abril de 2021 .
^ "P.862.3: Guía de aplicación para la medición objetiva de la calidad basada en las Recomendaciones P.862, P.862.1 y P.862.2". www.itu.int . Consultado el 11 de abril de 2021 .
^ "P.863.1: Guía de aplicación de la Recomendación UIT-T P.863". www.itu.int . Consultado el 11 de abril de 2021 .
^ "P.563: Método de un solo extremo para la evaluación objetiva de la calidad de la voz en aplicaciones de telefonía de banda estrecha". www.itu.int . Consultado el 11 de abril de 2021 .
^ D. Ebem (Universidad de Nigeria); et al. (2011). "El impacto del lenguaje tonal y la escucha en lenguas no nativas en la medición de la calidad del habla" (PDF) . Journal of the Audio Engineering Society . 59 (9 de septiembre de 2011): 9.