Mushras

MUSHRA significa estímulos múltiples con referencia oculta y ancla y es una metodología para realizar una prueba de escucha de códec para evaluar la calidad percibida de la salida de algoritmos de compresión de audio con pérdida . Está definida en la recomendación ITU-R BS.1534-3. ^[1] La metodología MUSHRA se recomienda para evaluar la "calidad de audio intermedia". Para deficiencias de audio muy pequeñas o sensibles, se recomienda en su lugar la recomendación ITU-R BS.1116-3 (ABC/HR).

MUSHRA se puede utilizar para probar códecs de audio en un amplio espectro de casos de uso: consumo de música y películas, voz para, por ejemplo, podcasts y radio , transmisión en línea (en la que las compensaciones entre calidad y eficiencia de tamaño y computación son primordiales), telefonía digital moderna y aplicaciones VOIP (que requieren una codificación de baja tasa de bits y cuasi-tiempo real que siga siendo inteligible). Los usos profesionales, " audiófilos " y " prosumidores " suelen ser más adecuados para pruebas alternativas, como el ABC/HR antes mencionado, con un supuesto básico de audio de alta calidad y alta resolución en el que habrá diferencias mínimas detectables entre el material de referencia y la salida del códec.

La principal ventaja sobre la metodología de puntuación de opinión media (MOS) (que tiene un propósito similar) es que MUSHRA requiere menos participantes para obtener resultados estadísticamente significativos. ^{[ cita requerida ]} Esto se debe a que todos los códecs se presentan al mismo tiempo, a los mismos participantes, de modo que se puede utilizar una prueba t pareada o un análisis de varianza de medidas repetidas para el análisis estadístico. Además, la escala de 0 a 100 utilizada por MUSHRA permite expresar diferencias perceptibles con un alto grado de granularidad, especialmente en comparación con la escala Likert modificada de 0 a 5 que suelen utilizar los experimentos MOS.

En MUSHRA, al oyente se le presenta la referencia (etiquetada como tal), una cierta cantidad de muestras de prueba, una versión oculta de la referencia y uno o más anclajes (es decir, codificaciones severamente deterioradas que tanto los experimentadores como los participantes deben reconocer inmediatamente como tales; utilizadas de manera similar a la referencia para proporcionar una línea base que demuestre ("anclaje") a los participantes la actualidad del extremo inferior de la escala de calidad). La recomendación especifica que se debe incluir un ancla de rango bajo y un ancla de rango medio en las señales de prueba. Por lo general, se trata de una versión de paso bajo de 7 kHz y una de 3,5 kHz de la referencia. El propósito de los anclajes es calibrar la escala para que los artefactos menores no se penalicen indebidamente. Esto es particularmente importante cuando se comparan o agrupan resultados de diferentes laboratorios.

Comportamiento del oyente

Tanto la prueba MUSHRA como la prueba ITU BS.1116 ^[2] requieren oyentes expertos entrenados que sepan cómo suenan los artefactos típicos y dónde es probable que ocurran. Los oyentes expertos también tienen una mejor internalización de la escala de calificación, lo que conduce a resultados más repetibles que con oyentes no entrenados. Por lo tanto, con oyentes entrenados, se necesitan menos oyentes para lograr resultados estadísticamente significativos .

Se supone que las preferencias son similares para los oyentes expertos y los oyentes inexpertos y, por lo tanto, los resultados de los oyentes expertos también son predictivos para los consumidores. De acuerdo con esta suposición, Schinkel-Bielefeld et al. ^[3] no encontraron diferencias en el orden de clasificación entre oyentes expertos y oyentes no entrenados al usar señales de prueba que contenían solo timbre y ningún artefacto espacial. Sin embargo, Rumsey et al. ^[4] demostraron que para las señales que contienen artefactos espaciales, los oyentes expertos ponderan los artefactos espaciales ligeramente más que los oyentes no entrenados, quienes se centran principalmente en los artefactos de timbre.

Además de esto, se ha demostrado que los oyentes expertos hacen más uso de la opción de escuchar secciones más pequeñas de las señales bajo prueba repetidamente y realizan más comparaciones entre las señales bajo prueba y la referencia. ^[3] A diferencia del oyente ingenuo que produce una calificación de preferencia, los oyentes expertos producen una calificación de calidad de audio, calificando las diferencias entre la señal bajo prueba y el original sin comprimir, que es el objetivo real de una prueba MUSHRA.

Pre o post evaluación

Las directrices MUSHRA describen dos posibilidades principales para evaluar la confiabilidad de un oyente (que se describen a continuación).

La más fácil y habitual es descalificar, a posteriori , a todos los oyentes que califiquen la repetición de la referencia oculta por debajo de 90 puntos MUSHRA para más del 15% de todos los ítems de la prueba. La referencia oculta debería , en el caso ideal, ser calificada con 100 puntos para indicar equivalencia perceptual con el audio de referencia original. Si bien puede suceder que la referencia oculta y una señal de alta calidad se confundan, la especificación establece que una calificación inferior a 90 solo debe otorgarse cuando el oyente esté seguro de que la señal calificada es diferente de la referencia original, por lo que una calificación inferior a 90 para la referencia oculta se considera un error claro y obvio del oyente.

La otra posibilidad para evaluar el desempeño de un oyente es eGauge, ^[5] un marco basado en el análisis de varianza (ANOVA). Calcula el acuerdo , la repetibilidad y la discriminabilidad , aunque solo se recomiendan los dos últimos para la preselección o la posselección. El acuerdo es el ANOVA de la concurrencia de un oyente con el resto de los oyentes. La repetibilidad examina la confiabilidad interna del individuo al calificar la misma señal de prueba nuevamente en comparación con la varianza de las otras señales de prueba. La discriminabilidad analiza una especie de confiabilidad entre pruebas al verificar que los oyentes pueden distinguir entre señales de prueba de diferentes condiciones. Como eGauge requiere escuchar cada señal de prueba dos veces, su uso es temporalmente ineficiente en el plazo inmediato en relación con el método anterior de postselección de oyentes basado en una referencia oculta. eGauge tiene ventajas cuando se usa con una visión a más largo plazo. Niega la pequeña posibilidad de una repetición completa en el caso poco común en el que los resultados de una muestra carecen de suficiente poder estadístico debido a una tasa de fallas excesiva descubierta después del hecho. Además, la ineficiencia inicial se puede amortizar a lo largo de una serie de experimentos eliminando la necesidad de fases de reclutamiento: si un oyente ha demostrado ser un oyente confiable utilizando eGauge, también puede ser considerado un oyente confiable para futuras pruebas de escucha, siempre que la naturaleza de la prueba no se altere sustancialmente (por ejemplo, un oyente confiable para pruebas estéreo no es necesariamente igualmente bueno para percibir artefactos en configuraciones 5.1 o 22.2 o potencialmente incluso en formatos mono ).

Elementos de prueba

Es importante elegir elementos de prueba críticos. Específicamente, elementos que son difíciles de codificar y que probablemente produzcan artefactos. Al mismo tiempo, los elementos de prueba deben ser ecológicamente válidos : deben ser representativos del material transmitido y no meras señales sintéticas diseñadas para ser difíciles de codificar a expensas del realismo. Ekeroot et al. presentan un método para elegir material crítico y proponen un procedimiento de clasificación por eliminación. ^[6]^{[ se necesita más explicación ]} Si bien esto es eficaz para seleccionar los elementos de prueba más críticos, no garantiza la inclusión de una variedad de elementos de prueba propensos a diferentes artefactos.

Idealmente, un ítem de prueba MUSHRA debería mantener características similares durante toda su duración (por ejemplo, el uso de instrumentación consistente en la música o la voz de la misma persona con cadencia y tono similares en audio hablado). Puede ser difícil para el oyente decidir sobre una calificación MUSHRA unidimensional si algunas partes de los ítems demuestran artefactos diferentes o artefactos más fuertes en comparación con otras partes, lo que se vuelve más probable por grandes variaciones en las características del audio. ^[7] A menudo, los ítems más cortos conducen a una menor variabilidad ya que demuestran una mayor estacionariedad (consistencia y consistencia perceptual). ^[8] Sin embargo, incluso cuando se intenta elegir ítems estacionarios, los estímulos ecológicamente válidos (es decir, audio que es probable que aparezca o similar al que es probable que aparezca en situaciones del mundo real como en la radio) muy a menudo tendrán secciones que son ligeramente más críticas que el resto de la señal (los ejemplos incluyen palabras clave en un discurso o frases principales de música y dependen del tipo de estímulo). La estacionariedad es importante ya que los oyentes que se centran en diferentes secciones de la señal tienden a evaluarla de manera diferente. Los oyentes más analíticos parecen ser mejores a la hora de identificar las regiones más críticas de un estímulo que aquellos que son menos analíticos. ^[9]

Idioma de los elementos de prueba

Las pruebas ITU-T P.800, ^[10] basadas en la metodología de puntuación de opinión media, se utilizan comúnmente para evaluar los códecs telefónicos para su uso en, por ejemplo, VOIP . Esta norma especifica que los elementos de voz probados siempre deben estar en el idioma nativo de los oyentes. Cuando se utiliza MUSHRA en su lugar para estos fines, la coincidencia de idiomas se vuelve innecesaria. Los experimentos MUSHRA no tienen como objetivo probar la inteligibilidad de las palabras habladas, sino únicamente la calidad del audio que contiene esas palabras y la presencia o ausencia de artefactos audibles (por ejemplo, distorsión). Un estudio MUSHRA con oyentes chinos mandarín y alemanes no encontró diferencias significativas entre la calificación de los elementos de prueba en idioma extranjero y nativo. A pesar de la falta de distinción en los resultados finales, los oyentes necesitaron más tiempo y oportunidades de comparación (repeticiones) para evaluar con precisión los elementos en idioma extranjero. ^[11] Esta compensación es imposible en las pruebas ACR ITU-T P.800 en las que los elementos se escuchan solo una vez y no es posible realizar una comparación con el audio de referencia. En dichas pruebas, a diferencia de las pruebas MUSHRA, los elementos en lengua extranjera se perciben y luego se califican como de menor calidad, independientemente de la calidad real del códec, cuando el dominio de los oyentes en la lengua de destino es bajo. ^[12]

Referencias

^ Recomendación ITU-R BS.1534
^ ITU-R BS.1116 (febrero de 2015). "Métodos para la evaluación subjetiva de pequeñas deficiencias en sistemas de audio". {{cite journal}}: Requiere citar revista |journal=( ayuda )Mantenimiento de CS1: nombres numéricos: lista de autores ( enlace )
^ ab Schinkel-Bielefeld, N., Lotze, N. y Nagel, F. (mayo de 2013). "Evaluación de la calidad del audio por oyentes experimentados e inexpertos". Revista de la Sociedad Acústica de América . 133 (5): 3246. Código Bibliográfico : 2013ASAJ..133.3246S. doi : 10.1121/1.4805210.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Rumsey, Francis; Zielinski, Slawomir; Kassier, Rafael; Bech, Søren (31 de mayo de 2005). "Relaciones entre las valoraciones de la calidad de audio multicanal por parte de oyentes experimentados y las preferencias de oyentes ingenuos". Revista de la Sociedad Acústica de Estados Unidos . 117 (6): 3832–3840. Bibcode :2005ASAJ..117.3832R. doi :10.1121/1.1904305. ISSN 0001-4966. PMID 16018485.
^ Gaëtan, Lorho; Guillaume, Le Ray; Nick, Zacharov (13 de junio de 2010). "eGauge: una medida de la experiencia del evaluador en evaluaciones de calidad de audio". Actas de la Audio Engineering Society. 38.ª Conferencia internacional sobre evaluación de la calidad del sonido .
^ Ekeroot, Jonas; Berg, Jan; Nykänen, Arne (25 de abril de 2014). "Criticidad de los estímulos de audio para pruebas de escucha: duraciones de escucha durante una tarea de clasificación". 136.ª Convención de la Sociedad de Ingeniería de Audio .
^ Max, Neuendorf; Frederik, Nagel (19 de octubre de 2011). "Estudios exploratorios sobre la estacionariedad perceptual en pruebas de comprensión auditiva - Parte I: señales del mundo real a partir de pruebas de comprensión auditiva personalizadas". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Frederik, Nagel; Max, Neuendorf (19 de octubre de 2011). "Estudios exploratorios sobre la estacionariedad perceptual en pruebas de escucha - Parte II: señales sintéticas con artefactos que varían con el tiempo". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Nadja, Schinkel-Bielefeld (11 de mayo de 2017). "Evaluación de la calidad de audio en pruebas MUSHRA: influencias entre la configuración del bucle y las calificaciones de los oyentes". 142.ª Convención de la Sociedad de Ingeniería de Audio .
^ UIT-T P.800 (agosto de 1996). "P.800: Métodos para la determinación subjetiva de la calidad de transmisión". {{cite journal}}: Requiere citar revista |journal=( ayuda )Mantenimiento de CS1: nombres numéricos: lista de autores ( enlace )
^ Nadja, Schinkel-Bielefeld; Zhang, Jiandong; Qin, Yili; Katharina, Leschanowsky, Anna; Fu, Shanshan (11 de mayo de 2017). "¿Es más difícil percibir artefactos de codificación en ítems en lenguas extranjeras? – Un estudio con oyentes de habla china mandarín y alemana". {{cite journal}}: Requiere citar revista |journal=( ayuda )Mantenimiento de CS1: varios nombres: lista de autores ( enlace )
^ Blašková, Lubica; Holub, Jan (2008). "¿Cómo perciben los oyentes no nativos la calidad de la voz transmitida?" (PDF) . Comunicaciones . 10 (4): 11–15. doi :10.26552/com.C.2008.4.11-14. S2CID 196699038.

Enlaces externos

webMUSHRA: un software de experimentación basado en API de audio web compatible con MUSHRA, configurable mediante YAML
RateIt: una interfaz gráfica de usuario para realizar experimentos MUSHRA
MUSHRAM - Una interfaz de Matlab para las pruebas de escucha de MUSHRA en Wayback Machine (archivado el 19 de octubre de 2008)
Una interfaz Max/MSP para pruebas de escucha MUSHRA
Una herramienta de evaluación de audio basada en navegador, para ejecutar muchas pruebas diferentes, incluida MUSHRA (no se necesita codificación)
BeaqleJS: marco basado en HTML5 y JavaScript para pruebas de escucha
mushraJS+Server: basado en mushraJS con el servidor mochiweb, que es el servidor web erlang