Prueba ABX

Una prueba ABX es un método de comparación de dos opciones de estímulos sensoriales para identificar diferencias detectables entre ellas. A un sujeto se le presentan dos muestras conocidas (la muestra A , la primera referencia, y la muestra B , la segunda referencia) seguidas de una muestra desconocida X que se selecciona aleatoriamente de A o B. Luego, se le pide al sujeto que identifique X como A o B. Si X no se puede identificar de manera confiable con un valor p bajo en un número predeterminado de ensayos, entonces no se puede rechazar la hipótesis nula y no se puede probar que existe una diferencia perceptible entre A y B.

Las pruebas ABX se pueden realizar fácilmente como ensayos doble ciego , eliminando cualquier posible influencia inconsciente del investigador o del supervisor de la prueba. Debido a que las muestras A y B se proporcionan justo antes de la muestra X, no es necesario discernir la diferencia utilizando la memoria a largo plazo o la experiencia pasada. Por lo tanto, la prueba ABX responde si, en las circunstancias de la prueba, se puede encontrar o no una diferencia perceptiva.

Las pruebas ABX se utilizan comúnmente en evaluaciones de métodos de compresión de datos de audio digital; la muestra A es típicamente una muestra sin comprimir y la muestra B es una versión comprimida de A. Los artefactos de compresión audibles que indican una deficiencia en el algoritmo de compresión se pueden identificar con pruebas posteriores. Las pruebas ABX también se pueden utilizar para comparar los diferentes grados de pérdida de fidelidad entre dos formatos de audio diferentes a una tasa de bits determinada .

Las pruebas ABX se pueden utilizar para auditar componentes de entrada, procesamiento y salida, así como el cableado: prácticamente cualquier producto de audio o diseño de prototipo.

Historia

La historia de las pruebas y la denominación de ABX se remonta a 1950 en un artículo publicado por dos investigadores de Bell Labs, WA Munson y Mark B. Gardner, titulado Estandarización de pruebas auditivas . ^[1]

El objetivo del presente trabajo es describir un procedimiento de prueba que ha demostrado ser prometedor en esta dirección y dar descripciones de equipos que han resultado útiles para minimizar la variabilidad de los resultados de la prueba. El procedimiento, que hemos llamado prueba "ABX", es una modificación del método de comparaciones por pares. A un observador se le presenta una secuencia temporal de tres señales para cada juicio que se le pide que haga. Durante el primer intervalo de tiempo oye la señal A, durante el segundo, la señal B y, por último, la señal X. Su tarea es indicar si el sonido que oye durante el intervalo X se parece más al del intervalo A o al del intervalo B. Para una prueba de umbral, el intervalo A es silencioso, el intervalo B es señal y el intervalo X es silencioso o señal.

La prueba ha evolucionado hacia otras variantes, como el control del sujeto sobre la duración y la secuencia de la prueba. Un ejemplo de ello fue el comparador de hardware ABX de 1977, construido por la empresa ABX en Troy, Michigan, y documentado por uno de sus fundadores, David Clark. ^[2]

Mejoras en la prueba A/B
La primera experiencia del autor con pruebas de audibilidad doble ciego fue como miembro del Club de Audio SMWTMS a principios de 1977. Se proporcionó un botón que seleccionaría al azar el componente A o B. Al identificar uno de estos, el componente X se vio muy obstaculizado por no tener los conocidos A y B disponibles como referencia.
Esto se corrigió utilizando tres botones entrelazados, A, B y X. Una vez que se seleccionaba una X, permanecería siendo esa A o B en particular hasta que se decidiera pasar a otra selección aleatoria.
Sin embargo, rápidamente se hizo evidente otro problema. Siempre había un retraso audible en el tiempo de transición del relé al cambiar de A a B. Sin embargo, al cambiar de A a X, el retraso no se producía si X era realmente A y sí si X era realmente B. Esta señal extraña se eliminó insertando un tiempo de interrupción de duración fija cuando se realizaba cualquier cambio. El tiempo de interrupción se seleccionó para que fuera de 50 ms, lo que produce un clic leve y constante al mismo tiempo que permite una comparación subjetivamente instantánea.

La empresa ABX ya no existe y los comparadores de hardware en general ya no existen como oferta comercial. Existen innumerables herramientas de software, como el complemento ABX de Foobar, para realizar comparaciones de archivos. Pero las pruebas de equipos de hardware requieren la creación de implementaciones personalizadas.

Pruebas de hardware

Los equipos de prueba ABX que utilizan relés para cambiar entre dos rutas de hardware diferentes pueden ayudar a determinar si existen diferencias de percepción en los cables y componentes. Se pueden comparar las rutas de transmisión de video, audio y digital. Si la conmutación está controlada por microprocesador, es posible realizar pruebas de doble ciego.

Las comparaciones de nivel de audio de línea y de altavoz se pueden realizar en un dispositivo de prueba ABX que QSC Audio Products ofreció a la venta como Comparador ABX entre 1998 y 2004. Otras soluciones de hardware han sido fabricadas de forma privada por individuos u organizaciones para pruebas internas.

Confianza

Si se realizara un solo ensayo ABX, la adivinación aleatoria tendría un 50% de posibilidades de elegir la respuesta correcta, lo mismo que lanzar una moneda al aire. Para que una afirmación tenga cierto grado de confianza , se deben realizar muchos ensayos. Al aumentar el número de ensayos, se mejora la probabilidad de afirmar estadísticamente la capacidad de una persona para distinguir A y B para un nivel de confianza dado. Un nivel de confianza del 95% se considera comúnmente estadísticamente significativo . ^[2] La empresa QSC, en el manual de usuario del Comparador ABX, recomendó un mínimo de diez ensayos de escucha en cada ronda de pruebas. ^[3]

QSC recomendó que no se realicen más de 25 ensayos, ya que la fatiga del sujeto puede aparecer, lo que hace que la prueba sea menos sensible (menos probable que revele la capacidad real de uno para discernir la diferencia entre A y B). ^[3] Sin embargo, se puede obtener una prueba más sensible agrupando los resultados de una serie de tales pruebas utilizando individuos separados o pruebas del mismo sujeto realizadas entre descansos. Para una gran cantidad de ensayos totales N, se puede reclamar un resultado significativo (uno con un 95% de confianza) si el número de respuestas correctas excede . Las decisiones importantes normalmente se basan en un nivel de confianza más alto, ya que se reclamaría un resultado significativo erróneo en una de 20 pruebas de este tipo simplemente por casualidad. $N/2+{\sqrt {N}}$

Pruebas de software

Los reproductores de audio foobar2000 y Amarok admiten pruebas ABX basadas en software, este último mediante un script de terceros. Lacinato ABX es una herramienta de prueba de audio multiplataforma para Linux, Windows y Mac de 64 bits. Lacinato WebABX es una herramienta ABX de audio multiplataforma basada en la web para navegadores múltiples. El aveX de código abierto se desarrolló principalmente para Linux , que también proporciona monitoreo de pruebas desde una computadora remota. ABX patcher es una implementación de ABX para Max/MSP . Se puede encontrar más software ABX en el sitio web archivado de PCABX.

Pruebas de escucha de códecs

Una prueba de escucha de códecs es un estudio científico diseñado para comparar dos o más códecs de audio con pérdida , generalmente con respecto a la fidelidad percibida o la eficiencia de compresión.

Posibles defectos

ABX es un tipo de prueba de elección forzada . Las elecciones de un sujeto pueden basarse en el mérito, es decir, el sujeto trató honestamente de identificar si X parecía más cercano a A o B. Pero sujetos desinteresados o cansados pueden elegir al azar sin siquiera intentarlo. Si no se detecta, esto puede diluir los resultados de otros sujetos que tomaron la prueba intencionalmente y someter el resultado a la paradoja de Simpson , lo que da como resultado resultados resumidos falsos. Simplemente mirar los totales de resultados de la prueba ( m de n respuestas correctas) no puede revelar ocurrencias de este problema.

Este problema se agudiza si las diferencias son pequeñas. El usuario puede frustrarse y simplemente intentar terminar la prueba votando al azar. En este sentido, las pruebas de elección forzada como ABX tienden a favorecer los resultados negativos cuando las diferencias son pequeñas si no se utilizan los protocolos adecuados para evitar este problema.

Las mejores prácticas exigen tanto la inclusión de controles como la selección de sujetos: ^[5]

Una consideración importante es la inclusión de condiciones de control adecuadas. Por lo general, las condiciones de control incluyen la presentación de materiales de audio sin alteraciones, presentados de maneras que son impredecibles para los sujetos. Son las diferencias entre el juicio de estos estímulos de control y los potencialmente alterados las que permiten concluir que las calificaciones son evaluaciones reales de las alteraciones.

3.2.2 Post-selección de los sujetos
Los métodos de post-cribado pueden dividirse aproximadamente en al menos dos clases: uno se basa en inconsistencias comparadas con el resultado medio y otro se basa en la capacidad del sujeto para hacer identificaciones correctas. El primer tipo nunca es justificable. Siempre que se realiza una prueba de escucha subjetiva con el método de prueba recomendado aquí, la información requerida para el segundo tipo de post-cribado está disponible automáticamente. Un método estadístico sugerido para hacer esto se describe en el Anexo 1.
Los métodos se utilizan principalmente para eliminar a los sujetos que no pueden hacer las discriminaciones adecuadas. La aplicación de un método de selección posterior puede aclarar las tendencias en el resultado de una prueba. Sin embargo, teniendo en cuenta la variabilidad de la sensibilidad de los sujetos a diferentes artefactos, se debe tener precaución.

Otras deficiencias incluyen la falta de formación en la materia y de familiarización con la prueba y el contenido seleccionado:

4.1 Fase de familiarización o entrenamiento
Antes de la calificación formal, los sujetos deben familiarizarse completamente con las instalaciones de prueba, el entorno de prueba, el proceso de calificación, las escalas de calificación y los métodos de su uso. Los sujetos también deben familiarizarse completamente con los artefactos en estudio. Para las pruebas más sensibles, se los debe exponer a todo el material que calificarán más adelante en las sesiones de calificación formal. Durante la familiarización o el entrenamiento, los sujetos deben estar preferiblemente juntos en grupos (por ejemplo, compuestos por tres sujetos), de modo que puedan interactuar libremente y discutir los artefactos que detecten entre sí.

Otros problemas pueden surgir del propio equipo ABX, como lo describe Clark ^[2], donde el equipo proporciona una señal que permite al sujeto identificar la fuente. La falta de transparencia del dispositivo ABX crea problemas similares.

Dado que las pruebas auditivas y muchas otras pruebas sensoriales dependen de la memoria a corto plazo , que sólo dura unos pocos segundos, es fundamental que el dispositivo de prueba permita al sujeto identificar segmentos cortos que se puedan comparar rápidamente. Asimismo, se deben eliminar los ruidos y las fallas en los aparatos de conmutación, ya que pueden dominar o interferir de otro modo con los estímulos que se están probando en lo que se almacena en la memoria a corto plazo del sujeto.

Alternativas

Evaluación de compresión de audio algorítmica

Dado que las pruebas ABX requieren la participación de seres humanos para evaluar los códecs de audio con pérdida, es una tarea que requiere mucho tiempo y dinero. Por lo tanto, se han desarrollado métodos más económicos, por ejemplo, PEAQ , que es una implementación del ODG .

Mushras

En MUSHRA , se presenta al sujeto la referencia (etiquetada como tal), una cierta cantidad de muestras de prueba, una versión oculta de la referencia y uno o más puntos de referencia. Una escala de calificación de 0 a 100 permite calificar diferencias muy pequeñas, y la versión oculta aún proporciona comprobaciones de discriminación.

Prueba de discriminación

En las pruebas de discriminación se utilizan métodos generales alternativos , como la comparación por pares, la prueba dúo-trío y la prueba triangular . De estos, la prueba dúo-trío y la prueba triangular son particularmente similares a las pruebas ABX. Esquemáticamente:

Dúo-trío: AXY – uno conocido, dos desconocidos (uno igual a A, otro igual a B), la prueba es cuál desconocido es el conocido: X = A (e Y = B), o Y = A (y X = B).
Triángulo: XXY – tres incógnitas (dos son A y una es B o una es A y dos son B), prueba cuál es la incógnita: Y = 1, Y = 2 o Y = 3.

En este contexto, la prueba ABX también se conoce como "dúo-trío" en modo de "referencia equilibrada": ambos valores conocidos se presentan como referencias, en lugar de uno solo. ^[6]

Véase también

Referencias

^ Munson, WA; Gardner, Mark B. (1950). "Estandarización de las pruebas auditivas". Revista de la Sociedad Americana de Acústica . 22 (5). Sociedad Americana de Acústica (ASA): 675. Bibcode :1950ASAJ...22Q.675M. doi : 10.1121/1.1917190 . ISSN 0001-4966.
^ abc Clark, David (1 de mayo de 1982). "Pruebas subjetivas de alta resolución utilizando un comparador doble ciego". Journal of the Audio Engineering Society . 30 (5): 330–338 . Consultado el 8 de octubre de 2016 .
^ Manual del usuario del comparador QSC ABX. (1998) pág. 10
^ David Carlstrom. "Probabilidad de que el resultado experimental sea el mismo que el de las suposiciones aleatorias". Página web de ABX . Consultado el 14 de diciembre de 2011 .] en
^ "Recomendación UIT-R BS.1116-2" (PDF) . Consultado el 8 de octubre de 2016 .
^ Meilgaard, Morten; Gail Vance Civille; B. Thomas Carr (1999). Técnicas de evaluación sensorial (3.ª ed.). CRC Press. pp. 68–70. ISBN 0-8493-0276-5.