La latencia se refiere a un breve período de retraso (generalmente medido en milisegundos ) entre el momento en que una señal de audio ingresa a un sistema y el momento en que emerge. Los posibles factores que contribuyen a la latencia en un sistema de audio incluyen la conversión de analógico a digital , el almacenamiento en búfer , el procesamiento de señales digitales , el tiempo de transmisión , la conversión de digital a analógico y la velocidad del sonido en el medio de transmisión .
La latencia puede ser una métrica de rendimiento crítica en el audio profesional , incluidos los sistemas de refuerzo de sonido , los sistemas de retorno (especialmente los que utilizan monitores intraauriculares ) y la radio y la televisión en vivo . Una latencia de audio excesiva tiene el potencial de degradar la calidad de las llamadas en aplicaciones de telecomunicaciones . El audio de baja latencia en las computadoras es importante para la interactividad .
En todos los sistemas, se puede decir que la latencia consta de tres elementos: retraso del códec , retraso de reproducción y retraso de la red.
La latencia en las llamadas telefónicas a veces se denominaretardo boca-oído ; la industria de las telecomunicaciones también utiliza el términocalidad de experiencia(QoE). La calidad de voz se mide según elde la UIT; la calidad medible de una llamada se degrada rápidamente cuando la latencia del retardo boca-oído supera los 200 milisegundos. Lapuntuación media de opinión(MOS) también es comparable de forma casi lineal con la escala de calidad de la UIT (definida en las normas G.107,[1] : 800 G.108[2]y G.109[3]), con un factor de calidadRque va de 0 a 100. Una MOS de 4 ('Buena') tendría unaRde 80 o superior; para lograr 100R se requiere una MOS superior a 4,5.
La UIT y el 3GPP agrupan los servicios de usuario final en clases según la sensibilidad a la latencia: [4]
De manera similar, la recomendación G.114 con respecto al retardo boca-oído indica que la mayoría de los usuarios están "muy satisfechos" siempre que la latencia no supere los 200 ms, con un R correspondiente de 90+. La elección del códec también juega un papel importante; los códecs de mayor calidad (y mayor ancho de banda) como G.711 generalmente se configuran para incurrir en la menor latencia de codificación-decodificación, por lo que en una red con suficiente rendimiento se pueden lograr latencias inferiores a 100 ms . G.711 a una tasa de bits de 64 kbit/s es el método de codificación que se usa predominantemente en la red telefónica pública conmutada .
El códec de banda estrecha AMR , utilizado en redes GSM y UMTS , introduce latencia en los procesos de codificación y decodificación.
A medida que los operadores móviles actualizan las redes existentes de máximo esfuerzo para soportar múltiples tipos de servicios simultáneos en redes totalmente IP, servicios como la Calidad de Servicio Jerárquica ( H-QoS ) permiten políticas de QoS por usuario y por servicio para priorizar protocolos sensibles al tiempo como llamadas de voz y otro tráfico de retorno inalámbrico. [5] [6] [7]
Otro aspecto de la latencia móvil es la transferencia entre redes; cuando un cliente de la Red A llama a un cliente de la Red B, la llamada debe atravesar dos redes de acceso por radio separadas , dos redes centrales y un Centro de conmutación móvil de puerta de enlace (GMSC) que realiza la interconexión física entre los dos proveedores. [8]
Con conexiones de velocidad asegurada y con calidad de servicio de extremo a extremo , la latencia se puede reducir a niveles analógicos PSTN/POTS. En una conexión estable con suficiente ancho de banda y latencia mínima, los sistemas VoIP suelen tener una latencia inherente mínima de 20 ms. En condiciones de red menos ideales, se busca una latencia máxima de 150 ms para el uso general del consumidor. [9] [10] Muchos sistemas de videoconferencia populares dependen del almacenamiento en búfer de datos y la redundancia de datos para hacer frente a la fluctuación de la red y la pérdida de paquetes. Las mediciones han demostrado que el retraso de boca a oído está entre 160 y 300 ms en una distancia de 500 millas, en condiciones de red promedio de EE. UU. [ cita requerida ] La latencia es una consideración más importante cuando hay eco y los sistemas deben realizar supresión y cancelación de eco . [11]
La latencia puede ser un problema particular en las plataformas de audio de las computadoras. Las optimizaciones de interfaz compatibles reducen el retraso a tiempos que son demasiado cortos para que el oído humano los detecte. Al reducir los tamaños de búfer, se puede reducir la latencia. [12] Una solución de optimización popular es ASIO de Steinberg , que omite la plataforma de audio y conecta las señales de audio directamente al hardware de la tarjeta de sonido. Muchas aplicaciones de audio profesionales y semiprofesionales utilizan el controlador ASIO, lo que permite a los usuarios trabajar con audio en tiempo real. [13] Pro Tools HD ofrece un sistema de baja latencia similar a ASIO. Pro Tools 10 y 11 también son compatibles con los controladores de interfaz ASIO.
El núcleo de tiempo real de Linux [14] es un núcleo modificado que altera la frecuencia de temporizador estándar que utiliza el núcleo de Linux y otorga a todos los procesos o subprocesos la capacidad de tener prioridad en tiempo real. Esto significa que un proceso crítico en el tiempo, como una transmisión de audio, puede tener prioridad sobre otro proceso menos crítico, como la actividad de red. Esto también es configurable por usuario (por ejemplo, los procesos del usuario "tux" podrían tener prioridad sobre los procesos del usuario "nobody" o sobre los procesos de varios daemons del sistema ).
Muchos receptores de televisión digital, decodificadores y receptores AV modernos utilizan un procesamiento de audio sofisticado que puede generar un retraso entre el momento en que se recibe la señal de audio y el momento en que se escucha en los altavoces. Dado que los televisores también introducen retrasos en el procesamiento de la señal de video, esto puede provocar que las dos señales estén lo suficientemente sincronizadas como para que el espectador no las note. Sin embargo, si la diferencia entre el retraso de audio y video es significativa, el efecto puede ser desconcertante. Algunos sistemas tienen una configuración de sincronización de labios que permite ajustar el retraso de audio para sincronizarlo con el video, y otros pueden tener configuraciones avanzadas donde se pueden desactivar algunos de los pasos de procesamiento de audio.
El retraso de audio también es un detrimento significativo en los juegos de ritmo , donde se requiere un tiempo preciso para tener éxito. La mayoría de estos juegos tienen una configuración de calibración de retraso con la que el juego ajustará las ventanas de tiempo en una cierta cantidad de milisegundos para compensar. En estos casos, las notas de una canción se enviarán a los parlantes antes de que el juego reciba la entrada requerida del jugador para mantener la ilusión de ritmo. Los juegos que dependen de la improvisación musical , como la batería de Rock Band o DJ Hero , aún pueden sufrir tremendamente, ya que el juego no puede predecir lo que el jugador tocará en estos casos, y el retraso excesivo aún creará un retraso notable entre tocar las notas y escucharlas tocar.
La latencia de audio se puede experimentar en sistemas de transmisión donde alguien está contribuyendo a una transmisión en vivo a través de un satélite o un enlace similar con un alto retardo. La persona en el estudio principal tiene que esperar a que el colaborador en el otro extremo del enlace reaccione a las preguntas. La latencia en este contexto puede ser de entre varios cientos de milisegundos y unos pocos segundos. Lidiar con latencias de audio tan altas requiere una capacitación especial para hacer que la salida de audio combinada resultante sea razonablemente aceptable para los oyentes. Siempre que sea posible, es importante tratar de mantener baja la latencia de audio de producción en vivo para mantener las reacciones y el intercambio de los participantes lo más naturales posible. Una latencia de 10 milisegundos o mejor es el objetivo para los circuitos de audio dentro de las estructuras de producción profesional. [15]
La latencia en las actuaciones en directo se produce de forma natural a partir de la velocidad del sonido . El sonido tarda unos 3 milisegundos en recorrer un metro. Se producen pequeñas cantidades de latencia entre los intérpretes, dependiendo de la distancia entre ellos y de los monitores de escenario, si se utilizan. Esto crea un límite práctico a la distancia que pueden estar los artistas de un grupo entre sí. La monitorización del escenario amplía ese límite, ya que el sonido viaja casi a la velocidad de la luz a través de los cables que conectan los monitores de escenario.
Los artistas, especialmente en espacios grandes, también oirán la reverberación , o eco de su música, ya que el sonido que se proyecta desde el escenario rebota en las paredes y las estructuras y regresa con latencia y distorsión. Un objetivo principal de la monitorización del escenario es proporcionar a los artistas un sonido más primario para que no se confundan con la latencia de estas reverberaciones.
Mientras que los equipos de audio analógicos no tienen una latencia apreciable, los equipos de audio digitales tienen una latencia asociada a dos procesos generales: la conversión de un formato a otro y las tareas de procesamiento de señales digitales (DSP), como la ecualización, la compresión y el enrutamiento.
Los procesos de conversión digital incluyen convertidores analógico-digitales (ADC), convertidores digital-analógicos (DAC) y varios cambios de un formato digital a otro, como AES3, que lleva señales eléctricas de bajo voltaje a ADAT , un transporte óptico. Cualquier proceso de este tipo requiere una pequeña cantidad de tiempo para llevarse a cabo; las latencias típicas están en el rango de 0,2 a 1,5 milisegundos, dependiendo de la frecuencia de muestreo, el diseño del software y la arquitectura del hardware. [16]
Diferentes operaciones de procesamiento de señales de audio, como los filtros de respuesta de impulso finito (FIR) y de respuesta de impulso infinito (IIR), adoptan diferentes enfoques matemáticos para el mismo fin y pueden tener diferentes latencias. Además, el almacenamiento en búfer de muestras de entrada y salida agrega demora. Las latencias típicas varían de 0,5 a diez milisegundos y algunos diseños tienen hasta 30 milisegundos de demora. [17]
La latencia en los equipos de audio digital es más notoria cuando la voz de un cantante se transmite a través de su micrófono, a través de rutas de mezcla, procesamiento y enrutamiento de audio digital, y luego se envía a sus propios oídos a través de monitores internos o auriculares. En este caso, el sonido vocal del cantante se conduce a su propio oído a través de los huesos de la cabeza, y luego a través de la vía digital a sus oídos algunos milisegundos después. En un estudio, los oyentes encontraron que una latencia mayor de 15 ms era perceptible. La latencia para otras actividades musicales, como tocar la guitarra, no tiene la misma preocupación crítica. Diez milisegundos de latencia no son tan perceptibles para un oyente que no está escuchando su propia voz. [18]
En el refuerzo de sonido para presentaciones musicales o de discursos en grandes recintos, lo óptimo es que el volumen de sonido llegue a la parte trasera del recinto sin tener que recurrir a volúmenes de sonido excesivos cerca de la parte delantera. Una forma de que los ingenieros de sonido logren esto es utilizar altavoces adicionales colocados a cierta distancia del escenario pero más cerca de la parte trasera del público. El sonido viaja a través del aire a la velocidad del sonido (alrededor de 343 metros (1125 pies) por segundo dependiendo de la temperatura y la humedad del aire). Al medir o estimar la diferencia de latencia entre los altavoces cercanos al escenario y los altavoces más cercanos al público, el ingeniero de audio puede introducir un retardo apropiado en la señal de audio que llega a estos últimos altavoces, de modo que los frentes de onda de los altavoces cercanos y lejanos lleguen al mismo tiempo. Debido al efecto Haas , se pueden agregar 15 milisegundos adicionales al tiempo de retardo de los altavoces más cercanos al público, de modo que el frente de onda del escenario los alcance primero, para centrar la atención del público en el escenario en lugar de en el altavoz local. El sonido ligeramente tardío que proviene de los altavoces retardados simplemente aumenta el nivel de sonido percibido sin afectar negativamente la localización.
{{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )