Un vocoder ( / ˈv oʊ k oʊ d ər / , un acrónimo de voice y encoder ) es una categoría de codificación de voz que analiza y sintetiza la señal de voz humana para la compresión de datos de audio , multiplexación , cifrado de voz o transformación de voz.
El vocoder fue inventado en 1938 por Homer Dudley en Bell Labs como un medio para sintetizar el habla humana. [1] Este trabajo se desarrolló hasta convertirse en el vocoder de canal , que se utilizó como códec de voz para telecomunicaciones para la codificación del habla con el fin de conservar el ancho de banda en la transmisión.
Al cifrar las señales de control, se puede proteger la transmisión de voz contra la interceptación. Su uso principal de esta manera es para la comunicación segura por radio. La ventaja de este método de cifrado es que no se envía nada de la señal original, solo las envolventes de los filtros de paso de banda. La unidad receptora debe configurarse con la misma configuración de filtros para volver a sintetizar una versión del espectro de la señal original.
El vocoder también se ha utilizado ampliamente como instrumento musical electrónico . La parte decodificadora del vocoder, llamada voder , se puede utilizar de forma independiente para la síntesis de voz.
La voz humana se compone de sonidos generados por la apertura y el cierre de la glotis por las cuerdas vocales , lo que produce una forma de onda periódica con muchos armónicos . Este sonido básico es filtrado por la nariz y la garganta (un complicado sistema de resonancia ) para producir diferencias en el contenido armónico ( formantes ) de forma controlada, creando la amplia variedad de sonidos utilizados en el habla. Existe otro conjunto de sonidos, conocidos como sonidos sordos y explosivos , que son creados o modificados por la boca de diferentes maneras.
El vocoder examina el habla midiendo cómo cambian sus características espectrales con el tiempo. Esto da como resultado una serie de señales que representan estas frecuencias en un momento determinado mientras el usuario habla. En términos simples, la señal se divide en varias bandas de frecuencia (cuanto mayor sea este número, más preciso será el análisis) y el nivel de señal presente en cada banda de frecuencia proporciona la representación instantánea del contenido de energía espectral. Para recrear el habla, el vocoder simplemente invierte el proceso, procesando una fuente de ruido de banda ancha pasándola a través de una etapa que filtra el contenido de frecuencia en función de la serie de números grabados originalmente.
En concreto, en el codificador, la entrada pasa por un filtro multibanda , luego se mide la salida de cada banda utilizando un seguidor de envolvente y las señales de los seguidores de envolvente se transmiten al decodificador, que las aplica como señales de control a los amplificadores correspondientes de los canales de salida del filtro.
Se descarta la información sobre la frecuencia instantánea de la señal de voz original (a diferencia de su característica espectral); no era importante preservarla para el uso original del vocoder como ayuda para la codificación. Es este aspecto deshumanizador del proceso de vocodificación lo que lo ha hecho útil para crear efectos de voz especiales en la música popular y el entretenimiento de audio.
En lugar de una recreación punto por punto de la forma de onda, el proceso de vocoder envía únicamente los parámetros del modelo vocal a través del enlace de comunicación. Dado que los parámetros cambian lentamente en comparación con la forma de onda de voz original, se puede reducir el ancho de banda necesario para transmitir la voz. Esto permite que más canales de voz utilicen un canal de comunicación determinado , como un canal de radio o un cable submarino .
Los vocoders analógicos suelen analizar una señal entrante dividiéndola en varias bandas o rangos de frecuencia sintonizados. Para reconstruir la señal, se envía una señal portadora a través de una serie de estos filtros de paso de banda sintonizados . En el ejemplo de una voz de robot típica, la portadora es ruido o una forma de onda de dientes de sierra . Normalmente hay entre 8 y 20 bandas.
La amplitud del modulador para cada una de las bandas de análisis individuales genera un voltaje que se utiliza para controlar los amplificadores para cada una de las bandas portadoras correspondientes. El resultado es que los componentes de frecuencia de la señal moduladora se asignan a la señal portadora como cambios de amplitud discretos en cada una de las bandas de frecuencia.
A menudo hay una banda sorda o canal de sibilancia . Esto es para frecuencias que están fuera de las bandas de análisis para el habla típica pero que aún son importantes en el habla. Algunos ejemplos son las palabras que comienzan con las letras s , f , ch o cualquier otro sonido sibilante. El uso de esta banda produce un habla reconocible, aunque suena algo mecánico. Los vocoders a menudo incluyen un segundo sistema para generar sonidos sordos, utilizando un generador de ruido en lugar de la frecuencia fundamental . Esto se mezcla con la salida de la portadora para aumentar la claridad.
En el algoritmo de vocoder de canal, entre los dos componentes de una señal analítica , considerar solo el componente de amplitud y simplemente ignorar el componente de fase tiende a dar como resultado una voz poco clara; para conocer los métodos para rectificar esto, consulte vocoder de fase .
El desarrollo de un vocoder fue iniciado en 1928 por el ingeniero de Bell Labs, Homer Dudley , [5] a quien se le concedieron patentes el 21 de marzo de 1939, [6] y el 16 de noviembre de 1937. [7]
Para demostrar la capacidad de síntesis de voz de su sección decodificadora, el voder (demostrador de operación de voz) [8] se presentó al público en el edificio AT&T en la Feria Mundial de Nueva York de 1939-1940. [9] El voder consistía en un oscilador electrónico (una fuente de sonido de tono agudo ) y un generador de ruido para el silbido , un resonador de 10 bandas con filtros amplificadores de ganancia variable como tracto vocal y los controladores manuales que incluían un conjunto de teclas sensibles a la presión para el control del filtro y un pedal para el control del tono. [10] Los filtros controlados por teclas convierten el tono y el silbido en vocales , consonantes e inflexiones . Esta era una máquina compleja de operar, pero un operador experto podía producir un habla reconocible. [9] [media 1]
El vocoder de Dudley se utilizó en el sistema SIGSALY , construido por ingenieros de Bell Labs en 1943. SIGSALY se utilizó para comunicaciones de voz cifradas durante la Segunda Guerra Mundial . El codificador de voz KO-6 se lanzó en 1949 en cantidades limitadas; era una aproximación cercana al SIGSALY a 1200 bit/s. En 1953, el codificador de voz KY-9 THESEUS [11] de 1650 bit/s utilizó lógica de estado sólido para reducir el peso a 565 libras (256 kg) de las 55 toneladas cortas (50 000 kg) del SIGSALY, y en 1961 el codificador de voz HY-2, un sistema de 16 canales de 2400 bit/s, pesaba 100 libras (45 kg) y fue la última implementación de un vocoder de canal en un sistema de voz seguro. [12]
Los trabajos posteriores en este campo han utilizado desde entonces la codificación digital del habla . La técnica de codificación del habla más utilizada es la codificación predictiva lineal (LPC). [13] Otra técnica de codificación del habla, la modulación diferencial adaptativa por pulsos codificados (ADPCM), fue desarrollada por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. [14]
Incluso con la necesidad de grabar varias frecuencias y sonidos sordos adicionales, la compresión de los sistemas vocoder es impresionante. Los sistemas de grabación de voz estándar capturan frecuencias de aproximadamente 500 a 3400 Hz, donde se encuentran la mayoría de las frecuencias utilizadas en el habla, utilizando típicamente una frecuencia de muestreo de 8 kHz (ligeramente mayor que la frecuencia de Nyquist ). La resolución de muestreo es típicamente de 8 o más bits por resolución de muestra, para una velocidad de datos en el rango de 64 kbit/s, pero un buen vocoder puede proporcionar una simulación razonablemente buena de voz con tan sólo 5 kbit/s de datos.
En muchas redes telefónicas se utilizan codificadores de voz de calidad de llamada , como el ITU G.729 . En particular, el G.729 tiene una velocidad de datos final de 8 kbit/s con una calidad de voz excelente. El G.723 logra una calidad ligeramente peor con velocidades de datos de 5,3 y 6,4 kbit/s. Muchos sistemas de vocoder de voz utilizan velocidades de datos más bajas, pero por debajo de los 5 kbit/s la calidad de la voz comienza a disminuir rápidamente. [ cita requerida ]
En los sistemas de cifrado de la NSA se utilizan varios sistemas de vocoder :
Los vocoders modernos que se utilizan hoy en día en equipos de comunicación y en dispositivos de almacenamiento de voz se basan en los siguientes algoritmos:
Los vocoders también se utilizan actualmente en psicofísica , lingüística , neurociencia computacional e investigación de implantes cocleares .
Desde finales de los años 1970, la mayoría de los vocoders no musicales se han implementado utilizando predicción lineal , mediante la cual la envolvente espectral (formante) de la señal de destino se estima mediante un filtro IIR de todos los polos . En la codificación de predicción lineal, el filtro de todos los polos reemplaza al banco de filtros de paso de banda de su predecesor y se utiliza en el codificador para blanquear la señal (es decir, aplanar el espectro) y nuevamente en el decodificador para volver a aplicar la forma espectral de la señal de voz de destino.
Una ventaja de este tipo de filtrado es que la ubicación de los picos espectrales del predictor lineal está determinada completamente por la señal de destino y puede ser tan precisa como lo permita el período de tiempo que se va a filtrar. Esto contrasta con los vocoders realizados con bancos de filtros de ancho fijo, donde la ubicación de los picos espectrales está restringida por las bandas de frecuencia fijas disponibles. El filtrado LP también tiene desventajas, ya que las señales con una gran cantidad de frecuencias constituyentes pueden exceder la cantidad de frecuencias que se pueden representar mediante el filtro de predicción lineal. Esta restricción es la razón principal por la que la codificación LP casi siempre se utiliza junto con otros métodos en codificadores de voz de alta compresión.
El vocoder interpolativo de forma de onda (WI) fue desarrollado en los Laboratorios Bell de AT&T alrededor de 1995 por WB Kleijn y, posteriormente, AT&T desarrolló una versión de baja complejidad para la competencia de vocoders seguros del Departamento de Defensa. Se realizaron mejoras notables al codificador WI en la Universidad de California, Santa Bárbara . AT&T posee las patentes principales relacionadas con WI y otros institutos poseen patentes adicionales. [23] [24] [25]
Para aplicaciones musicales , se utiliza una fuente de sonidos musicales como portadora, en lugar de extraer la frecuencia fundamental. Por ejemplo, se podría utilizar el sonido de un sintetizador como entrada al banco de filtros, una técnica que se hizo popular en la década de 1970.
Werner Meyer-Eppler , un científico alemán con un interés especial en la síntesis electrónica de voz, publicó una tesis en 1948 sobre la música electrónica y la síntesis de voz desde el punto de vista de la síntesis de sonido . [26] Más tarde jugó un papel decisivo en la fundación del Estudio de Música Electrónica de WDR en Colonia, en 1951. [27]
Uno de los primeros intentos de utilizar un vocoder para crear música fue el sintetizador Siemens del Siemens Studio for Electronic Music, desarrollado entre 1956 y 1959. [28] [29] [media 2]
En 1968, Robert Moog desarrolló uno de los primeros vocoders musicales de estado sólido para el estudio de música electrónica de la Universidad de Buffalo . [30]
En 1968, Bruce Haack construyó un prototipo de vocoder, llamado Farad en honor a Michael Faraday . [31] Apareció por primera vez en "The Electronic Record For Children", lanzado en 1969 y luego en su álbum de rock The Electric Lucifer , lanzado en 1970. [32] [media 3]
En 1970, Wendy Carlos y Robert Moog construyeron otro vocoder musical, un dispositivo de diez bandas inspirado en los diseños de vocoder de Homer Dudley . Originalmente se lo llamó codificador-decodificador de espectro y luego se lo denominó simplemente vocoder. La señal portadora provenía de un sintetizador modular Moog y el modulador de una entrada de micrófono . La salida del vocoder de diez bandas era bastante inteligible, pero dependía de un habla especialmente articulada.
En 1972, el primer álbum de música electrónica de Isao Tomita , Electric Samurai: Switched on Rock, fue un intento temprano de aplicar la técnica de síntesis de voz a través de un vocoder [ cita requerida ] [ aclaración necesaria ] al rock electrónico . El álbum presentaba versiones electrónicas de canciones de rock y pop contemporáneos , mientras utilizaba voces sintetizadas en lugar de voces humanas. En 1974, utilizó voces sintetizadas en su popular álbum de música clásica Snowflakes are Dancing , que se convirtió en un éxito mundial y ayudó a popularizar la música electrónica.
En 1973, la banda británica Emerson, Lake and Palmer utilizó un vocoder en su álbum Brain Salad Surgery , para la canción " Karn Evil 9: 3rd Impression ".
La canción de 1975 " The Raven " del álbum Tales of Mystery and Imagination de The Alan Parsons Project presenta a Alan Parsons interpretando su voz a través de un vocoder EMI. Según las notas del álbum, "The Raven" fue la primera canción de rock en incluir un vocoder digital.
Pink Floyd utilizó un vocoder en tres de sus álbumes, primero en Animals de 1977 para las canciones " Sheep " y " Pigs (Three Different Ones) ", luego en 1987 en A Momentary Lapse of Reason en " A New Machine Part 1 " y "A New Machine Part 2", y finalmente en The Division Bell de 1994 , en " Keep Talking ".
La Electric Light Orchestra fue una de las primeras en utilizar el vocoder en un contexto comercial, con su álbum de 1977 Out of the Blue . La banda lo utiliza ampliamente en el álbum, incluyendo los éxitos " Sweet Talkin' Woman " y " Mr. Blue Sky ". [33] En los siguientes álbumes, la banda hizo un uso esporádico de él, en particular en sus éxitos " The Diary of Horace Wimp " y " Confusion " de su álbum de 1979 Discovery , las pistas "Prologue", "Yours Truly, 2095" y "Epilogue" en su álbum de 1981 Time , [34] y " Calling America " de su álbum de 1986 Balance of Power .
A finales de la década de 1970, el dúo francés Space Art utilizó un vocoder durante la grabación de su segundo álbum, Trip in the Centre Head . [35]
Phil Collins utilizó un vocoder para proporcionar un efecto vocal para su exitoso sencillo internacional de 1981 " In the Air Tonight ". [36]
Los vocoders han aparecido en grabaciones pop de vez en cuando, la mayoría de las veces simplemente como un efecto especial en lugar de un aspecto destacado de la obra. Sin embargo, muchos artistas electrónicos experimentales del género musical new age suelen utilizar el vocoder de una manera más integral en obras específicas, como Jean-Michel Jarre (en Zoolook , 1984) y Mike Oldfield (en QE2 , 1980 y Five Miles Out , 1982).
El módulo Vocoder y su uso por parte de Mike Oldfield se pueden ver claramente en su DVD Live At Montreux 1981 (pista " Sheba ").
También hay algunos artistas que han hecho de los vocoders una parte esencial de su música, en general o durante una fase prolongada. Los ejemplos incluyen al grupo de synth pop alemán Kraftwerk , el grupo de new wave japonés Polysics , Stevie Wonder (" Send One Your Love ", " A Seed's a Star ") y el tecladista de jazz/fusión Herbie Hancock durante su período de finales de la década de 1970. En 1982, Neil Young utilizó un Sennheiser Vocoder VSM201 en seis de las nueve pistas de Trans . [37] El coro y el puente de " PYT (Pretty Young Thing) " de Michael Jackson presenta un vocoder ("Pretty young thing/You make me sing"), cortesía del músico de sesión Michael Boddicker .
Coldplay ha utilizado un vocoder en algunas de sus canciones. Por ejemplo, en « Major Minus » y « Hurts Like Heaven », ambas del álbum Mylo Xyloto (2011), la voz de Chris Martin está mayoritariamente procesada con vocoder. En « Midnight », de Ghost Stories (2014), también aparece Martin cantando a través de un vocoder. [38] La pista oculta «X Marks the Spot» de A Head Full of Dreams también se grabó a través de un vocoder.
La banda de noisecore Atari Teenage Riot ha utilizado vocoders en una variedad de sus canciones y presentaciones en vivo como Live at the Brixton Academy (2002) junto con otras tecnologías de audio digital tanto antiguas como nuevas.
La canción de Red Hot Chili Peppers " By the Way " utiliza un efecto de vocoder en la voz de Anthony Kiedis .
Entre los usuarios más consistentes del vocoder a la hora de emular la voz humana se encuentran Daft Punk , quienes han utilizado este instrumento desde su primer álbum Homework (1997) hasta su último trabajo Random Access Memories (2013) y consideran la convergencia de la voz tecnológica y humana "la identidad de su proyecto musical". [39] Por ejemplo, la letra de " Around the World " (1997) está procesada integralmente con vocoder, " Get Lucky " (2013) presenta una mezcla de voces humanas naturales y procesadas, y " Instant Crush " (2013) presenta a Julian Casablancas cantando en un vocoder.
Ye (Kanye West) utilizó un vocoder en el outro de su canción " Runaway " (2010). [40]
El productor Zedd , la cantante de country estadounidense Maren Morris y el dúo musical estadounidense Grey crearon una canción titulada " The Middle ", que contó con un vocoder y alcanzó el top ten de las listas en 2018. [41]
Las voces de robots se convirtieron en un elemento recurrente en la música popular durante el siglo XX. Además de los vocoders, existen otros métodos para producir variaciones de este efecto, como: Sonovox , Talk box , Auto-Tune , [media 4] vocoders de predicción lineal, síntesis de voz , [media 5] [media 6] modulación en anillo y filtro de peine .
Los vocoders se utilizan en la producción de televisión , la realización de películas y los juegos, generalmente para robots o computadoras parlantes. Las voces de los robots de los Cylons en Battlestar Galactica se crearon con un EMS Vocoder 2000. [37] La versión de 1980 del tema de Doctor Who , arreglada y grabada por Peter Howell , tiene una sección de la melodía principal generada por un vocoder Roland SVC-350. Un vocoder Roland VP-330 similar se utilizó para crear la voz de Soundwave , un personaje de la serie Transformers .
El Vocoder (recorder operado por voz) y el Voder (demostrador de operación por voz) desarrollados por el físico investigador Homer Dudley, ... El Voder se presentó por primera vez en 1939 en la Feria Mundial de Nueva York (donde se demostró a intervalos de una hora) y más tarde en 1940 en San Francisco. Había veinte operadores capacitados conocidos como las 'chicas' que manejaban la máquina como un instrumento musical como un piano o un órgano, ... Esto se hacía manipulando catorce teclas con los dedos, una barra con la muñeca izquierda y un pedal con el pie derecho.
Los métodos LPC son los más utilizados en la codificación del habla.
{{cite AV media notes}}
: CS1 maint: others in cite AV media (notes) (link){{cite AV media notes}}
: CS1 maint: others in cite AV media (notes) (link)