Síntesis de voz

Una voz sintética que anuncia la llegada de un tren a Suecia.

¿Tiene problemas para reproducir este archivo? Consulte la ayuda multimedia .

La síntesis de voz es la producción artificial del habla humana . Un sistema informático utilizado para este fin se denomina sintetizador de voz y puede implementarse en productos de software o hardware . Un sistema de conversión de texto a voz ( TTS ) convierte texto en lenguaje normal en voz; otros sistemas convierten representaciones lingüísticas simbólicas, como transcripciones fonéticas, en voz. ^[1] El proceso inverso es el reconocimiento de voz .

El habla sintetizada se puede crear concatenando fragmentos de habla grabada que se almacenan en una base de datos . Los sistemas difieren en el tamaño de las unidades de habla almacenadas; un sistema que almacena fonos o difonos proporciona el rango de salida más grande, pero puede carecer de claridad. ^{[ cita requerida ]} Para dominios de uso específicos, el almacenamiento de palabras u oraciones completas permite una salida de alta calidad. Alternativamente, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para crear una salida de voz completamente "sintética". ^[2]

La calidad de un sintetizador de voz se mide por su similitud con la voz humana y por su capacidad de ser comprendido con claridad. Un programa de conversión de texto a voz inteligible permite que las personas con discapacidad visual o de lectura escuchen palabras escritas en un ordenador doméstico. Muchos sistemas operativos de ordenadores han incluido sintetizadores de voz desde principios de los años 1990. ^{[ cita requerida ]}

Un sistema de texto a voz (o "motor") se compone de dos partes: ^[3] un front-end y un back-end . El front-end tiene dos tareas principales. Primero, convierte el texto sin formato que contiene símbolos como números y abreviaturas en el equivalente de palabras escritas. Este proceso a menudo se llama normalización de texto , preprocesamiento o tokenización . Luego, el front-end asigna transcripciones fonéticas a cada palabra y divide y marca el texto en unidades prosódicas , como frases , cláusulas y oraciones . El proceso de asignar transcripciones fonéticas a las palabras se llama conversión de texto a fonema o conversión de grafema a fonema . Las transcripciones fonéticas y la información prosódica juntas forman la representación lingüística simbólica que genera el front-end. Luego, el back-end, a menudo denominado sintetizador , convierte la representación lingüística simbólica en sonido. En ciertos sistemas, esta parte incluye el cálculo de la prosodia de destino (contorno de tono, duraciones de fonemas), ^[4] que luego se impone al habla de salida.

Historia

Mucho antes de la invención del procesamiento electrónico de señales , algunas personas intentaron construir máquinas para emular el habla humana. Algunas de las primeras leyendas sobre la existencia de las " cabezas de bronce " involucraron al papa Silvestre II (fallecido en 1003 d. C.), Alberto Magno (1198-1280) y Roger Bacon (1214-1294).

En 1779, el científico germano - danés Christian Gottlieb Kratzenstein ganó el primer premio en un concurso convocado por la Academia Imperial Rusa de Ciencias y Artes por los modelos que construyó del tracto vocal humano que podían producir los cinco sonidos vocálicos largos (en notación del Alfabeto Fonético Internacional : [aː] , [eː] , [iː] , [oː] y [uː] ). ^[5] A esto le siguió la " máquina de habla acústico-mecánica " operada por fuelle de Wolfgang von Kempelen de Pressburg , Hungría, descrita en un artículo de 1791. ^[6] Esta máquina agregó modelos de la lengua y los labios, lo que le permitió producir consonantes además de vocales. En 1837, Charles Wheatstone produjo una "máquina parlante" basada en el diseño de von Kempelen, y en 1846, Joseph Faber exhibió la " Eufonia ". En 1923, Paget resucitó el diseño de Wheatstone. ^[7]

En la década de 1930, Bell Labs desarrolló el vocoder , que analizaba automáticamente el habla en sus tonos y resonancias fundamentales. A partir de su trabajo con el vocoder, Homer Dudley desarrolló un sintetizador de voz operado por teclado llamado The Voder (Voice Demonstrator), que exhibió en la Feria Mundial de Nueva York de 1939 .

El Dr. Franklin S. Cooper y sus colegas de los Laboratorios Haskins construyeron el Pattern playback a finales de la década de 1940 y lo completaron en 1950. Hubo varias versiones diferentes de este dispositivo de hardware; solo una sobrevive actualmente. La máquina convierte imágenes de los patrones acústicos del habla en forma de espectrograma en sonido. Utilizando este dispositivo, Alvin Liberman y sus colegas descubrieron pistas acústicas para la percepción de segmentos fonéticos (consonantes y vocales).

Dispositivos electrónicos

Los primeros sistemas de síntesis de voz basados en ordenador se originaron a finales de los años 1950. Noriko Umeda et al. desarrollaron el primer sistema de texto a voz en inglés general en 1968, en el Laboratorio Electrotécnico de Japón. ^[8] En 1961, el físico John Larry Kelly, Jr y su colega Louis Gerstman ^[9] utilizaron una computadora IBM 704 para sintetizar el habla, un evento entre los más destacados en la historia de Bell Labs . ^{[ cita requerida ]} El sintetizador de grabadora de voz de Kelly ( vocoder ) recreó la canción " Daisy Bell ", con acompañamiento musical de Max Mathews . Casualmente, Arthur C. Clarke estaba visitando a su amigo y colega John Pierce en las instalaciones de Bell Labs en Murray Hill. Clarke quedó tan impresionado por la demostración que la utilizó en la escena culminante de su guión para su novela 2001: Una odisea del espacio , ^[10] donde la computadora HAL 9000 canta la misma canción mientras el astronauta Dave Bowman la pone a dormir. ^[11] A pesar del éxito de la síntesis de voz puramente electrónica, la investigación sobre sintetizadores de voz mecánicos continúa. ^[12]^{[ fuente de terceros necesaria ]}

La codificación predictiva lineal (LPC), una forma de codificación de voz , comenzó a desarrollarse con el trabajo de Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) en 1966. Bishnu S. Atal y Manfred R. Schroeder realizaron desarrollos posteriores en la tecnología LPC en Bell Labs durante la década de 1970. ^[13] La LPC fue más tarde la base de los primeros chips sintetizadores de voz, como los Texas Instruments LPC Speech Chips utilizados en los juguetes Speak & Spell de 1978.

En 1975, Fumitada Itakura desarrolló el método de pares espectrales de líneas (LSP) para la codificación de voz de alta compresión, mientras estaba en NTT. ^[14]^[15]^[16] De 1975 a 1981, Itakura estudió problemas en el análisis y síntesis de voz basados en el método LSP. ^[16] En 1980, su equipo desarrolló un chip sintetizador de voz basado en LSP. LSP es una tecnología importante para la síntesis y codificación de voz, y en la década de 1990 fue adoptada por casi todos los estándares internacionales de codificación de voz como un componente esencial, contribuyendo a la mejora de la comunicación de voz digital a través de canales móviles e Internet. ^[15]

En 1975 se lanzó MUSA , uno de los primeros sistemas de síntesis de voz. Consistía en un hardware informático independiente y un software especializado que le permitía leer italiano. Una segunda versión, lanzada en 1978, también podía cantar italiano en un estilo " a capella ". ^[17]

Grabación de demostración de DECtalk con las voces de Perfect Paul y Uppity Ursula

Los sistemas dominantes en las décadas de 1980 y 1990 fueron el sistema DECtalk , basado en gran medida en el trabajo de Dennis Klatt en el MIT, y el sistema Bell Labs; ^[18] este último fue uno de los primeros sistemas multilingües independientes del lenguaje, haciendo un uso extensivo de métodos de procesamiento del lenguaje natural .

Salida de voz de Fidelity Voice Chess Challenger

Los dispositivos electrónicos portátiles con síntesis de voz comenzaron a surgir en la década de 1970. Uno de los primeros fue la calculadora portátil Speech+ de Telesensory Systems Inc. (TSI) para ciegos en 1976. ^[19]^[20] Otros dispositivos tenían fines principalmente educativos, como el juguete Speak & Spell producido por Texas Instruments en 1978. ^[21] Fidelity lanzó una versión parlante de su computadora electrónica de ajedrez en 1979. ^[22] El primer videojuego en incorporar síntesis de voz fue el juego arcade de disparos de 1980 , Stratovox (conocido en Japón como Speak & Rescue ), de Sun Electronics . ^[23]^[24] El primer juego de computadora personal con síntesis de voz fue Manbiki Shoujo ( Shoplifting Girl ), lanzado en 1980 para el PET 2001 , para el cual el desarrollador del juego, Hiroshi Suzuki, desarrolló una técnica de programación de " cruce por cero " para producir una forma de onda de voz sintetizada. ^[25] Otro ejemplo temprano, la versión arcade de Berzerk , también data de 1980. La Milton Bradley Company produjo el primer juego electrónico multijugador que utilizaba síntesis de voz, Milton , en el mismo año.

En 1976, Computalker Consultants lanzó su sintetizador de voz CT-1. Diseñado por D. Lloyd Rice y Jim Cooper, era un sintetizador analógico creado para funcionar con microcomputadoras que utilizaban el estándar de bus S-100. ^[26]

Los primeros sintetizadores de voz electrónicos sonaban como robots y, a menudo, eran apenas inteligibles. La calidad del habla sintetizada ha mejorado constantemente, pero a fecha de 2016, ^[actualizar]el resultado de los sistemas de síntesis de voz contemporáneos sigue siendo claramente distinguible del habla humana real.

Las voces sintetizadas normalmente sonaban masculinas hasta 1990, cuando Ann Syrdal , de AT&T Bell Laboratories , creó una voz femenina. ^[27]

Kurzweil predijo en 2005 que, a medida que la relación costo-rendimiento hiciera que los sintetizadores de voz se volvieran más baratos y accesibles, más personas se beneficiarían del uso de programas de texto a voz. ^[28]

Tecnologías de sintetizadores

Las cualidades más importantes de un sistema de síntesis de voz son la naturalidad y la inteligibilidad . ^[29] La naturalidad describe la similitud entre el sonido de salida y el habla humana, mientras que la inteligibilidad es la facilidad con la que se entiende la salida. El sintetizador de voz ideal es a la vez natural e inteligible. Los sistemas de síntesis de voz suelen intentar maximizar ambas características.

Las dos tecnologías principales que generan formas de onda de voz sintéticas son la síntesis concatenativa y la síntesis de formantes . Cada tecnología tiene sus puntos fuertes y débiles, y los usos previstos de un sistema de síntesis determinarán normalmente qué enfoque se utilizará.

Síntesis de concatenación

La síntesis concatenativa se basa en la concatenación (unión) de segmentos de voz grabada. Generalmente, la síntesis concatenativa produce el habla sintetizada con un sonido más natural. Sin embargo, las diferencias entre las variaciones naturales del habla y la naturaleza de las técnicas automatizadas para segmentar las formas de onda a veces dan como resultado fallas audibles en el resultado. Existen tres subtipos principales de síntesis concatenativa.

Síntesis de selección de unidades

La síntesis de selección de unidades utiliza grandes bases de datos de voz grabada. Durante la creación de la base de datos, cada enunciado grabado se segmenta en algunos o todos los siguientes: fonos individuales , difonos , medios fonos, sílabas , morfemas , palabras , frases y oraciones . Normalmente, la división en segmentos se realiza utilizando un reconocedor de voz especialmente modificado configurado en un modo de "alineación forzada" con alguna corrección manual posterior, utilizando representaciones visuales como la forma de onda y el espectrograma . ^[30] Luego se crea un índice de las unidades en la base de datos de voz en función de la segmentación y los parámetros acústicos como la frecuencia fundamental ( tono ), la duración, la posición en la sílaba y los fonos vecinos. En tiempo de ejecución , se crea el enunciado objetivo deseado determinando la mejor cadena de unidades candidatas de la base de datos (selección de unidades). Este proceso normalmente se logra utilizando un árbol de decisiones especialmente ponderado .

La selección de unidades proporciona la mayor naturalidad, porque aplica sólo una pequeña cantidad de procesamiento de señal digital (DSP) al habla grabada. El DSP a menudo hace que el habla grabada suene menos natural, aunque algunos sistemas utilizan una pequeña cantidad de procesamiento de señal en el punto de concatenación para suavizar la forma de onda. La salida de los mejores sistemas de selección de unidades es a menudo indistinguible de las voces humanas reales, especialmente en contextos para los que se ha ajustado el sistema TTS. Sin embargo, la máxima naturalidad normalmente requiere que las bases de datos de voz de selección de unidades sean muy grandes, en algunos sistemas alcanzan los gigabytes de datos grabados, lo que representa docenas de horas de habla. ^[31] Además, se sabe que los algoritmos de selección de unidades seleccionan segmentos de un lugar que da como resultado una síntesis menos que ideal (por ejemplo, las palabras menores se vuelven confusas) incluso cuando existe una mejor opción en la base de datos. ^[32] Recientemente, los investigadores han propuesto varios métodos automatizados para detectar segmentos no naturales en sistemas de síntesis de voz de selección de unidades. ^[33]

Síntesis de difonas

La síntesis de difonos utiliza una base de datos de voz mínima que contiene todos los difonos (transiciones de sonido a sonido) que ocurren en un idioma. El número de difonos depende de la fonotáctica del idioma: por ejemplo, el español tiene alrededor de 800 difonos y el alemán alrededor de 2500. En la síntesis de difonos, solo un ejemplo de cada difono está contenido en la base de datos de voz. En tiempo de ejecución, la prosodia de destino de una oración se superpone a estas unidades mínimas por medio de técnicas de procesamiento de señales digitales como codificación predictiva lineal , PSOLA ^[34] o MBROLA ^[35] o técnicas más recientes como la modificación del tono en el dominio de origen utilizando la transformada de coseno discreta ^[36] . La síntesis de difonos sufre las fallas sónicas de la síntesis concatenativa y la naturaleza de sonido robótico de la síntesis de formantes, y tiene pocas de las ventajas de cualquiera de los enfoques aparte del tamaño pequeño. Como tal, su uso en aplicaciones comerciales está disminuyendo, ^{[ cita requerida ]} aunque continúa siendo utilizado en investigación porque hay una serie de implementaciones de software disponibles gratuitamente. Un ejemplo temprano de síntesis de Diphone es un robot de enseñanza, Leachim , que fue inventado por Michael J. Freeman . ^[37] Leachim contenía información sobre el currículo de la clase y cierta información biográfica sobre los estudiantes a quienes estaba programado para enseñar. ^[38] Se probó en un aula de cuarto grado en el Bronx, Nueva York . ^[39]^[40]

Síntesis de dominio específico

La síntesis específica de dominio concatena palabras y frases pregrabadas para crear enunciados completos. Se utiliza en aplicaciones en las que la variedad de textos que el sistema generará se limita a un dominio particular, como anuncios de horarios de tránsito o informes meteorológicos. ^[41] La tecnología es muy sencilla de implementar y se ha utilizado comercialmente durante mucho tiempo en dispositivos como relojes parlantes y calculadoras. El nivel de naturalidad de estos sistemas puede ser muy alto porque la variedad de tipos de oraciones es limitada y se ajustan estrechamente a la prosodia y la entonación de las grabaciones originales. ^{[ cita requerida ]}

Debido a que estos sistemas están limitados por las palabras y frases en sus bases de datos, no son de propósito general y solo pueden sintetizar las combinaciones de palabras y frases con las que han sido preprogramados. Sin embargo, la mezcla de palabras dentro del lenguaje hablado naturalmente aún puede causar problemas a menos que se tengan en cuenta las muchas variaciones. Por ejemplo, en dialectos no róticos del inglés, la "r" en palabras como "clear" /ˈklɪə/ generalmente solo se pronuncia cuando la palabra siguiente tiene una vocal como su primera letra (por ejemplo, "clear out" se realiza como /ˌklɪəɹˈʌʊt/ ). Del mismo modo, en francés , muchas consonantes finales ya no se silencian si van seguidas de una palabra que comienza con una vocal, un efecto llamado liaison . Esta alternancia no se puede reproducir mediante un sistema simple de concatenación de palabras, que requeriría una complejidad adicional para ser sensible al contexto .

Síntesis de formantes

La síntesis de formantes no utiliza muestras de voz humana en tiempo de ejecución. En su lugar, la salida de voz sintetizada se crea utilizando síntesis aditiva y un modelo acústico ( síntesis de modelado físico ). ^[42] Los parámetros como la frecuencia fundamental , la sonoridad y los niveles de ruido se varían con el tiempo para crear una forma de onda de voz artificial. Este método a veces se denomina síntesis basada en reglas ; sin embargo, muchos sistemas concatenativo también tienen componentes basados en reglas. Muchos sistemas basados en la tecnología de síntesis de formantes generan un habla artificial con sonido robótico que nunca se confundiría con el habla humana. Sin embargo, la máxima naturalidad no siempre es el objetivo de un sistema de síntesis de voz, y los sistemas de síntesis de formantes tienen ventajas sobre los sistemas concatenativo. El habla sintetizada por formantes puede ser inteligible de manera confiable, incluso a velocidades muy altas, evitando las fallas acústicas que comúnmente afectan a los sistemas concatenativo. Las personas con discapacidad visual utilizan el habla sintetizada de alta velocidad para navegar rápidamente por las computadoras usando un lector de pantalla . Los sintetizadores de formantes suelen ser programas más pequeños que los sistemas concatenativo porque no tienen una base de datos de muestras de voz. Por lo tanto, se pueden utilizar en sistemas integrados , donde la memoria y la potencia del microprocesador son especialmente limitadas. Debido a que los sistemas basados en formantes tienen un control completo de todos los aspectos del habla de salida, se puede producir una amplia variedad de prosodias y entonaciones , que transmiten no solo preguntas y afirmaciones, sino una variedad de emociones y tonos de voz.

Entre los ejemplos de control de entonación no en tiempo real pero de gran precisión en la síntesis de formantes se incluyen los trabajos realizados a finales de los años 1970 para el juguete Speak & Spell de Texas Instruments , y a principios de los años 1980 para las máquinas recreativas de Sega ^[43] y en muchos juegos recreativos de Atari, Inc. ^[44] que utilizaban los chips LPC TMS5220 . Crear la entonación adecuada para estos proyectos fue una tarea ardua, y los resultados aún no han sido igualados por interfaces de texto a voz en tiempo real. ^[45]

Síntesis articulatoria

La síntesis articulatoria consiste en técnicas computacionales para sintetizar el habla basándose en modelos del tracto vocal humano y los procesos de articulación que allí ocurren. El primer sintetizador articulatorio utilizado regularmente para experimentos de laboratorio fue desarrollado en Haskins Laboratories a mediados de la década de 1970 por Philip Rubin , Tom Baer y Paul Mermelstein. Este sintetizador, conocido como ASY, se basó en modelos del tracto vocal desarrollados en Bell Laboratories en las décadas de 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas.

Hasta hace poco, los modelos de síntesis articulatoria no se habían incorporado a los sistemas comerciales de síntesis de voz. Una notable excepción es el sistema basado en NeXT , desarrollado y comercializado originalmente por Trillium Sound Research, una empresa derivada de la Universidad de Calgary , donde se llevó a cabo gran parte de la investigación original. Tras la desaparición de las diversas encarnaciones de NeXT (iniciado por Steve Jobs a finales de los años 1980 y fusionado con Apple Computer en 1997), el software de Trillium se publicó bajo la Licencia Pública General de GNU, y el trabajo continuó como gnuspeech . El sistema, comercializado por primera vez en 1994, proporciona una conversión de texto a voz basada en la articulación completa utilizando una guía de ondas o una línea de transmisión análoga de los tractos oral y nasal humanos controlados por el "modelo de región distintiva" de Carré.

Los sintetizadores más recientes, desarrollados por Jorge C. Lucero y sus colegas, incorporan modelos de biomecánica de las cuerdas vocales, aerodinámica glótica y propagación de ondas acústicas en los bronquios, la tráquea y las cavidades nasal y oral, y constituyen así sistemas completos de simulación del habla basados en la física. ^[46]^[47]

Síntesis basada en HMM

La síntesis basada en HMM es un método de síntesis basado en modelos ocultos de Markov , también llamado síntesis paramétrica estadística. En este sistema, el espectro de frecuencia ( tracto vocal ), la frecuencia fundamental (fuente de voz) y la duración ( prosodia ) del habla son modelados simultáneamente por HMM. Las formas de onda del habla se generan a partir de los propios HMM en función del criterio de máxima verosimilitud . ^[48]

Síntesis de ondas sinusoidales

La síntesis de ondas sinusoidales es una técnica para sintetizar el habla mediante la sustitución de los formantes (bandas principales de energía) por silbidos de tono puro. ^[49]

Síntesis basada en aprendizaje profundo

Ejemplo de síntesis de voz con el vocoder neuronal HiFi-GAN

La síntesis de voz mediante aprendizaje profundo utiliza redes neuronales profundas (DNN) para producir voz artificial a partir de texto (conversión de texto a voz) o espectro (vocoder). Las redes neuronales profundas se entrenan utilizando una gran cantidad de voz grabada y, en el caso de un sistema de conversión de texto a voz, las etiquetas asociadas o el texto de entrada.

15.ai utiliza un modelo de múltiples hablantes : cientos de voces se entrenan simultáneamente en lugar de secuencialmente, lo que disminuye el tiempo de entrenamiento necesario y permite que el modelo aprenda y generalice el contexto emocional compartido, incluso para voces que no están expuestas a dicho contexto emocional. ^[50] El modelo de aprendizaje profundo utilizado por la aplicación no es determinista : cada vez que se genera un discurso a partir de la misma cadena de texto, la entonación del discurso será ligeramente diferente. La aplicación también admite la alteración manual de la emoción de una línea generada utilizando contextualizadores emocionales (un término acuñado por este proyecto), una oración o frase que transmite la emoción de la toma que sirve como guía para el modelo durante la inferencia. ^[51]^[52]

ElevenLabs es conocido principalmente por su software de conversión de texto a voz asistido por IA basado en navegador , Speech Synthesis, que puede producir un habla realista al sintetizar la emoción vocal y la entonación . ^[53] La empresa afirma que su software está diseñado para ajustar la entonación y el ritmo de la entrega en función del contexto de la entrada de idioma utilizada. ^[54] Utiliza algoritmos avanzados para analizar los aspectos contextuales del texto, con el objetivo de detectar emociones como la ira, la tristeza, la felicidad o la alarma, lo que permite al sistema comprender el sentimiento del usuario, ^[55] lo que resulta en una inflexión más realista y humana. Otras características incluyen la generación de voz multilingüe y la creación de contenido de formato largo con voces conscientes del contexto. ^[56]^[57]

Los sintetizadores de voz basados en redes neuronales profundas se están acercando a la naturalidad de la voz humana. Entre las desventajas del método se encuentran la baja robustez cuando los datos no son suficientes, la falta de controlabilidad y el bajo rendimiento en modelos autorregresivos.

Para los idiomas tonales, como el chino o el taiwanés, se requieren diferentes niveles de sandhi de tonos y, a veces, la salida del sintetizador de voz puede generar errores de sandhi de tonos. ^[58]

Falsificaciones profundas de audio

La tecnología de audio deepfake , también conocida como clonación de voz o audio deepfake, es una aplicación de inteligencia artificial diseñada para generar un habla que imita de manera convincente a individuos específicos, a menudo sintetizando frases u oraciones que nunca han dicho. ^[59]^[60]^[61]^[62] Inicialmente desarrollada con la intención de mejorar varios aspectos de la vida humana, tiene aplicaciones prácticas como generar audiolibros y ayudar a personas que han perdido la voz debido a condiciones médicas . ^[63]^[64] Además, tiene usos comerciales, incluida la creación de asistentes digitales personalizados, sistemas de texto a voz que suenan naturales y servicios avanzados de traducción de voz . ^[65]

En 2023, el periodista de VICE Joseph Cox publicó los hallazgos de que había grabado cinco minutos de sí mismo hablando y luego había usado una herramienta desarrollada por ElevenLabs para crear deepfakes de voz que derrotaron el sistema de autenticación de voz de un banco . ^[66]

Desafíos

Desafíos de la normalización de texto

El proceso de normalización de textos rara vez es sencillo. Los textos están llenos de heterónimos , números y abreviaturas que requieren una expansión para obtener una representación fonética. Hay muchas formas de escribir en inglés que se pronuncian de manera diferente según el contexto. Por ejemplo, "Mi último proyecto es aprender a proyectar mejor mi voz" contiene dos pronunciaciones de "proyecto".

La mayoría de los sistemas de conversión de texto a voz (TTS) no generan representaciones semánticas de sus textos de entrada, ya que los procesos para hacerlo son poco fiables, poco comprendidos y computacionalmente ineficaces. Como resultado, se utilizan diversas técnicas heurísticas para adivinar la forma adecuada de desambiguar homógrafos , como examinar palabras vecinas y utilizar estadísticas sobre la frecuencia de aparición.

Recientemente, los sistemas TTS han comenzado a utilizar HMM (discutidos anteriormente) para generar " partes del discurso " que ayuden a desambiguar los homógrafos. Esta técnica es bastante exitosa para muchos casos, como por ejemplo si "read" debe pronunciarse como "red" que implica tiempo pasado, o como "reed" que implica tiempo presente. Las tasas de error típicas cuando se utilizan HMM de esta manera suelen ser inferiores al cinco por ciento. Estas técnicas también funcionan bien para la mayoría de los idiomas europeos, aunque el acceso a los corpus de entrenamiento necesarios suele ser difícil en estos idiomas.

Decidir cómo convertir números es otro problema que los sistemas TTS tienen que abordar. Es un desafío de programación simple convertir un número en palabras (al menos en inglés), como "1325" que se convierte en "mil trescientos veinticinco". Sin embargo, los números aparecen en muchos contextos diferentes; "1325" también puede leerse como "uno tres dos cinco", "trece veinticinco" o "mil trescientos veinticinco". Un sistema TTS a menudo puede inferir cómo expandir un número basándose en palabras, números y puntuación circundantes, y a veces el sistema proporciona una forma de especificar el contexto si es ambiguo. ^[67] Los números romanos también pueden leerse de manera diferente según el contexto. Por ejemplo, "Enrique VIII" se lee como "Enrique VIII", mientras que "Capítulo VIII" se lee como "Capítulo Ocho".

De manera similar, las abreviaturas pueden ser ambiguas. Por ejemplo, la abreviatura "in" para "inches" debe diferenciarse de la palabra "in", y la dirección "12 St John St." utiliza la misma abreviatura para "Saint" y "Street". Los sistemas TTS con interfaces inteligentes pueden hacer conjeturas fundamentadas sobre abreviaturas ambiguas, mientras que otros proporcionan el mismo resultado en todos los casos, lo que da como resultado resultados sin sentido (y a veces cómicos), como " Ulysses S. Grant " que se traduce como "Ulysses South Grant".

Desafíos de conversión de texto a fonemas

Los sistemas de síntesis de voz utilizan dos métodos básicos para determinar la pronunciación de una palabra basándose en su ortografía , un proceso que a menudo se denomina conversión de texto a fonema o conversión de grafema a fonema ( fonema es el término utilizado por los lingüistas para describir los sonidos distintivos de un idioma ). El método más simple para la conversión de texto a fonema es el basado en diccionario, donde el programa almacena un gran diccionario que contiene todas las palabras de un idioma y sus pronunciaciones correctas . Determinar la pronunciación correcta de cada palabra es una cuestión de buscar cada palabra en el diccionario y reemplazar la ortografía con la pronunciación especificada en el diccionario. El otro método se basa en reglas, en el que se aplican reglas de pronunciación a las palabras para determinar su pronunciación en función de su ortografía. Esto es similar al método de "pronunciación" o fonética sintética para aprender a leer.

Cada método tiene sus ventajas y desventajas. El método basado en diccionarios es rápido y preciso, pero falla por completo si se le da una palabra que no está en su diccionario. A medida que aumenta el tamaño del diccionario, también lo hacen los requisitos de espacio de memoria del sistema de síntesis. Por otro lado, el método basado en reglas funciona con cualquier entrada, pero la complejidad de las reglas aumenta sustancialmente a medida que el sistema tiene en cuenta las ortografías o pronunciaciones irregulares. (Tenga en cuenta que la palabra "of" es muy común en inglés, pero es la única palabra en la que la letra "f" se pronuncia [v] ). Como resultado, casi todos los sistemas de síntesis de voz utilizan una combinación de estos métodos.

Los idiomas con una ortografía fonémica tienen un sistema de escritura muy regular y la predicción de la pronunciación de las palabras basándose en su ortografía es bastante exitosa. Los sistemas de síntesis de voz para dichos idiomas a menudo utilizan el método basado en reglas de forma extensiva, recurriendo a diccionarios solo para aquellas pocas palabras, como nombres extranjeros y préstamos lingüísticos, cuya pronunciación no es obvia a partir de su ortografía. Por otro lado, los sistemas de síntesis de voz para idiomas como el inglés, que tienen sistemas de ortografía extremadamente irregulares, tienden a depender más de diccionarios y a utilizar métodos basados en reglas solo para palabras inusuales o palabras que no están en sus diccionarios.

Desafíos de la evaluación

La evaluación coherente de los sistemas de síntesis de voz puede resultar difícil debido a la falta de criterios de evaluación objetivos universalmente aceptados. A menudo, las distintas organizaciones utilizan distintos datos de voz. La calidad de los sistemas de síntesis de voz también depende de la calidad de la técnica de producción (que puede implicar grabación analógica o digital) y de las instalaciones utilizadas para reproducir la voz. Por ello, la evaluación de los sistemas de síntesis de voz se ha visto a menudo comprometida por las diferencias entre las técnicas de producción y las instalaciones de reproducción.

Sin embargo, desde 2005, algunos investigadores han comenzado a evaluar sistemas de síntesis de voz utilizando un conjunto de datos de voz común. ^[68]

Prosódica y contenido emocional

Un estudio en la revista Speech Communication por Amy Drahota y colegas de la Universidad de Portsmouth , Reino Unido , informó que los oyentes de grabaciones de voz podían determinar, a niveles mejores que el azar, si el hablante estaba sonriendo o no. ^[69]^[70]^[71] Se sugirió que la identificación de las características vocales que señalan el contenido emocional puede usarse para ayudar a que el habla sintetizada suene más natural. Uno de los problemas relacionados es la modificación del contorno de tono de la oración, dependiendo de si es una oración afirmativa, interrogativa o exclamativa. Una de las técnicas para la modificación del tono ^[36] utiliza la transformada de coseno discreta en el dominio de la fuente ( residuo de predicción lineal ). Tales técnicas de modificación de tono sincrónica de tono necesitan un marcado de tono a priori de la base de datos de voz sintetizada utilizando técnicas como la extracción de época utilizando el índice de plosión dinámico aplicado en el residuo de predicción lineal integrado de las regiones sonoras del habla. ^[72] En general, la prosodia sigue siendo un desafío para los sintetizadores de voz y es un tema de investigación activo.

Hardware dedicado

Icófono
Instrumento general SP0256-AL2
Semiconductor nacional DT1050 Digitalker (Mozer – Forrest Mozer )
Chips de voz LPC de Texas Instruments ^[73]

Sistemas de hardware y software

Sistemas populares que ofrecen síntesis de voz como capacidad incorporada.

Instrumentos de Texas

Demostración de voz de la TI-99/4A utilizando el vocabulario integrado

A principios de los años 80, TI era conocida como pionera en la síntesis de voz, y un módulo de sintetizador de voz enchufable muy popular estaba disponible para la TI-99/4 y la 4A. Los sintetizadores de voz se ofrecían gratis con la compra de una serie de cartuchos y se utilizaban en muchos videojuegos escritos por TI (los juegos ofrecidos con voz durante esta promoción incluían Alpiner y Parsec ). El sintetizador utiliza una variante de codificación predictiva lineal y tiene un pequeño vocabulario incorporado. La intención original era lanzar pequeños cartuchos que se conectaran directamente a la unidad de sintetizador, lo que aumentaría el vocabulario incorporado del dispositivo. Sin embargo, el éxito del software de conversión de texto a voz en el cartucho Terminal Emulator II canceló ese plan.

Mattel

La consola de juegos Mattel Intellivision ofreció el módulo de síntesis de voz Intellivoice en 1982. Incluía el chip sintetizador de voz Narrator SP0256 en un cartucho extraíble. El Narrator tenía 2 kB de memoria de solo lectura (ROM), y esto se utilizaba para almacenar una base de datos de palabras genéricas que se podían combinar para formar frases en los juegos Intellivision. Dado que el chip Orator también podía aceptar datos de voz de una memoria externa, cualquier palabra o frase adicional que se necesitara se podía almacenar dentro del propio cartucho. Los datos consistían en cadenas de coeficientes de filtro analógico para modificar el comportamiento del modelo de tracto vocal sintético del chip, en lugar de simples muestras digitalizadas.

SAM

Una demostración de SAM en el C64

También lanzado en 1982, Software Automatic Mouth fue el primer programa comercial de síntesis de voz totalmente basado en software. Más tarde se utilizó como base para Macintalk . El programa estaba disponible para ordenadores Apple que no fueran Macintosh (incluidos el Apple II y el Lisa), varios modelos de Atari y el Commodore 64. La versión de Apple prefería hardware adicional que contenía DAC, aunque podía utilizar en su lugar la salida de audio de un bit del ordenador (con la adición de mucha distorsión) si la tarjeta no estaba presente. El Atari hizo uso del chip de audio POKEY integrado. La reproducción de voz en el Atari normalmente desactivaba las solicitudes de interrupción y apagaba el chip ANTIC durante la salida vocal. La salida audible es un habla extremadamente distorsionada cuando la pantalla está encendida. El Commodore 64 hizo uso del chip de audio SID integrado del 64.

Atari

Demostración de síntesis de voz de Atari ST

Se podría decir que el primer sistema de voz integrado en un sistema operativo fueron las computadoras Atari 1400XL/1450XL , aún no lanzadas al mercado, de alrededor de 1983. Estas usaban el chip Votrax SC01 y una máquina de estados finitos para permitir la síntesis de texto a voz con ortografía inglesa mundial. ^[74]

Las computadoras Atari ST se vendieron con "stspeech.tos" en disquete.

Manzana

Demostración de MacinTalk 1

Demostración de MacinTalk 2 con las voces de Hughes y Marvin

El primer sistema de voz integrado en un sistema operativo que se envió en grandes cantidades fue MacInTalk de Apple Computer . El software fue licenciado por desarrolladores externos como Joseph Katz y Mark Barton (más tarde, SoftVoice, Inc.) y se presentó durante la introducción de la computadora Macintosh en 1984. Esta demostración de enero requirió 512 kilobytes de memoria RAM. Como resultado, no podía ejecutarse en los 128 kilobytes de RAM con los que se envió realmente la primera Mac. ^[75] Por lo tanto, la demostración se realizó con un prototipo de Mac de 512k, aunque a los asistentes no se les dijo esto y la demostración de síntesis creó un entusiasmo considerable por la Macintosh. A principios de la década de 1990, Apple amplió sus capacidades ofreciendo soporte de texto a voz en todo el sistema. Con la introducción de computadoras más rápidas basadas en PowerPC, incluyeron muestreo de voz de mayor calidad. Apple también introdujo el reconocimiento de voz en sus sistemas que proporcionaba un conjunto de comandos fluido. Más recientemente, Apple ha agregado voces basadas en muestras. El sistema de voz de Apple Macintosh, que comenzó como una curiosidad, ha evolucionado hasta convertirse en un programa totalmente compatible, PlainTalk , para personas con problemas de visión. VoiceOver se incluyó por primera vez en 2005 en Mac OS X Tiger (10.4). Durante la versión 10.4 (Tiger) y las primeras versiones de la 10.5 ( Leopard ), solo había una voz estándar incluida en Mac OS X. A partir de la versión 10.6 ( Snow Leopard ), el usuario puede elegir entre una amplia lista de múltiples voces. Las voces de VoiceOver permiten respirar de forma realista entre oraciones, así como una claridad mejorada a velocidades de lectura altas en comparación con PlainTalk. Mac OS X también incluye say, una aplicación basada en línea de comandos que convierte texto en voz audible. Las adiciones estándar de AppleScript incluyen un verbo say que permite que un script utilice cualquiera de las voces instaladas y controle el tono, la velocidad de habla y la modulación del texto hablado.

Amazonas

Utilizado en Alexa y como software como servicio en AWS ^[76] (desde 2017).

AmigaOS

Ejemplo de síntesis de voz con la utilidad Say incluida en Workbench 1.3

El segundo sistema operativo que incluyó capacidades avanzadas de síntesis de voz fue AmigaOS , introducido en 1985. La síntesis de voz fue licenciada por Commodore International de SoftVoice, Inc., quien también desarrolló el sistema de texto a voz MacinTalk original . Incluía un sistema completo de emulación de voz para inglés americano, con voces masculinas y femeninas y marcadores indicadores de "estrés", posibles gracias al chipset de audio de Amiga . ^[77] El sistema de síntesis se dividió en una biblioteca de traductores que convertía texto en inglés sin restricciones en un conjunto estándar de códigos fonéticos y un dispositivo narrador que implementaba un modelo de formantes de generación de voz. AmigaOS también incluía un " Manejador de voz " de alto nivel, que permitía a los usuarios de la línea de comandos redirigir la salida de texto a voz. La síntesis de voz se utilizó ocasionalmente en programas de terceros, particularmente procesadores de texto y software educativo. El software de síntesis permaneció prácticamente sin cambios desde la primera versión de AmigaOS y Commodore finalmente eliminó el soporte de síntesis de voz a partir de AmigaOS 2.1 en adelante.

A pesar de la limitación de fonemas del inglés americano, se desarrolló una versión no oficial con síntesis de voz multilingüe. Esta hizo uso de una versión mejorada de la biblioteca de traductores que podía traducir varios idiomas, dado un conjunto de reglas para cada idioma. ^[78]

Microsoft Windows

Los sistemas de escritorio modernos de Windows pueden usar los componentes SAPI 4 y SAPI 5 para soportar la síntesis de voz y el reconocimiento de voz . SAPI 4.0 estaba disponible como un complemento opcional para Windows 95 y Windows 98. Windows 2000 agregó Narrador , una utilidad de texto a voz para personas con discapacidad visual. Los programas de terceros como JAWS para Windows, Window-Eyes, Non-visual Desktop Access, Supernova y System Access pueden realizar varias tareas de texto a voz, como leer texto en voz alta desde un sitio web específico, una cuenta de correo electrónico, un documento de texto, el portapapeles de Windows, la escritura del teclado del usuario, etc. No todos los programas pueden usar la síntesis de voz directamente. ^[79] Algunos programas pueden usar complementos, extensiones o complementos para leer texto en voz alta. Hay programas de terceros disponibles que pueden leer texto desde el portapapeles del sistema.

Microsoft Speech Server es un paquete basado en servidor para síntesis y reconocimiento de voz. Está diseñado para su uso en red con aplicaciones web y centros de llamadas .

Votrax

Sintetizador de voz Votrax Type 'N Talk (1980)

Entre 1971 y 1996, Votrax produjo una serie de componentes comerciales de sintetizadores de voz. Un sintetizador Votrax se incluyó en la primera generación de la máquina de lectura Kurzweil para ciegos.

Sistemas de texto a voz

El término "texto a voz" (TTS, por sus siglas en inglés) hace referencia a la capacidad de las computadoras de leer texto en voz alta. Un motor TTS convierte el texto escrito en una representación fonémica y luego convierte la representación fonémica en formas de onda que pueden emitirse como sonido. Existen motores TTS con diferentes idiomas, dialectos y vocabularios especializados disponibles a través de editores externos. ^[80]

Androide

La versión 1.6 de Android agregó soporte para síntesis de voz (TTS). ^[81]

Internet

Actualmente, existen numerosas aplicaciones , complementos y gadgets que pueden leer mensajes directamente desde un cliente de correo electrónico y páginas web desde un navegador web o la barra de herramientas de Google . Algunos programas especializados pueden narrar feeds RSS . Por un lado, los narradores RSS en línea simplifican la entrega de información al permitir a los usuarios escuchar sus fuentes de noticias favoritas y convertirlas en podcasts . Por otro lado, los lectores RSS en línea están disponibles en casi cualquier computadora personal conectada a Internet. Los usuarios pueden descargar archivos de audio generados a dispositivos portátiles, por ejemplo con la ayuda de un receptor de podcast , y escucharlos mientras caminan, trotan o viajan al trabajo.

Un campo en expansión en el campo de la tecnología de asistencia basada en Internet es el de la tecnología de asistencia basada en la web , por ejemplo, "Browsealoud" de una empresa del Reino Unido y Readspeaker . Puede ofrecer funcionalidad de TTS a cualquier persona (por razones de accesibilidad, conveniencia, entretenimiento o información) con acceso a un navegador web. El proyecto sin fines de lucro Pediaphon se creó en 2006 para proporcionar una interfaz de TTS basada en la web similar a la de Wikipedia. ^[82]

Se están realizando otros trabajos en el contexto del W3C a través del W3C Audio Incubator Group con la participación de la BBC y Google Inc.

Código abierto

Hay algunos sistemas de software de código abierto disponibles, como:

eSpeak que admite una amplia gama de idiomas.
Sistema de síntesis de voz para festivales que utiliza síntesis basada en difonos, así como técnicas más modernas y de mejor sonido.
gnuspeech que utiliza síntesis articulatoria ^[83] de la Free Software Foundation .

Otros

Tras el fracaso comercial del sistema basado en hardware Intellivoice, los desarrolladores de juegos utilizaron con moderación la síntesis de software en los juegos posteriores ^{[ cita requerida ]} . Los sistemas anteriores de Atari, como el Atari 5200 (Baseball) y el Atari 2600 ( Quadrun y Open Sesame), también tenían juegos que utilizaban síntesis de software. ^{[ cita requerida ]}
Algunos lectores de libros electrónicos , como Amazon Kindle , Samsung E6, PocketBook eReader Pro, enTourage eDGe y Bebook Neo.
El BBC Micro incorporó el chip de síntesis de voz TMS5220 de Texas Instruments.
Algunos modelos de ordenadores domésticos de Texas Instruments fabricados en 1979 y 1981 ( Texas Instruments TI-99/4 y TI-99/4A ) eran capaces de sintetizar texto a fonemas o recitar palabras y frases completas (texto a diccionario), utilizando un periférico de sintetizador de voz muy popular. TI utilizó un códec propietario para incorporar frases habladas completas en aplicaciones, principalmente videojuegos. ^[84]
El OS/2 Warp 4 de IBM incluía VoiceType, un precursor de IBM ViaVoice .
Las unidades de navegación GPS producidas por Garmin , Magellan , TomTom y otros utilizan síntesis de voz para la navegación de automóviles.
En 1999, Yamaha produjo un sintetizador musical, el Yamaha FS1R , que incluía una función de síntesis de formantes. Se podían almacenar y reproducir secuencias de hasta 512 formantes vocálicos y consonánticos individuales, lo que permitía sintetizar frases vocales breves.

Sonidos digitales similares

En la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) de 2018, investigadores de Google presentaron el trabajo 'Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis', que transfiere el aprendizaje de la verificación del hablante para lograr una síntesis de texto a voz, que puede hacerse sonar casi como cualquier persona a partir de una muestra de voz de solo 5 segundos. ^[85]

También investigadores de Baidu Research presentaron un sistema de clonación de voz con objetivos similares en la conferencia NeurIPS de 2018, ^[86] aunque el resultado es bastante poco convincente.

En 2019, los sonidos digitales parecidos llegaron a manos de delincuentes, como lo demuestran tres casos en los que los investigadores de Symantec conocen la tecnología de sonidos digitales parecidos que se ha utilizado para cometer delitos. ^[87]^[88]

Esto aumenta el estrés sobre la situación de desinformación sumado a los hechos de que

La síntesis de imágenes humanas desde principios de la década de 2000 ha mejorado hasta el punto de que el ser humano no puede distinguir entre una imagen humana real captada por una cámara real y una simulación de una imagen humana captada por una simulación de una cámara.
En 2016 se presentaron técnicas de falsificación de vídeos 2D que permiten la falsificación casi en tiempo real de expresiones faciales en vídeos 2D existentes. ^[89]
En SIGGRAPH 2017, investigadores de la Universidad de Washington presentaron una imagen digital del torso superior de Barack Obama basada en audio . La animación se realizó únicamente con una pista de voz como fuente de datos después de que se completara la fase de entrenamiento para adquirir información facial más amplia y de sincronización de labios a partir del material de entrenamiento que consistía en videos 2D con audio. ^[90]

En marzo de 2020, se lanzó una aplicación web gratuita llamada 15.ai que genera voces de alta calidad a partir de una variedad de personajes ficticios de una variedad de fuentes de medios. ^[91] Los personajes iniciales incluyeron a GLaDOS de Portal , Twilight Sparkle y Fluttershy del programa My Little Pony: Friendship Is Magic y el Décimo Doctor de Doctor Who .

Lenguajes de marcado de síntesis de voz

Se han creado varios lenguajes de marcado para la reproducción de texto como voz en un formato compatible con XML . El más reciente es Speech Synthesis Markup Language (SSML), que se convirtió en una recomendación del W3C en 2004. Entre los lenguajes de marcado de síntesis de voz más antiguos se encuentran Java Speech Markup Language ( JSML ) y SABLE . Aunque cada uno de ellos se propuso como estándar, ninguno de ellos ha sido ampliamente adoptado. ^{[ cita requerida ]}

Los lenguajes de marcado de síntesis de voz se distinguen de los lenguajes de marcado de diálogo. VoiceXML , por ejemplo, incluye etiquetas relacionadas con el reconocimiento de voz, la gestión de diálogos y la marcación por tonos, además del marcado de texto a voz. ^{[ cita requerida ]}

Aplicaciones

La síntesis de voz ha sido durante mucho tiempo una herramienta de tecnología de asistencia vital y su aplicación en esta área es significativa y generalizada. Permite eliminar las barreras ambientales para las personas con una amplia gama de discapacidades. La aplicación más antigua ha sido en el uso de lectores de pantalla para personas con discapacidad visual, pero los sistemas de texto a voz ahora son utilizados comúnmente por personas con dislexia y otras discapacidades de lectura , así como por niños prealfabetizados. ^[92] También se emplean con frecuencia para ayudar a las personas con discapacidad grave del habla , generalmente a través de un dispositivo de comunicación de salida de voz dedicado . ^[93] Se está trabajando para personalizar una voz sintética para que coincida mejor con la personalidad o la voz histórica de una persona. ^[94] Una aplicación destacada de la síntesis de voz fue la máquina de lectura Kurzweil para ciegos , que incorporó un software de texto a fonética basado en el trabajo de Haskins Laboratories y un sintetizador de caja negra construido por Votrax . ^[95]

Las técnicas de síntesis de voz también se utilizan en producciones de entretenimiento como juegos y animaciones. En 2007, Animo Limited anunció el desarrollo de un paquete de aplicaciones de software basado en su software de síntesis de voz FineSpeech, orientado explícitamente a clientes de las industrias del entretenimiento, capaz de generar narraciones y líneas de diálogo según las especificaciones del usuario. ^[96] La aplicación alcanzó su madurez en 2008, cuando NEC Biglobe anunció un servicio web que permite a los usuarios crear frases a partir de las voces de los personajes de la serie de anime japonesa Code Geass: Lelouch of the Rebellion R2 . ^[97] 15.ai se ha utilizado con frecuencia para la creación de contenido en varios fandoms , incluido el fandom de My Little Pony: Friendship Is Magic , el fandom de Team Fortress 2 , el fandom de Portal y el fandom de Bob Esponja . ^{[ cita requerida ]}

La conversión de texto a voz para personas con discapacidad y discapacidad se ha vuelto ampliamente disponible. La conversión de texto a voz también está encontrando nuevas aplicaciones; por ejemplo, la síntesis de voz combinada con el reconocimiento de voz permite la interacción con dispositivos móviles a través de interfaces de procesamiento de lenguaje natural . Algunos usuarios también han creado asistentes virtuales de IA utilizando 15.ai y software de control de voz externo. ^[51]^[52]

La conversión de texto a voz también se utiliza en la adquisición de una segunda lengua. Voki, por ejemplo, es una herramienta educativa creada por Oddcast que permite a los usuarios crear su propio avatar parlante, utilizando distintos acentos. Pueden enviarse por correo electrónico, insertarse en sitios web o compartirse en las redes sociales.

Los creadores de contenido han utilizado herramientas de clonación de voz para recrear sus voces para podcasts, ^[98]^[99] narraciones ^[54] y programas de comedia. ^[100]^[101]^[102] Los editores y autores también han utilizado este tipo de software para narrar audiolibros y boletines informativos. ^[103]^[104] Otra área de aplicación es la creación de videos de IA con cabezas parlantes. Las aplicaciones web y los editores de video como Elai.io o Synthesia permiten a los usuarios crear contenido de video que involucra avatares de IA, a quienes se les hace hablar mediante tecnología de texto a voz. ^[105]^[106]

La síntesis de voz es una valiosa ayuda computacional para el análisis y la evaluación de los trastornos del habla. Un sintetizador de calidad de voz , desarrollado por Jorge C. Lucero et al. en la Universidad de Brasilia , simula la física de la fonación e incluye modelos de fluctuación y temblor de frecuencia vocal, ruido del flujo de aire y asimetrías laríngeas. ^[46] El sintetizador se ha utilizado para imitar el timbre de hablantes disfónicos con niveles controlados de aspereza, susurro y tensión. ^[47]

Síntesis de canto

En la década de 2010, la tecnología de síntesis vocal ha aprovechado los recientes avances en inteligencia artificial (escucha profunda y aprendizaje automático) para representar mejor los matices de la voz humana. Las nuevas bibliotecas de muestras de alta fidelidad combinadas con estaciones de trabajo de audio digital facilitan la edición con gran detalle, como el cambio de formatos, el ajuste del vibrato y los ajustes de vocales y consonantes. Hay bibliotecas de muestras disponibles para varios idiomas y varios acentos. Con los avances actuales en síntesis vocal, los artistas a veces usan bibliotecas de muestras en lugar de cantantes de acompañamiento. ^[107]

Véase también

Referencias

^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). Del texto al habla: el sistema MITalk . Cambridge University Press. ISBN 978-0-521-30641-6.
^ Rubin, P.; Baer, T.; Mermelstein, P. (1981). "Un sintetizador articulatorio para la investigación perceptual". Revista de la Sociedad Acústica de América . 70 (2): 321–328. Bibcode :1981ASAJ...70..321R. doi :10.1121/1.386780.
^ van Santen, enero PH; Sproat, Richard W.; Oliva, José P.; Hirschberg, Julia (1997). Avances en la síntesis del habla . Saltador. ISBN 978-0-387-94701-3.
^ Van Santen, J. (abril de 1994). "Asignación de duración segmentaria en síntesis de texto a voz". Computer Speech & Language . 8 (2): 95–128. doi :10.1006/csla.1994.1005.
^ Historia y desarrollo de la síntesis de voz, Universidad Tecnológica de Helsinki, consultado el 4 de noviembre de 2006
^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mecanismo del habla humana con descripción de su máquina parlante", JB Degen, Viena). (en alemán)
^ Mattingly, Ignatius G. (1974). Sebeok, Thomas A. (ed.). «Síntesis del habla para modelos fonéticos y fonológicos» (PDF) . Tendencias actuales en lingüística . 12. Mouton, La Haya: 2451–2487. Archivado desde el original (PDF) el 2013-05-12 . Consultado el 2011-12-13 .
^ Klatt, D (1987). "Revisión de la conversión de texto a voz para inglés". Revista de la Sociedad Acústica de América . 82 (3): 737–93. Bibcode :1987ASAJ...82..737K. doi :10.1121/1.395275. PMID 2958525.
^ Lambert, Bruce (21 de marzo de 1992). "Louis Gerstman, 61, especialista en trastornos y procesos del habla". The New York Times .
^ "Biografía de Arthur C. Clarke". Archivado desde el original el 11 de diciembre de 1997. Consultado el 5 de diciembre de 2017 .
^ "Donde habló por primera vez "HAL" (sitio web de síntesis de voz de Bell Labs)". Bell Labs. Archivado desde el original el 7 de abril de 2000. Consultado el 17 de febrero de 2010 .
^ Robot parlante antropomórfico Serie Waseda-Talker Archivado el 4 de marzo de 2016 en Wayback Machine
^ Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: Parte II de la codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontrado. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346. Archivado (PDF) desde el original el 2022-10-09.
^ Zheng, F.; Song, Z.; Li, L.; Yu, W. (1998). "La medida de distancia para pares de líneas espectrales aplicada al reconocimiento de voz" (PDF) . Actas de la 5.ª Conferencia internacional sobre procesamiento del lenguaje hablado (ICSLP'98) (3): 1123–6. Archivado (PDF) desde el original el 2022-10-09.
^ ab "Lista de hitos del IEEE". IEEE . Consultado el 15 de julio de 2019 .
^ ab "Historia oral de Fumitada Itakura". Red de Historia Global IEEE. 20 de mayo de 2009 . Consultado el 21 de julio de 2009 .
^ Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto ; Nebbia, Luciano (1 de noviembre de 1995). "Tecnología de voz interactiva en el trabajo: la experiencia CSELT". Comunicación del habla . 17 (3): 263–271. doi :10.1016/0167-6393(95)00030-R.
^ Sproat, Richard W. (1997). Síntesis de texto a voz multilingüe: el enfoque de Bell Labs . Springer. ISBN 978-0-7923-8027-6.
^ [TSI Speech+ y otras calculadoras parlantes]
^ Gevaryahu, Jonathan, [ "Guía de circuito integrado LSI del sintetizador de voz TSI S14001A"] ^{[ enlace roto ‍ ]}
^ Breslow, et al. US 4326710 : "Juego electrónico parlante", 27 de abril de 1982
^ Voz del retador de ajedrez
^ Las evoluciones más importantes de los videojuegos Archivado el 15 de junio de 2011 en Wayback Machine , GamesRadar
^ Adlum, Eddie (noviembre de 1985). "Los años de Replay: reflexiones de Eddie Adlum". RePlay . Vol. 11, núm. 2. págs. 134-175 (160-3).
^ Szczepaniak, John (2014). La historia no contada de los desarrolladores de juegos japoneses . Vol. 1. SMG Szczepaniak. págs. 544–615. ISBN 978-0992926007.
^ "Una breve historia de Computallaker". Proyecto de historia de la síntesis de voz del Instituto Smithsoniano .
^ CadeMetz (20 de agosto de 2020). «Ann Syrdal, que ayudó a darle una voz femenina a las computadoras, muere a los 74 años». The New York Times . Consultado el 23 de agosto de 2020 .
^ Kurzweil, Raymond (2005). La singularidad está cerca . Penguin Books . ISBN 978-0-14-303788-0.
^ Taylor, Paul (2009). Síntesis de texto a voz . Cambridge, Reino Unido: Cambridge University Press. p. 3. ISBN 9780521899277.
^ Alan W. Black , Síntesis perfecta para todas las personas en todo momento. Taller IEEE TTS 2002.
^ John Kominek y Alan W. Black . (2003). Bases de datos CMU ARCTIC para síntesis de voz. CMU-LTI-03-177. Instituto de Tecnologías del Lenguaje, Facultad de Ciencias de la Computación, Universidad Carnegie Mellon.
^ Julia Zhang. Generación de lenguaje y síntesis de voz en diálogos para el aprendizaje de idiomas, tesis de maestría, Sección 5.6 en la página 54.
^ William Yang Wang y Kallirroi Georgila. (2011). Detección automática de segmentos no naturales a nivel de palabra en síntesis de voz con selección de unidad, IEEE ASRU 2011.
^ "Síntesis de superposición y adición sincronizadas de tono (PSOLA)". Archivado desde el original el 22 de febrero de 2007. Consultado el 28 de mayo de 2008 .
^ T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken. El proyecto MBROLA: hacia un conjunto de sintetizadores de voz de alta calidad que se puedan utilizar con fines no comerciales. Actas del ICSLP , 1996.
^ ab Muralishankar, R.; Ramakrishnan, AG; Prathibha, P. (febrero de 2004). "Modificación del tono mediante DCT en el dominio de origen". Speech Communication . 42 (2): 143–154. doi :10.1016/j.specom.2003.05.001.{{cite journal}}: CS1 maint: year (link)
^ "La educación: la maravilla del Bronx". Time . 1974-04-01. ISSN 0040-781X . Consultado el 28 de mayo de 2019 .
^ "1960 - Rudy el robot - Michael Freeman (estadounidense)". cyberneticzoo.com . 2010-09-13 . Consultado el 2019-05-23 .
^ Revista de Nueva York. New York Media, LLC. 30 de julio de 1979.
^ El Futurista. Sociedad del Futuro Mundial. 1978. págs. 359, 360, 361.
^ LF Lamel , JL Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generación y síntesis de mensajes de difusión, Actas del taller ESCA-NATO y aplicaciones de la tecnología del habla , septiembre de 1993.
^ Dartmouth College: Música y computadoras Archivado el 8 de junio de 2011 en Wayback Machine , 1993.
^ Algunos ejemplos son Astro Blaster , Space Fury y Star Trek: Strategic Operations Simulator.
^ Algunos ejemplos incluyen Star Wars , Firefox , El retorno del Jedi , El Correcaminos , El Imperio Contraataca , Indiana Jones y el templo maldito , 720° , Gauntlet , Gauntlet II , APB , Paperboy , RoadBlasters , Vindicators Part II, Escape from the Planet of the Robot Monsters .
^ John Holmes y Wendy Holmes (2001). Síntesis y reconocimiento de voz (2.ª ed.). CRC. ISBN 978-0-7484-0856-6.
^ ab Lucero, JC; Schoentgen, J.; Behlau, M. (2013). "Síntesis de voces desordenadas basada en la física" (PDF) . Interspeech 2013 . Lyon, Francia: International Speech Communication Association: 587–591. doi :10.21437/Interspeech.2013-161. S2CID 17451802 . Consultado el 27 de agosto de 2015 .
^ ab Englert, Marina; Madazio, Glaucya; Gielow, Ingrid; Lucero, Jorge; Behlau, Mara (2016). "Identificación de errores perceptivos de voces humanas y sintetizadas". Journal of Voice . 30 (5): 639.e17–639.e23. doi :10.1016/j.jvoice.2015.07.017. PMID 26337775.
^ "El sistema de síntesis de voz basado en HMM". Hts.sp.nitech.ac.j. Archivado desde el original el 13 de febrero de 2012. Consultado el 22 de febrero de 2012 .
^ Remez, R.; Rubin, P.; Pisoni, D.; Carrell, T. (22 de mayo de 1981). "Percepción del habla sin claves tradicionales del habla" (PDF) . Science . 212 (4497): 947–949. Bibcode :1981Sci...212..947R. doi :10.1126/science.7233191. PMID 7233191. Archivado desde el original (PDF) el 2011-12-16 . Consultado el 2011-12-14 .
^ Valle, Rafael (2020). "Mellotron: síntesis de voz expresiva multiparlante mediante condicionamiento de ritmo, tono y tokens de estilo global". arXiv : 1910.11997 [eess].
^ ab Kurosawa, Yuki (19 de enero de 2021). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undert ale』や『Portal』のキャラに好きなセリフを言ってもらえる". AUTÓMATO . Archivado desde el original el 19 de enero de 2021 . Consultado el 19 de enero de 2021 .
^ ab Yoshiyuki, Furushima (18 de enero de 2021). "『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げて" Denfaminicogamer . Archivado desde el original el 18 de enero de 2021 . Recuperado el 18 de enero de 2021 .
^ "La IA generativa llega al doblaje cinematográfico: la startup de IA de audio ElevenLabs recauda fondos de presemilla". Sifted . 23 de enero de 2023 . Consultado el 3 de febrero de 2023 .
^ ab Ashworth, Boone (12 de abril de 2023). "La IA puede clonar la voz de tu presentador de podcast favorito". Wired . Consultado el 25 de abril de 2023 .
^ Personal de WIRED. "Este podcast no está alojado por clones de voz de IA. Lo juramos". Wired . ISSN 1059-1028 . Consultado el 25 de julio de 2023 .
^ Wiggers, Kyle (20 de junio de 2023). «La plataforma de generación de voz ElevenLabs recauda 19 millones de dólares y lanza una herramienta de detección». TechCrunch . Consultado el 25 de julio de 2023 .
^ Bonk, Lawrence. "La nueva y poderosa herramienta de inteligencia artificial de ElevenLabs te permite crear un audiolibro completo en minutos". Lifewire . Consultado el 25 de julio de 2023 .
^ Zhu, Jian (25 de mayo de 2020). "Probando el conocimiento fonético y fonológico de los tonos en modelos TTS en mandarín". Speech Prosody 2020. ISCA: ISCA: 930–934. arXiv : 1912.10915 . doi :10.21437/speechprosody.2020-190. S2CID 209444942.
^ Smith, Hannah; Mansted, Katherine (1 de abril de 2020). Falsificaciones profundas armadas: seguridad nacional y democracia . Vol. 28. Instituto Australiano de Política Estratégica . Págs. 11-13. ISSN 2209-9689.{{cite book}}: CS1 maint: date and year (link)
^ Lyu, Siwei (2020). "Detección de deepfake: desafíos actuales y próximos pasos". Conferencia internacional IEEE sobre multimedia y talleres de exposiciones (ICMEW) de 2020. págs. 1–6. arXiv : 2003.09234 . doi :10.1109/icmew46912.2020.9105991. ISBN 978-1-7281-1485-9. S2CID 214605906 . Consultado el 29 de junio de 2022 .
^ Diakopoulos, Nicholas; Johnson, Deborah (junio de 2020). "Anticipar y abordar las implicaciones éticas de los deepfakes en el contexto de las elecciones". New Media & Society . 23 (7) (publicado el 5 de junio de 2020): 2072–2098. doi :10.1177/1461444820925811. ISSN 1461-4448. S2CID 226196422.
^ Murphy, Margi (20 de febrero de 2024). "Deepfake Audio Boom explota la inteligencia artificial de una startup valorada en mil millones de dólares". Bloomberg.
^ Chadha, Anupama; Kumar, Vaibhav; Kashyap, Sonu; Gupta, Mayank (2021), Singh, Pradeep Kumar; Wierzchoń, Sławomir T.; Tanwar, Sudeep; Ganzha, Maria (eds.), "Deepfake: una descripción general", Actas de la Segunda Conferencia Internacional sobre Informática, Comunicaciones y Ciberseguridad , Lecture Notes in Networks and Systems, vol. 203, Singapur: Springer Singapur, págs. 557–566, doi :10.1007/978-981-16-0733-2_39, ISBN 978-981-16-0732-5, S2CID 236666289 , consultado el 29 de junio de 2022
^ "La inteligencia artificial le devolvió la voz a Val Kilmer, pero los críticos temen que la tecnología pueda ser mal utilizada". Washington Post . ISSN 0190-8286 . Consultado el 29 de junio de 2022 .
^ Etienne, Vanessa (19 de agosto de 2021). "Val Kilmer recupera su voz después de luchar contra el cáncer de garganta gracias a la tecnología de inteligencia artificial: escuche los resultados". PEOPLE.com . Consultado el 1 de julio de 2022 .
^ Newman, Lily Hay. "Las falsificaciones de voz generadas por IA no son tan buenas... todavía". Wired . ISSN 1059-1028 . Consultado el 25 de julio de 2023 .
^ "Síntesis de voz". Organización Mundial de la Web.
^ "Desafío Blizzard". Festvox.org . Consultado el 22 de febrero de 2012 .
^ "Sonríe y el mundo podrá oírte". Universidad de Portsmouth. 9 de enero de 2008. Archivado desde el original el 17 de mayo de 2008.
^ "Sonríe y el mundo podrá oírte, incluso si te escondes". Science Daily . Enero de 2008.
^ Drahota, A. (2008). "La comunicación vocal de diferentes tipos de sonrisa" (PDF) . Speech Communication . 50 (4): 278–287. doi :10.1016/j.specom.2007.10.001. S2CID 46693018. Archivado desde el original (PDF) el 2013-07-03.
^ Prathosh, AP; Ramakrishnan, AG; Ananthapadmanabha, TV (diciembre de 2013). "Extracción de época basada en residual de predicción lineal integrada utilizando índice de plosión". IEEE Trans. Procesamiento de lenguaje de voz y audio . 21 (12): 2471–2480. doi :10.1109/TASL.2013.2273717. S2CID 10491251.
^ EE Times. "TI abandonará los chips dedicados a la síntesis de voz y transferirá productos a Sensory Archivado el 28 de mayo de 2012 en Wayback Machine ." 14 de junio de 2001.
^ "Especificación de referencia externa del controlador de voz 1400XL/1450XL" (PDF) . Archivado desde el original (PDF) el 24 de marzo de 2012 . Consultado el 22 de febrero de 2012 .
^ "¡Es fantástico poder salir de esa bolsa!". folklore.org . Consultado el 24 de marzo de 2013 .
^ "Amazon Polly". Amazon Web Services, Inc. Recuperado el 28 de abril de 2020 .
^ Miner, Jay y otros (1991). Manual de referencia de hardware de Amiga (3.ª edición). Addison-Wesley Publishing Company, Inc. ISBN 978-0-201-56776-2.
^ Devitt, Francesco (30 de junio de 1995). «Translator Library (Multilingual-speech version)». Archivado desde el original el 26 de febrero de 2012. Consultado el 9 de abril de 2013 .
^ "Tutoriales de accesibilidad para Windows XP: uso del Narrador". Microsoft. 29 de enero de 2011. Archivado desde el original el 21 de junio de 2003. Consultado el 29 de enero de 2011 .
^ "Cómo configurar y utilizar Text-to-Speech en Windows XP y Windows Vista". Microsoft. 2007-05-07 . Consultado el 2010-02-17 .
^ Jean-Michel Trivi (23 de septiembre de 2009). "Introducción a la conversión de texto a voz en Android". Android-developers.blogspot.com . Consultado el 17 de febrero de 2010 .
^ Andreas Bischoff, Pediaphon: interfaz de voz para la enciclopedia libre Wikipedia para teléfonos móviles, PDA y reproductores MP3, Actas de la 18.ª Conferencia internacional sobre aplicaciones de bases de datos y sistemas expertos, páginas: 575-579 ISBN 0-7695-2932-1 , 2007
^ "gnuspeech". Gnu.org . Consultado el 17 de febrero de 2010 .
^ "Proyecto histórico de síntesis de voz del Smithsonian (SSSHP) 1986–2002". Mindspring.com. Archivado desde el original el 2013-10-03 . Consultado el 2010-02-17 .
^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (12 de junio de 2018), "Transferencia de aprendizaje desde la verificación de hablantes a la síntesis de texto a voz de múltiples hablantes", Advances in Neural Information Processing Systems , 31 : 4485–4495, arXiv : 1806.04558
^ Arık, Sercan Ö.; Chen, Jitong; Peng, Kainan; Ping, Wei; Zhou, Yanqi (2018), "Clonación de voz neuronal con algunas muestras", Avances en sistemas de procesamiento de información neuronal , 31 , arXiv : 1802.06006
^ "Las voces falsas 'ayudan a los cibercriminales a robar dinero'". bbc.com . BBC . 2019-07-08 . Consultado el 2019-09-11 .
^ Drew, Harwell (4 de septiembre de 2019). "Una primicia en inteligencia artificial: un software que imita la voz habría sido utilizado en un importante robo". Washington Post . Consultado el 8 de septiembre de 2019 .
^ Thies, Justus (2016). "Face2Face: captura de rostros en tiempo real y recreación de videos RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Consultado el 18 de junio de 2016 .
^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Sintetizando a Obama: aprendiendo a sincronizar los labios con el audio, Universidad de Washington , consultado el 2 de marzo de 2018
^ Ng, Andrew (1 de abril de 2020). "Clonación de voces para las masas". deeplearning.ai . The Batch. Archivado desde el original el 7 de agosto de 2020. Consultado el 2 de abril de 2020 .
^ Brunow, David A.; Cullen, Theresa A. (3 de julio de 2021). "Efecto de la conversión de texto a voz y del lector humano en la comprensión auditiva de estudiantes con discapacidades de aprendizaje". Computadoras en las escuelas . 38 (3): 214–231. doi :10.1080/07380569.2021.1953362. hdl : 11244/316759 . ISSN 0738-0569. S2CID 243101945.
^ Triandafilidi, Ioanis I.; Tatarnikova, TM; Poponin, AS (30 de mayo de 2022). "Sistema de síntesis de voz para personas con discapacidad". 2022 Electrónica de ondas y su aplicación en sistemas de información y telecomunicaciones (WECONF) . San Petersburgo, Federación Rusa: IEEE. págs. 1–5. doi :10.1109/WECONF55058.2022.9803600. ISBN 978-1-6654-7083-4. Número de identificación del sujeto 250118756.
^ Zhao, Yunxin; Song, Minguang; Yue, Yanghao; Kuruvilla-Dugdale, Mili (27 de julio de 2021). "Personalización de las voces TTS para la disartria progresiva". Conferencia internacional IEEE EMBS 2021 sobre informática biomédica y sanitaria (BHI) . Atenas, Grecia: IEEE. págs. 1–4. doi :10.1109/BHI50953.2021.9508522. ISBN . 978-1-6654-0358-0. Número de identificación del sujeto 236982893.
^ "Evolución de las máquinas de lectura para ciegos: investigación de Haskins Laboratories como caso clínico" (PDF) . Revista de investigación y desarrollo en rehabilitación . 21 (1). 1984.
^ "Se anuncia un software de síntesis de voz para anime". Anime News Network . 2007-05-02 . Consultado el 2010-02-17 .
^ "Se ofrece en Japón el servicio de sintetizador de voz de Code Geass". Animenewsnetwork.com. 2008-09-09 . Consultado el 2010-02-17 .
^ "Ahora escuchen esto: ElevenLabs, una startup de IA que clona voces, se lleva 19 millones de dólares de a16z y otros pesos pesados". VentureBeat . 2023-06-20 . Consultado el 2023-07-25 .
^ "Sztuczna inteligencja czyta głosem Jarosława Kuźniara. Rewolucja w radiu i podcastach". Press.pl (en polaco). 9 de abril de 2023 . Consultado el 25 de abril de 2023 .
^ Knibbs, Kate. "Los podcasts de IA generativa ya están aquí. Prepárate para aburrirte". Wired . ISSN 1059-1028 . Consultado el 25 de julio de 2023 .
^ Suciu, Peter. "La parodia de Arrested Succession en YouTube presenta una 'narración' generada por Ron Howard con inteligencia artificial". Forbes . Consultado el 25 de julio de 2023 .
^ Fadulu, Lola (6 de julio de 2023). "¿Puede la IA ser divertida? Esta compañía lo cree". The New York Times . ISSN 0362-4331 . Consultado el 25 de julio de 2023 .
^ Kanetkar, Riddhi. "La startup de inteligencia artificial ElevenLabs, fundada por ex empleados de Google y Palantir, está lista para recaudar 18 millones de dólares con una valoración de 100 millones de dólares. Echa un vistazo a la presentación de 14 diapositivas que utilizó para su pre-semilla de 2 millones de dólares". Business Insider . Consultado el 25 de julio de 2023 .
^ "Una empresa de voz generada por IA toma medidas drásticas después de que 4chan creara voces de celebridades para abusar de personas". www.vice.com . 30 de enero de 2023 . Consultado el 3 de febrero de 2023 .
^ "Uso de texto a voz en la generación de videos con IA". elai.io . Consultado el 10 de agosto de 2022 .
^ "Texto a voz con inteligencia artificial para vídeos". synthesia.io . Consultado el 12 de octubre de 2023 .
^ Bruno, Chelsea A (25 de marzo de 2014). Síntesis vocal y escucha profunda (tesis de maestría en música). Florida International University. doi : 10.25148/etd.fi14040802 .

Enlaces externos

Wikimedia Commons tiene medios relacionados con Síntesis de voz .

Simulación de canto con el robot cantante Pavarobotti o una descripción de la BBC sobre cómo el robot sintetizó el canto.