La síntesis de voz es la producción artificial del habla humana . Un sistema informático utilizado para este fin se denomina sintetizador de voz y puede implementarse en productos de software o hardware . Un sistema de conversión de texto a voz ( TTS ) convierte texto en lenguaje normal en voz; otros sistemas convierten representaciones lingüísticas simbólicas, como transcripciones fonéticas, en voz. [1] El proceso inverso es el reconocimiento de voz .
El habla sintetizada se puede crear concatenando fragmentos de habla grabada que se almacenan en una base de datos . Los sistemas difieren en el tamaño de las unidades de habla almacenadas; un sistema que almacena fonos o difonos proporciona el rango de salida más grande, pero puede carecer de claridad. [ cita requerida ] Para dominios de uso específicos, el almacenamiento de palabras u oraciones completas permite una salida de alta calidad. Alternativamente, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para crear una salida de voz completamente "sintética". [2]
La calidad de un sintetizador de voz se mide por su similitud con la voz humana y por su capacidad de ser comprendido con claridad. Un programa de conversión de texto a voz inteligible permite que las personas con discapacidad visual o de lectura escuchen palabras escritas en un ordenador doméstico. Muchos sistemas operativos de ordenadores han incluido sintetizadores de voz desde principios de los años 1990. [ cita requerida ]
Un sistema de texto a voz (o "motor") se compone de dos partes: [3] un front-end y un back-end . El front-end tiene dos tareas principales. Primero, convierte el texto sin formato que contiene símbolos como números y abreviaturas en el equivalente de palabras escritas. Este proceso a menudo se denomina normalización de texto , preprocesamiento o tokenización . Luego, el front-end asigna transcripciones fonéticas a cada palabra y divide y marca el texto en unidades prosódicas , como frases , cláusulas y oraciones . El proceso de asignar transcripciones fonéticas a las palabras se denomina conversión de texto a fonema o conversión de grafema a fonema . Las transcripciones fonéticas y la información prosódica juntas forman la representación lingüística simbólica que genera el front-end. Luego, el back-end, a menudo denominado sintetizador , convierte la representación lingüística simbólica en sonido. En ciertos sistemas, esta parte incluye el cálculo de la prosodia de destino (contorno de tono, duraciones de fonemas), [4] que luego se impone al habla de salida.
Mucho antes de la invención del procesamiento electrónico de señales , algunas personas intentaron construir máquinas para emular el habla humana. Algunas de las primeras leyendas sobre la existencia de las " cabezas de bronce " involucraron al papa Silvestre II (fallecido en 1003 d. C.), Alberto Magno (1198-1280) y Roger Bacon (1214-1294).
En 1779, el científico germano - danés Christian Gottlieb Kratzenstein ganó el primer premio en un concurso convocado por la Academia Imperial Rusa de Ciencias y Artes por los modelos que construyó del tracto vocal humano que podían producir los cinco sonidos vocálicos largos (en notación del Alfabeto Fonético Internacional : [aː] , [eː] , [iː] , [oː] y [uː] ). [5] A esto le siguió la " máquina de habla acústico-mecánica " operada por fuelle de Wolfgang von Kempelen de Pressburg , Hungría, descrita en un artículo de 1791. [6] Esta máquina agregó modelos de la lengua y los labios, lo que le permitió producir consonantes además de vocales. En 1837, Charles Wheatstone produjo una "máquina parlante" basada en el diseño de von Kempelen, y en 1846, Joseph Faber exhibió la " Eufonia ". En 1923, Paget resucitó el diseño de Wheatstone. [7]
En la década de 1930, Bell Labs desarrolló el vocoder , que analizaba automáticamente el habla en sus tonos y resonancias fundamentales. A partir de su trabajo con el vocoder, Homer Dudley desarrolló un sintetizador de voz operado por teclado llamado The Voder (Voice Demonstrator), que exhibió en la Feria Mundial de Nueva York de 1939 .
El Dr. Franklin S. Cooper y sus colegas de los Laboratorios Haskins construyeron el Pattern playback a finales de la década de 1940 y lo completaron en 1950. Hubo varias versiones diferentes de este dispositivo de hardware; solo una sobrevive actualmente. La máquina convierte imágenes de los patrones acústicos del habla en forma de espectrograma en sonido. Utilizando este dispositivo, Alvin Liberman y sus colegas descubrieron pistas acústicas para la percepción de segmentos fonéticos (consonantes y vocales).
Los primeros sistemas de síntesis de voz basados en ordenador se originaron a finales de los años 1950. Noriko Umeda et al. desarrollaron el primer sistema de texto a voz en inglés general en 1968, en el Laboratorio Electrotécnico de Japón. [8] En 1961, el físico John Larry Kelly, Jr y su colega Louis Gerstman [9] utilizaron una computadora IBM 704 para sintetizar el habla, un evento entre los más destacados en la historia de Bell Labs . [ cita requerida ] El sintetizador de grabadora de voz de Kelly ( vocoder ) recreó la canción " Daisy Bell ", con acompañamiento musical de Max Mathews . Casualmente, Arthur C. Clarke estaba visitando a su amigo y colega John Pierce en las instalaciones de Bell Labs en Murray Hill. Clarke quedó tan impresionado por la demostración que la utilizó en la escena culminante de su guión para su novela 2001: Una odisea del espacio , [10] donde la computadora HAL 9000 canta la misma canción mientras el astronauta Dave Bowman la pone a dormir. [11] A pesar del éxito de la síntesis de voz puramente electrónica, la investigación sobre sintetizadores de voz mecánicos continúa. [12] [ fuente de terceros necesaria ]
La codificación predictiva lineal (LPC), una forma de codificación de voz , comenzó a desarrollarse con el trabajo de Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) en 1966. Bishnu S. Atal y Manfred R. Schroeder realizaron desarrollos posteriores en la tecnología LPC en Bell Labs durante la década de 1970. [13] La LPC fue más tarde la base de los primeros chips sintetizadores de voz, como los Texas Instruments LPC Speech Chips utilizados en los juguetes Speak & Spell de 1978.
En 1975, Fumitada Itakura desarrolló el método de pares espectrales de líneas (LSP) para la codificación de voz de alta compresión, mientras estaba en NTT. [14] [15] [16] De 1975 a 1981, Itakura estudió problemas en el análisis y síntesis de voz basados en el método LSP. [16] En 1980, su equipo desarrolló un chip sintetizador de voz basado en LSP. LSP es una tecnología importante para la síntesis y codificación de voz, y en la década de 1990 fue adoptada por casi todos los estándares internacionales de codificación de voz como un componente esencial, contribuyendo a la mejora de la comunicación de voz digital a través de canales móviles e Internet. [15]
En 1975 se lanzó MUSA , uno de los primeros sistemas de síntesis de voz. Consistía en un hardware informático independiente y un software especializado que le permitía leer italiano. Una segunda versión, lanzada en 1978, también podía cantar italiano en un estilo " a capella ". [17]
Los sistemas dominantes en las décadas de 1980 y 1990 fueron el sistema DECtalk , basado en gran medida en el trabajo de Dennis Klatt en el MIT, y el sistema Bell Labs; [18] este último fue uno de los primeros sistemas multilingües independientes del lenguaje, haciendo un uso extensivo de métodos de procesamiento del lenguaje natural .
Los dispositivos electrónicos portátiles con síntesis de voz comenzaron a surgir en la década de 1970. Uno de los primeros fue la calculadora portátil Speech+ de Telesensory Systems Inc. (TSI) para ciegos en 1976. [19] [20] Otros dispositivos tenían fines principalmente educativos, como el juguete Speak & Spell producido por Texas Instruments en 1978. [21] Fidelity lanzó una versión parlante de su computadora electrónica de ajedrez en 1979. [22] El primer videojuego en incorporar síntesis de voz fue el juego arcade de disparos de 1980 , Stratovox (conocido en Japón como Speak & Rescue ), de Sun Electronics . [23] [24] El primer juego de computadora personal con síntesis de voz fue Manbiki Shoujo ( Shoplifting Girl ), lanzado en 1980 para el PET 2001 , para el cual el desarrollador del juego, Hiroshi Suzuki, desarrolló una técnica de programación de " cruce por cero " para producir una forma de onda de voz sintetizada. [25] Otro ejemplo temprano, la versión arcade de Berzerk , también data de 1980. La Milton Bradley Company produjo el primer juego electrónico multijugador que utilizaba síntesis de voz, Milton , en el mismo año.
En 1976, Computalker Consultants lanzó su sintetizador de voz CT-1. Diseñado por D. Lloyd Rice y Jim Cooper, era un sintetizador analógico creado para funcionar con microcomputadoras que utilizaban el estándar de bus S-100. [26]
Los primeros sintetizadores de voz electrónicos sonaban como robots y, a menudo, eran apenas inteligibles. La calidad del habla sintetizada ha mejorado constantemente, pero a fecha de 2016, [actualizar]el resultado de los sistemas de síntesis de voz contemporáneos sigue siendo claramente distinguible del habla humana real.
Las voces sintetizadas normalmente sonaban masculinas hasta 1990, cuando Ann Syrdal , de AT&T Bell Laboratories , creó una voz femenina. [27]
Kurzweil predijo en 2005 que, a medida que la relación costo-rendimiento hiciera que los sintetizadores de voz se volvieran más baratos y accesibles, más personas se beneficiarían del uso de programas de texto a voz. [28]
Las cualidades más importantes de un sistema de síntesis de voz son la naturalidad y la inteligibilidad . [29] La naturalidad describe la similitud entre el sonido de salida y el habla humana, mientras que la inteligibilidad es la facilidad con la que se entiende la salida. El sintetizador de voz ideal es a la vez natural e inteligible. Los sistemas de síntesis de voz suelen intentar maximizar ambas características.
Las dos tecnologías principales que generan formas de onda de voz sintéticas son la síntesis concatenativa y la síntesis de formantes . Cada tecnología tiene sus puntos fuertes y débiles, y los usos previstos de un sistema de síntesis determinarán normalmente qué enfoque se utilizará.
La síntesis concatenativa se basa en la concatenación (unión) de segmentos de voz grabada. Generalmente, la síntesis concatenativa produce el habla sintetizada con un sonido más natural. Sin embargo, las diferencias entre las variaciones naturales del habla y la naturaleza de las técnicas automatizadas para segmentar las formas de onda a veces dan como resultado fallas audibles en el resultado. Existen tres subtipos principales de síntesis concatenativa.
La síntesis de selección de unidades utiliza grandes bases de datos de voz grabada. Durante la creación de la base de datos, cada enunciado grabado se segmenta en algunos o todos los siguientes: fonos individuales , difonos , medios fonos, sílabas , morfemas , palabras , frases y oraciones . Normalmente, la división en segmentos se realiza utilizando un reconocedor de voz especialmente modificado configurado en un modo de "alineación forzada" con alguna corrección manual posterior, utilizando representaciones visuales como la forma de onda y el espectrograma . [30] Luego se crea un índice de las unidades en la base de datos de voz en función de la segmentación y los parámetros acústicos como la frecuencia fundamental ( tono ), la duración, la posición en la sílaba y los fonos vecinos. En tiempo de ejecución , se crea el enunciado objetivo deseado determinando la mejor cadena de unidades candidatas de la base de datos (selección de unidades). Este proceso normalmente se logra utilizando un árbol de decisiones especialmente ponderado .
La selección de unidades proporciona la mayor naturalidad, porque aplica sólo una pequeña cantidad de procesamiento de señal digital (DSP) al habla grabada. El DSP a menudo hace que el habla grabada suene menos natural, aunque algunos sistemas utilizan una pequeña cantidad de procesamiento de señal en el punto de concatenación para suavizar la forma de onda. La salida de los mejores sistemas de selección de unidades es a menudo indistinguible de las voces humanas reales, especialmente en contextos para los que se ha ajustado el sistema TTS. Sin embargo, la máxima naturalidad normalmente requiere que las bases de datos de voz de selección de unidades sean muy grandes, en algunos sistemas alcanzan los gigabytes de datos grabados, lo que representa docenas de horas de habla. [31] Además, se sabe que los algoritmos de selección de unidades seleccionan segmentos de un lugar que da como resultado una síntesis menos que ideal (por ejemplo, las palabras menores se vuelven confusas) incluso cuando existe una mejor opción en la base de datos. [32] Recientemente, los investigadores han propuesto varios métodos automatizados para detectar segmentos no naturales en sistemas de síntesis de voz de selección de unidades. [33]
La síntesis de difonos utiliza una base de datos de voz mínima que contiene todos los difonos (transiciones de sonido a sonido) que ocurren en un idioma. El número de difonos depende de la fonotáctica del idioma: por ejemplo, el español tiene alrededor de 800 difonos y el alemán alrededor de 2500. En la síntesis de difonos, solo un ejemplo de cada difono está contenido en la base de datos de voz. En tiempo de ejecución, la prosodia de destino de una oración se superpone a estas unidades mínimas por medio de técnicas de procesamiento de señales digitales como codificación predictiva lineal , PSOLA [34] o MBROLA [35] o técnicas más recientes como la modificación del tono en el dominio de origen utilizando la transformada de coseno discreta [36] . La síntesis de difonos sufre las fallas sónicas de la síntesis concatenativa y la naturaleza de sonido robótico de la síntesis de formantes, y tiene pocas de las ventajas de cualquiera de los enfoques aparte del tamaño pequeño. Como tal, su uso en aplicaciones comerciales está disminuyendo, [ cita requerida ] aunque continúa siendo utilizado en investigación porque hay una serie de implementaciones de software disponibles gratuitamente. Un ejemplo temprano de síntesis de Diphone es un robot de enseñanza, Leachim , que fue inventado por Michael J. Freeman . [37] Leachim contenía información sobre el currículo de la clase y cierta información biográfica sobre los estudiantes a quienes estaba programado para enseñar. [38] Se probó en un aula de cuarto grado en el Bronx, Nueva York . [39] [40]
La síntesis específica de dominio concatena palabras y frases pregrabadas para crear enunciados completos. Se utiliza en aplicaciones en las que la variedad de textos que el sistema generará se limita a un dominio particular, como anuncios de horarios de tránsito o informes meteorológicos. [41] La tecnología es muy sencilla de implementar y se ha utilizado comercialmente durante mucho tiempo en dispositivos como relojes parlantes y calculadoras. El nivel de naturalidad de estos sistemas puede ser muy alto porque la variedad de tipos de oraciones es limitada y se ajustan estrechamente a la prosodia y la entonación de las grabaciones originales. [ cita requerida ]
Debido a que estos sistemas están limitados por las palabras y frases en sus bases de datos, no son de propósito general y solo pueden sintetizar las combinaciones de palabras y frases con las que han sido preprogramados. Sin embargo, la mezcla de palabras dentro del lenguaje hablado naturalmente aún puede causar problemas a menos que se tengan en cuenta las muchas variaciones. Por ejemplo, en dialectos no róticos del inglés, la "r" en palabras como "clear" /ˈklɪə/ generalmente solo se pronuncia cuando la palabra siguiente tiene una vocal como su primera letra (por ejemplo, "clear out" se realiza como /ˌklɪəɹˈʌʊt/ ). Del mismo modo, en francés , muchas consonantes finales ya no se silencian si van seguidas de una palabra que comienza con una vocal, un efecto llamado liaison . Esta alternancia no se puede reproducir mediante un sistema simple de concatenación de palabras, que requeriría una complejidad adicional para ser sensible al contexto .
La síntesis de formantes no utiliza muestras de voz humana en tiempo de ejecución. En su lugar, la salida de voz sintetizada se crea utilizando síntesis aditiva y un modelo acústico ( síntesis de modelado físico ). [42] Los parámetros como la frecuencia fundamental , la sonoridad y los niveles de ruido se varían con el tiempo para crear una forma de onda de voz artificial. Este método a veces se denomina síntesis basada en reglas ; sin embargo, muchos sistemas concatenativo también tienen componentes basados en reglas. Muchos sistemas basados en la tecnología de síntesis de formantes generan un habla artificial con sonido robótico que nunca se confundiría con el habla humana. Sin embargo, la máxima naturalidad no siempre es el objetivo de un sistema de síntesis de voz, y los sistemas de síntesis de formantes tienen ventajas sobre los sistemas concatenativo. El habla sintetizada por formantes puede ser inteligible de manera confiable, incluso a velocidades muy altas, evitando las fallas acústicas que comúnmente afectan a los sistemas concatenativo. Las personas con discapacidad visual utilizan el habla sintetizada de alta velocidad para navegar rápidamente por las computadoras usando un lector de pantalla . Los sintetizadores de formantes suelen ser programas más pequeños que los sistemas concatenativo porque no tienen una base de datos de muestras de voz. Por lo tanto, se pueden utilizar en sistemas integrados , donde la memoria y la potencia del microprocesador son especialmente limitadas. Debido a que los sistemas basados en formantes tienen un control completo de todos los aspectos del habla de salida, se puede producir una amplia variedad de prosodias y entonaciones , que transmiten no solo preguntas y afirmaciones, sino una variedad de emociones y tonos de voz.
Entre los ejemplos de control de entonación no en tiempo real pero de gran precisión en la síntesis de formantes se incluyen los trabajos realizados a finales de los años 1970 para el juguete Speak & Spell de Texas Instruments , y a principios de los años 1980 para las máquinas recreativas de Sega [43] y en muchos juegos recreativos de Atari, Inc. [44] que utilizaban los chips LPC TMS5220 . Crear la entonación adecuada para estos proyectos fue una tarea ardua, y los resultados aún no han sido igualados por interfaces de texto a voz en tiempo real. [45]
La síntesis articulatoria consiste en técnicas computacionales para sintetizar el habla basándose en modelos del tracto vocal humano y los procesos de articulación que allí ocurren. El primer sintetizador articulatorio utilizado regularmente para experimentos de laboratorio fue desarrollado en Haskins Laboratories a mediados de la década de 1970 por Philip Rubin , Tom Baer y Paul Mermelstein. Este sintetizador, conocido como ASY, se basó en modelos del tracto vocal desarrollados en Bell Laboratories en las décadas de 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas.
Hasta hace poco, los modelos de síntesis articulatoria no se habían incorporado a los sistemas comerciales de síntesis de voz. Una notable excepción es el sistema basado en NeXT , desarrollado y comercializado originalmente por Trillium Sound Research, una empresa derivada de la Universidad de Calgary , donde se llevó a cabo gran parte de la investigación original. Tras la desaparición de las diversas encarnaciones de NeXT (iniciado por Steve Jobs a finales de los años 1980 y fusionado con Apple Computer en 1997), el software de Trillium se publicó bajo la Licencia Pública General de GNU, y el trabajo continuó como gnuspeech . El sistema, comercializado por primera vez en 1994, proporciona una conversión de texto a voz basada en la articulación completa utilizando una guía de ondas o una línea de transmisión análoga de los tractos oral y nasal humanos controlados por el "modelo de región distintiva" de Carré.
Los sintetizadores más recientes, desarrollados por Jorge C. Lucero y sus colegas, incorporan modelos de biomecánica de cuerdas vocales, aerodinámica glótica y propagación de ondas acústicas en los bronquios, la tráquea, las cavidades nasal y oral, y constituyen así sistemas completos de simulación del habla basados en la física. [46] [47]
La síntesis basada en HMM es un método de síntesis basado en modelos ocultos de Markov , también llamado síntesis paramétrica estadística. En este sistema, el espectro de frecuencia ( tracto vocal ), la frecuencia fundamental (fuente de voz) y la duración ( prosodia ) del habla son modelados simultáneamente por HMM. Las formas de onda del habla se generan a partir de los propios HMM en función del criterio de máxima verosimilitud . [48]
La síntesis de ondas sinusoidales es una técnica para sintetizar el habla mediante la sustitución de los formantes (bandas principales de energía) por silbidos de tono puro. [49]
La síntesis de voz mediante aprendizaje profundo utiliza redes neuronales profundas (DNN) para producir voz artificial a partir de texto (conversión de texto a voz) o espectro (vocoder). Las redes neuronales profundas se entrenan utilizando una gran cantidad de voz grabada y, en el caso de un sistema de conversión de texto a voz, las etiquetas asociadas o el texto de entrada.
15.ai utiliza un modelo de múltiples hablantes : cientos de voces se entrenan simultáneamente en lugar de secuencialmente, lo que disminuye el tiempo de entrenamiento necesario y permite que el modelo aprenda y generalice el contexto emocional compartido, incluso para voces que no están expuestas a dicho contexto emocional. [50] El modelo de aprendizaje profundo utilizado por la aplicación no es determinista : cada vez que se genera un discurso a partir de la misma cadena de texto, la entonación del discurso será ligeramente diferente. La aplicación también admite la alteración manual de la emoción de una línea generada utilizando contextualizadores emocionales (un término acuñado por este proyecto), una oración o frase que transmite la emoción de la toma que sirve como guía para el modelo durante la inferencia. [51] [52]
ElevenLabs es conocido principalmente por su software de conversión de texto a voz asistido por IA basado en navegador , Speech Synthesis, que puede producir un habla realista al sintetizar la emoción vocal y la entonación . [53] La empresa afirma que su software está diseñado para ajustar la entonación y el ritmo de la entrega en función del contexto de la entrada de idioma utilizada. [54] Utiliza algoritmos avanzados para analizar los aspectos contextuales del texto, con el objetivo de detectar emociones como la ira, la tristeza, la felicidad o la alarma, lo que permite al sistema comprender el sentimiento del usuario, [55] lo que resulta en una inflexión más realista y humana. Otras características incluyen la generación de voz multilingüe y la creación de contenido de formato largo con voces conscientes del contexto. [56] [57]
Los sintetizadores de voz basados en redes neuronales profundas se están acercando a la naturalidad de la voz humana. Entre las desventajas del método se encuentran la baja robustez cuando los datos no son suficientes, la falta de controlabilidad y el bajo rendimiento en modelos autorregresivos.
Para los idiomas tonales, como el chino o el taiwanés, se requieren diferentes niveles de sandhi de tonos y, a veces, la salida del sintetizador de voz puede generar errores de sandhi de tonos. [58]
En 2023, el periodista de VICE Joseph Cox publicó los hallazgos de que había grabado cinco minutos de sí mismo hablando y luego había usado una herramienta desarrollada por ElevenLabs para crear deepfakes de voz que derrotaron el sistema de autenticación de voz de un banco . [66]
El proceso de normalización de textos rara vez es sencillo. Los textos están llenos de heterónimos , números y abreviaturas que requieren una expansión para obtener una representación fonética. Hay muchas formas de escribir en inglés que se pronuncian de manera diferente según el contexto. Por ejemplo, "Mi último proyecto es aprender a proyectar mejor mi voz" contiene dos pronunciaciones de "proyecto".
La mayoría de los sistemas de conversión de texto a voz (TTS) no generan representaciones semánticas de sus textos de entrada, ya que los procesos para hacerlo son poco fiables, poco comprendidos y computacionalmente ineficaces. Como resultado, se utilizan diversas técnicas heurísticas para adivinar la forma adecuada de desambiguar homógrafos , como examinar palabras vecinas y utilizar estadísticas sobre la frecuencia de aparición.
Recientemente, los sistemas TTS han comenzado a utilizar HMM (discutidos anteriormente) para generar " partes del discurso " que ayuden a desambiguar los homógrafos. Esta técnica es bastante exitosa para muchos casos, como por ejemplo si "read" debe pronunciarse como "red" que implica tiempo pasado, o como "reed" que implica tiempo presente. Las tasas de error típicas cuando se utilizan HMM de esta manera suelen ser inferiores al cinco por ciento. Estas técnicas también funcionan bien para la mayoría de los idiomas europeos, aunque el acceso a los corpus de entrenamiento necesarios suele ser difícil en estos idiomas.
Decidir cómo convertir números es otro problema que los sistemas TTS tienen que abordar. Es un desafío de programación simple convertir un número en palabras (al menos en inglés), como "1325" que se convierte en "mil trescientos veinticinco". Sin embargo, los números aparecen en muchos contextos diferentes; "1325" también puede leerse como "uno tres dos cinco", "trece veinticinco" o "mil trescientos veinticinco". Un sistema TTS a menudo puede inferir cómo expandir un número basándose en palabras, números y puntuación circundantes, y a veces el sistema proporciona una forma de especificar el contexto si es ambiguo. [67] Los números romanos también pueden leerse de manera diferente según el contexto. Por ejemplo, "Enrique VIII" se lee como "Enrique VIII", mientras que "Capítulo VIII" se lee como "Capítulo Ocho".
De manera similar, las abreviaturas pueden ser ambiguas. Por ejemplo, la abreviatura "in" para "inches" debe diferenciarse de la palabra "in", y la dirección "12 St John St." utiliza la misma abreviatura para "Saint" y "Street". Los sistemas TTS con interfaces inteligentes pueden hacer conjeturas fundamentadas sobre abreviaturas ambiguas, mientras que otros proporcionan el mismo resultado en todos los casos, lo que da como resultado resultados sin sentido (y a veces cómicos), como " Ulysses S. Grant " que se traduce como "Ulysses South Grant".
Los sistemas de síntesis de voz utilizan dos métodos básicos para determinar la pronunciación de una palabra basándose en su ortografía , un proceso que a menudo se denomina conversión de texto a fonema o conversión de grafema a fonema ( fonema es el término utilizado por los lingüistas para describir los sonidos distintivos de un idioma ). El método más simple para la conversión de texto a fonema es el basado en diccionario, donde el programa almacena un gran diccionario que contiene todas las palabras de un idioma y sus pronunciaciones correctas . Determinar la pronunciación correcta de cada palabra es una cuestión de buscar cada palabra en el diccionario y reemplazar la ortografía con la pronunciación especificada en el diccionario. El otro método se basa en reglas, en el que se aplican reglas de pronunciación a las palabras para determinar su pronunciación en función de su ortografía. Esto es similar al método de "pronunciación" o fonética sintética para aprender a leer.
Cada método tiene sus ventajas y desventajas. El método basado en diccionarios es rápido y preciso, pero falla por completo si se le da una palabra que no está en su diccionario. A medida que aumenta el tamaño del diccionario, también lo hacen los requisitos de espacio de memoria del sistema de síntesis. Por otro lado, el método basado en reglas funciona con cualquier entrada, pero la complejidad de las reglas aumenta sustancialmente a medida que el sistema tiene en cuenta las ortografías o pronunciaciones irregulares. (Tenga en cuenta que la palabra "of" es muy común en inglés, pero es la única palabra en la que la letra "f" se pronuncia [v] ). Como resultado, casi todos los sistemas de síntesis de voz utilizan una combinación de estos métodos.
Los idiomas con una ortografía fonémica tienen un sistema de escritura muy regular y la predicción de la pronunciación de las palabras basándose en su ortografía es bastante exitosa. Los sistemas de síntesis de voz para dichos idiomas a menudo utilizan el método basado en reglas de forma extensiva, recurriendo a diccionarios solo para aquellas pocas palabras, como nombres extranjeros y préstamos lingüísticos, cuya pronunciación no es obvia a partir de su ortografía. Por otro lado, los sistemas de síntesis de voz para idiomas como el inglés, que tienen sistemas de ortografía extremadamente irregulares, tienden a depender más de diccionarios y a utilizar métodos basados en reglas solo para palabras inusuales o palabras que no están en sus diccionarios.
La evaluación coherente de los sistemas de síntesis de voz puede resultar difícil debido a la falta de criterios de evaluación objetivos universalmente aceptados. A menudo, las distintas organizaciones utilizan distintos datos de voz. La calidad de los sistemas de síntesis de voz también depende de la calidad de la técnica de producción (que puede implicar grabación analógica o digital) y de las instalaciones utilizadas para reproducir la voz. Por ello, la evaluación de los sistemas de síntesis de voz se ha visto a menudo comprometida por las diferencias entre las técnicas de producción y las instalaciones de reproducción.
Sin embargo, desde 2005, algunos investigadores han comenzado a evaluar sistemas de síntesis de voz utilizando un conjunto de datos de voz común. [68]
Un estudio en la revista Speech Communication por Amy Drahota y colegas de la Universidad de Portsmouth , Reino Unido , informó que los oyentes de grabaciones de voz podían determinar, a niveles mejores que el azar, si el hablante estaba sonriendo o no. [69] [70] [71] Se sugirió que la identificación de las características vocales que señalan el contenido emocional puede usarse para ayudar a que el habla sintetizada suene más natural. Uno de los problemas relacionados es la modificación del contorno de tono de la oración, dependiendo de si es una oración afirmativa, interrogativa o exclamativa. Una de las técnicas para la modificación del tono [72] utiliza la transformada de coseno discreta en el dominio de la fuente ( residuo de predicción lineal ). Tales técnicas de modificación de tono sincrónica de tono necesitan un marcado de tono a priori de la base de datos de voz sintetizada utilizando técnicas como la extracción de época utilizando el índice de plosión dinámico aplicado en el residuo de predicción lineal integrado de las regiones sonoras del habla. [73] En general, la prosodia sigue siendo un desafío para los sintetizadores de voz y es un tema de investigación activo.
Sistemas populares que ofrecen síntesis de voz como capacidad incorporada.
A principios de los años 80, TI era conocida como pionera en la síntesis de voz, y un módulo de sintetizador de voz enchufable muy popular estaba disponible para la TI-99/4 y la 4A. Los sintetizadores de voz se ofrecían gratis con la compra de una serie de cartuchos y se utilizaban en muchos videojuegos escritos por TI (los juegos ofrecidos con voz durante esta promoción incluían Alpiner y Parsec ). El sintetizador utiliza una variante de codificación predictiva lineal y tiene un pequeño vocabulario incorporado. La intención original era lanzar pequeños cartuchos que se conectaran directamente a la unidad de sintetizador, lo que aumentaría el vocabulario incorporado del dispositivo. Sin embargo, el éxito del software de conversión de texto a voz en el cartucho Terminal Emulator II canceló ese plan.
La consola de juegos Mattel Intellivision ofreció el módulo de síntesis de voz Intellivoice en 1982. Incluía el chip sintetizador de voz Narrator SP0256 en un cartucho extraíble. El Narrator tenía 2 kB de memoria de solo lectura (ROM), y esto se utilizaba para almacenar una base de datos de palabras genéricas que se podían combinar para formar frases en los juegos Intellivision. Dado que el chip Orator también podía aceptar datos de voz de una memoria externa, cualquier palabra o frase adicional que se necesitara se podía almacenar dentro del propio cartucho. Los datos consistían en cadenas de coeficientes de filtro analógico para modificar el comportamiento del modelo de tracto vocal sintético del chip, en lugar de simples muestras digitalizadas.
También lanzado en 1982, Software Automatic Mouth fue el primer programa comercial de síntesis de voz totalmente basado en software. Más tarde se utilizó como base para Macintalk . El programa estaba disponible para ordenadores Apple que no fueran Macintosh (incluidos el Apple II y el Lisa), varios modelos de Atari y el Commodore 64. La versión de Apple prefería hardware adicional que contenía DAC, aunque podía utilizar en su lugar la salida de audio de un bit del ordenador (con la adición de mucha distorsión) si la tarjeta no estaba presente. El Atari hizo uso del chip de audio POKEY integrado. La reproducción de voz en el Atari normalmente desactivaba las solicitudes de interrupción y apagaba el chip ANTIC durante la salida vocal. La salida audible es un habla extremadamente distorsionada cuando la pantalla está encendida. El Commodore 64 hizo uso del chip de audio SID integrado del 64.
Se podría decir que el primer sistema de voz integrado en un sistema operativo fueron las computadoras Atari 1400XL/1450XL , aún no lanzadas al mercado, de alrededor de 1983. Estas usaban el chip Votrax SC01 y una máquina de estados finitos para permitir la síntesis de texto a voz con ortografía inglesa mundial. [75]
Las computadoras Atari ST se vendieron con "stspeech.tos" en disquete.
El primer sistema de voz integrado en un sistema operativo que se envió en grandes cantidades fue MacInTalk de Apple Computer . El software fue licenciado por desarrolladores externos como Joseph Katz y Mark Barton (más tarde, SoftVoice, Inc.) y se presentó durante la introducción de la computadora Macintosh en 1984. Esta demostración de enero requirió 512 kilobytes de memoria RAM. Como resultado, no podía ejecutarse en los 128 kilobytes de RAM con los que se envió realmente la primera Mac. [76] Por lo tanto, la demostración se realizó con un prototipo de Mac de 512k, aunque a los asistentes no se les dijo esto y la demostración de síntesis creó un entusiasmo considerable por la Macintosh. A principios de la década de 1990, Apple amplió sus capacidades ofreciendo soporte de texto a voz en todo el sistema. Con la introducción de computadoras más rápidas basadas en PowerPC, incluyeron muestreo de voz de mayor calidad. Apple también introdujo el reconocimiento de voz en sus sistemas que proporcionaba un conjunto de comandos fluido. Más recientemente, Apple ha agregado voces basadas en muestras. El sistema de voz de Apple Macintosh, que comenzó como una curiosidad, ha evolucionado hasta convertirse en un programa totalmente compatible, PlainTalk , para personas con problemas de visión. VoiceOver se incluyó por primera vez en 2005 en Mac OS X Tiger (10.4). Durante la versión 10.4 (Tiger) y las primeras versiones de la 10.5 ( Leopard ), solo había una voz estándar incluida en Mac OS X. A partir de la versión 10.6 ( Snow Leopard ), el usuario puede elegir entre una amplia lista de múltiples voces. Las voces de VoiceOver permiten respirar de forma realista entre oraciones, así como una claridad mejorada a velocidades de lectura altas en comparación con PlainTalk. Mac OS X también incluye say, una aplicación basada en línea de comandos que convierte texto en voz audible. Las adiciones estándar de AppleScript incluyen un verbo say que permite que un script utilice cualquiera de las voces instaladas y controle el tono, la velocidad de habla y la modulación del texto hablado.
Utilizado en Alexa y como software como servicio en AWS [77] (desde 2017).
El segundo sistema operativo que incluyó capacidades avanzadas de síntesis de voz fue AmigaOS , introducido en 1985. La síntesis de voz fue licenciada por Commodore International de SoftVoice, Inc., quien también desarrolló el sistema de texto a voz MacinTalk original . Incluía un sistema completo de emulación de voz para inglés americano, con voces masculinas y femeninas y marcadores indicadores de "estrés", posibles gracias al chipset de audio de Amiga . [78] El sistema de síntesis se dividió en una biblioteca de traductores que convertía texto en inglés sin restricciones en un conjunto estándar de códigos fonéticos y un dispositivo narrador que implementaba un modelo de formantes de generación de voz. AmigaOS también incluía un " Manejador de voz " de alto nivel, que permitía a los usuarios de la línea de comandos redirigir la salida de texto a voz. La síntesis de voz se utilizó ocasionalmente en programas de terceros, particularmente procesadores de texto y software educativo. El software de síntesis permaneció prácticamente sin cambios desde la primera versión de AmigaOS y Commodore finalmente eliminó el soporte de síntesis de voz a partir de AmigaOS 2.1 en adelante.
A pesar de la limitación de fonemas del inglés americano, se desarrolló una versión no oficial con síntesis de voz multilingüe. Esta hizo uso de una versión mejorada de la biblioteca de traductores que podía traducir varios idiomas, dado un conjunto de reglas para cada idioma. [79]
Los sistemas de escritorio modernos de Windows pueden usar los componentes SAPI 4 y SAPI 5 para soportar la síntesis de voz y el reconocimiento de voz . SAPI 4.0 estaba disponible como un complemento opcional para Windows 95 y Windows 98. Windows 2000 agregó Narrador , una utilidad de texto a voz para personas con discapacidad visual. Los programas de terceros como JAWS para Windows, Window-Eyes, Non-visual Desktop Access, Supernova y System Access pueden realizar varias tareas de texto a voz, como leer texto en voz alta desde un sitio web específico, una cuenta de correo electrónico, un documento de texto, el portapapeles de Windows, la escritura del teclado del usuario, etc. No todos los programas pueden usar la síntesis de voz directamente. [80] Algunos programas pueden usar complementos, extensiones o complementos para leer texto en voz alta. Hay programas de terceros disponibles que pueden leer texto desde el portapapeles del sistema.
Microsoft Speech Server es un paquete basado en servidor para síntesis y reconocimiento de voz. Está diseñado para su uso en red con aplicaciones web y centros de llamadas .
Entre 1971 y 1996, Votrax produjo una serie de componentes comerciales de sintetizadores de voz. Un sintetizador Votrax se incluyó en la primera generación de la máquina de lectura Kurzweil para ciegos.
El término "texto a voz" (TTS, por sus siglas en inglés) hace referencia a la capacidad de las computadoras de leer texto en voz alta. Un motor TTS convierte el texto escrito en una representación fonémica y luego convierte la representación fonémica en formas de onda que pueden emitirse como sonido. Existen motores TTS con diferentes idiomas, dialectos y vocabularios especializados disponibles a través de editores externos. [81]
La versión 1.6 de Android agregó soporte para síntesis de voz (TTS). [82]
Actualmente, existen numerosas aplicaciones , complementos y gadgets que pueden leer mensajes directamente desde un cliente de correo electrónico y páginas web desde un navegador web o la barra de herramientas de Google . Algunos programas especializados pueden narrar feeds RSS . Por un lado, los narradores RSS en línea simplifican la entrega de información al permitir a los usuarios escuchar sus fuentes de noticias favoritas y convertirlas en podcasts . Por otro lado, los lectores RSS en línea están disponibles en casi cualquier computadora personal conectada a Internet. Los usuarios pueden descargar archivos de audio generados a dispositivos portátiles, por ejemplo con la ayuda de un receptor de podcast , y escucharlos mientras caminan, trotan o viajan al trabajo.
Un campo en expansión en el campo de la tecnología de asistencia basada en Internet es el de la tecnología de asistencia basada en la Web , por ejemplo, "Browsealoud" de una empresa del Reino Unido y Readspeaker . Puede ofrecer funcionalidad de TTS a cualquier persona (por razones de accesibilidad, conveniencia, entretenimiento o información) con acceso a un navegador web. El proyecto sin fines de lucro Pediaphon se creó en 2006 para proporcionar una interfaz de TTS basada en la Web similar a la de Wikipedia. [83]
Se están realizando otros trabajos en el contexto del W3C a través del W3C Audio Incubator Group con la participación de la BBC y Google Inc.
Hay algunos sistemas de software de código abierto disponibles, como:
En la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) de 2018, investigadores de Google presentaron el trabajo 'Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis', que transfiere el aprendizaje de la verificación del hablante para lograr una síntesis de texto a voz, que puede hacerse sonar casi como cualquier persona a partir de una muestra de voz de solo 5 segundos. [86]
También los investigadores de Baidu Research presentaron un sistema de clonación de voz con objetivos similares en la conferencia NeurIPS de 2018, [87] aunque el resultado es bastante poco convincente.
En 2019, los sonidos digitales parecidos llegaron a manos de delincuentes, como lo demuestran tres casos en los que los investigadores de Symantec conocen la tecnología de sonidos digitales parecidos que se ha utilizado para cometer delitos. [88] [89]
Esto aumenta el estrés sobre la situación de desinformación sumado a los hechos de que
En marzo de 2020, se lanzó una aplicación web gratuita llamada 15.ai que genera voces de alta calidad a partir de una variedad de personajes ficticios de una variedad de fuentes de medios. [92] Los personajes iniciales incluyeron a GLaDOS de Portal , Twilight Sparkle y Fluttershy del programa My Little Pony: Friendship Is Magic y el Décimo Doctor de Doctor Who .
Se han creado varios lenguajes de marcado para la reproducción de texto como voz en un formato compatible con XML . El más reciente es Speech Synthesis Markup Language (SSML), que se convirtió en una recomendación del W3C en 2004. Entre los lenguajes de marcado de síntesis de voz más antiguos se encuentran Java Speech Markup Language ( JSML ) y SABLE . Aunque cada uno de ellos se propuso como estándar, ninguno de ellos ha sido ampliamente adoptado. [ cita requerida ]
Los lenguajes de marcado de síntesis de voz se distinguen de los lenguajes de marcado de diálogo. VoiceXML , por ejemplo, incluye etiquetas relacionadas con el reconocimiento de voz, la gestión de diálogos y la marcación por tonos, además del marcado de texto a voz. [ cita requerida ]
La síntesis de voz ha sido durante mucho tiempo una herramienta de tecnología de asistencia vital y su aplicación en esta área es significativa y generalizada. Permite eliminar las barreras ambientales para las personas con una amplia gama de discapacidades. La aplicación más antigua ha sido en el uso de lectores de pantalla para personas con discapacidad visual, pero los sistemas de texto a voz ahora son comúnmente utilizados por personas con dislexia y otras discapacidades de lectura , así como por niños prealfabetizados. [93] También se emplean con frecuencia para ayudar a las personas con discapacidad grave del habla , generalmente a través de un dispositivo de comunicación de salida de voz dedicado . [94] Se está trabajando para personalizar una voz sintética para que coincida mejor con la personalidad o la voz histórica de una persona. [95] Una aplicación destacada de la síntesis de voz fue la máquina de lectura Kurzweil para ciegos , que incorporó un software de texto a fonética basado en el trabajo de Haskins Laboratories y un sintetizador de caja negra construido por Votrax . [96]
Las técnicas de síntesis de voz también se utilizan en producciones de entretenimiento como juegos y animaciones. En 2007, Animo Limited anunció el desarrollo de un paquete de aplicaciones de software basado en su software de síntesis de voz FineSpeech, orientado explícitamente a clientes de las industrias del entretenimiento, capaz de generar narraciones y líneas de diálogo según las especificaciones del usuario. [97] La aplicación alcanzó su madurez en 2008, cuando NEC Biglobe anunció un servicio web que permite a los usuarios crear frases a partir de las voces de los personajes de la serie de anime japonesa Code Geass: Lelouch of the Rebellion R2 . [98] 15.ai se ha utilizado con frecuencia para la creación de contenido en varios fandoms , incluido el fandom de My Little Pony: Friendship Is Magic , el fandom de Team Fortress 2 , el fandom de Portal y el fandom de Bob Esponja . [ cita requerida ]
La conversión de texto a voz para personas con discapacidad y discapacidad se ha vuelto ampliamente disponible. La conversión de texto a voz también está encontrando nuevas aplicaciones; por ejemplo, la síntesis de voz combinada con el reconocimiento de voz permite la interacción con dispositivos móviles a través de interfaces de procesamiento de lenguaje natural . Algunos usuarios también han creado asistentes virtuales de IA utilizando 15.ai y software de control de voz externo. [51] [52]
La conversión de texto a voz también se utiliza en la adquisición de una segunda lengua. Voki, por ejemplo, es una herramienta educativa creada por Oddcast que permite a los usuarios crear su propio avatar parlante, utilizando distintos acentos. Pueden enviarse por correo electrónico, insertarse en sitios web o compartirse en las redes sociales.
Los creadores de contenido han utilizado herramientas de clonación de voz para recrear sus voces para podcasts, [99] [100] narraciones, [54] y programas de comedia. [101] [102] [103] Los editores y autores también han utilizado este tipo de software para narrar audiolibros y boletines informativos. [104] [105] Otra área de aplicación es la creación de videos de IA con cabezas parlantes. Las aplicaciones web y los editores de video como Elai.io o Synthesia permiten a los usuarios crear contenido de video que involucra avatares de IA, a quienes se les hace hablar mediante tecnología de texto a voz. [106] [107]
La síntesis de voz es una valiosa ayuda computacional para el análisis y la evaluación de los trastornos del habla. Un sintetizador de calidad de voz , desarrollado por Jorge C. Lucero et al. en la Universidad de Brasilia , simula la física de la fonación e incluye modelos de fluctuación y temblor de frecuencia vocal, ruido del flujo de aire y asimetrías laríngeas. [46] El sintetizador se ha utilizado para imitar el timbre de hablantes disfónicos con niveles controlados de aspereza, susurro y tensión. [47]
{{cite book}}
: CS1 maint: date and year (link)