Síntesis de habla

[6] Esta máquina integró modelos de labios y lengua, permitiendo producir consonantes, así como vocales.[13] En 1961, el físico John Larry Kelly, Jr y su colega Louis Gerstman[14] usaron una computadora IBM 704 para sintetizar la voz, un evento importante en la historia de los laboratorios Bell.Casualmente, Arthur C. Clarke estaba visitando a su amigo y colega John Pierce en los laboratorios Bell en Murray Hill.Cada tecnología tiene sus fortalezas y debilidades, dependiendo de su uso se podrá determinar que acercamiento será usado.las palabras pequeñas no son claras) aun cuando una mejor opción existe en la base de datos.La síntesis de dominio específico concatena palabras y frases pregrabadas para crear enunciados completos.La adherencia de las palabras con la naturalidad del lenguaje puede causar problemas, a menos que las variaciones sean tomada en cuenta.Esta alternación no puede ser reproducida por sistema simple de concatenación, el cual requiere una compleja gramática sensible al contexto adicional.Pueden ser empleados en sistemas embebidos donde la memoria y el poder del microprocesador son limitados.Crear la entonación apropiada era difícil y los resultados tenían que ser empatados en tiempo real con la interfaces texto-voz.Las formas de onda del habla son generada por los HMM basados en un criterio máxima verosimilitud.Hay muchas palabras en inglés que son pronunciadas de manera diferente basadas en su contexto.Esta técnica es hasta cierto punto efectiva para varios casos sobre como "read" debe ser pronunciado como "red" dando a entender una conjugación en pasado.Es un desafío simple de programación convertir un número a palabras (por lo menos en el idioma inglés), como "1325" se convierte en "mil trescientos veinticinco".Los sistemas TTS con front ends inteligentes pueden realizar predicciones correctas acerca de la ambigüedad de las abreviaciones, mientras que otros ofrecen el mismo resultado en todos los casos, dando resultados sin sentido (y a veces cómicos) como "co-operation" interpretado como "company operation".El acercamiento basado en un diccionario es rápido y preciso, pero falla completamente cuando una palabra no se encuentra en este.[41] Un estudio en la revista Speech Communication por Amy Drahota y sus colegas en la Universidad de Portsmouth en Reino Unido, reporta que las personas que escuchan las grabaciones de voz pueden determinar, en diferentes niveles, si el emisor estaba sonriendo o no.Las computadoras 1400XL/1450XL usaban Finite State Machine para lleve a cabo la síntesis de voz en inglés.El software estaba licenciado por desarrolladores terceros como Joseph Katz y Mark Barton (posteriormente, SoftVoice, Inc.)Apple también introdujo el reconocimiento del habla en sus sistemas los cuales permitían un set de comandos fluidos.Durante 10.4 (Tiger) y los primeros lanzamientos de 10.5 (Leopard) solo existía una voz en las Mac OS X.VoiceOver posee características como sonidos de inhalación entre oración, así como claridad en velocidades mayores en comparación al PlainTalk.[50] Algunas aplicaciones también emplean síntesis de voz para facilitar la navegación, leer páginas web o traducir texto.Motores TTS con diferentes lenguajes, dialectos y vocabularios especializados están disponibles a través de terceros.[55] En Internet se pueden encontrar páginas web que ofrecen la posibilidad de escuchar leído en voz alta cualquier texto ingresado.Por otra parte, los narradores RRS simplifican la información enviada permitiendo a los usuarios escuchar sus fuentes de noticias favoritas y convertirlas en podcasts.El proyecto Pediaphon fue creado en 2006 para permiter una navegación web similar a la basada en interfaz TTS en Wikipedia.El más reciente es el Speech Synthesis Markup Language (SSML), el cual se convirtió en una recomendación W3C en 2004.Voki, por ejemplo, es una herramienta educativa creada por Oddcast que permite a los usuarios seleccionar su propio avatar, usando diferentes acentos.Las compañías que ofrecen API TTS incluyen a AT&T, IVONA, Neospeech, Readspeaker y YAKiToMe!.