CereProc ( / ˈ s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) es una empresa de síntesis de voz con sede en Edimburgo , Escocia, fundada en 2005. La empresa se especializa en la creación de voces de texto a voz con un sonido natural y expresivo , voces de síntesis con acentos regionales y en clonación de voces .
CereProc crea voces utilizando dos tecnologías diferentes de construcción de voces: síntesis de selección de unidades y modelado paramétrico.
Las voces de selección de unidades de CereProc se construyen a partir de grandes bases de datos de habla grabada. Durante la creación de la base de datos, cada enunciado grabado se segmenta en algunos o todos los siguientes: fonías individuales , sílabas , morfemas , palabras , frases y oraciones . La división en segmentos se realiza utilizando un reconocedor de voz especialmente modificado . [1] Luego se crea un índice de las unidades en la base de datos de voz en función de la segmentación y los parámetros acústicos como la frecuencia fundamental ( tono ), la duración, la posición en la sílaba y las fonías vecinas. En tiempo de ejecución , se crea el enunciado objetivo deseado determinando la mejor cadena de unidades candidatas de la base de datos (selección de unidad). La selección de unidad proporciona la mayor naturalidad, porque aplica el procesamiento de señal digital (DSP) al habla grabada solo en los puntos de concatenación. El DSP a menudo hace que el habla grabada suene menos natural.
Las voces paramétricas de CereProc producen síntesis de voz basada en metodologías de modelado estadístico. En este sistema, el espectro de frecuencia ( tracto vocal ), la frecuencia fundamental (fuente vocal) y la duración ( prosodia ) del habla se modelan simultáneamente. Las formas de onda del habla se generan a partir de estos parámetros utilizando un vocoder . Fundamentalmente, estas voces se pueden construir a partir de significativamente menos habla grabada que las voces de selección de unidad y tienen una huella mucho más pequeña cuando se instalan, por eso se utilizan para la clonación de voz privada. [2]
CereProc cuenta con 81 voces generalmente disponibles que hablan 24 idiomas con distintos acentos regionales:
Además, la empresa ha desarrollado una serie de voces de celebridades que no están generalmente disponibles para el público, entre ellas, George W. Bush , Barack Obama y Arnold Schwarzenegger . [3]
En 2009, el crítico de cine Roger Ebert empleó CereProc para crear una versión sintética de su voz. Ebert había perdido el habla tras una operación para tratar el cáncer de tiroides . CereProc extrajo cintas y comentarios en DVD con la voz de Ebert para crear una voz de texto a voz que sonara más como la suya. [4] Roger Ebert utilizó la voz en su aparición del 2 de marzo de 2010 en The Oprah Winfrey Show .
El jugador de la NFL Steve Gleason se hizo clonar la voz con CereProc tras su diagnóstico de ELA . Gleason apareció en el anuncio del Super Bowl XLVIII de Microsoft elogiando el poder de la tecnología, utilizando su voz sintética para narrar. [5]
En el Reino Unido, las personas con ELA utilizan actualmente la tecnología de clonación de voz CereProc para crear voces sintetizadas antes de perder el habla. Este proceso se presentó en un documental de la BBC Radio 4 , Giving the Critic Back His Voice , emitido en agosto de 2011. [6]
Las voces de CereProc se pueden implementar en diferentes sistemas operativos y en diferentes tipos de dispositivos. Las voces de escritorio de CereProc son compatibles con Microsoft Windows y Apple Mac OS X. Se instalan como voces del sistema y pueden ser utilizadas por otras aplicaciones habilitadas para voz. El sistema cliente/servidor de CereProc cServer, orientado principalmente al mercado de IVR corporativo, se puede ejecutar en Windows y Linux . Las voces de CereProc Mobile se pueden implementar en Android y Apple iOS . El SDK está disponible para Android, Linux, MacOS, iOS y Windows. El SDK tiene enlaces para C/C++, C#, Java y Python.