Pronunciaciones legibles por máquina
El Diccionario de pronunciación de CMU (también conocido como CMUdict ) es un diccionario de pronunciación de código abierto creado originalmente por el Speech Group de la Universidad Carnegie Mellon (CMU) para su uso en la investigación de reconocimiento de voz .
CMUdict proporciona un mapeo ortográfico/fonético para las palabras en inglés en sus pronunciaciones norteamericanas. Se utiliza comúnmente para generar representaciones para reconocimiento de voz (ASR), por ejemplo, el sistema CMU Sphinx , y síntesis de voz (TTS), por ejemplo, el sistema Festival . CMUdict se puede utilizar como un corpus de entrenamiento para construir modelos estadísticos de grafema a fonema (g2p) [1] que generarán pronunciaciones para palabras que aún no están incluidas en el diccionario.
La versión más reciente es la 0.7b, que contiene más de 134.000 entradas. Hay disponible una versión de búsqueda interactiva. [2]
Formato de base de datos
La base de datos se distribuye como un archivo de texto simple con una entrada por línea en el formato " WORD <pronunciation>
" con un separador de dos espacios entre las partes. Si hay varias pronunciaciones disponibles para una palabra, las variantes se identifican utilizando versiones numeradas (por ejemplo, WORD(1)
). La pronunciación se codifica utilizando una forma modificada del sistema ARPABET , con la adición de marcas de acento en las vocales de los niveles 0, 1 y 2. Un token inicial de línea ;;;
indica un comentario. Un formato derivado, directamente adecuado para motores de reconocimiento de voz, también está disponible como parte de la distribución; este formato colapsa las distinciones de acento (normalmente no se utiliza en ASR).
La siguiente es una tabla de fonemas utilizados por el Diccionario de pronunciación de CMU. [2]
Historia
Aplicaciones
- El convertidor Unifon se basa en el diccionario de pronunciación CMU.
- El kit de herramientas de lenguaje natural contiene una interfaz con el diccionario de pronunciación de CMU.
- La herramienta Carnegie Mellon Logios [5] incorpora el Diccionario de pronunciación de CMU.
- PronunDict, un diccionario de pronunciación del inglés americano, utiliza el diccionario de pronunciación de CMU como fuente de datos. La pronunciación se transcribe en símbolos del AFI . Este diccionario también admite la búsqueda por pronunciación .
- Algunos programas de sintetizador de voces cantadas, como CeVIO Creative Studio y Synthesizer V, utilizan una versión modificada del Diccionario de pronunciación CMU para sintetizar voces cantadas en inglés.
- Transcriber, una herramienta para la transcripción fonética de texto completo, utiliza el Diccionario de pronunciación de CMU
- 15.ai , una herramienta de conversión de texto a voz en tiempo real que utiliza inteligencia artificial, utiliza el diccionario de pronunciación de CMU
Véase también
Referencias
- ^ "Sequitur G2P - Un conversor de grafema a fonema entrenable".
- ^ ab "The CMU Pronouncing Dictionary". Diccionario de pronunciación de la CMU . 16 de julio de 2015. Archivado desde el original el 3 de junio de 2022. Consultado el 4 de junio de 2022 .
- ^ ftp://ftp.cs.cmu.edu/project/speech/dict/ [ enlace muerto permanente ]
- ^ "CMUdict". svn.code.sf.net .
- ^ "Cmusphinx - Revisión 10973: /Trunk/Logios". Archivado desde el original el 20 de mayo de 2011. Consultado el 19 de diciembre de 2009 .
Enlaces externos
- La versión actual del diccionario está en SourceForge, aunque también hay una versión mantenida en GitHub.
- Página de inicio: incluye búsqueda en la base de datos
- RDF convertido a Resource Description Framework por el proyecto de código abierto Texai.