El habla comprimida en el tiempo se refiere a una grabación de audio de un texto verbal en la que el texto se presenta en un intervalo de tiempo mucho más corto que el que se presentaría en un discurso en tiempo real a un ritmo normal . [1] El propósito básico es hacer que el discurso grabado contenga más palabras en un tiempo determinado, pero que siga siendo comprensible. Por ejemplo: un párrafo que normalmente se esperaría que se leyera en 20 segundos, podría presentarse en 15 segundos, lo que representaría una compresión de tiempo del 25% (5 segundos de 20).
El término "voz comprimida en el tiempo" no debe confundirse con " compresión de voz ", que controla el rango de volumen de un sonido, pero no altera su envoltura temporal.
Si bien algunos talentos de la voz son capaces de hablar a velocidades significativamente superiores a las normas generales, [2] [3] el término "discurso comprimido en el tiempo" generalmente se refiere a ejemplos en los que la reducción de tiempo se ha logrado mediante alguna forma de procesamiento electrónico del discurso grabado. [4] [5]
En general, el habla grabada se puede comprimir electrónicamente en el tiempo mediante: el aumento de su velocidad (compresión lineal); la eliminación de silencios (edición selectiva); una combinación de las dos (compresión no lineal). [5] La velocidad de una grabación se puede aumentar, lo que hará que el material se presente a un ritmo más rápido (y, por lo tanto, en un período de tiempo más corto), pero esto tiene el efecto secundario indeseable de aumentar la frecuencia de todo el pasaje, elevando el tono de las voces, lo que puede reducir la inteligibilidad.
Normalmente hay silencios entre palabras y oraciones, e incluso pequeños silencios dentro de ciertas palabras, que se pueden reducir o eliminar ("editar"), lo que también reducirá la cantidad de tiempo que ocupa la grabación completa del discurso. Sin embargo, esto también puede tener el efecto de eliminar la "puntuación" verbal del discurso, lo que hace que las palabras y las oraciones se junten de forma poco natural, lo que reduce nuevamente la inteligibilidad.
Las vocales suelen mantenerse durante un mínimo de 20 milisegundos, a lo largo de muchos ciclos del tono fundamental. Los sistemas DSP pueden detectar el comienzo y el final de cada ciclo y luego omitir una fracción de esos ciclos, lo que hace que el material se presente a un ritmo más rápido, sin cambiar el tono, manteniendo un tono de voz "normal". [6]
El método preferido actualmente para comprimir el tiempo se denomina "compresión no lineal", y emplea una combinación de eliminación selectiva de silencios, aceleración del habla para que los silencios reducidos suenen en proporción normal al texto y, finalmente, aplicación de varios algoritmos de datos para que el habla vuelva a tener el tono adecuado. [5] Esto produce un resultado más aceptable que cualquiera de las dos técnicas anteriores; sin embargo, si no se restringe, eliminar los silencios y aumentar la velocidad puede hacer que una selección de palabras suene más insistente, posiblemente hasta el punto de resultar desagradable. [7]
El habla comprimida en el tiempo se utiliza con frecuencia en la publicidad televisiva y radial. La ventaja de esta técnica es que se puede comprimir la misma cantidad de palabras en un lapso de tiempo menor, lo que reduce los costos publicitarios y/o permite incluir más información en un anuncio de radio o televisión determinado. Por lo general, esto se nota más en las advertencias y exenciones de responsabilidad con gran densidad de información que se presentan (normalmente por exigencia legal) al final de los anuncios publicitarios, el equivalente auditivo de la " letra pequeña " de un contrato impreso. [8] Sin embargo, esta práctica no es nueva: antes de que se desarrollaran los métodos electrónicos, se utilizaba ampliamente como locutores para anuncios de radio y televisión a portavoces que podían hablar extremadamente rápido y aún así ser entendidos, y especialmente para grabar dichas exenciones de responsabilidad.
El habla comprimida en el tiempo tiene aplicaciones educativas, como aumentar la densidad de información de las capacitaciones y como ayuda para el estudio. Varios estudios han demostrado que la persona promedio es capaz de comprender con relativa facilidad el habla pronunciada a velocidades más altas de lo normal, con el pico ocurriendo alrededor del 25% de compresión (es decir, un 25% más rápido de lo normal); esta facilidad se ha demostrado en varios idiomas. [9] El habla conversacional (en inglés) se produce a una velocidad de alrededor de 150 ppm (palabras por minuto), pero la persona promedio es capaz de comprender el habla presentada a velocidades de hasta 200-250 ppm sin dificultad indebida. [10] [11] Los sujetos ciegos y con discapacidad visual severa obtuvieron niveles de comprensión similares a velocidades incluso más altas, hasta 300-350 ppm. [12] Se ha descubierto que las personas ciegas usan el habla comprimida en el tiempo ampliamente, por ejemplo, al revisar conferencias grabadas de clases de secundaria y universidad, o capacitaciones profesionales. Se ha descubierto que las tasas de comprensión en sujetos ciegos mayores son tan buenas, o en algunos casos mejores, que las encontradas en sujetos videntes más jóvenes. [13]
Otros estudios han determinado que la capacidad de comprender un discurso muy comprimido en el tiempo tiende a disminuir con la edad [14] , y también se reduce cuando el idioma del discurso comprimido en el tiempo no es la lengua materna del oyente. [15] Sin embargo, los hablantes no nativos pueden mejorar su nivel de comprensión del discurso comprimido en el tiempo con un entrenamiento de varios días. [16]
Los sistemas de correo de voz han utilizado voz comprimida en el tiempo desde la década de 1970. En esta aplicación, la tecnología permite la revisión rápida de mensajes en sistemas de alto tráfico por parte de un número relativamente pequeño de personas. [17]
Se ha explorado el habla comprimida en el tiempo como uno de una variedad de factores interrelacionados que pueden manipularse para aumentar la eficiencia de la transmisión de presentaciones multimedia, al reducir significativamente los tiempos de latencia involucrados en la transferencia de grandes archivos multimedia codificados digitalmente. [18]