Discurso comprimido en el tiempo

El habla comprimida en el tiempo se refiere a una grabación de audio de un texto verbal en la que el texto se presenta en un intervalo de tiempo mucho más corto que el que se presentaría en un discurso en tiempo real a un ritmo normal . ^[1] El propósito básico es hacer que el discurso grabado contenga más palabras en un tiempo determinado, pero que siga siendo comprensible. Por ejemplo: un párrafo que normalmente se esperaría que se leyera en 20 segundos, podría presentarse en 15 segundos, lo que representaría una compresión de tiempo del 25% (5 segundos de 20).

El término "voz comprimida en el tiempo" no debe confundirse con " compresión de voz ", que controla el rango de volumen de un sonido, pero no altera su envoltura temporal.

Métodos

Si bien algunos talentos de la voz son capaces de hablar a velocidades significativamente superiores a las normas generales, ^[2]^[3] el término "discurso comprimido en el tiempo" generalmente se refiere a ejemplos en los que la reducción de tiempo se ha logrado mediante alguna forma de procesamiento electrónico del discurso grabado. ^[4]^[5]

En general, el habla grabada se puede comprimir electrónicamente en el tiempo mediante: el aumento de su velocidad (compresión lineal); la eliminación de silencios (edición selectiva); una combinación de las dos (compresión no lineal). ^[5] La velocidad de una grabación se puede aumentar, lo que hará que el material se presente a un ritmo más rápido (y, por lo tanto, en un período de tiempo más corto), pero esto tiene el efecto secundario indeseable de aumentar la frecuencia de todo el pasaje, elevando el tono de las voces, lo que puede reducir la inteligibilidad.

Normalmente hay silencios entre palabras y oraciones, e incluso pequeños silencios dentro de ciertas palabras, que se pueden reducir o eliminar ("editar"), lo que también reducirá la cantidad de tiempo que ocupa la grabación completa del discurso. Sin embargo, esto también puede tener el efecto de eliminar la "puntuación" verbal del discurso, lo que hace que las palabras y las oraciones se junten de forma poco natural, lo que reduce nuevamente la inteligibilidad.

Las vocales suelen mantenerse durante un mínimo de 20 milisegundos, a lo largo de muchos ciclos del tono fundamental. Los sistemas DSP pueden detectar el comienzo y el final de cada ciclo y luego omitir una fracción de esos ciclos, lo que hace que el material se presente a un ritmo más rápido, sin cambiar el tono, manteniendo un tono de voz "normal". ^[6]

El método preferido actualmente para comprimir el tiempo se denomina "compresión no lineal", y emplea una combinación de eliminación selectiva de silencios, aceleración del habla para que los silencios reducidos suenen en proporción normal al texto y, finalmente, aplicación de varios algoritmos de datos para que el habla vuelva a tener el tono adecuado. ^[5] Esto produce un resultado más aceptable que cualquiera de las dos técnicas anteriores; sin embargo, si no se restringe, eliminar los silencios y aumentar la velocidad puede hacer que una selección de palabras suene más insistente, posiblemente hasta el punto de resultar desagradable. ^[7]

Aplicaciones

El habla comprimida en el tiempo se utiliza con frecuencia en la publicidad televisiva y radial. La ventaja de esta técnica es que se puede comprimir la misma cantidad de palabras en un lapso de tiempo menor, lo que reduce los costos publicitarios y/o permite incluir más información en un anuncio de radio o televisión determinado. Por lo general, esto se nota más en las advertencias y exenciones de responsabilidad con gran densidad de información que se presentan (normalmente por exigencia legal) al final de los anuncios publicitarios, el equivalente auditivo de la " letra pequeña " de un contrato impreso. ^[8] Sin embargo, esta práctica no es nueva: antes de que se desarrollaran los métodos electrónicos, se utilizaba ampliamente como locutores para anuncios de radio y televisión a portavoces que podían hablar extremadamente rápido y aún así ser entendidos, y especialmente para grabar dichas exenciones de responsabilidad.

Educación

El habla comprimida en el tiempo tiene aplicaciones educativas, como aumentar la densidad de información de las capacitaciones y como ayuda para el estudio. Varios estudios han demostrado que la persona promedio es capaz de comprender con relativa facilidad el habla pronunciada a velocidades más altas de lo normal, con el pico ocurriendo alrededor del 25% de compresión (es decir, un 25% más rápido de lo normal); esta facilidad se ha demostrado en varios idiomas. ^[9] El habla conversacional (en inglés) se produce a una velocidad de alrededor de 150 ppm (palabras por minuto), pero la persona promedio es capaz de comprender el habla presentada a velocidades de hasta 200-250 ppm sin dificultad indebida. ^[10]^[11] Los sujetos ciegos y con discapacidad visual severa obtuvieron niveles de comprensión similares a velocidades incluso más altas, hasta 300-350 ppm. ^[12] Se ha descubierto que las personas ciegas usan el habla comprimida en el tiempo ampliamente, por ejemplo, al revisar conferencias grabadas de clases de secundaria y universidad, o capacitaciones profesionales. Se ha descubierto que las tasas de comprensión en sujetos ciegos mayores son tan buenas, o en algunos casos mejores, que las encontradas en sujetos videntes más jóvenes. ^[13]

Otros estudios han determinado que la capacidad de comprender un discurso muy comprimido en el tiempo tiende a disminuir con la edad ^[14] , y también se reduce cuando el idioma del discurso comprimido en el tiempo no es la lengua materna del oyente. ^[15] Sin embargo, los hablantes no nativos pueden mejorar su nivel de comprensión del discurso comprimido en el tiempo con un entrenamiento de varios días. ^[16]

Buzón de voz

Los sistemas de correo de voz han utilizado voz comprimida en el tiempo desde la década de 1970. En esta aplicación, la tecnología permite la revisión rápida de mensajes en sistemas de alto tráfico por parte de un número relativamente pequeño de personas. ^[17]

Transmisión multimedia

Se ha explorado el habla comprimida en el tiempo como uno de una variedad de factores interrelacionados que pueden manipularse para aumentar la eficiencia de la transmisión de presentaciones multimedia, al reducir significativamente los tiempos de latencia involucrados en la transferencia de grandes archivos multimedia codificados digitalmente. ^[18]

Referencias

^ N., Pam MS, "TIME-COMPRESSED SPEECH", en PsychologyDictionary.org, 29 de abril de 2013, https://psychologydictionary.org/time-compressed-speech/ (consultado el 20 de febrero de 2019).
^ "Una historia muy breve sobre el estilo de hablar rápido". thevoe.com . 4 de diciembre de 2014.
^ "Entendiendo el canto del subastador". rmfarm.tripod.com .
^ "Discurso comprimido". reference.com .
^ abc "Definición del diccionario de compresión de tiempo: definición de compresión de tiempo". www.yourdictionary.com .
^ Timothy D. Green. "Programación de sistemas embebidos con el PIC16F877". 2008. pág. 159.
^ "Las tácticas publicitarias que más molestan a los estadounidenses - Consumer Reports" www.consumerreports.org .
^ "Técnicas, percepción y aplicaciones del habla comprimida en el tiempo" (PDF) . mit.edu .
^ Pallier, Christophe; Sebastian-Gallés, Nuria; Dupoux, Emmanuel; Christophe, Anne; Mehler, Jacques (1 de julio de 1998). "Ajuste perceptivo al habla comprimida en el tiempo: un estudio translingüístico". Memoria y cognición . 26 (4): 844–851. doi : 10.3758/BF03211403 . PMID 9701975.
^ Barabasz, AF; Un estudio del recuerdo y la retención de una presentación acelerada de una conferencia ; Journal of Communication ; 18(3), 1968: p.283–287.
^ Benz, CR; Efectos del habla comprimida en el tiempo sobre la comprensión de una conferencia televisiva orientada a lo visual (1971); citado en Handbook of Research on Educational Communications and Technology ; por David H. Jonassen; Association of Educational Communications and Technology (AECT); Bloomington, IN: 2004.
^ "Comprensión del habla ultrarrápida: personas ciegas frente a personas "normalmente oyentes" (2007)" (PDF) . icphs2007.de .
^ Gordon-Salant, S y Friedman, SA; Reconocimiento del habla rápida por parte de adultos ciegos y videntes ; Journal of Speech, Language, and Hearing Research ; 54(2), abril de 2011: pág. 622-631
^ Gordon-Salant, S. y Fitzgibbons, PJ; Fuentes de dificultad de reconocimiento relacionada con la edad para el habla comprimida en el tiempo ; Journal of Language, Speech, and Hearing Research ; 44(4), agosto de 2001: p.709-19
^ Zhoa, Y.; Los efectos del control de la velocidad del habla por parte de los oyentes en la comprensión de una segunda lengua ; Applied Linguistics ; 18(1), marzo de 2997: p.49-68
^ Banai, K. y Lavner, Y.; Aprendizaje perceptivo del habla comprimida en el tiempo: más que una adaptación rápida ; PLoS One ; Instituto Nacional de Salud; Bethesda, Maryland: &(10), octubre de 2012
^ Arons, B. “Técnicas, percepción y aplicaciones del habla comprimida en el tiempo”. En Actas de la Conferencia de 1992, American Voice I/O Society , septiembre de 1992, págs. 169-177.
^ Omoigui, N., He, L., Gupta, A., Grudin, J. y Sanocki, E.; Compresión temporal: preocupaciones, uso y beneficios de los sistemas; Microsoft Research; Redmond, Washington: 1999.

Lectura adicional

Algoritmos de compresión de tiempo

M. Covell, M. Withgott y M. Slaney, “Mach1: Modificación no uniforme de la escala temporal del habla”, en Proc. ICASSP, vol. 1. Seattle, EE. UU.: IEEE, mayo de 1998, págs. 349–352.
M. Demol, W. Verhelst, K. Struyve y P. Verhoeve, “Escalamiento temporal no uniforme y eficiente del habla con WSOLA”, en Actas de SPECOM, Petras, Grecia, octubre de 2005, págs. 163-166.

Véase también

Modificación del tono y la escala de tiempo del audio
John Moschitta Jr. , un portavoz capaz de hablar muy rápido