stringtranslate.com

Análisis de voz

El análisis de la voz es el estudio de los sonidos del habla para fines distintos del contenido lingüístico, como el reconocimiento de voz . Estos estudios incluyen principalmente análisis médicos de la voz ( foniatría ), pero también la identificación del hablante . [1] De manera más controvertida, algunos creen que la veracidad o el estado emocional de los hablantes se puede determinar mediante análisis de estrés de voz o análisis de voz en capas.

Métodos de análisis

Los problemas de la voz que requieren análisis de la voz se originan más comúnmente en las cuerdas vocales o en la musculatura laríngea que las controla, ya que las cuerdas están sujetas a fuerzas de colisión con cada ciclo vibratorio y al secado al ser forzado a pasar el aire a través del pequeño espacio entre ellas, y la la musculatura laríngea está intensamente activa durante el habla o el canto y está sujeta a cansarse. Sin embargo, el análisis dinámico de las cuerdas vocales y su movimiento es físicamente difícil. La ubicación de las cuerdas vocales prohíbe efectivamente la medición directa e invasiva del movimiento. Los métodos de imagen menos invasivos, como las radiografías o las ecografías, no funcionan porque las cuerdas vocales están rodeadas de cartílago, lo que distorsiona la calidad de la imagen. Los movimientos de las cuerdas vocales son rápidos, las frecuencias fundamentales suelen estar entre 80 y 300 Hz , lo que impide el uso del vídeo normal. Los vídeos estroboscópicos y de alta velocidad ofrecen una opción, pero para ver las cuerdas vocales se debe colocar en la garganta una sonda de fibra óptica que conduce a la cámara, lo que dificulta el habla. Además, colocar objetos en la faringe suele desencadenar un reflejo nauseoso que deja de expresarse y cierra la laringe. Además, las imágenes estroboscópicas sólo son útiles cuando el patrón vibratorio de las cuerdas vocales es muy periódico.

Los más importantes [ ¿ según quién? ] Los métodos indirectos actualmente son el filtrado inverso de grabaciones de micrófono o del flujo de aire oral y electroglotografía (EGG). [ cita necesaria ] En el filtrado inverso, el sonido del habla (la forma de onda de presión acústica irradiada, obtenida de un micrófono) o la forma de onda del flujo de aire oral de una máscara con ventilación circunferencial (CV) se registra fuera de la boca y luego se filtra mediante un método matemático para eliminar los efectos del tracto vocal. Este método estima la entrada glotal de la producción de voz registrando la salida y utilizando un modelo computacional para invertir los efectos del tracto vocal. El otro tipo de indicación indirecta no invasiva del movimiento de las cuerdas vocales es la electroglotografía, en la que electrodos colocados a ambos lados de la garganta del sujeto al nivel de las cuerdas vocales registran los cambios en la conductividad de la garganta según el tamaño de la porción de la cuerda vocal. las cuerdas vocales se tocan entre sí. De este modo se obtiene información unidimensional del área de contacto. Ni el filtrado inverso ni el EGG son suficientes para describir completamente el complejo patrón tridimensional del movimiento de las cuerdas vocales, pero pueden proporcionar evidencia indirecta útil de ese movimiento.

Otra forma de realizar un análisis de la voz es observar las características de la voz. Algunas características de la voz son la fonación , el tono , el volumen y la velocidad. Estas características se pueden utilizar para evaluar la voz de una persona y pueden ayudar en el proceso de análisis de la voz. La fonación generalmente se prueba observando diferentes tipos de datos recopilados de una persona, como palabras con vocales largas, palabras con muchos fonemas o simplemente el habla típica. El tono de una persona se puede evaluar haciendo que la persona produzca los sonidos más altos y más bajos que pueda, así como los sonidos intermedios. Se puede utilizar un teclado para ayudar en este proceso. Es valioso observar el volumen porque, para ciertas personas, el volumen afecta la forma en que producen ciertos sonidos. Algunas personas necesitan hablar más alto para ciertos fonemas en comparación con otros sólo para poder producirlos. [ cita necesaria ] Esto se puede probar pidiéndole a la persona que use la misma cantidad de volumen mientras canta una escala. La velocidad también es importante porque analiza qué tan rápido o lento habla una persona.

[2]

Uso en medicina

Un estudio médico de la voz puede ser, por ejemplo, el análisis de la voz de pacientes a quienes se les ha extirpado un pólipo de sus cuerdas vocales mediante una operación. Se pueden utilizar métodos computarizados para evaluar estas cuestiones de manera objetiva. [3] Un terapeuta de voz experimentado puede evaluar la voz de forma bastante fiable, pero esto requiere una formación exhaustiva y sigue siendo subjetivo.

Otro tema de investigación activo en el análisis médico de la voz es la evaluación de la carga vocal . Las cuerdas vocales de una persona que habla durante mucho tiempo se cansan, es decir, el proceso de hablar ejerce una carga sobre las cuerdas vocales y cansa el tejido. Entre los usuarios profesionales de voz (p. ej., profesores, vendedores), este cansancio puede provocar fallos en la voz y bajas por enfermedad. El análisis de la voz se ha estudiado como un medio objetivo para evaluar dichos problemas. [4]

El análisis de la voz fue un factor importante en el estudio de la parálisis de las cuerdas vocales. Afecta diferentes funciones de las cuerdas vocales, desde el habla hasta la respiración y el análisis de la voz se utiliza para estudiar la efectividad de las mejoras de la tiroplastia (tiroplastia de medialización) en las cuerdas vocales después de la cirugía. La grabación de voz tradicional se utiliza antes de la operación para registrar las voces de los pacientes seleccionados para compararlas con el uso posterior a la operación, junto con grabaciones más complejas que utilizan electroglotografía, fotoglotografía , [5] y videoquimografía . Los profesionales médicos tienen la capacidad de leer y comprender los resultados de las grabaciones complejas, pero en estos experimentos se necesita el conocimiento de un profesional de la voz para obtener resultados precisos. Los expertos en voz fueron importantes para vincular el examen físico de las cuerdas vocales con el examen neurológico para garantizar el éxito de la cirugía gracias a su oído entrenado. La evaluación perceptiva de la voz depende en gran medida de la calidad de la voz , un factor evaluado preferentemente por especialistas de la voz ( logopedas ). Un analizador de voz profesional tiene un oído entrenado y puede bloquear variantes excesivas que pueden ser engañosas en los resultados. [6]

Uso en medicina forense

El análisis de voz se utiliza en una rama de la ciencia forense llamada audioforense . Estos análisis generalmente se realizan sobre evidencia con el fin de evaluar la autenticidad del audio en cuestión, mejorar las características del audio que pueden estar ocultas bajo un ruido de fondo que distraiga, interpretar el audio desde la perspectiva de un experto forense, [7] o en en algunos casos para fines de identificación del hablante . [8]

Un experto empleará una variedad de técnicas en su análisis. Los procedimientos mínimos son "escucha crítica, análisis de formas de onda y análisis espectral ". [9] La escucha crítica implica un análisis exhaustivo de los sonidos tanto del primer plano como del fondo mediante una escucha repetitiva. [9] El análisis de forma de onda visualiza el audio para que el examinador vea cualquier irregularidad que pueda ocurrir. El análisis espectral visualiza la frecuencia del audio para que un examinador seleccione características de interés. [9]

Un caso en el que el audio jugó un papel más importante es el caso Trayvon Martin , donde se analizó una grabación de una llamada hecha a la policía para determinar si los gritos de fondo provenían de George Zimmerman o de Martin .

Voz forense

Los expertos en voz forense analizan grabaciones examinando el habla transmitida y almacenada, mejorándola y decodificandola para investigaciones criminales, juicios judiciales y agencias federales.

Para utilizar grabaciones de audio en los tribunales, un fonetista forense debe autenticar la grabación para detectar manipulación, mejorar el audio e interpretar el discurso. Su primer trabajo es garantizar que el discurso de la grabación utilizada sea comprensible. A menudo, las muestras tienen una calidad de sonido deficiente debido a factores ambientales como el viento o el movimiento. Otras veces la degradación del sonido se debe a problemas tecnológicos dentro del dispositivo de grabación. No se podrá realizar ningún trabajo de investigación sobre la identificación del hablante hasta que la grabación tenga la calidad adecuada. Diferentes soluciones a la mala comprensibilidad se realizan mediante programas informáticos que permiten al usuario filtrar y eliminar el ruido. El software informático también puede convertir la voz en espectros y formas de onda, lo que resulta útil para el fonetista forense. Sin embargo, cualquier trabajo realizado en la grabación debe realizarse después de realizar una copia de la grabación original.

Una parte principal del trabajo del fonetista forense es la identificación del hablante. El proceso de interpretación puede incluir armar una línea de tiempo, transcribir el diálogo e identificar sonidos desconocidos o ininteligibles en la grabación de audio. En el tribunal, el experto sirve en última instancia para explicar los hechos que rodean la evidencia de audio, proporcionando una explicación de los principios acústicos y físicos relevantes para explicar lo que se evidencia en la grabación. Los informes se realizan para incluir información detallada, si hay una sección de la grabación que no es comprensible o inaudible, una explicación de lo que estaba sucediendo (en la grabación) y una descripción de lo que falta en la grabación.

Identificación del hablante

El análisis de la voz desempeña un papel en la identificación del hablante . Esto ocurre cuando se desconoce la identidad de un hablante y debe identificarse entre una serie de otras voces o sospechosos cuando se trata de una investigación de un delito o un juicio judicial. La identificación adecuada del hablante y las voces, especialmente en casos penales, depende de una lista de factores, como familiaridad, exposición, demora, tono de voz, disfraz de voz y acentos. La familiaridad con un hablante aumenta las posibilidades de identificar adecuadamente una voz y distinguirla. La cantidad de exposición a una voz también ayuda a identificar correctamente una voz, incluso si no es familiar. Un oyente que escucha un enunciado más largo o que estuvo expuesto a una voz con más frecuencia es mejor para reconocer una voz que alguien que tal vez solo pudo escuchar una palabra. Un retraso entre el momento en que se escucha una voz y el momento en que se identifica al hablante también reduce la posibilidad de identificar al hablante correcto. El tono de voz afecta la capacidad de identificar al hablante adecuado. Si el tono no coincide con el del hablante en el momento de la comparación, resultará más difícil de analizar. El disfraz de la voz, por ejemplo cuando un hablante susurra, también dificultará la capacidad de hacer coincidir e identificar con precisión al hablante. En algunos casos, a las personas que hablan el mismo idioma que el hablante cuya voz se está analizando les resultará más fácil identificarlos debido al acento y el estrés de la voz. La identificación del hablante se complica además por distorsiones del método técnico de grabación y problemas relacionados con el hablante, como estados emocionales o motivos alternativos que causan una discrepancia entre su voz y la de una grabación. Los métodos de identificación de hablantes en medicina forense incluyen el uso de testigos auditivos que se utilizan para identificar las voces que han escuchado, el enfoque auditivo-perceptual realizado por un especialista con respecto a los suprasegmentos del habla de un individuo y enfoques basados ​​en computadora.

Ver también

Referencias

  1. ^ Sarangi, Susanta; Sahidullah, Maryland; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática de hablantes". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016/j.dsp.2020.102795. S2CID  220665533.
  2. ^ Hapner, Edie; Stemple, José (2014). Terapia de la voz: estudios de casos clínicos . Editorial Plural.
  3. ^ Torán, SiKC; Lal, BK (2010). "Análisis objetivo de la voz para pólipos vocales después de fonocirugía microlaríngea". Revista médica de la Universidad de Katmandú . 8 (2): 185–189. doi : 10.3126/kumj.v8i2.3555 . ISSN  1812-2078. PMID  21209532.
  4. ^ Templo, Joseph C.; Stanley, Jennifer; Lee, Linda (1995). "Medidas objetivas de la producción de la voz en sujetos normales tras un uso prolongado de la voz". Revista de Voz . 9 (2): 127-133. doi :10.1016/s0892-1997(05)80245-0. ISSN  0892-1997. PMID  7620534.
  5. ^ Gerratt, Bruce R.; Hanson, David G.; Berke, Gerald S.; Precoda, Kristin (1 de enero de 1991). "Fotoglotografía: una sinopsis clínica". Revista de Voz . 5 (2): 98-105. doi :10.1016/S0892-1997(05)80173-0 . Consultado el 16 de diciembre de 2020 .
  6. ^ Chowdhury, Kanishka; Saha, Somnath; Saha, Vedula Padmini; Pal, Sudipta; Chatterjee, Indranil (23 de marzo de 2013). "Análisis de la voz pre y posoperatorio después de tiroplastia de medialización en casos de parálisis unilateral de las cuerdas vocales". Revista india de otorrinolaringología y cirugía de cabeza y cuello . 65 (4): 354–357. doi :10.1007/s12070-013-0649-3. ISSN  2231-3796. PMC 3851511 . PMID  24427598. 
  7. ^ Maher, Robert C. (2018). Principios del análisis de audio forense . Acústica moderna y procesamiento de señales. Cham: Editorial Internacional Springer. págs. 1–2. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9
  8. ^ Solan, Lawrence M.; Tiersma, Peter M. (2004). Hablando de crimen . Prensa de la Universidad de Chicago. doi : 10.7208/chicago/9780226767871.001.0001. ISBN 978-0-226-76793-2.
  9. ^ abc Maher, Robert C. (2018). Principios del análisis de audio forense . Acústica moderna y procesamiento de señales. Cham: Editorial Internacional Springer. págs. 48–49. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9

enlaces externos