Análisis forense de audio

La investigación forense de audio es el campo de la ciencia forense relacionado con la adquisición, el análisis y la evaluación de grabaciones de sonido que en última instancia pueden presentarse como evidencia admisible en un tribunal de justicia o en algún otro lugar oficial. ^[1]^[2]^[3]^[4]

La evidencia forense de audio puede provenir de una investigación criminal realizada por las fuerzas del orden o como parte de una investigación oficial sobre un accidente, fraude, acusación de difamación o algún otro incidente civil. ^[5]

Los aspectos principales de la investigación forense de audio son establecer la autenticidad de la evidencia de audio, realizar mejoras en las grabaciones de audio para mejorar la inteligibilidad del habla y la audibilidad de sonidos de bajo nivel, e interpretar y documentar la evidencia sonora, como identificar a los hablantes, transcribir diálogos y reconstruir escenas y líneas de tiempo de crímenes o accidentes. ^[2]

La investigación forense de audio moderna hace un uso extensivo del procesamiento de señales digitales , y el uso anterior de filtros analógicos ha quedado obsoleto. Se utilizan ampliamente técnicas como el filtrado adaptativo y las transformadas de Fourier discretas . ^[3] Los avances recientes en técnicas de investigación forense de audio incluyen la biometría de voz y el análisis de frecuencia de redes eléctricas . ^[6]

Historia

La posibilidad de realizar análisis forenses de audio depende de la disponibilidad de grabaciones de audio realizadas fuera de los límites de un estudio de grabación. Las primeras grabadoras de cinta magnética portátiles aparecieron en la década de 1950 y pronto estos dispositivos se utilizaron para obtener grabaciones clandestinas de entrevistas y escuchas telefónicas, así como para grabar interrogatorios. ^[4]

El primer caso legal que invocó las técnicas de audio forense en los tribunales federales de Estados Unidos fue el caso Estados Unidos vs. McKeever, que tuvo lugar en la década de 1950. ^[7] Por primera vez, se le pidió al juez en el caso McKeever que determinara la admisibilidad legal de la conversación grabada que involucraba al acusado. ^[8]

La Oficina Federal de Investigaciones (FBI) de Estados Unidos comenzó a implementar análisis forense de audio y mejora de audio a principios de la década de 1960. ^[4]

El campo de la investigación forense de audio se estableció principalmente en 1973 durante el escándalo Watergate . Un tribunal federal encargó a un panel de ingenieros de audio que investigara las lagunas en las cintas Watergate del presidente Nixon , que eran grabaciones secretas que el presidente estadounidense Richard Nixon hizo mientras estaba en el cargo. La investigación descubrió que se habían borrado nueve secciones separadas de una cinta vital. El informe dio lugar a nuevas técnicas para analizar la cinta magnética. ^[6]

Autenticidad

Una grabación de audio digital puede presentar muchos desafíos para la evaluación de la autenticidad. ^[9] El análisis de autenticidad de las grabaciones de audio digitales se basa en los rastros que quedan dentro de la grabación durante el proceso de grabación y por otras operaciones de edición posteriores. El primer objetivo del análisis es detectar e identificar cuáles de estos rastros se pueden recuperar de la grabación de audio y documentar sus propiedades. En un segundo paso, se analizan las propiedades de los rastros recuperables para determinar si respaldan o se oponen a la hipótesis de que la grabación ha sido modificada.

Para acceder a la autenticidad de la evidencia de audio, el examinador necesita varios tipos de observación, tales como: verificar la capacidad de grabación, el formato de grabación, revisar el historial del documento y escuchar el audio completo. ^[10]

Los métodos para acceder a la integridad del audio digital se pueden dividir en dos categorías principales: ^[8]

Técnica basada en contenedores
Técnica basada en contenido

Análisis de contenedores

El análisis del contenedor consta del cálculo de HASH , MAC y análisis del formato de archivo . ^[8]

Análisis hash: se obtiene una cadena de caracteres única a partir de los bits y bytes del archivo de audio y se calcula mediante una función hash derivada matemáticamente. Esto puede resultar útil para verificar que no se hayan producido modificaciones en un archivo desde el momento en que se realiza el cálculo de HASH hasta la siguiente instancia de cálculo de HASH.
Marcas de tiempo MAC: Mediante las marcas de tiempo MAC, el examinador puede detectar la fecha y hora de creación del archivo y de sus modificaciones, así como la hora del último acceso . Las marcas de tiempo MAC se generan mediante el interbloqueo del sistema digital, pero pueden alterarse mediante una operación de copia/transferencia o mediante operaciones de edición.
Formato de archivo: Análisis de algunos parámetros de audio incrustados en el formato de audio ( códec , frecuencia de muestreo , profundidad de bits , etc.).
Encabezado: Los científicos pueden detectar un cambio en la grabación utilizando la información del encabezado del formato del archivo . Dependiendo del dispositivo y la marca, puede haber información sobre el modelo, el número de serie, la versión del firmware, la hora, la fecha y la duración de la grabación (según lo determinado por la configuración del reloj interno). Es útil anotar las marcas de tiempo y compararlas con la fecha y la hora que afirman los autores de la grabación en cuanto a cuándo se creó el archivo. ^[11]
Datos hexadecimales: los datos digitales sin procesar del archivo pueden contener información útil que se puede examinar en un lector hexadecimal con un visor de caracteres ASCII . Se pueden mostrar direcciones de bloques de información de audio, títulos de software externo, operaciones de posprocesamiento y otra información útil. ^[12]

Análisis de contenido

El análisis de contenido es la parte central del proceso de análisis forense digital y se basa en el contenido del archivo de audio para encontrar rastros de manipulación y operaciones de procesamiento antiforense. Las técnicas forenses de audio basadas en el contenido se pueden dividir en las siguientes categorías:

Frecuencia de la red eléctrica (ENF)
Firma del entorno acústico

La ENF

Artículo principal: Análisis de frecuencia de la red eléctrica

La frecuencia de la red eléctrica es uno de los análisis forenses de audio más confiables y sólidos. ^[8]

Todos los dispositivos de grabación digital son sensibles a la frecuencia inducida de la fuente de alimentación a 50 o 60 Hz, que a su vez proporciona una forma de onda identificable dentro de la grabación. Esto se aplica tanto a las unidades alimentadas por la red eléctrica como a los dispositivos portátiles cuando estos últimos se utilizan cerca de cables de transmisión o equipos alimentados por la red eléctrica. ^[13]

El vector de características ENF se obtiene utilizando un filtro de paso de banda entre 49 y 51 Hz, sin remuestrear el archivo de audio, para separar la forma de onda ENF de la grabación original. Luego, los resultados se grafican y se analizan en la base de datos proporcionada por el proveedor de energía para probar o refutar la integridad de la grabación, lo que proporciona una autenticación científica y probatoria del material analizado. ^[13]

La firma del entorno acústico

Artículo principal: Firma acústica

Una grabación de audio suele ser una combinación de múltiples señales acústicas, como: fuentes directas, señales indirectas o reflexiones, fuentes secundarias y ruido ambiental. Las señales indirectas, las fuentes secundarias y el ruido ambiental se utilizan para caracterizar un entorno acústico. ^[4] El trabajo duro consiste en extrapolar las señales acústicas de la grabación de audio.

La identificación dinámica del entorno acústico (AEI) se puede calcular utilizando una estimación de la reverberación y el ruido de fondo. ^[8]

Mejora de audio

La mejora de audio es un proceso forense que tiene como objetivo mejorar la inteligibilidad de un archivo de audio eliminando y limpiando el ruido no deseado de una grabación que de otro modo sería ininteligible. ^[2]

Los científicos forenses intentan eliminar estos ruidos sin afectar la información original presente en el archivo de audio. La mejora permite obtener una mejor inteligibilidad del archivo, que puede ser crucial para determinar la participación o no de una persona en un crimen. ^[8]

El núcleo del análisis de mejora de audio es detectar problemas de ruido y extraerlos del archivo original. De hecho, si el ruido puede modificarse de alguna manera, se puede explotar e investigar para permitir su posterior eliminación o atenuación. ^[13]

Los objetivos de la mejora del audio forense son:

Aumentar la precisión en las transcripciones
Disminuir la fatiga de los oyentes
Aumentar la inteligibilidad del habla
Aumentar la relación señal/ruido (SNR)

El primer paso del proceso de mejora de audio es la escucha crítica: se revisa la grabación completa para formular una estrategia forense sólida. La creación de clones de la grabación de audio es esencial, ya que nunca se trabaja sobre la grabación maestra para tener el archivo original y poder compararlo. A lo largo de todo el proceso de mejora, el original se compara constantemente con la grabación original sin procesar, lo que evita cualquier procesamiento excesivo y evita problemas que puedan surgir más adelante en un juicio. Seguir las pautas y los procedimientos de trabajo permite que un especialista diferente logre los mismos resultados utilizando el mismo procesamiento. ^[13]

Podemos dividir el sonido interferente en dos categorías: ruido estacionario o ruido variante en el tiempo.

El ruido estacionario tiene un carácter consistente, como un zumbido, un retumbar o un silbido continuos. Supongamos que el ruido estacionario ocupa un rango de frecuencia que difiere de las señales de interés, como una grabación de voz con un retumbar constante en el rango de frecuencia por debajo de 100 Hz. En ese caso, puede ser posible aplicar un filtro fijo, como un filtro de paso de banda , para pasar aproximadamente el ancho de banda de voz . Por lo general, el ancho de banda de voz varía de 250 Hz a 4 kHz. ^[14] En caso de que el ancho de banda del ruido estacionario ocupe el mismo rango de frecuencia de la señal deseada, un filtro de separación simple no será útil. Sin embargo, aún puede ser posible aplicar ecualización para mejorar la audibilidad/inteligibilidad de la señal deseada. ^[4]

Las fuentes de ruido que varían en el tiempo generalmente requieren un procesamiento más complicado que las fuentes de ruido estacionarias y a menudo no se suprimen de manera efectiva. ^[4]

Método de mejora

La mejora del audio se logra con métodos de dominio temporal, control automático de ganancia y dominio de frecuencia, filtros selectivos de frecuencia y sustracción espectral. ^[15]

Control automático de ganancia

La mejora del dominio del tiempo generalmente implica ajustes de ganancia para normalizar la envolvente de amplitud de la señal de audio grabada. Normalmente se utiliza la técnica de control automático de ganancia , o la técnica de compresión /expansión de ganancia, que intenta alcanzar un nivel de sonido constante durante la reproducción: las partes de la grabación a las que solo se puede hacer referencia con ruido se silencian, los pasajes de señal de baja amplitud se amplifican y los pasajes fuertes se atenúan o se dejan intactos.

Un enfoque común es aplicar una compuerta de ruido o un proceso de silenciamiento a la señal ruidosa. La compuerta de ruido puede implementarse como un dispositivo electrónico diseñado para este propósito o puede ser un software para procesar con una computadora. La compuerta de ruido compara el nivel de tiempo corto de su señal de entrada con un umbral de nivel predeterminado. Si el nivel de la señal está por encima del nivel del umbral, la compuerta se abre y la señal pasa; de lo contrario, si el nivel de la señal está por debajo del umbral, la compuerta se cierra y la señal no puede pasar. El papel del examinador es ajustar el nivel del umbral para que el habla pueda pasar a través de la compuerta mientras que la señal de ruido, que se produce en las partes de silencio, se bloquea. Una compuerta de ruido puede ayudar al oyente a comprender una señal que se percibe como menos ruidosa porque el sonido de fondo se suprime durante las pausas en la conversación. Sin embargo, la compuerta de ruido en su versión simple no puede reducir el nivel de ruido y aumentar simultáneamente la señal cuando ambos están presentes al mismo tiempo y la compuerta está abierta. ^[2]

También existen sistemas de compuerta de ruido más avanzados que aprovechan algunas técnicas de procesamiento de señales digitales para ejecutar una separación de compuerta en diferentes bandas de frecuencia. Estos sistemas avanzados ayudan al examinador a eliminar tipos particulares de ruido y silbidos presentes en la grabación de audio. ^[15]

Filtros selectivos de frecuencia

Los filtros selectivos de frecuencia son una técnica que opera en el dominio de la frecuencia. El principio detrás de esta técnica es mejorar la calidad de una grabación atenuando selectivamente los componentes tonales en el espectro, como las señales de zumbido y murmullo relacionadas con la potencia. El uso de un ecualizador de audio multibanda también puede ser útil para reducir el ruido fuera de banda mientras se conserva la banda de frecuencia de interés, como el rango de frecuencia del habla. ^[15]

Sustracción espectral

La sustracción espectral es una técnica de procesamiento de señales digitales en la que se estima un espectro de ruido de corto plazo a partir de un cuadro y luego se lo resta del espectro de cuadros cortos de la señal de entrada ruidosa. El espectro obtenido después de la sustracción se utiliza para reconstruir el cuadro con ruido reducido de la señal de salida. El proceso continúa para los cuadros subsiguientes para crear la señal de salida completa mediante un procedimiento de superposición y suma . ^[16]

La eficacia de la sustracción espectral depende de la capacidad de estimar el espectro de ruido. La estimación se obtiene generalmente a partir de un marco de señal de entrada que se sabe que contiene solo el ruido de fondo, como una pausa entre oraciones en una conversación grabada. Los métodos de reducción de ruido más sofisticados combinan los conceptos de detección de nivel en el dominio del tiempo y sustracción espectral en el dominio de la frecuencia. Se utilizan modelos y reglas de señal adicionales para separar los componentes de señal que probablemente sean parte de la señal deseada de aquellos que probablemente sean ruido aditivo. ^[15]

Interpretación

Después de la autenticación y mejora, el archivo de audio examinado debe evaluarse e interpretarse para determinar su importancia para la investigación. ^[15]

Por ejemplo, en el caso de una grabación de voz, esto significa preparar una transcripción del contenido de audio, identificar a los hablantes, interpretar los sonidos de fondo, etc. ^[15]

En 2009, la Academia Nacional de Ciencias de Estados Unidos (NAS) publicó un informe titulado "Fortalecimiento de la ciencia forense en los Estados Unidos: un camino a seguir". ^[17] El informe fue muy crítico con las muchas áreas de la ciencia forense, incluida la investigación forense de audio, que tradicionalmente se han basado en el análisis subjetivo y la comparación.

La importancia y la fiabilidad de las pruebas forenses dependen de una variedad de contribuciones a una investigación. Casi siempre existe cierto nivel de incertidumbre, porque normalmente las pruebas forenses de audio se interpretan con consideraciones objetivas y subjetivas.

Si bien en un estudio científico la incertidumbre se puede medir con algunos indicadores y el análisis continuo puede proporcionar información adicional en el futuro, un examen forense no suele estar sujeto a una revisión continua. La sentencia debe emitirse en el momento en que se lleva a cabo la vista del caso, por lo que el tribunal debe sopesar las distintas pruebas y evaluar el nivel de duda que pueda existir. ^[18]

Véase también

Referencias

^ Phil Manchester (enero de 2010). "Introducción al audio forense". Sound on Sound.
^ abcd Maher, Robert C. (marzo de 2009). "Examen forense de audio: autenticidad, mejora e interpretación". Revista IEEE Signal Processing . 26 (2): 84–94. doi :10.1109/msp.2008.931080. S2CID 18216777.
^ por Alexander Gelfand (10 de octubre de 2007). "Expertos en análisis forense de audio revelan (algunos) secretos". Revista Wired. Archivado desde el original el 8 de abril de 2012.
^ abcdef Maher, Robert C. (2018). Principios del análisis de audio forense . Cham, Suiza: Springer. ISBN 9783319994536.OCLC 1062360764 .
^ Maher, Robert C. (verano de 2015). "Prestar atención en los tribunales: acústica forense" (PDF) . Acústica hoy . 11 : 22–29.
^ ab Williams, Christopher (1 de junio de 2010). «Met lab claims 'biggest discovery since Watergate'» (El laboratorio meteorológico afirma haber logrado el «mayor avance desde Watergate»). The Register . Consultado el 15 de septiembre de 2021 .
^ Tribunal de Distrito de los Estados Unidos, Distrito Sur, Nueva York. (1958). US v. McKeever, 169 F. Supp. 426 (SDNY 1958).
^ abcdef Zakariah, Mohammed; Khan, Muhammad Khurram; Malik, Hafiz (9 de enero de 2017). "Investigación forense de audio multimedia digital: pasado, presente y futuro". Herramientas y aplicaciones multimedia . 77 (1): 1009–1040. doi :10.1007/s11042-016-4277-2. ISSN 1380-7501. S2CID 254830683.
^ Brixen, EB (2007). "Técnicas para la autenticación de grabaciones de audio digitales". En Actas de la 122.ª Convención de la Audio Engineering Society . Viena, Austria.
^ Koenig, BE (1990). "Autenticación de grabaciones de audio forenses". J Audio Eng Soc . 38 : 3–33.
^ Koenig, BE; Lacey, DS (2012). "Análisis de autenticidad forense de los datos de encabezado en archivos WMA recodificados de pequeñas grabadoras de audio Olympus". J Audio Eng Soc . 60 : 255–265.
^ Koenig, BE; Lacey, DS (2009). "Autenticación forense de grabaciones de audio digitales". J Audio Eng Soc . 57 : 662–695.
^ abcd "Introducción al audio forense". www.soundonsound.com . Consultado el 28 de junio de 2022 .
^ "Definición: Frecuencia de voz".
^ abcdef Maher, Robert C. (2010). "Descripción general de la investigación forense de audio". Análisis multimedia inteligente para aplicaciones de seguridad . Estudios en inteligencia computacional. Vol. 282. págs. 127–144. doi :10.1007/978-3-642-11756-5_6. ISBN 978-3-642-11754-1.
^ Boll, S. (1979). "Un algoritmo de sustracción espectral para la supresión del ruido acústico en el habla". ICASSP '79. IEEE International Conference on Acoustics, Speech, and Signal Processing . Vol. 4. Instituto de Ingenieros Eléctricos y Electrónicos. págs. 200–203. doi :10.1109/icassp.1979.1170696.
^ Academia Nacional de Ciencias de Estados Unidos (NAS). "Fortalecimiento de la ciencia forense en Estados Unidos: un camino a seguir" (PDF) .
^ Morrison, Geoffrey Stewart (2011). "Medición de la validez y fiabilidad de los sistemas de razón de verosimilitud forense". Ciencia y justicia . 51 (3): 91–98. doi :10.1016/j.scijus.2011.03.002. ISSN 1355-0306. PMID 21889105.