Voz segura

Voz segura (alternativamente, habla segura o cifrado ) es un término en criptografía para el cifrado de la comunicación de voz a través de una variedad de tipos de comunicación, como radio, teléfono o IP .

Historia

La implementación del cifrado de voz se remonta a la Segunda Guerra Mundial , cuando la comunicación segura era primordial para las fuerzas armadas de los EE. UU. Durante ese tiempo, simplemente se añadía ruido a una señal de voz para evitar que los enemigos escucharan las conversaciones. El ruido se añadía reproduciendo un registro de ruido sincronizado con la señal de voz y cuando la señal de voz llegaba al receptor, se restaba la señal de ruido, dejando la señal de voz original. Para restar el ruido, el receptor necesitaba tener exactamente la misma señal de ruido y los registros de ruido solo se hacían en pares; uno para el transmisor y otro para el receptor. Tener solo dos copias de registros hacía imposible que el receptor equivocado descifrara la señal. Para implementar el sistema, el ejército contrató a Bell Laboratories y desarrollaron un sistema llamado SIGSALY . Con SIGSALY, se utilizaron diez canales para muestrear el espectro de frecuencia de voz de 250 Hz a 3 kHz y se asignaron dos canales para muestrear el tono de voz y el silbido de fondo. En la época de SIGSALY, el transistor no se había desarrollado y el muestreo digital se hacía mediante circuitos que utilizaban el tubo de vacío Thyratron modelo 2051. Cada terminal SIGSALY utilizaba 40 bastidores de equipos que pesaban 55 toneladas y llenaban una gran sala. Este equipo incluía transmisores y receptores de radio y grandes tocadiscos. La voz se codificaba en dos discos de vinilo de 410 milímetros (16 pulgadas) que contenían un tono de audio de modulación por desplazamiento de frecuencia (FSK). Los discos se reproducían en grandes tocadiscos precisos en sincronía con la transmisión de la voz.

Desde la introducción del cifrado de voz hasta hoy, las técnicas de cifrado han evolucionado drásticamente. La tecnología digital ha reemplazado efectivamente los viejos métodos analógicos de cifrado de voz y al usar algoritmos complejos, el cifrado de voz se ha vuelto mucho más seguro y eficiente. Un método de cifrado de voz relativamente moderno es la codificación de subbanda . Con la codificación de subbanda, la señal de voz se divide en múltiples bandas de frecuencia, utilizando múltiples filtros de paso de banda que cubren rangos de frecuencia específicos de interés. Las señales de salida de los filtros de paso de banda luego se traducen a paso bajo para reducir el ancho de banda, lo que reduce la frecuencia de muestreo. Luego, las señales de paso bajo se cuantifican y codifican utilizando técnicas especiales como la modulación por código de pulsos (PCM). Después de la etapa de codificación, las señales se multiplexan y se envían a lo largo de la red de comunicación. Cuando la señal llega al receptor, se aplican las operaciones inversas a la señal para devolverla a su estado original. ^[1]Subhash Kak y Nikil Jayant desarrollaron un sistema de codificación de voz en los Laboratorios Bell en la década de 1970 . ^[2] En este sistema se utilizaron matrices de permutación para codificar representaciones (como modulación de código de pulsos y variantes) de los datos de voz. Motorola desarrolló un sistema de cifrado de voz llamado Protección de Voz Digital (DVP) como parte de su primera generación de técnicas de cifrado de voz. DVP utiliza una técnica de cifrado autosincronizada conocida como retroalimentación de cifrado (CFB). La cantidad extremadamente alta de claves posibles asociadas con el algoritmo DVP inicial hace que el algoritmo sea muy robusto y brinda un alto nivel de seguridad. Al igual que con otros sistemas de cifrado de clave simétrica, la clave de cifrado es necesaria para descifrar la señal con un algoritmo de descifrado especial.

Digital

Una voz digital segura normalmente incluye dos componentes: un digitalizador para convertir entre voz y señales digitales y un sistema de cifrado para proporcionar confidencialidad. En la práctica, resulta difícil enviar la señal cifrada a través de los mismos circuitos de comunicación de banda de voz utilizados para transmitir voz no cifrada, por ejemplo, líneas telefónicas analógicas o radios móviles , debido a la expansión del ancho de banda.

Esto ha llevado al uso de codificadores de voz ( vocoders ) para lograr una compresión de ancho de banda ajustada de las señales de voz. STU-III , KY-57 y SCIP de la NSA son ejemplos de sistemas que funcionan sobre circuitos de voz existentes . El sistema STE , por el contrario, requiere líneas ISDN de ancho de banda amplio para su modo de funcionamiento normal. Para cifrar GSM y VoIP , que son nativamente digitales, se podría utilizar el protocolo estándar ZRTP como tecnología de cifrado de extremo a extremo .

La robustez de la voz segura se beneficia en gran medida de tener los datos de voz comprimidos a tasas de bits muy bajas mediante un componente especial llamado codificación de voz , compresión de voz o codificador de voz (también conocido como vocoder ). Los viejos estándares de compresión de voz segura incluyen ( CVSD , CELP , LPC-10e y MELP , donde el estándar más reciente es el algoritmo MELPe de última generación).

Métodos digitales que utilizan compresión de voz: MELP o MELPe

MELPe o MELP mejorado (Mixed Excitation Linear Prediction) es un estándar de codificación de voz del Departamento de Defensa de los Estados Unidos que se utiliza principalmente en aplicaciones militares y comunicaciones por satélite, voz segura y dispositivos de radio seguros. Su desarrollo fue liderado y apoyado por la NSA y la OTAN. El estándar de voz segura MELPe del gobierno de los EE. UU. también se conoce como MIL-STD-3005, y el estándar de voz segura MELPe de la OTAN también se conoce como STANAG -4591.

El MELP inicial fue inventado por Alan McCree alrededor de 1995. ^[3] Ese codificador de voz inicial se estandarizó en 1997 y se conoció como MIL-STD-3005. ^[4] Superó a otros vocoders candidatos en la competencia del Departamento de Defensa de EE. UU., incluidos: (a) Codificador armónico selectivo de frecuencia (FSHC), (b) Excitación multibanda avanzada (AMBE), (c) Excitación multibanda mejorada (EMBE), (d) Codificador de transformada sinusoidal (STC) y (e) Codificador LPC de subbanda (SBC). Debido a su menor complejidad ^{[ cita requerida ]} que el codificador interpolativo de forma de onda (WI), el vocoder MELP ganó la competencia del Departamento de Defensa y fue seleccionado para MIL-STD -3005.

Entre 1998 y 2001, se creó un nuevo vocoder basado en MELP a la mitad de la velocidad (es decir, 1200 bit/s) y SignalCom (posteriormente adquirida por Microsoft ), AT&T Corporation y Compandent añadieron mejoras sustanciales al MIL-STD-3005, que incluían (a) un nuevo vocoder adicional a la mitad de la velocidad (es decir, 1200 bit/s), (b) una codificación (análisis) sustancialmente mejorada, (c) una descodificación (síntesis) sustancialmente mejorada, (d) preprocesamiento de ruido para eliminar el ruido de fondo, (e) transcodificación entre los flujos de bits de 2400 bit/s y 1200 bit/s, y (f) un nuevo postfiltro. Este desarrollo bastante significativo tenía como objetivo crear un nuevo codificador a la mitad de la velocidad y hacerlo interoperable con el antiguo estándar MELP. Este MELP mejorado (también conocido como MELPe) se adoptó como el nuevo MIL-STD-3005 en 2001 en forma de anexos y suplementos realizados al MIL-STD-3005 original, lo que permite la misma calidad que los antiguos MELP de 2400 bit/s a la mitad de velocidad. Una de las mayores ventajas del nuevo MELPe de 2400 bit/s es que comparte el mismo formato de bits que el MELP y, por lo tanto, puede interoperar con los sistemas MELP heredados, pero ofrecería una mejor calidad en ambos extremos. MELPe proporciona una calidad mucho mejor que todos los estándares militares anteriores, especialmente en entornos ruidosos como el campo de batalla, los vehículos y las aeronaves.

En 2002, tras una extensa competición y pruebas, el MELPe de 2400 y 1200 bit/s del Departamento de Defensa de EE. UU. fue adoptado también como estándar de la OTAN , conocido como STANAG -4591. ^[5] Como parte de las pruebas de la OTAN para el nuevo estándar de la OTAN, MELPe fue probado contra otros candidatos como HSX (Harmonic Stochastic eXcitation) de Francia y SB-LPC (Split-Band Linear Predictive Coding) de Turquía , así como los antiguos estándares de voz segura como FS1015 LPC-10e (2,4 kbit/s), FS1016 CELP (4,8 kbit/s) y CVSD (16 kbit/s). Posteriormente, MELPe también ganó la competición de la OTAN, superando la calidad de todos los demás candidatos, así como la calidad de todos los antiguos estándares de voz segura (CVSD, CELP y LPC-10e ). La competencia de la OTAN concluyó que MELPe mejoró sustancialmente el rendimiento (en términos de calidad de voz, inteligibilidad e inmunidad al ruido), al tiempo que redujo los requisitos de rendimiento. Las pruebas de la OTAN también incluyeron pruebas de interoperabilidad, utilizaron más de 200 horas de datos de voz y fueron realizadas por tres laboratorios de pruebas en todo el mundo. Compandent Inc, como parte de los proyectos basados en MELPe realizados para la NSA y la OTAN , proporcionó a la NSA y la OTAN una plataforma de banco de pruebas especial conocida como dispositivo MELCODER que proporcionó la referencia de oro para la implementación en tiempo real de MELPe. El equipo terminal de datos (DTE) FLEXI-232 de bajo costo fabricado por Compandent, que se basa en la referencia de oro MELCODER, es muy popular y se usa ampliamente para evaluar y probar MELPe en tiempo real, varios canales y redes y condiciones de campo.

La competencia de la OTAN concluyó que MELPe mejoró sustancialmente el rendimiento (en términos de calidad de voz, inteligibilidad e inmunidad al ruido), al tiempo que redujo los requisitos de rendimiento. Las pruebas de la OTAN también incluyeron pruebas de interoperabilidad, utilizaron más de 200 horas de datos de voz y fueron realizadas por tres laboratorios de pruebas en todo el mundo.

En 2005, Thales Group ( Francia ) añadió una nueva variación de velocidad MELPe de 600 bit/s (sin una competencia extensa y pruebas como las realizadas para el MELPe de 2400/1200 bit/s) ^[6] al estándar STANAG-4591 de la OTAN, y hay esfuerzos más avanzados para reducir las velocidades de bits a 300 bit/s e incluso a 150 bit/s. ^[7]

En 2010, Lincoln Labs., Compandent, BBN y General Dynamics también desarrollaron para DARPA un dispositivo MELP de 300 bit/s. ^[8] Su calidad era mejor que la del MELPe de 600 bit/s, pero su retraso era mayor.

Véase también

Referencias

^ Owens, FJ (1993). Procesamiento de señales del habla . Houndmills: MacMillan Press. ISBN 0-333-51922-1.
^ Kak, S. y Jayant, NS, Cifrado de voz mediante codificación de formas de onda. Bell System Technical Journal, vol. 56, págs. 781–808, mayo–junio de 1977.
^ Un modelo de vocoder LPC de excitación mixta para codificación de voz de baja tasa de bits, Alan V. McCree, Thomas P. Barnweell, 1995 en IEEE Trans. Speech and Audio Processing (MELP original)
^ Conversión de voz de analógico a digital mediante predicción lineal de excitación mixta (MELP) de 2400 bits por segundo, Departamento de Defensa de EE. UU. (MIL_STD-3005, MELP original)
^ EL CODIFICADOR DE VOZ DE BANDA ESTRECHA INTEROPERABLE OTAN DE 1200 Y 2400 BITS/S, STANAG-4591, OTAN
^ VARIACIÓN DE MELPe PARA CODIFICADOR DE VOZ DE BANDA ESTRECHA OTAN DE 600 BITS/S, STANAG-4591, OTAN
^ Nichols, Randall K. y Lekkas, Panos C. (2002). "Criptología del habla". Seguridad inalámbrica: modelos, amenazas y soluciones . Nueva York: McGraw-Hill. ISBN 0-07-138038-8.
^ Alan McCree, “Un marco de trabajo de vocoder fonético escalable que utiliza cuantificación vectorial predictiva conjunta de parámetros MELP”, en Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, 2006, págs. I 705–708, Toulouse, Francia