El algoritmo de resumen de mensajes MD5 es una función hash ampliamente utilizada que produce un valor hash de 128 bits . MD5 fue diseñado por Ronald Rivest en 1991 para reemplazar una función hash anterior , MD4 , [3] y se especificó en 1992 como RFC 1321.
MD5 se puede utilizar como suma de comprobación para verificar la integridad de los datos contra la corrupción no intencionada. Históricamente se ha utilizado ampliamente como función hash criptográfica ; sin embargo, se ha descubierto que sufre de vulnerabilidades extensas. Sigue siendo adecuado para otros fines no criptográficos, por ejemplo, para determinar la partición de una clave particular en una base de datos particionada , y puede ser preferible debido a los menores requisitos computacionales que los algoritmos de hash seguro más recientes . [4]
MD5 es uno de los algoritmos de resumen de mensajes diseñados por el profesor Ronald Rivest del MIT (Rivest, 1992). Cuando el trabajo analítico indicó que el predecesor de MD5, MD4, probablemente no sería seguro, Rivest diseñó MD5 en 1991 como un reemplazo seguro. ( Hans Dobbertin efectivamente encontró más tarde debilidades en MD4).
En 1993, Den Boer y Bosselaers dieron un resultado temprano, aunque limitado, al encontrar una " pseudocolisión " de la función de compresión MD5 ; es decir, dos vectores de inicialización diferentes que producen un resumen idéntico.
En 1996, Dobbertin anunció una colisión de la función de compresión de MD5 (Dobbertin, 1996). Si bien no se trató de un ataque a la función hash MD5 completa, fue lo suficientemente cercano como para que los criptógrafos recomendaran cambiar a un reemplazo, como SHA-1 (también comprometido desde entonces) o RIPEMD-160 .
El tamaño del valor hash (128 bits) es lo suficientemente pequeño como para contemplar un ataque de cumpleaños . MD5CRK fue un proyecto distribuido que comenzó en marzo de 2004 para demostrar que MD5 es prácticamente inseguro al encontrar una colisión mediante un ataque de cumpleaños.
MD5CRK finalizó poco después del 17 de agosto de 2004, cuando Xiaoyun Wang , Dengguo Feng, Xuejia Lai y Hongbo Yu anunciaron colisiones para el MD5 completo. [5] [6] Se informó que su ataque analítico tomó solo una hora en un clúster IBM p690 . [7]
El 1 de marzo de 2005, Arjen Lenstra , Xiaoyun Wang y Benne de Weger demostraron la construcción de dos certificados X.509 con claves públicas diferentes y el mismo valor hash MD5, una colisión demostrablemente práctica. [8] La construcción incluía claves privadas para ambas claves públicas. Unos días después, Vlastimil Klima describió un algoritmo mejorado, capaz de construir colisiones MD5 en unas pocas horas en una sola computadora portátil. [9] El 18 de marzo de 2006, Klima publicó un algoritmo que podía encontrar una colisión en un minuto en una sola computadora portátil, utilizando un método que él llama tunelización. [10]
Se han publicado varias erratas de RFC relacionadas con MD5 . En 2009, el Comando Cibernético de los Estados Unidos utilizó un valor hash MD5 de su declaración de misión como parte de su emblema oficial. [11]
El 24 de diciembre de 2010, Tao Xie y Dengguo Feng anunciaron la primera colisión MD5 de un solo bloque (512 bits) publicada. [12] (Los descubrimientos de colisiones anteriores se habían basado en ataques de múltiples bloques). Por "razones de seguridad", Xie y Feng no revelaron el nuevo método de ataque. Lanzaron un desafío a la comunidad criptográfica, ofreciendo una recompensa de 10.000 dólares estadounidenses al primer descubridor de una colisión de 64 bytes diferente antes del 1 de enero de 2013. Marc Stevens respondió al desafío y publicó los mensajes de un solo bloque en colisión, así como el algoritmo de construcción y las fuentes. [13]
En 2011 se aprobó un RFC 6151 informativo [14] para actualizar las consideraciones de seguridad en MD5 [15] y HMAC-MD5. [16]
Un requisito básico de cualquier función hash criptográfica es que no sea factible desde el punto de vista computacional encontrar dos mensajes distintos que generen el mismo valor. MD5 no cumple este requisito de manera catastrófica. El 31 de diciembre de 2008, el Instituto de Ingeniería de Software de la CMU concluyó que MD5 estaba esencialmente "criptográficamente dañado y no era adecuado para su uso posterior". [17] Las debilidades de MD5 han sido explotadas en el campo, la más infame fue con el malware Flame en 2012. A partir de 2019 [actualizar], MD5 sigue siendo ampliamente utilizado, a pesar de sus debilidades bien documentadas y su desuso por parte de los expertos en seguridad. [18]
Existe un ataque de colisión que puede encontrar colisiones en cuestión de segundos en una computadora con un procesador Pentium 4 de 2,6 GHz (complejidad de 2 24,1 ). [19] Además, también existe un ataque de colisión de prefijo elegido que puede producir una colisión para dos entradas con prefijos específicos en cuestión de segundos, utilizando hardware informático estándar (complejidad de 2 39 ). [20] La capacidad de encontrar colisiones se ha visto enormemente facilitada por el uso de GPU estándar . En un procesador gráfico NVIDIA GeForce 8400GS, se pueden calcular entre 16 y 18 millones de hashes por segundo. Una NVIDIA GeForce 8800 Ultra puede calcular más de 200 millones de hashes por segundo. [21]
Estos ataques de hash y colisión se han demostrado en público en varias situaciones, incluyendo la colisión de archivos de documentos [22] [23] y certificados digitales . [24] A partir de 2015, se demostró que MD5 todavía se usa ampliamente, sobre todo por empresas de investigación de seguridad y antivirus. [25]
En 2019, se informó que una cuarta parte de los sistemas de gestión de contenido ampliamente utilizados todavía usaban MD5 para el hash de contraseñas . [18]
En 1996, se encontró una falla en el diseño de MD5. Si bien no se consideró una debilidad fatal en ese momento, los criptógrafos comenzaron a recomendar el uso de otros algoritmos, como SHA-1 , que desde entonces también se ha descubierto que es vulnerable. [26] En 2004 se demostró que MD5 no es resistente a las colisiones . [27] Como tal, MD5 no es adecuado para aplicaciones como certificados SSL o firmas digitales que dependen de esta propiedad para la seguridad digital. Los investigadores descubrieron además fallas más graves en MD5 y describieron un posible ataque de colisión : un método para crear un par de entradas para las que MD5 produce sumas de comprobación idénticas . [5] [28] Se lograron más avances en la ruptura de MD5 en 2005, 2006 y 2007. [29] En diciembre de 2008, un grupo de investigadores utilizó esta técnica para falsificar la validez de los certificados SSL . [24] [30]
A partir de 2010, el Instituto de Ingeniería de Software de CMU considera que MD5 está "criptográficamente roto y no es adecuado para un uso posterior", [31] y la mayoría de las aplicaciones del gobierno de EE. UU. ahora requieren la familia de funciones hash SHA-2 . [32] En 2012, el malware Flame explotó las debilidades de MD5 para falsificar una firma digital de Microsoft . [33]
En 1996, se encontraron colisiones en la función de compresión de MD5, y Hans Dobbertin escribió en el boletín técnico de RSA Laboratories : "El ataque presentado aún no amenaza las aplicaciones prácticas de MD5, pero se acerca bastante... en el futuro, MD5 ya no debería implementarse... donde se requiera una función hash resistente a colisiones". [34]
En 2005, los investigadores lograron crear pares de documentos PostScript [35] y certificados X.509 [36] con el mismo hash. Más tarde ese año, el diseñador de MD5, Ron Rivest, escribió que "tanto md5 como sha1 están claramente dañados (en términos de resistencia a colisiones)". [37]
El 30 de diciembre de 2008, un grupo de investigadores anunció en el 25º Congreso de Comunicación del Caos cómo habían utilizado colisiones MD5 para crear un certificado de autoridad de certificación intermedia que parecía ser legítimo cuando se verificaba por su hash MD5. [24] Los investigadores utilizaron un clúster PS3 en la EPFL en Lausana , Suiza [38] para cambiar un certificado SSL normal emitido por RapidSSL en un certificado CA funcional para ese emisor, que luego podría usarse para crear otros certificados que parecerían ser legítimos y emitidos por RapidSSL. VeriSign , los emisores de certificados RapidSSL, dijeron que dejaron de emitir nuevos certificados utilizando MD5 como su algoritmo de suma de comprobación para RapidSSL una vez que se anunció la vulnerabilidad. [39] Aunque Verisign se negó a revocar los certificados existentes firmados con MD5, su respuesta fue considerada adecuada por los autores del exploit ( Alexander Sotirov , Marc Stevens , Jacob Appelbaum , Arjen Lenstra , David Molnar, Dag Arne Osvik y Benne de Weger). [24] Bruce Schneier escribió sobre el ataque que "ya sabíamos que MD5 es una función hash rota" y que "nadie debería seguir utilizando MD5". [40] Los investigadores de SSL escribieron: "Nuestro impacto deseado es que las autoridades de certificación dejen de utilizar MD5 al emitir nuevos certificados. También esperamos que se reconsidere también el uso de MD5 en otras aplicaciones". [24]
En 2012, según Microsoft , los autores del malware Flame utilizaron una colisión MD5 para falsificar un certificado de firma de código de Windows. [33]
MD5 utiliza la construcción Merkle–Damgård , por lo que si se pueden construir dos prefijos con el mismo hash, se puede añadir un sufijo común a ambos para que la colisión tenga más probabilidades de ser aceptada como datos válidos por la aplicación que la utiliza. Además, las técnicas actuales de búsqueda de colisiones permiten especificar un prefijo arbitrario : un atacante puede crear dos archivos en colisión que comiencen con el mismo contenido. Todo lo que el atacante necesita para generar dos archivos en colisión es un archivo de plantilla con un bloque de datos de 128 bytes, alineado en un límite de 64 bytes, que se puede cambiar libremente mediante el algoritmo de búsqueda de colisiones. Un ejemplo de colisión MD5, con los dos mensajes que difieren en 6 bits, es:
d131dd02c5e6eec4 693d9a0698aff95c 2fcab5 8 712467eab 4004583eb8fb7f8955ad340609f4b302 83e4888325 7 1415a 085125e8f7cdc99f d91dbd f280373c5bd8823e3156348f5b ae6dacd436c919c6 dd53e2b487da03fd02396306d248cda0e99f33420f577ee8 ce54b67080 a 80d1e c69821bcb6a88393 96f965 2 b6ff72a70
d131dd02c5e6eec4 693d9a0698aff95c 2fcab5 0 712467eab 4004583eb8fb7f8955ad340609f4b302 83e4888325 1415a 085125e8f7cdc99f d91dbd 7 280373c5bd8823e3156348f5b ae6dacd436c919c6 dd53e2 3 487da03fd 02396306d248cda0e99f33420f577ee8 ce54b67080 2 80d1e c69821bcb6a88393 96f965 un b6ff72a70
Ambos producen el hash MD5 79054025255fb1a26e4bc422aef54eb4
. [41]
La diferencia entre las dos muestras es que el bit inicial de cada nibble se ha invertido. Por ejemplo, el byte 20 (desplazamiento 0x13) en la muestra superior, 0x87, es 10000111 en binario. El bit inicial del byte (también el bit inicial del primer nibble) se invierte para obtener 00000111, que es 0x07, como se muestra en la muestra inferior.
Más tarde se descubrió que era posible construir colisiones entre dos archivos con prefijos elegidos por separado. Esta técnica se utilizó en la creación del certificado CA falso en 2008. Anton Kuznetsov propuso en 2014 una nueva variante de búsqueda de colisiones en paralelo mediante MPI , que permitió encontrar una colisión en 11 horas en un clúster de computación. [42]
En abril de 2009 se publicó un ataque contra MD5 que rompe la resistencia de preimagen de MD5 . Este ataque es solo teórico, con una complejidad computacional de 2 123,4 para una preimagen completa. [43] [44]
Los resúmenes MD5 se han utilizado ampliamente en el mundo del software para proporcionar cierta seguridad de que un archivo transferido ha llegado intacto. Por ejemplo, los servidores de archivos a menudo proporcionan una suma de comprobación MD5 precalculada (conocida como md5sum ) para los archivos, de modo que un usuario pueda comparar la suma de comprobación del archivo descargado con ella. La mayoría de los sistemas operativos basados en Unix incluyen utilidades de suma MD5 en sus paquetes de distribución; los usuarios de Windows pueden utilizar la función PowerShell incluida "Get-FileHash", la función de línea de comandos incluida "certutil -hashfile <filename> md5", [45] [46] instalar una utilidad de Microsoft, [47] [48] o utilizar aplicaciones de terceros. Las ROM de Android también utilizan este tipo de suma de comprobación.
Como es fácil generar colisiones MD5, es posible que la persona que creó el archivo cree un segundo archivo con la misma suma de comprobación, por lo que esta técnica no puede proteger contra algunas formas de manipulación maliciosa. En algunos casos, no se puede confiar en la suma de comprobación (por ejemplo, si se obtuvo a través del mismo canal que el archivo descargado), en cuyo caso MD5 solo puede proporcionar una función de comprobación de errores: reconocerá una descarga corrupta o incompleta, lo que es más probable cuando se descargan archivos de gran tamaño.
Históricamente, MD5 se ha utilizado para almacenar un hash unidireccional de una contraseña , a menudo con estiramiento de clave . [49] [50] NIST no incluye MD5 en su lista de hashes recomendados para el almacenamiento de contraseñas. [51]
El método MD5 también se utiliza en el campo del descubrimiento electrónico para proporcionar un identificador único para cada documento que se intercambia durante el proceso de descubrimiento legal. Este método se puede utilizar para reemplazar el sistema de numeración de sellos Bates que se ha utilizado durante décadas durante el intercambio de documentos en papel. Como se mencionó anteriormente, se debe desaconsejar este uso debido a la facilidad de los ataques por colisión.
MD5 procesa un mensaje de longitud variable y lo convierte en una salida de longitud fija de 128 bits. El mensaje de entrada se divide en fragmentos de bloques de 512 bits (dieciséis palabras de 32 bits); el mensaje se rellena de modo que su longitud sea divisible por 512. El relleno funciona de la siguiente manera: primero, se añade un solo bit, 1, al final del mensaje. A esto le siguen tantos ceros como sean necesarios para llevar la longitud del mensaje a 64 bits menos que un múltiplo de 512. Los bits restantes se rellenan con 64 bits que representan la longitud del mensaje original, módulo 2 64 .
El algoritmo principal MD5 opera sobre un estado de 128 bits, dividido en cuatro palabras de 32 bits, denominadas A , B , C y D. Estas se inicializan con ciertas constantes fijas. El algoritmo principal utiliza entonces cada bloque de mensaje de 512 bits a su vez para modificar el estado. El procesamiento de un bloque de mensaje consta de cuatro etapas similares, denominadas rondas ; cada ronda se compone de 16 operaciones similares basadas en una función no lineal F , adición modular y rotación a la izquierda. La figura 1 ilustra una operación dentro de una ronda. Hay cuatro funciones posibles; se utiliza una diferente en cada ronda:
denotan las operaciones XOR , AND , OR y NOT respectivamente.
El hash MD5 se calcula según este algoritmo. [52] Todos los valores están en little-endian .
// : Todas las variables son de 32 bits sin signo y se ajustan módulo 2^32 al calcular var int s[64], K[64] var int i// s especifica las cantidades de turnos por rondas[ 0..15] := { 7, 12, 17, 22, 7, 12, 17, 22, 7, 12, 17, 22, 7, 12, 17, 22 }s[16..31] := { 5, 9, 14, 20, 5, 9, 14, 20, 5, 9, 14, 20, 5, 9, 14, 20 }s[32..47] := { 4, 11, 16, 23, 4, 11, 16, 23, 4, 11, 16, 23, 4, 11, 16, 23 }s[48..63] := { 6, 10, 15, 21, 6, 10, 15, 21, 6, 10, 15, 21, 6, 10, 15, 21 }// Utilice la parte entera binaria de los senos de los números enteros (radianes) como constantes: para i de 0 a 63 haga K[i] := floor(2 32 × abs(sin(i + 1))) fin para // (O simplemente use la siguiente tabla precalculada):K[0..3] := {0xd76aa478, 0xe8c7b756, 0x242070db, 0xc1bdceee}K[4..7] := {0xf57c0faf, 0x4787c62a, 0xa8304613, 0xfd469501}K[8..11] := { 0x698098d8, 0x8b44f7af, 0xffff5bb1, 0x895cd7be }K[12..15] := { 0x6b901122, 0xfd987193, 0xa679438e, 0x49b40821 }K[16..19] := { 0xf61e2562, 0xc040b340, 0x265e5a51, 0xe9b6c7aa }K[20..23] := { 0xd62f105d, 0x02441453, 0xd8a1e681, 0xe7d3fbc8 }K[24..27] := { 0x21e1cde6, 0xc33707d6, 0xf4d50d87, 0x455a14ed }K[28..31] := { 0xa9e3e905, 0xfcefa3f8, 0x676f02d9, 0x8d2a4c8a }K[32..35] := { 0xfffa3942, 0x8771f681, 0x6d9d6122, 0xfde5380c }K[36..39] := { 0xa4beea44, 0x4bdecfa9, 0xf6bb4b60, 0xbebfbc70 }K[40..43] := { 0x289b7ec6, 0xeaa127fa, 0xd4ef3085, 0x04881d05 }K[44..47] := { 0xd9d4d039, 0xe6db99e5, 0x1fa27cf8, 0xc4ac5665 }K[48..51] := { 0xf4292244, 0x432aff97, 0xab9423a7, 0xfc93a039 }K[52..55] := { 0x655b59c3, 0x8f0ccc92, 0xffeff47d, 0x85845dd1 }K[56..59] := { 0x6fa87e4f, 0xfe2ce6e0, 0xa3014314, 0x4e0811a1 }K[60..63] := { 0xf7537e82, 0xbd3af235, 0x2ad7d2bb, 0xeb86d391 }// Inicializar variables: var int a0 := 0x67452301 // A var int b0 := 0xefcdab89 // B var int c0 := 0x98badcfe // C var int d0 := 0x10325476 // D// Preprocesamiento: agregar un solo bit "1" al mensaje // Aviso: los bytes de entrada se consideran cadenas de bits, // donde el primer bit es el bit más significativo del byte. [53]// Preprocesamiento: relleno con ceros , agregando el bit "0" hasta que la longitud del mensaje en bits ≡ 448 (mod 512)// Nota: los dos pasos de relleno anteriores se implementan de una manera más sencilla // en implementaciones que solo funcionan con bytes completos: agregar 0x80 // y rellenar con 0x00 bytes para que la longitud del mensaje en bytes ≡ 56 (mod 64).Añade la longitud original en bits mod 2 64 al mensaje// Procesar el mensaje en fragmentos sucesivos de 512 bits: para cada fragmento de 512 bits del mensaje rellenado, haga lo siguiente: dividir el fragmento en dieciséis palabras de 32 bits M[j], 0 ≤ j ≤ 15 // Inicializar el valor hash para este fragmento: var int A := a0 var int B := b0 var int C := c0 var int D := d0 // Bucle principal: para i de 0 a 63 , hacer var int F, g si 0 ≤ i ≤ 15, entonces F := (B y C) o (( no B) y D) yo de lo contrario, si 16 ≤ i ≤ 31 , entonces F := (D y B) o (( no D) y C) g := (5×i + 1) mod 16 de lo contrario si 32 ≤ i ≤ 47 entonces F := B xor C xor D g := (3×i + 5) mod 16 de lo contrario si 48 ≤ i ≤ 63 entonces F := C xor (B o ( no D)) g := (7×i) mod 16 // Tenga cuidado con las siguientes definiciones de a,b,c,d F := F + A + K[i] + M[g] // M[g] debe ser un bloque de 32 bits A := D D := C C := B B := B + leftrotate (F, s[i]) fin para // Agrega el hash de este fragmento al resultado hasta ahora: a0 := a0 + A b0 := b0 + B c0 := c0 + C d0 := d0 + Dfin paravar char digest[16] := a0 append b0 append c0 append d0 // (La salida está en little-endian)
En lugar de la formulación del RFC 1321 original que se muestra, se puede utilizar lo siguiente para mejorar la eficiencia (es útil si se utiliza lenguaje ensamblador; de lo contrario, el compilador generalmente optimizará el código anterior. Dado que cada cálculo depende de otro en estas formulaciones, esto suele ser más lento que el método anterior, donde el nand/and se puede paralelizar):
( 0 ≤ i ≤ 15): F := D xor (B y ( C xor D))(16 ≤ i ≤ 31): F := C xor (D y (B xor C))
Los hashes MD5 de 128 bits (16 bytes) (también denominados resúmenes de mensajes ) se representan normalmente como una secuencia de 32 dígitos hexadecimales . A continuación se muestra una entrada ASCII de 43 bytes y el hash MD5 correspondiente:
MD5(" El rápido zorro marrón salta sobre el perro perezoso ") =9e107d9d372bb6826bd81d3542a419d6
Incluso un pequeño cambio en el mensaje dará como resultado (con una probabilidad abrumadora) un hash prácticamente distinto, debido al efecto avalancha . Por ejemplo, añadir un punto al final de la frase:
MD5(" El rápido zorro marrón salta sobre el perro perezoso . ") =e4d909c290d0fb1ca068ffaddf22cbd0
El hash de la cadena de longitud cero es:
MD5("") =d41d8cd98f00b204e9800998ecf8427e
El algoritmo MD5 se especifica para mensajes que constan de cualquier número de bits; no está limitado a múltiplos de ocho bits ( octetos , bytes ). Algunas implementaciones de MD5, como md5sum , pueden estar limitadas a octetos o pueden no admitir la transmisión de mensajes de una longitud inicialmente indeterminada.
A continuación se muestra una lista de bibliotecas de criptografía que admiten MD5:
El ataque presentado aún no amenaza las aplicaciones prácticas de MD5, pero se acerca bastante. .... [
sic
] en el futuro, MD5 ya no debería implementarse... [
sic
] donde se requiera una función hash resistente a colisiones.
[ enlace muerto permanente ]