Lista de palabras PGP

La lista de palabras PGP (" lista de palabras Pretty Good Privacy ", también llamada lista de palabras biométricas por las razones que se explican a continuación) es una lista de palabras para transmitir bytes de datos de una manera clara e inequívoca a través de un canal de voz. Su propósito es análogo al del alfabeto fonético de la OTAN , excepto que se utiliza una lista más larga de palabras, cada palabra corresponde a uno de los 256 valores de bytes numéricos distintos.

Historia y estructura

La lista de palabras PGP fue diseñada en 1995 por Patrick Juola , un lingüista computacional , y Philip Zimmermann , creador de PGP . ^[1]^[2] Las palabras fueron cuidadosamente elegidas por su distinción fonética , utilizando algoritmos genéticos para seleccionar listas de palabras que tenían separaciones óptimas en el espacio de fonemas . Las listas de palabras candidatas se extrajeron aleatoriamente de la lista Moby Pronunciator de Grady Ward como materia prima para la búsqueda, refinadas sucesivamente por los algoritmos genéticos. La búsqueda automatizada convergió a una solución optimizada en aproximadamente 40 horas en un DEC Alpha , una máquina particularmente rápida en esa época.

La lista Zimmermann–Juola fue diseñada originalmente para ser utilizada en PGPfone , una aplicación de VoIP segura, para permitir que las dos partes compararan verbalmente una cadena de autenticación corta para detectar un ataque de intermediario (MiTM). Se llamó lista de palabras biométricas porque la autenticación dependía de que los dos usuarios humanos reconocieran las voces distintivas del otro mientras leían y comparaban las palabras a través del canal de voz, vinculando la identidad del hablante con las palabras, lo que ayudó a protegerse contra el ataque MiTM. La lista se puede utilizar en muchas otras situaciones en las que no se necesita una vinculación biométrica de la identidad, por lo que llamarla lista de palabras biométricas puede ser impreciso. Más tarde, se utilizó en PGP para comparar y verificar las huellas digitales de claves públicas de PGP a través de un canal de voz. Esto se conoce en las aplicaciones de PGP como la representación "biométrica". Cuando se aplicó a PGP, la lista de palabras se perfeccionó aún más, con contribuciones de Jon Callas . Más recientemente, se ha utilizado en Zfone y el protocolo ZRTP , el sucesor de PGPfone.

La lista está compuesta en realidad por dos listas, cada una de las cuales contiene 256 palabras fonéticamente distintas, en las que cada palabra representa un valor de byte diferente entre 0 y 255. Se utilizan dos listas porque leer en voz alta secuencias largas y aleatorias de palabras humanas suele conllevar tres tipos de errores: 1) transposición de dos palabras consecutivas, 2) palabras duplicadas o 3) palabras omitidas. Para detectar los tres tipos de errores, las dos listas se utilizan alternativamente para los bytes con desplazamiento par y los bytes con desplazamiento impar en la secuencia de bytes. Cada valor de byte está representado en realidad por dos palabras diferentes, dependiendo de si ese byte aparece en un desplazamiento par o impar desde el principio de la secuencia de bytes. Las dos listas se distinguen fácilmente por el número de sílabas ; la lista par tiene palabras de dos sílabas, la lista impar tiene tres. Las dos listas tienen una longitud máxima de palabra de 9 y 11 letras, respectivamente. El uso de un esquema de dos listas fue sugerido por Zhahai Stewart.

Listas de palabras

Aquí están las dos listas de palabras tal como se presentan en el Manual del propietario de PGPfone. ^[3]

Ejemplos

Cada byte de una cadena de bytes se codifica como una sola palabra. Una secuencia de bytes se representa en orden de bytes de red , de izquierda a derecha. Por ejemplo, el byte más a la izquierda (es decir, el byte 0) se considera "par" y se codifica utilizando la tabla de palabras pares de PGP. El byte siguiente a la derecha (es decir, el byte 1) se considera "impar" y se codifica utilizando la tabla de palabras impares de PGP. Este proceso se repite hasta que se codifican todos los bytes. Por lo tanto, "E582" produce "Estambul en la cima", mientras que "82E5" produce "parodia del avaro".

Una huella digital de clave pública PGP que se muestra en hexadecimal como

E582 94F2 E9A2 2748 6E8B

061B 31CC 528F D7FA 3F19

se mostraría en palabras PGP (la huella digital "biométrica") como

topmost Istanbul Pluto vagabond treadmill Pacific brackish dictator goldfish Medusa

afflict bravado chatter revolver Dupont midsummer stopwatch whimsical cowbell bottomless

El orden de los bytes en una cadena de bytes depende del orden de bytes .

Otras listas de palabras para datos

Existen otras listas de palabras para transmitir datos de forma clara e inequívoca a través de un canal de voz:

El alfabeto fonético de la OTAN asigna letras y dígitos individuales a palabras individuales.
El sistema S/KEY asigna números de 64 bits a 6 palabras cortas de 1 a 4 caracteres cada una de un diccionario de 2048 palabras de acceso público. El mismo diccionario se utiliza en RFC 1760 y RFC 2289.
El sistema Diceware asigna cinco dígitos aleatorios de base 6 (casi 13 bits de entropía) a una palabra de un diccionario de 7.776 palabras distintas.
- La Electronic Frontier Foundation ha publicado un conjunto de listas de palabras mejoradas basadas en el mismo concepto ^[4]
FIPS 181: El generador automático de contraseñas convierte números aleatorios en "palabras" relativamente pronunciables.
La codificación mnemotécnica convierte 32 bits de datos en 3 palabras de un vocabulario de 1626 palabras. ^[5]
what3words codifica coordenadas geográficas en 3 palabras del diccionario.
El estándar BIP39 permite codificar una clave criptográfica de tamaño fijo (128 o 256 bits, generalmente la clave maestra sin cifrar de un monedero de criptomonedas ) en una secuencia corta de palabras legibles conocida como frase semilla , con el fin de almacenar la clave fuera de línea. Esto se utiliza en criptomonedas como Bitcoin o Monero .
Al igual que la lista de palabras PGP, el estándar Bytewords asigna cada byte posible a una palabra. Solo hay una lista, en lugar de dos. Las palabras tienen una longitud uniforme de cuatro letras y se pueden identificar de forma única por su primera y última letra.

Referencias

Este artículo incorpora material protegido por derechos de autor de PGP Corporation y se encuentra bajo la Licencia de Documentación Libre de GNU. (por Jon Callas, CTO, CSO PGP Corporation, 4 de enero de 2007)

^ Juola, Patrick; Zimmermann, Philip (1996). "Distancias fonéticas de palabras completas y el alfabeto PGPfone" (PDF) . Actas de la Cuarta Conferencia Internacional sobre Procesamiento del Lenguaje Hablado. ICSLP '96 . Vol. 1. págs. 98-101. doi :10.1109/ICSLP.1996.607046. ISBN . 0-7803-3555-4.S2CID10385500 .
^ Juola, Patrick (1996). "Métricas de confusión de palabras aisladas y el alfabeto PGPfone". Actas de New Methods in Language Processing 2. Ankara, Turquía: Universidad de Oxford, Departamento de Psicología Experimental. arXiv : cmp-lg/9608021 . Código Bibliográfico :1996cmp.lg....8021J.
^ "Copia archivada". web.mit.edu . Archivado desde el original el 26 de marzo de 2010 . Consultado el 12 de enero de 2022 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )
^ "Nuevas listas de palabras de la EFF para contraseñas aleatorias". 19 de julio de 2016.
^ codificación mnemotécnica Archivado el 2 de marzo de 2008 en Wayback Machine y código actualizado