Un dígito de control es una forma de verificación de redundancia que se utiliza para detectar errores en números de identificación, como números de cuentas bancarias, que se utilizan en una aplicación en la que, al menos algunas veces, se ingresarán manualmente. Es análogo a un bit de paridad binario que se utiliza para verificar errores en datos generados por computadora. Consiste en uno o más dígitos (o letras) calculados por un algoritmo a partir de los otros dígitos (o letras) en la secuencia ingresada. [1]
Con un dígito de verificación, se pueden detectar errores simples en la entrada de una serie de caracteres (normalmente dígitos), como un solo dígito mal escrito o algunas permutaciones de dos dígitos sucesivos.
Los algoritmos de dígitos de control están diseñados generalmente para detectar errores de transcripción humanos . En orden de complejidad, estos incluyen los siguientes: [2]
Al elegir un sistema, se compensa la alta probabilidad de detectar errores con la dificultad de implementación; los sistemas de dígitos de control simples son fáciles de entender e implementar por los humanos, pero no detectan tantos errores como los complejos, que requieren programas sofisticados para su implementación.
Una característica deseable es que el relleno izquierdo con ceros no debe cambiar el dígito de control. Esto permite utilizar números de longitud variable y cambiar la longitud. Si se agrega un solo dígito de control al número original, el sistema no siempre detectará múltiples errores, como dos errores de reemplazo (12 → 34), aunque, por lo general, los errores dobles se detectarán el 90 % de las veces (ambos cambios necesitarían cambiar la salida compensando las cantidades).
Un método de dígito de verificación muy simple sería tomar la suma de todos los dígitos ( suma digital ) módulo 10. Esto detectaría cualquier error de un solo dígito, ya que dicho error siempre cambiaría la suma, pero no detecta ningún error de transposición (cambio de dos dígitos) ya que reordenar no cambia la suma.
Un método un poco más complejo es tomar la suma ponderada de los dígitos, módulo 10, con diferentes pesos para cada posición numérica.
Para ilustrar esto, por ejemplo, si los pesos de un número de cuatro dígitos fueran 5, 3, 2, 7 y el número a codificar fuera 4871, entonces se tomaría 5×4 + 3×8 + 2×7 + 7×1 = 65, es decir, 65 módulo 10, y el dígito de control sería 5, dando 48715.
Los sistemas con pesos de 1, 3, 7 o 9, con pesos de números vecinos diferentes, son ampliamente utilizados: por ejemplo, pesos 31 31 en códigos UPC , pesos 13 13 en números EAN (algoritmo GS1) y los pesos 371 371 371 utilizados en números de tránsito de ruta bancaria de Estados Unidos . Este sistema detecta todos los errores de un solo dígito y alrededor del 90% [ cita requerida ] de los errores de transposición. 1, 3, 7 y 9 se utilizan porque son coprimos con 10, por lo que cambiar cualquier dígito cambia el dígito de control; usar un coeficiente que sea divisible por 2 o 5 perdería información (porque 5 × 0 = 5 × 2 = 5 × 4 = 5 × 6 = 5 × 8 = 0 módulo 10) y, por lo tanto, no detectaría algunos errores de un solo dígito. El uso de diferentes pesos en números vecinos significa que la mayoría de las transposiciones cambian el dígito de control; Sin embargo, como todos los pesos difieren en un número par, esto no captura las transposiciones de dos dígitos que difieren en 5 (0 y 5, 1 y 6, 2 y 7, 3 y 8, 4 y 9), ya que 2 y 5 se multiplican para dar 10.
El código ISBN-10 utiliza en cambio el módulo 11, que es primo, y todas las posiciones numéricas tienen pesos diferentes: 1, 2, ... 10. Este sistema detecta así todos los errores de sustitución y transposición de un solo dígito (incluidas las transposiciones de salto), pero a costa de que el dígito de control sea posiblemente el 10, representado por "X". (Una alternativa es simplemente evitar el uso de los números de serie que dan como resultado un dígito de control "X"). El ISBN-13 utiliza en cambio el algoritmo GS1 utilizado en los números EAN.
Los algoritmos más complicados incluyen el algoritmo de Luhn (1954), que captura el 98% de los errores de transposición de un solo dígito (no detecta 90 ↔ 09) y el algoritmo de Verhoeff (1969), aún más sofisticado, que captura todos los errores de sustitución y transposición de un solo dígito, y muchos errores más complejos (pero no todos). Similar es otro método basado en álgebra abstracta , el algoritmo de Damm (2004), que también detecta todos los errores de un solo dígito y todos los errores de transposición adyacentes. Estos tres métodos utilizan un solo dígito de control y, por lo tanto, no podrán capturar alrededor del 10% [ cita requerida ] de los errores más complejos. Para reducir esta tasa de fallas, es necesario utilizar más de un dígito de control (por ejemplo, la verificación de módulo 97 a la que se hace referencia a continuación, que utiliza dos dígitos de control; para el algoritmo, consulte Número de cuenta bancaria internacional ) y/o utilizar un rango más amplio de caracteres en el dígito de control, por ejemplo letras más números.
El dígito final de un Código de Producto Universal , Número de Artículo Internacional , Número de Ubicación Global o Número de Artículo Comercial Global es un dígito de verificación calculado de la siguiente manera: [3] [4]
En el sitio web de GS1 se puede encontrar una calculadora de dígitos de control GS1 y documentación detallada. [5] Otra página de calculadora oficial muestra que el mecanismo para GTIN-13 es el mismo que para el Número de ubicación global /GLN. [6]
Por ejemplo, el código de barras UPC-A de una caja de pañuelos es "036000241457". El último dígito es el dígito de control "7" y, si los demás números son correctos, el cálculo del dígito de control debe dar como resultado 7.
Otro ejemplo: calcular el dígito de control para el siguiente alimento "01010101010 x ".
El carácter final de un Número Estándar Internacional de Libro de diez dígitos es un dígito de control calculado de modo que al multiplicar cada dígito por su posición en el número (contando desde la derecha) y tomar la suma de estos productos módulo 11 es 0. El dígito más a la derecha (que se multiplica por 1) es el dígito de control, elegido para que la suma sea correcta. Es posible que deba tener el valor 10, que se representa como la letra X. Por ejemplo, tomemos el ISBN 0-201-53082-1 : La suma de los productos es 0×10 + 2×9 + 0×8 + 1×7 + 5×6 + 3×5 + 0×4 + 8×3 + 2×2 + 1×1 = 99 ≡ 0 (mod 11). Por lo tanto, el ISBN es válido. Las posiciones también se pueden contar desde la izquierda, en cuyo caso el dígito de control se multiplica por 10, para comprobar la validez: 0×1 + 2×2 + 0×3 + 1×4 + 5×5 + 3×6 + 0×7 + 8×8 + 2×9 + 1×10 = 143 ≡ 0 (mod 11).
El ISBN 13 (en uso desde enero de 2007) es el mismo que el código EAN-13 que se encuentra debajo del código de barras de un libro. Su dígito de control se genera de la misma manera que el UPC. [7]
El algoritmo de dígitos de control NOID (NCDA), [8] en uso desde 2004, está diseñado para su aplicación en identificadores persistentes y funciona con cadenas de letras y dígitos de longitud variable, llamadas dígitos extendidos. Se usa ampliamente con el esquema de identificadores ARK y algo con esquemas como Handle System y DOI . Un dígito extendido está restringido a caracteres betanuméricos, que son alfanuméricos menos vocales y la letra 'l' (ell). Esta restricción ayuda a la hora de generar cadenas opacas que es poco probable que formen palabras por accidente y que no contendrán tanto O como 0, o l y 1. Al tener un radix primo de R=29, el repertorio betanumérico permite que el algoritmo garantice la detección de errores de un solo carácter y de transposición [9] para cadenas de menos de R=29 caracteres de longitud (más allá de los cuales proporciona una verificación ligeramente más débil). El algoritmo se generaliza a cualquier repertorio de caracteres con un radix primo R y cadenas de menos de R caracteres de longitud.
Los algoritmos notables incluyen: