Además, según crece este primer dígito, menos probable es que se encuentre en la primera posición.
[2] En 1881 el astrónomo y matemático Simon Newcomb observó que las primeras páginas de las tablas de logaritmos estaban manifiestamente más usadas que las finales.
Dedujo que aparentemente los dígitos iniciales de los números (al menos los utilizados en su trabajo por quienes habían consultado las tablas) no son equiprobables, sino que el 1 aparece como dígito inicial más frecuente, seguido del 2, 3, etc. hasta el 9 que es el menos frecuente.
Sin embargo, no presentó evidencia estadística para esta distribución de los dígitos.
Diremos que un conjunto de números cumple la ley de Benford si, al escribirlo en notación decimal, la primera cifra significativa es d con probabilidad
Con primera cifra significativa nos referimos al primer dígito (el más a la izquierda) distinto de 0.
De un modo similar se puede enunciar una ley para las tres primeras cifras, para las cuatro primeras cifras, etc. Para el caso de una sucesión
, se dice que es Benford si cumple con las probabilidades antes descritas a largo plazo, es decir, si
Esto en particular incluye a las sucesiones del tipo
Esto significa que si tomamos un conjunto de datos que cumple con la ley de Benford y los multiplicamos a todos por una constante k, los números resultantes siguen verificando la ley.
[4] Para saber cuál es el primer dígito de un número n, lo que se hace es dividir a n entre 10k-1 (donde k es el número de cifras que tiene n) y observar en cuál de los intervalos [1,2), [2,3), ..., [9,10) cae ese resultado.
Se puede pensar en el resultado de esa división como una variable aleatoria con dominio [1,10).
Una propiedad que caracteriza a la ley de Benford es la siguiente: una variable aleatoria X con recorrido [1,10) sigue la ley de Benford si y solo si
Por ejemplo, si se mide la longitud de todos los ríos y arroyos del mundo, la frecuencia de aparición del primer dígito no debería ser distinta si se mide en metros, yardas, pies u otra medida de longitud.
Como la única distribución que cumple con ser invariante respecto al cambio de escala, parecería lógico que sea la ley seguida por estos datos.
Pero de 10 a 19 solo se tiene como primera cifra el 1, y solo cuando se llega al 99 todas las cifras tendrán la misma probabilidad de nuevo.
Los tipos de muestras que lo cumplen pueden tener orígenes muy diferentes.
En general para datos ordinales que en algún momento se acaban (números de casas), la distribución ya es exponencial.
Por supuesto, existen listas que no cumplen dicha ley, pero parece ser que si se toman términos al azar de varias listas que no cumplan el criterio de Benford en número suficiente para formar otra lista heterogénea, esta si tiende a cumplirla, dada una longitud suficiente.
Mark Nigrini en su tesis doctoral (1992) da una idea de cómo utilizar la ley de Benford para encontrar engaños en las declaraciones al fisco.
[6] Aplicaciones similares han sido realizadas para estudiar otras variables económicas.
[9][10] Otras aplicaciones han sido propuestas en diversas áreas, incluyendo genética[11] y fraudes en elecciones[12] (aunque la utilidad en este caso fue cuestionada).