La ley de Benford , también conocida como ley de Newcomb-Benford , ley de números anómalos o ley del primer dígito , es una observación que indica que en muchos conjuntos de datos numéricos de la vida real , es probable que el dígito principal sea pequeño. [1] En los conjuntos que obedecen la ley, el número 1 aparece como el dígito significativo principal aproximadamente el 30 % del tiempo, mientras que el 9 aparece como el dígito significativo principal menos del 5 % del tiempo. Los dígitos distribuidos uniformemente aparecerían cada uno aproximadamente el 11,1 % del tiempo. [2] La ley de Benford también hace predicciones sobre la distribución de segundos dígitos, terceros dígitos, combinaciones de dígitos, etc.
El gráfico de la derecha muestra la ley de Benford para la base 10 , uno de los infinitos casos de una ley generalizada con respecto a los números expresados en bases arbitrarias (enteras), que descarta la posibilidad de que el fenómeno pueda ser un artefacto del sistema numérico de base 10. Otras generalizaciones publicadas en 1995 [3] incluyeron afirmaciones análogas tanto para el n -ésimo dígito principal como para la distribución conjunta de los n dígitos principales, lo que lleva a un corolario en el que se demuestra que los dígitos significativos son una cantidad estadísticamente dependiente .
Se ha demostrado que este resultado se aplica a una amplia variedad de conjuntos de datos, incluidas facturas de electricidad, direcciones de calles, precios de acciones, precios de viviendas, números de población, tasas de mortalidad, longitudes de ríos y constantes físicas y matemáticas . [4] Al igual que otros principios generales sobre datos naturales (por ejemplo, el hecho de que muchos conjuntos de datos se aproximan bien mediante una distribución normal ), existen ejemplos ilustrativos y explicaciones que cubren muchos de los casos en los que se aplica la ley de Benford, aunque hay muchos otros casos en los que se aplica la ley de Benford que resisten explicaciones simples. [5] [6] La ley de Benford tiende a ser más precisa cuando los valores se distribuyen en múltiples órdenes de magnitud , especialmente si el proceso que genera los números se describe mediante una ley de potencia (que es común en la naturaleza).
La ley recibe su nombre del físico Frank Benford , quien la enunció en 1938 en un artículo titulado "La ley de los números anómalos", [7] aunque ya había sido enunciada previamente por Simon Newcomb en 1881. [8] [9]
La ley es similar en concepto, aunque no idéntica en distribución, a la ley de Zipf .
Se dice que un conjunto de números satisface la ley de Benford si el dígito principal d ( d ∈ {1, ..., 9} ) aparece con probabilidad [10]
Los dígitos principales de dicho conjunto tienen la siguiente distribución:
La cantidad es proporcional al espacio entre d y d + 1 en una escala logarítmica . Por lo tanto, esta es la distribución esperada si los logaritmos de los números (pero no los números en sí) se distribuyen de manera uniforme y aleatoria .
Por ejemplo, un número x , restringido a estar entre 1 y 10, comienza con el dígito 1 si 1 ≤ x < 2 , y comienza con el dígito 9 si 9 ≤ x < 10 . Por lo tanto, x comienza con el dígito 1 si log 1 ≤ log x < log 2 , o comienza con 9 si log 9 ≤ log x < log 10 . El intervalo [log 1, log 2] es mucho más amplio que el intervalo [log 9, log 10] (0,30 y 0,05 respectivamente); por lo tanto, si log x se distribuye de manera uniforme y aleatoria, es mucho más probable que caiga en el intervalo más amplio que en el intervalo más estrecho, es decir, es más probable que comience con 1 que con 9; las probabilidades son proporcionales a los anchos de los intervalos, lo que da la ecuación anterior (así como la generalización a otras bases además del decimal).
La ley de Benford a veces se enuncia de forma más contundente, afirmando que la parte fraccionaria del logaritmo de los datos suele estar distribuida de manera casi uniforme entre 0 y 1; de aquí se puede derivar la afirmación principal sobre la distribución de los primeros dígitos. [5]
Una extensión de la ley de Benford predice la distribución de los primeros dígitos en otras bases además de la decimal ; de hecho, cualquier base b ≥ 2 . La forma general es [12]
Para los sistemas numéricos b = 2, 1 ( binario y unario ), la ley de Benford es verdadera pero trivial: todos los números binarios y unarios (excepto el 0 o el conjunto vacío) comienzan con el dígito 1. (Por otro lado, la generalización de la ley de Benford al segundo dígito y posteriores no es trivial, incluso para números binarios. [13] )
Un examen de una lista de las alturas de las 58 estructuras más altas del mundo por categoría muestra que 1 es, por lejos, el dígito principal más común, independientemente de la unidad de medida (véase "invariancia de escala" a continuación):
Otro ejemplo es el dígito principal de 2 n . La secuencia de los primeros 96 dígitos principales (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1, ... (secuencia A008952 en la OEIS )) muestra una mayor adherencia a la ley de Benford de lo que se espera para secuencias aleatorias de la misma longitud, porque se deriva de una secuencia geométrica. [14]
El descubrimiento de la ley de Benford se remonta a 1881, cuando el astrónomo canadiense-estadounidense Simon Newcomb se dio cuenta de que en las tablas de logaritmos las páginas anteriores (que empezaban con 1) estaban mucho más desgastadas que las demás páginas. [8] El resultado publicado por Newcomb es el primer ejemplo conocido de esta observación e incluye también una distribución en el segundo dígito. Newcomb propuso una ley según la cual la probabilidad de que un único número N sea el primer dígito de un número era igual a log( N + 1) − log( N ).
El fenómeno fue observado nuevamente en 1938 por el físico Frank Benford , [7] quien lo probó en datos de 20 dominios diferentes y se le atribuyó el mérito. Su conjunto de datos incluía las áreas de superficie de 335 ríos, los tamaños de 3259 poblaciones de EE. UU., 104 constantes físicas , 1800 pesos moleculares , 5000 entradas de un manual matemático, 308 números contenidos en un número de Reader's Digest , las direcciones de las primeras 342 personas enumeradas en American Men of Science y 418 tasas de mortalidad. El número total de observaciones utilizadas en el artículo fue de 20 229. Este descubrimiento recibió más tarde el nombre de Benford (lo que lo convierte en un ejemplo de la ley de Stigler ).
En 1995, Ted Hill demostró el resultado sobre distribuciones mixtas que se menciona a continuación. [15] [16]
La ley de Benford tiende a aplicarse con mayor precisión a datos que abarcan varios órdenes de magnitud . Como regla general, cuanto más órdenes de magnitud cubran los datos de manera uniforme, con mayor precisión se aplicará la ley de Benford. Por ejemplo, se puede esperar que la ley de Benford se aplique a una lista de números que representan las poblaciones de los asentamientos del Reino Unido. Pero si un "asentamiento" se define como un pueblo con una población entre 300 y 999, entonces la ley de Benford no se aplicará. [17] [18]
Consideremos las distribuciones de probabilidad que se muestran a continuación, referenciadas a una escala logarítmica . En cada caso, el área total en rojo es la probabilidad relativa de que el primer dígito sea 1, y el área total en azul es la probabilidad relativa de que el primer dígito sea 8. Para la primera distribución, el tamaño de las áreas de rojo y azul son aproximadamente proporcionales a los anchos de cada barra roja y azul. Por lo tanto, los números extraídos de esta distribución seguirán aproximadamente la ley de Benford. Por otro lado, para la segunda distribución, la relación de las áreas de rojo y azul es muy diferente de la relación de los anchos de cada barra roja y azul. Más bien, las áreas relativas de rojo y azul están determinadas más por las alturas de las barras que por los anchos. En consecuencia, los primeros dígitos de esta distribución no satisfacen en absoluto la ley de Benford. [18]
Por lo tanto, es probable que las distribuciones del mundo real que abarcan varios órdenes de magnitud de manera bastante uniforme (por ejemplo, los precios de la bolsa y las poblaciones de pueblos, ciudades y aldeas) satisfagan la ley de Benford con mucha precisión. Por otro lado, es poco probable que una distribución que se encuentre mayoritariamente o totalmente dentro de un orden de magnitud (por ejemplo, los puntajes de CI o las alturas de los adultos humanos) satisfaga la ley de Benford con mucha precisión, si es que lo hace. [17] [18] Sin embargo, la diferencia entre regímenes aplicables e inaplicables no es un límite nítido: a medida que la distribución se estrecha, las desviaciones de la ley de Benford aumentan gradualmente.
(Esta discusión no es una explicación completa de la ley de Benford, porque no ha explicado por qué se encuentran tan a menudo conjuntos de datos que, cuando se representan gráficamente como una distribución de probabilidad del logaritmo de la variable, son relativamente uniformes en varios órdenes de magnitud. [19] )
En 1970, Wolfgang Krieger demostró lo que ahora se denomina el teorema del generador de Krieger. [20] [21] El teorema del generador de Krieger podría considerarse como una justificación de la suposición del modelo de caja y bola de Kafri de que, en una base dada con un número fijo de dígitos 0, 1, ..., n , ..., , el dígito n es equivalente a una caja de Kafri que contiene n bolas que no interactúan. Otros científicos y estadísticos han sugerido explicaciones relacionadas con la entropía [ ¿cuáles? ] para la ley de Benford. [22] [23] [10] [24]
Muchos ejemplos del mundo real de la ley de Benford surgen de fluctuaciones multiplicativas. [25] Por ejemplo, si el precio de una acción comienza en $100 y luego cada día se multiplica por un factor elegido aleatoriamente entre 0,99 y 1,01, entonces durante un período extendido la distribución de probabilidad de su precio satisface la ley de Benford con cada vez mayor precisión.
La razón es que el logaritmo del precio de las acciones está experimentando un paseo aleatorio , por lo que con el tiempo su distribución de probabilidad se volverá cada vez más amplia y suave (ver arriba). [25] (Más técnicamente, el teorema del límite central dice que multiplicar cada vez más variables aleatorias creará una distribución log-normal con una varianza cada vez mayor, por lo que eventualmente cubre muchos órdenes de magnitud casi uniformemente). Para estar seguro de un acuerdo aproximado con la ley de Benford, la distribución tiene que ser aproximadamente invariante cuando se amplía por cualquier factor hasta 10; un conjunto de datos distribuidos log-normalmente con amplia dispersión tendría esta propiedad aproximada.
A diferencia de las fluctuaciones multiplicativas, las fluctuaciones aditivas no conducen a la ley de Benford, sino a distribuciones de probabilidad normales (de nuevo por el teorema del límite central ), que no satisfacen la ley de Benford. Por el contrario, el precio hipotético de las acciones descrito anteriormente se puede escribir como el producto de muchas variables aleatorias (es decir, el factor de cambio de precio para cada día), por lo que es probable que cumpla bastante bien la ley de Benford.
Anton Formann proporcionó una explicación alternativa al dirigir la atención a la interrelación entre la distribución de los dígitos significativos y la distribución de la variable observada . Demostró en un estudio de simulación que las distribuciones de cola derecha larga de una variable aleatoria son compatibles con la ley de Newcomb-Benford, y que para las distribuciones de la razón de dos variables aleatorias el ajuste generalmente mejora. [26] Para los números extraídos de ciertas distribuciones ( puntuaciones de CI , alturas humanas), la ley de Benford no se cumple porque estas variables obedecen a una distribución normal, que se sabe que no satisface la ley de Benford, [9] ya que las distribuciones normales no pueden abarcar varios órdenes de magnitud y el Significando de sus logaritmos no estará (ni siquiera aproximadamente) distribuido de manera uniforme. Sin embargo, si uno "mezcla" números de esas distribuciones, por ejemplo, tomando números de artículos de periódicos, la ley de Benford reaparece. Esto también se puede demostrar matemáticamente: si uno elige repetidamente "al azar" una distribución de probabilidad (de un conjunto no correlacionado) y luego elige aleatoriamente un número de acuerdo con esa distribución, la lista de números resultante obedecerá la ley de Benford. [15] [27] Se ha propuesto una explicación probabilística similar para la aparición de la ley de Benford en los números de la vida cotidiana al demostrar que surge naturalmente cuando se consideran mezclas de distribuciones uniformes. [28]
En una lista de longitudes, la distribución de los primeros dígitos de los números de la lista puede ser generalmente similar independientemente de si todas las longitudes se expresan en metros, yardas, pies, pulgadas, etc. Lo mismo se aplica a las unidades monetarias.
No siempre es así. Por ejemplo, la altura de los adultos casi siempre empieza con 1 o 2 cuando se mide en metros y casi siempre empieza con 4, 5, 6 o 7 cuando se mide en pies. Pero en una lista de longitudes distribuidas uniformemente en muchos órdenes de magnitud (por ejemplo, una lista de 1000 longitudes mencionadas en artículos científicos que incluye las medidas de moléculas, bacterias, plantas y galaxias), es razonable esperar que la distribución de los primeros dígitos sea la misma sin importar si las longitudes se escriben en metros o en pies.
Cuando la distribución de los primeros dígitos de un conjunto de datos es invariante en escala (independiente de las unidades en que se expresan los datos), siempre viene dada por la ley de Benford. [29] [30]
Por ejemplo, el primer dígito (distinto de cero) de la lista de longitudes antes mencionada debería tener la misma distribución independientemente de que la unidad de medida sea pies o yardas. Pero hay tres pies en una yarda, por lo que la probabilidad de que el primer dígito de una longitud en yardas sea 1 debe ser la misma que la probabilidad de que el primer dígito de una longitud en pies sea 3, 4 o 5; de manera similar, la probabilidad de que el primer dígito de una longitud en yardas sea 2 debe ser la misma que la probabilidad de que el primer dígito de una longitud en pies sea 6, 7 u 8. Al aplicar esto a todas las escalas de medición posibles, se obtiene la distribución logarítmica de la ley de Benford.
La ley de Benford para los primeros dígitos es invariante en la base de los sistemas numéricos. Existen condiciones y pruebas de invariancia de la suma, invariancia inversa e invariancia de la suma y la resta. [31] [32]
En 1972, Hal Varian sugirió que la ley podría utilizarse para detectar posibles fraudes en las listas de datos socioeconómicos presentadas en apoyo de las decisiones de planificación pública. Partiendo de la hipótesis plausible de que las personas que inventan cifras tienden a distribuir sus dígitos de manera bastante uniforme, una simple comparación de la distribución de frecuencias del primer dígito de los datos con la distribución esperada según la ley de Benford debería revelar cualquier resultado anómalo. [33]
En los Estados Unidos, se han admitido pruebas basadas en la Ley de Benford en casos penales a nivel federal, estatal y local. [34]
Walter Mebane , politólogo y estadístico de la Universidad de Michigan, fue el primero en aplicar la prueba de la ley de Benford del segundo dígito (prueba 2BL) en la investigación forense electoral . [35] Este análisis se considera un método simple, aunque no infalible, para identificar irregularidades en los resultados electorales. [36] No se ha alcanzado un consenso científico en la literatura para apoyar la aplicabilidad de la ley de Benford a las elecciones. Un estudio de 2011 realizado por los politólogos Joseph Deckert, Mikhail Myagkov y Peter C. Ordeshook argumentó que la ley de Benford es problemática y engañosa como indicador estadístico de fraude electoral. [37] Su método fue criticado por Mebane en una respuesta, aunque estuvo de acuerdo en que hay muchas salvedades para la aplicación de la ley de Benford a los datos electorales. [38]
La ley de Benford se ha utilizado como evidencia de fraude en las elecciones iraníes de 2009. [ 39] Un análisis de Mebane encontró que los segundos dígitos en los recuentos de votos para el presidente Mahmoud Ahmadinejad , el ganador de la elección, tendían a diferir significativamente de las expectativas de la ley de Benford, y que las urnas con muy pocas papeletas inválidas tenían una mayor influencia en los resultados, lo que sugiere un relleno generalizado de las urnas . [40] Otro estudio utilizó simulaciones bootstrap para encontrar que el candidato Mehdi Karroubi recibió casi el doble de recuentos de votos comenzando con el dígito 7 de lo que se esperaría según la ley de Benford, [41] mientras que un análisis de la Universidad de Columbia concluyó que la probabilidad de que una elección justa produzca muy pocos dígitos no adyacentes y las desviaciones sospechosas en las frecuencias del último dígito encontradas en la elección presidencial iraní de 2009 es inferior al 0,5 por ciento. [42] La ley de Benford también se ha aplicado para la auditoría forense y la detección de fraudes en datos de las elecciones para gobernador de California de 2003 , [43] las elecciones presidenciales de los Estados Unidos de 2000 y 2004 , [44] y las elecciones federales alemanas de 2009 ; [45] se encontró que la prueba de la ley de Benford "valía la pena tomarla en serio como una prueba estadística para detectar fraude", aunque "no es sensible a distorsiones que sabemos que afectaron significativamente a muchos votos". [44] [ se necesita más explicación ]
La ley de Benford también se ha aplicado incorrectamente para denunciar fraude electoral. Al aplicar la ley a los resultados electorales de Joe Biden para Chicago , Milwaukee y otras localidades en las elecciones presidenciales de Estados Unidos de 2020 , la distribución del primer dígito no siguió la ley de Benford. La aplicación incorrecta fue el resultado de analizar datos que estaban estrechamente limitados en rango, lo que viola el supuesto inherente a la ley de Benford de que el rango de los datos debe ser grande. La prueba del primer dígito se aplicó a los datos a nivel de distrito, pero debido a que los distritos rara vez reciben más de unos pocos miles de votos o menos de varias docenas, no se puede esperar que se aplique la ley de Benford. Según Mebane, "se entiende ampliamente que los primeros dígitos de los recuentos de votos de los distritos no son útiles para tratar de diagnosticar fraudes electorales". [46] [47]
De manera similar, se demostró que los datos macroeconómicos que el gobierno griego comunicó a la Unión Europea antes de ingresar a la eurozona eran probablemente fraudulentos utilizando la ley de Benford, aunque años después de que el país se uniera. [48] [49]
Los investigadores han utilizado la ley de Benford para detectar patrones de precios psicológicos en un estudio a escala europea sobre los precios de los productos de consumo antes y después de la introducción del euro en 2002. [50] La idea era que, sin precios psicológicos, los dos o tres primeros dígitos del precio de los artículos deberían seguir la ley de Benford. En consecuencia, si la distribución de dígitos se desvía de la ley de Benford (por ejemplo, si hay muchos 9), significa que los comerciantes pueden haber utilizado precios psicológicos.
Cuando el euro sustituyó a las monedas locales en 2002 , durante un breve período de tiempo, el precio de los bienes en euros se convirtió simplemente a partir del precio de los bienes en monedas locales antes de la sustitución. Como es esencialmente imposible utilizar simultáneamente el precio psicológico tanto en los precios en euros como en los precios en moneda local, durante el período de transición, el precio psicológico se vería alterado incluso si solía estar presente. Solo se podrá restablecer una vez que los consumidores se hayan acostumbrado nuevamente a los precios en una moneda única, esta vez en euros.
Como esperaban los investigadores, la distribución del primer dígito del precio siguió la ley de Benford, pero la distribución del segundo y tercer dígito se desvió significativamente de la ley de Benford antes de la introducción, luego se desvió menos durante la introducción y luego se desvió más nuevamente después de la introducción.
El número de marcos de lectura abiertos y su relación con el tamaño del genoma difiere entre eucariotas y procariotas : los primeros muestran una relación log-lineal y los segundos una relación lineal. La ley de Benford se ha utilizado para comprobar esta observación y se ha ajustado perfectamente a los datos en ambos casos. [51]
Una prueba de coeficientes de regresión en artículos publicados mostró que concordaban con la ley de Benford. [52] Como grupo de comparación, se pidió a los sujetos que elaboraran estimaciones estadísticas. Los resultados elaborados se ajustaron a la ley de Benford en los primeros dígitos, pero no a la ley de Benford en los segundos dígitos.
Al comprobar el número de artículos científicos publicados de todos los investigadores registrados en la base de datos nacional de Eslovenia se demostró que se ajustaba firmemente a la ley de Benford. [53] Además, los autores se agruparon por campo científico y las pruebas indican que las ciencias naturales muestran una mayor conformidad que las ciencias sociales.
Aunque la prueba de chi-cuadrado se ha utilizado para comprobar el cumplimiento de la ley de Benford, tiene un poder estadístico bajo cuando se utiliza con muestras pequeñas.
La prueba de Kolmogorov-Smirnov y la prueba de Kuiper son más potentes cuando el tamaño de la muestra es pequeño, en particular cuando se utiliza el factor correctivo de Stephens. [54] Estas pruebas pueden ser excesivamente conservadoras cuando se aplican a distribuciones discretas. Los valores para la prueba de Benford han sido generados por Morrow. [55] Los valores críticos de las estadísticas de prueba se muestran a continuación:
Estos valores críticos proporcionan los valores estadísticos de prueba mínimos necesarios para rechazar la hipótesis de cumplimiento de la ley de Benford en los niveles de significancia dados .
Se han publicado dos pruebas alternativas específicas para esta ley: primero, la estadística máx ( m ) [56] viene dada por
El factor principal no aparece en la fórmula original de Leemis; [56] fue añadido por Morrow en un artículo posterior. [55]
En segundo lugar, la estadística de distancia ( d ) [57] viene dada por
donde FSD es el primer dígito significativo y N es el tamaño de la muestra. Morrow ha determinado los valores críticos para ambas estadísticas, que se muestran a continuación: [55]
Morrow también ha demostrado que para cualquier variable aleatoria X (con una PDF continua ) dividida por su desviación estándar ( σ ), se puede encontrar algún valor A tal que la probabilidad de la distribución del primer dígito significativo de la variable aleatoria diferirá de la ley de Benford en menos de ε > 0. [55] El valor de A depende del valor de ε y de la distribución de la variable aleatoria.
Se ha propuesto un método de detección de fraude contable basado en bootstrap y regresión. [58]
Si el objetivo es llegar a un acuerdo con la ley de Benford en lugar de un desacuerdo, entonces las pruebas de bondad de ajuste mencionadas anteriormente son inadecuadas. En este caso, se deben aplicar las pruebas específicas de equivalencia . Una distribución empírica se considera equivalente a la ley de Benford si una distancia (por ejemplo, la distancia de variación total o la distancia euclidiana habitual) entre las funciones de masa de probabilidad es suficientemente pequeña. Este método de prueba con aplicación a la ley de Benford se describe en Ostrovski. [59]
Algunas sucesiones de números enteros infinitos conocidas satisfacen de manera demostrable la ley de Benford con exactitud (en el límite asintótico a medida que se incluyen más y más términos de la sucesión). Entre ellas se encuentran los números de Fibonacci , [60] [61] los factoriales , [62] las potencias de 2, [63] [14] y las potencias de casi cualquier otro número. [63]
De la misma manera, algunos procesos continuos satisfacen la ley de Benford de manera exacta (en el límite asintótico a medida que el proceso continúa a través del tiempo). Uno de ellos es un proceso de crecimiento o decrecimiento exponencial : si una cantidad aumenta o disminuye exponencialmente en el tiempo, entonces el porcentaje de tiempo que tiene cada primer dígito satisface la ley de Benford de manera asintótica (es decir, aumenta la precisión a medida que el proceso continúa a través del tiempo).
Las raíces cuadradas y recíprocas de números naturales sucesivos no obedecen a esta ley. [64] Los números primos en un rango finito siguen una ley de Benford generalizada, que se acerca a la uniformidad a medida que el tamaño del rango se acerca al infinito. [65] Las listas de números de teléfono locales violan la ley de Benford. [66] La ley de Benford es violada por las poblaciones de todos los lugares con una población de al menos 2500 individuos de cinco estados de EE. UU. según los censos de 1960 y 1970, donde solo el 19 % comenzó con el dígito 1, pero el 20 % comenzó con el dígito 2, porque el truncamiento en 2500 introduce sesgo estadístico. [64] Los dígitos terminales en los informes de patología violan la ley de Benford debido al redondeo. [67]
Las distribuciones que no abarcan varios órdenes de magnitud no seguirán la ley de Benford. Algunos ejemplos son la altura, el peso y los puntajes de CI. [9] [68]
Se han sugerido varios criterios, aplicables particularmente a datos contables, en los casos en que cabe esperar que se aplique la ley de Benford. [69]
Matemáticamente, la ley de Benford se aplica si la distribución que se está probando se ajusta al "teorema de cumplimiento de la ley de Benford". [17] La derivación dice que la ley de Benford se cumple si la transformada de Fourier del logaritmo de la función de densidad de probabilidad es cero para todos los valores enteros. En particular, esto se cumple si la transformada de Fourier es cero (o despreciable) para n ≥ 1. Esto se cumple si la distribución es amplia (ya que una distribución amplia implica una transformada de Fourier estrecha). Smith resume así (p. 716):
La ley de Benford se cumple en distribuciones que son amplias en comparación con la unidad de distancia a lo largo de la escala logarítmica. Del mismo modo, la ley no se cumple en distribuciones que son estrechas en comparación con la unidad de distancia... Si la distribución es amplia en comparación con la unidad de distancia en el eje logarítmico, significa que la dispersión en el conjunto de números que se examina es mucho mayor que diez.
En resumen, la ley de Benford requiere que los números en la distribución que se mide tengan una dispersión de al menos un orden de magnitud.
La ley de Benford fue probada empíricamente contra los números (hasta el décimo dígito) generados por una serie de distribuciones importantes, incluidas la distribución uniforme , la distribución exponencial , la distribución normal y otras. [9]
Como era de esperar, la distribución uniforme no obedece a la ley de Benford. En cambio, la distribución de proporciones de dos distribuciones uniformes está bien descrita por la ley de Benford.
Ni la distribución normal ni la distribución de razón de dos distribuciones normales ( distribución de Cauchy ) obedecen la ley de Benford. Aunque la distribución seminormal no obedece la ley de Benford, la distribución de razón de dos distribuciones seminormales sí lo hace. Ni la distribución normal truncada por la derecha ni la distribución de razón de dos distribuciones normales truncadas por la derecha están bien descritas por la ley de Benford. Esto no es sorprendente ya que esta distribución está ponderada hacia números mayores.
La ley de Benford también describe bien la distribución exponencial y la distribución de razón de dos distribuciones exponenciales. El ajuste de la distribución de chi-cuadrado depende de los grados de libertad (gl), con una buena concordancia con gl = 1 y una concordancia decreciente a medida que los gl aumentan. La distribución F se ajusta bien para grados de libertad bajos. Con gl crecientes, el ajuste disminuye, pero mucho más lentamente que la distribución de chi-cuadrado. El ajuste de la distribución log-normal depende de la media y la varianza de la distribución. La varianza tiene un efecto mucho mayor en el ajuste que la media. Valores mayores de ambos parámetros dan como resultado una mejor concordancia con la ley. La razón de dos distribuciones log-normales es una log-normal, por lo que no se examinó esta distribución.
Otras distribuciones que se han examinado incluyen la distribución de Muth, la distribución de Gompertz , la distribución de Weibull , la distribución gamma , la distribución log-logística y la distribución de potencia exponencial , todas las cuales muestran un acuerdo razonable con la ley. [56] [70] La distribución de Gumbel (una densidad que aumenta con el aumento del valor de la variable aleatoria) no muestra acuerdo con esta ley. [70]
Es posible extender la ley a dígitos más allá del primero. [71] En particular, para cualquier número dado de dígitos, la probabilidad de encontrar un número que comience con la cadena de dígitos n de esa longitud (descartando los ceros iniciales) está dada por
Por lo tanto, la probabilidad de que un número comience con los dígitos 3, 1, 4 (algunos ejemplos son 3,14, 3,142, π , 314280,7 y 0,00314005) es log 10 (1 + 1/314) ≈ 0,00138 , como en el cuadro con el gráfico logarítmico a la derecha.
Este resultado se puede utilizar para hallar la probabilidad de que un dígito en particular aparezca en una posición dada dentro de un número. Por ejemplo, la probabilidad de que aparezca un "2" como segundo dígito es [71]
Y la probabilidad de que d ( d = 0, 1, ..., 9) se encuentre como el n -ésimo ( n > 1) dígito es
La distribución del n -ésimo dígito, a medida que n aumenta, se aproxima rápidamente a una distribución uniforme con un 10% para cada uno de los diez dígitos, como se muestra a continuación. [71] Cuatro dígitos suelen ser suficientes para suponer una distribución uniforme del 10%, ya que "0" aparece el 10,0176% del tiempo en el cuarto dígito, mientras que "9" aparece el 9,9824% del tiempo.
Se han calculado los promedios y momentos de variables aleatorias para los dígitos 1 a 9 siguiendo esta ley: [72]
Para la distribución de dos dígitos según la ley de Benford también se conocen estos valores: [73]
Está disponible una tabla de las probabilidades exactas para la ocurrencia conjunta de los dos primeros dígitos según la ley de Benford, [73] así como la correlación poblacional entre el primer y el segundo dígito: [73] ρ = 0,0561 .
La ley de Benford ha aparecido como un recurso argumental en algunos programas de entretenimiento popular del siglo XXI.
{{cite book}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace )