stringtranslate.com

ley de benford

Una secuencia de barras azules decrecientes sobre un fondo de cuadrícula gris claro
La distribución de los primeros dígitos, según la ley de Benford. Cada barra representa un dígito y la altura de la barra es el porcentaje de números que comienzan con ese dígito.
Frecuencia del primer dígito significativo de constantes físicas trazadas según la ley de Benford

La ley de Benford , también conocida como ley de Newcomb-Benford , ley de los números anómalos o ley del primer dígito , es una observación de que en muchos conjuntos de datos numéricos de la vida real , es probable que el dígito principal sea pequeño. [1] En conjuntos que obedecen la ley, el número 1 aparece como el dígito significativo principal aproximadamente el 30% de las veces, mientras que el 9 aparece como el dígito significativo principal menos del 5% de las veces. Si los dígitos se distribuyeran uniformemente, cada uno de ellos aparecería aproximadamente el 11,1% del tiempo. [2] La ley de Benford también hace predicciones sobre la distribución de segundos dígitos, terceros dígitos, combinaciones de dígitos, etc.

El gráfico de la derecha muestra la ley de Benford para la base 10 , uno de los infinitos casos de una ley generalizada con respecto a los números expresados ​​en bases arbitrarias (enteras), que descarta la posibilidad de que el fenómeno pueda ser un artefacto del sistema numérico de base 10. . Otras generalizaciones publicadas en 1995 [3] incluyeron afirmaciones análogas tanto para el enésimo dígito principal como para la distribución conjunta de los n dígitos principales , la última de las cuales conduce a un corolario en el que se muestra que los dígitos significativos son una cantidad estadísticamente dependiente .

Se ha demostrado que este resultado se aplica a una amplia variedad de conjuntos de datos, incluidas facturas de electricidad, direcciones postales, precios de acciones, precios de viviendas, cifras de población, tasas de mortalidad, longitudes de ríos y constantes físicas y matemáticas . [4] Al igual que otros principios generales sobre datos naturales, por ejemplo, el hecho de que muchos conjuntos de datos se aproximan bien mediante una distribución normal , existen ejemplos ilustrativos y explicaciones que cubren muchos de los casos en los que se aplica la ley de Benford, aunque hay muchos otros. Casos en los que se aplica la ley de Benford que resisten explicaciones simples. [5] [6] La ley de Benford tiende a ser más precisa cuando los valores se distribuyen en múltiples órdenes de magnitud , especialmente si el proceso que genera los números se describe mediante una ley de potencia (que es común en la naturaleza).

La ley lleva el nombre del físico Frank Benford , quien la afirmó en 1938 en un artículo titulado "La ley de los números anómalos", [7] aunque ya había sido establecida previamente por Simon Newcomb en 1881. [8] [9]

La ley es similar en concepto, aunque no idéntica en distribución, a la ley de Zipf .

Definición

Rectángulo con eje desplazado en negrita en la parte inferior izquierda y líneas de color gris claro que representan logaritmos
Una barra de escala logarítmica . Al elegir una posición x aleatoria de manera uniforme en esta recta numérica, aproximadamente el 30% de las veces el primer dígito del número será 1.

Se dice que un conjunto de números satisface la ley de Benford si el dígito inicial  d ( d  ∈ {1, ..., 9} ) ocurre con probabilidad [10]

Los primeros dígitos de dicho conjunto tienen, por tanto, la siguiente distribución:

La cantidad es proporcional al espacio entre d y d  +1 en escala logarítmica . Por lo tanto, esta es la distribución esperada si los logaritmos de los números (pero no los números en sí) están distribuidos de manera uniforme y aleatoria .

Por ejemplo, un número x , restringido a estar entre 1 y 10, comienza con el dígito 1 si 1 ≤  x  < 2 y comienza con el dígito 9 si 9 ≤  x  < 10 . Por lo tanto, x comienza con el dígito 1 si log 1 ≤ log  x  < log 2 , o comienza con 9 si log 9 ≤ log  x  < log 10 . El intervalo [log 1, log 2] es mucho más amplio que el intervalo [log 9, log 10] (0,30 y 0,05 respectivamente); por lo tanto, si log x está distribuido uniforme y aleatoriamente, es mucho más probable que caiga en el intervalo más amplio que en el más estrecho, es decir, es más probable que comience con 1 que con 9; las probabilidades son proporcionales a los anchos de los intervalos, dando la ecuación anterior (así como la generalización a otras bases además de la decimal).

La ley de Benford a veces se expresa en una forma más estricta, afirmando que la parte fraccionaria del logaritmo de datos suele estar casi uniformemente distribuida entre 0 y 1; De esto se puede derivar la afirmación principal sobre la distribución de los primeros dígitos. [5]

en otras bases

Gráficas de P ( d ) para el dígito inicial d en varias bases. [11] La línea de puntos muestra que P ( d ) fue la distribución uniforme. (En la imagen SVG, coloque el cursor sobre un gráfico para mostrar el valor de cada punto).

Una extensión de la ley de Benford predice la distribución de los primeros dígitos en otras bases además de la decimal ; de hecho, cualquier base b  ≥ 2 . La forma general es [12]

Para b = 2, 1 (los sistemas numéricos binario y unario ), la ley de Benford es verdadera pero trivial: todos los números binarios y unarios (excepto 0 o el conjunto vacío) comienzan con el dígito 1. (Por otro lado, la generalización La aplicación de la ley de Benford al segundo dígito y a los posteriores no es trivial, incluso para números binarios. [13] )

Ejemplos

Distribución de los primeros dígitos (en %, barras rojas) en la población de los 237 países del mundo a julio de 2010. Los puntos negros indican la distribución predicha por la ley de Benford.

Al examinar una lista de las alturas de las 58 estructuras más altas del mundo por categoría, se muestra que 1 es, con diferencia, el dígito inicial más común, independientemente de la unidad de medida (consulte "invariancia de escala" a continuación):

Otro ejemplo es el dígito principal de 2 n . La secuencia de los primeros 96 dígitos iniciales (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1, ... (secuencia A008952 en el OEIS )) muestra una mayor adherencia a la ley de Benford de lo que se espera para secuencias aleatorias de la misma longitud, porque se deriva de una secuencia geométrica. [14]

Historia

El descubrimiento de la ley de Benford se remonta a 1881, cuando el astrónomo canadiense-estadounidense Simon Newcomb observó que en las tablas de logaritmos las páginas anteriores (que comenzaban con 1) estaban mucho más desgastadas que las demás. [8] El resultado publicado por Newcomb es el primer caso conocido de esta observación e incluye también una distribución en el segundo dígito. Newcomb propuso una ley según la cual la probabilidad de que un solo número N sea el primer dígito de un número era igual a log( N  + 1) − log( N ).

El fenómeno fue observado nuevamente en 1938 por el físico Frank Benford , [7] quien lo probó con datos de 20 dominios diferentes y se le atribuyó el mérito. Su conjunto de datos incluía las superficies de 335 ríos, los tamaños de 3259 poblaciones estadounidenses, 104 constantes físicas , 1800 pesos moleculares , 5000 entradas de un manual de matemáticas, 308 números contenidos en un número del Reader's Digest , las direcciones de las primeras 342 personas enumeradas en American Men of Science y 418 tasas de mortalidad. El número total de observaciones utilizadas en el artículo fue 20.229. Este descubrimiento recibió más tarde el nombre de Benford (lo que lo convierte en un ejemplo de la ley de Stigler ).

En 1995, Ted Hill demostró el resultado de las distribuciones mixtas que se mencionan a continuación. [15] [16]

Explicaciones

La ley de Benford tiende a aplicarse con mayor precisión a datos que abarcan varios órdenes de magnitud . Como regla general, cuantos más órdenes de magnitud cubran los datos de manera uniforme, con mayor precisión se aplicará la ley de Benford. Por ejemplo, se puede esperar que la ley de Benford se aplique a una lista de números que representan las poblaciones de los asentamientos del Reino Unido. Pero si un "asentamiento" se define como una aldea con una población de entre 300 y 999 habitantes, entonces la ley de Benford no se aplicará. [17] [18]

Considere las distribuciones de probabilidad que se muestran a continuación, referidas a una escala logarítmica . En cada caso, el área total en rojo es la probabilidad relativa de que el primer dígito sea 1, y el área total en azul es la probabilidad relativa de que el primer dígito sea 8. Para la primera distribución, el tamaño de las áreas en rojo y azul son aproximadamente proporcionales al ancho de cada barra roja y azul. Por lo tanto, los números extraídos de esta distribución seguirán aproximadamente la ley de Benford. Por otro lado, para la segunda distribución, la proporción de las áreas de rojo y azul es muy diferente de la proporción de los anchos de cada barra roja y azul. Más bien, las áreas relativas del rojo y el azul están determinadas más por las alturas de las barras que por los anchos. En consecuencia, los primeros dígitos de esta distribución no satisfacen en absoluto la ley de Benford. [18]

Por lo tanto, es probable que las distribuciones del mundo real que abarcan varios órdenes de magnitud de manera bastante uniforme (por ejemplo, los precios del mercado de valores y las poblaciones de aldeas, pueblos y ciudades) satisfagan la ley de Benford con mucha precisión. Por otro lado, es poco probable que una distribución mayoritariamente o enteramente dentro de un orden de magnitud (por ejemplo, puntuaciones de CI o estaturas de adultos humanos) satisfaga la ley de Benford con mucha precisión, si es que lo hace. [17] [18] Sin embargo, la diferencia entre regímenes aplicables e inaplicables no es un límite tajante: a medida que la distribución se estrecha, las desviaciones de la ley de Benford aumentan gradualmente.

(Esta discusión no es una explicación completa de la ley de Benford, porque no ha explicado por qué se encuentran con tanta frecuencia conjuntos de datos que, cuando se representan como una distribución de probabilidad del logaritmo de la variable, son relativamente uniformes en varios órdenes de magnitud. [19 ] )

Explicación de la entropía de Krieger-Kafri

En 1970 , Wolfgang Krieger demostró lo que ahora se llama el teorema del generador de Krieger. [20] [21] El teorema del generador de Krieger podría verse como una justificación para la suposición en el modelo de bola y caja de Kafri de que, en una base dada con un número fijo de dígitos 0, 1, ..., n , ..., , dígito n es equivalente a una caja Kafri que contiene n bolas que no interactúan. Otros científicos y estadísticos han sugerido explicaciones relacionadas con la entropía [ ¿cuáles? ] para la ley de Benford. [22] [23] [10] [24]

Fluctuaciones multiplicativas

Muchos ejemplos del mundo real de la ley de Benford surgen de fluctuaciones multiplicativas. [25] Por ejemplo, si el precio de una acción comienza en $100, y luego cada día se multiplica por un factor elegido al azar entre 0,99 y 1,01, entonces, durante un período prolongado, la distribución de probabilidad de su precio satisface la ley de Benford con una precisión cada vez mayor. .

La razón es que el logaritmo del precio de las acciones realiza un recorrido aleatorio , por lo que con el tiempo su distribución de probabilidad se volverá cada vez más amplia y uniforme (ver arriba). [25] (Más técnicamente, el teorema del límite central dice que multiplicar más y más variables aleatorias creará una distribución log-normal con una varianza cada vez mayor, por lo que eventualmente cubre muchos órdenes de magnitud de manera casi uniforme). Para estar seguro de una concordancia aproximada con la ley de Benford, la distribución tiene que ser aproximadamente invariante cuando se amplía por cualquier factor hasta 10; un conjunto de datos con distribución logarítmica normal y amplia dispersión tendría esta propiedad aproximada.

A diferencia de las fluctuaciones multiplicativas, las fluctuaciones aditivas no conducen a la ley de Benford: sino que conducen a distribuciones de probabilidad normales (nuevamente según el teorema del límite central ), que no satisfacen la ley de Benford. Por el contrario, el precio hipotético de las acciones descrito anteriormente puede expresarse como el producto de muchas variables aleatorias (es decir, el factor de cambio de precio para cada día), por lo que es probable que siga bastante bien la ley de Benford.

Múltiples distribuciones de probabilidad

Anton Formann proporcionó una explicación alternativa al dirigir la atención a la interrelación entre la distribución de los dígitos significativos y la distribución de la variable observada . Demostró en un estudio de simulación que las distribuciones de cola larga derecha de una variable aleatoria son compatibles con la ley de Newcomb-Benford, y que para distribuciones de la relación de dos variables aleatorias el ajuste generalmente mejora. [26] Para números extraídos de ciertas distribuciones ( puntuaciones de CI , alturas humanas), la ley de Benford no se cumple porque estas variables obedecen a una distribución normal, que se sabe que no satisface la ley de Benford, [9] ya que las distribuciones normales no pueden abarcar varios órdenes de magnitud y las mantisas de sus logaritmos no estarán (ni siquiera aproximadamente) distribuidas uniformemente. Sin embargo, si uno "mezcla" números de esas distribuciones, por ejemplo, tomando números de artículos periodísticos, reaparece la ley de Benford. Esto también se puede demostrar matemáticamente: si uno elige repetidamente "al azar" una distribución de probabilidad (de un conjunto no correlacionado) y luego elige aleatoriamente un número de acuerdo con esa distribución, la lista de números resultante obedecerá la ley de Benford. [15] [27] Se ha propuesto una explicación probabilística similar para la aparición de la ley de Benford en los números de la vida cotidiana al demostrar que surge naturalmente cuando se consideran mezclas de distribuciones uniformes. [28]

Invariancia

En una lista de longitudes, la distribución de los primeros dígitos de los números de la lista puede ser generalmente similar independientemente de si todas las longitudes se expresan en metros, yardas, pies, pulgadas, etc. Lo mismo se aplica a las unidades monetarias.

Este no es siempre el caso. Por ejemplo, la altura de los humanos adultos casi siempre comienza con 1 o 2 cuando se mide en metros y casi siempre comienza con 4, 5, 6 o 7 cuando se mide en pies. Pero en una lista de longitudes distribuidas uniformemente en muchos órdenes de magnitud (por ejemplo, una lista de 1.000 longitudes mencionadas en artículos científicos que incluye mediciones de moléculas, bacterias, plantas y galaxias) es razonable esperar que la distribución de los primeros dígitos ser el mismo sin importar si las longitudes están escritas en metros o en pies.

Cuando la distribución de los primeros dígitos de un conjunto de datos es invariante de escala (independiente de las unidades en las que se expresan los datos), siempre viene dada por la ley de Benford. [29] [30]

Por ejemplo, el primer dígito (distinto de cero) de la lista de longitudes antes mencionada debe tener la misma distribución ya sea que la unidad de medida sea pies o yardas. Pero hay tres pies en una yarda, por lo que la probabilidad de que el primer dígito de una longitud en yardas sea 1 debe ser la misma que la probabilidad de que el primer dígito de una longitud en pies sea 3, 4 o 5; de manera similar, la probabilidad de que el primer dígito de una longitud en yardas sea 2 debe ser la misma que la probabilidad de que el primer dígito de una longitud en pies sea 6, 7 u 8. Al aplicar esto a todas las escalas de medición posibles se obtiene la distribución logarítmica. de la ley de Benford.

La ley de Benford para los primeros dígitos es una base invariante para los sistemas numéricos. Existen condiciones y pruebas de invariancia de suma, invariancia inversa e invariancia de suma y resta. [31] [32]

Aplicaciones

Detección de fraude contable

En 1972, Hal Varian sugirió que la ley podría utilizarse para detectar posibles fraudes en listas de datos socioeconómicos presentados en apoyo de decisiones de planificación pública. Basado en la suposición plausible de que las personas que fabrican cifras tienden a distribuir sus dígitos de manera bastante uniforme, una simple comparación de la distribución de frecuencia del primer dígito de los datos con la distribución esperada según la ley de Benford debería mostrar resultados anómalos. [33]

Uso en juicios penales

En los Estados Unidos, se han admitido pruebas basadas en la ley de Benford en casos penales a nivel federal, estatal y local. [34]

Datos electorales

Walter Mebane , politólogo y estadístico de la Universidad de Michigan, fue el primero en aplicar la prueba de la ley de Benford de segundo dígito (prueba 2BL) en análisis forense electoral . [35] Este análisis se considera un método simple, aunque no infalible, para identificar irregularidades en los resultados electorales. [36] No se ha alcanzado en la literatura un consenso científico para apoyar la aplicabilidad de la ley de Benford a las elecciones. Un estudio de 2011 realizado por los politólogos Joseph Deckert, Mikhail Myagkov y Peter C. Ordeshook argumentó que la ley de Benford es problemática y engañosa como indicador estadístico de fraude electoral. [37] Su método fue criticado por Mebane en una respuesta, aunque estuvo de acuerdo en que hay muchas salvedades en la aplicación de la ley de Benford a los datos electorales. [38]

La ley de Benford ha sido utilizada como prueba de fraude en las elecciones iraníes de 2009 . [39] Un análisis realizado por Mebane encontró que los segundos dígitos en el recuento de votos para el presidente Mahmoud Ahmadinejad , el ganador de las elecciones, tendían a diferir significativamente de las expectativas de la ley de Benford, y que las urnas con muy pocos votos inválidos tenían una mayor proporción. influencia en los resultados, lo que sugiere un relleno electoral generalizado . [40] Otro estudio utilizó simulaciones bootstrap para encontrar que el candidato Mehdi Karroubi recibió casi el doble de votos comenzando con el dígito 7 de lo que se esperaría según la ley de Benford, [41] mientras que un análisis de la Universidad de Columbia concluyó que la probabilidad de que una elección justa produciría muy pocos dígitos no adyacentes y las desviaciones sospechosas en las frecuencias del último dígito, como se encontró en las elecciones presidenciales iraníes de 2009, son inferiores al 0,5 por ciento. [42] La ley de Benford también se ha aplicado para auditorías forenses y detección de fraude en datos de las elecciones para gobernador de California de 2003 , [43] las elecciones presidenciales de Estados Unidos de 2000 y 2004 , [44] y las elecciones federales alemanas de 2009 ; [45] Se consideró que la prueba de la ley de Benford "vale la pena tomarla en serio como prueba estadística de fraude", aunque "no es sensible a las distorsiones que sabemos que afectaron significativamente a muchos votos". [44] [ se necesita más explicación ]

La ley de Benford también se ha aplicado incorrectamente para denunciar fraude electoral. Al aplicar la ley a los resultados electorales de Joe Biden para Chicago , Milwaukee y otras localidades en las elecciones presidenciales de Estados Unidos de 2020 , la distribución del primer dígito no siguió la ley de Benford. La mala aplicación fue el resultado de observar datos que estaban estrechamente limitados en su rango, lo que viola la suposición inherente a la ley de Benford de que el rango de datos debe ser grande. La prueba del primer dígito se aplicó a los datos a nivel de distrito electoral, pero debido a que los distritos electorales rara vez reciben más de unos pocos miles de votos o menos de varias docenas, no se puede esperar que se aplique la ley de Benford. Según Mebane, "es ampliamente aceptado que los primeros dígitos del recuento de votos de los distritos electorales no son útiles para tratar de diagnosticar fraudes electorales". [46] [47]

Datos macroeconómicos

De manera similar, se demostró que los datos macroeconómicos que el gobierno griego informó a la Unión Europea antes de ingresar a la eurozona eran probablemente fraudulentos utilizando la ley de Benford, aunque años después de que el país ingresara. [48] ​​[49]

Análisis de dígitos de precios

Los investigadores han utilizado la ley de Benford para detectar patrones de fijación de precios psicológicos en un estudio realizado en toda Europa sobre los precios de los productos de consumo antes y después de la introducción del euro en 2002. [50] La idea era que, sin fijación de precios psicológica, los primeros dos o tres dígitos del precio de artículos debe seguir la ley de Benford. En consecuencia, si la distribución de dígitos se desvía de la ley de Benford (como tener muchos 9), significa que los comerciantes pueden haber utilizado precios psicológicos.

Cuando el euro reemplazó a las monedas locales en 2002 , durante un breve período de tiempo, el precio de los bienes en euros simplemente se convertía del precio de los bienes en monedas locales antes del reemplazo. Como es esencialmente imposible utilizar precios psicológicos simultáneamente tanto para el precio en euros como para el precio en moneda local, durante el período de transición, los precios psicológicos se verían alterados incluso si solían estar presentes. Sólo podrá restablecerse una vez que los consumidores se hayan acostumbrado de nuevo a los precios en una moneda única, esta vez en euros.

Como esperaban los investigadores, la distribución del primer dígito del precio siguió la ley de Benford, pero la distribución del segundo y tercer dígito se desvió significativamente de la ley de Benford antes de la introducción, luego se desvió menos durante la introducción y luego se desvió más nuevamente después de la introducción.

Datos del genoma

El número de marcos de lectura abiertos y su relación con el tamaño del genoma difiere entre eucariotas y procariotas : los primeros muestran una relación log-lineal y los segundos una relación lineal. Se ha utilizado la ley de Benford para probar esta observación con un ajuste excelente a los datos en ambos casos. [51]

Detección de fraude científico

Una prueba de coeficientes de regresión en artículos publicados mostró una concordancia con la ley de Benford. [52] Como grupo de comparación, se pidió a los sujetos que fabricaran estimaciones estadísticas. Los resultados fabricados se ajustaron a la ley de Benford sobre los primeros dígitos, pero no obedecieron la ley de Benford sobre los segundos dígitos.

Pruebas estadísticas

Aunque la prueba de chi-cuadrado se ha utilizado para comprobar el cumplimiento de la ley de Benford, tiene un poder estadístico bajo cuando se utiliza con muestras pequeñas.

La prueba de Kolmogorov-Smirnov y la prueba de Kuiper son más potentes cuando el tamaño de la muestra es pequeño, particularmente cuando se utiliza el factor correctivo de Stephens. [53] Estas pruebas pueden ser excesivamente conservadoras cuando se aplican a distribuciones discretas. Morrow generó los valores para la prueba de Benford. [54] Los valores críticos de las estadísticas de prueba se muestran a continuación:

Estos valores críticos proporcionan los valores estadísticos de prueba mínimos necesarios para rechazar la hipótesis de cumplimiento de la ley de Benford en los niveles de significancia dados .

Se han publicado dos pruebas alternativas específicas para esta ley: primero, el estadístico max ( m ) [55] está dado por

El factor principal no aparece en la fórmula original de Leemis; [55] fue añadido por Morrow en un artículo posterior. [54]

En segundo lugar, el estadístico de distancia ( d ) [56] viene dado por

donde FSD es el primer dígito significativo y N es el tamaño de la muestra. Morrow ha determinado los valores críticos para ambas estadísticas, que se muestran a continuación: [54]

Morrow también ha demostrado que para cualquier variable aleatoria X (con una PDF continua ) dividida por su desviación estándar ( σ ), se puede encontrar algún valor A de modo que la probabilidad de la distribución del primer dígito significativo de la variable aleatoria difiera de Ley de Benford por menos de ε > 0. [54] El valor de A depende del valor de ε y de la distribución de la variable aleatoria.

Se ha propuesto un método de detección de fraude contable basado en bootstrapping y regresión. [57]

Si el objetivo es llegar a un acuerdo con la ley de Benford en lugar de un desacuerdo, entonces las pruebas de bondad de ajuste mencionadas anteriormente son inapropiadas. En este caso deberán aplicarse las pruebas específicas de equivalencia . Una distribución empírica se considera equivalente a la ley de Benford si una distancia (por ejemplo, la distancia de variación total o la distancia euclidiana habitual) entre las funciones de masa de probabilidad es suficientemente pequeña. Este método de prueba con aplicación a la ley de Benford se describe en Ostrovski. [58]

Rango de aplicabilidad

Distribuciones que se sabe que obedecen la ley de Benford

Algunas secuencias enteras infinitas bien conocidas probablemente satisfacen exactamente la ley de Benford (en el límite asintótico a medida que se incluyen más y más términos de la secuencia). Entre estos se encuentran los números de Fibonacci , [59] [60] los factoriales , [61] las potencias de 2, [62] [14] y las potencias de casi cualquier otro número. [62]

Asimismo, algunos procesos continuos satisfacen exactamente la ley de Benford (en el límite asintótico a medida que el proceso continúa en el tiempo). Uno es un proceso de crecimiento o disminución exponencial : si una cantidad aumenta o disminuye exponencialmente en el tiempo, entonces el porcentaje de tiempo que tiene cada primer dígito satisface asintóticamente la ley de Benford (es decir, aumenta la precisión a medida que el proceso continúa a lo largo del tiempo).

Distribuciones que se sabe que desobedecen la ley de Benford

Las raíces cuadradas y los recíprocos de números naturales sucesivos no obedecen a esta ley. [63] Los números primos en un rango finito siguen una ley de Benford generalizada, que se acerca a la uniformidad a medida que el tamaño del rango se acerca al infinito. [64] Las listas de números de teléfono locales violan la ley de Benford. [65] La ley de Benford es violada por las poblaciones de todos los lugares con una población de al menos 2500 individuos de cinco estados de EE.UU. según los censos de 1960 y 1970, donde sólo el 19 % comenzó con el dígito 1 pero el 20 % comenzó con el dígito 2, porque el truncamiento en 2500 introduce un sesgo estadístico. [63] Los dígitos terminales en los informes de patología violan la ley de Benford debido al redondeo. [66]

Las distribuciones que no abarcan varios órdenes de magnitud no seguirán la ley de Benford. Los ejemplos incluyen altura, peso y puntuaciones de coeficiente intelectual. [9] [67]

Criterios para las distribuciones que se espera y no se espera que obedezcan la ley de Benford

Se han sugerido una serie de criterios, aplicables particularmente a los datos contables, donde se puede esperar que se aplique la ley de Benford. [68]

Distribuciones que se puede esperar que obedezcan la ley de Benford
Distribuciones que no se esperaría que obedecieran la ley de Benford

Teorema de cumplimiento de la ley de Benford

Matemáticamente, la ley de Benford se aplica si la distribución que se está probando se ajusta al "teorema de cumplimiento de la ley de Benford". [17] La ​​derivación dice que se sigue la ley de Benford si la transformada de Fourier del logaritmo de la función de densidad de probabilidad es cero para todos los valores enteros. En particular, esto se cumple si la transformada de Fourier es cero (o insignificante) para n  ≥ 1. Esto se cumple si la distribución es amplia (ya que una distribución amplia implica una transformada de Fourier estrecha). Smith resume así (p. 716):

La ley de Benford es seguida por distribuciones que son amplias en comparación con la unidad de distancia a lo largo de la escala logarítmica. Del mismo modo, la ley no se sigue en distribuciones que son estrechas en comparación con la unidad de distancia... Si la distribución es amplia en comparación con la unidad de distancia en el eje logarítmico, significa que la dispersión en el conjunto de números que se examinan es mucho mayor que diez.

En resumen, la ley de Benford requiere que los números en la distribución que se está midiendo tengan una extensión de al menos un orden de magnitud.

Pruebas con distribuciones comunes.

La ley de Benford se probó empíricamente con los números (hasta el décimo dígito) generados por una serie de distribuciones importantes, incluida la distribución uniforme , la distribución exponencial , la distribución normal y otras. [9]

La distribución uniforme, como era de esperar, no obedece la ley de Benford. Por el contrario, la distribución proporcional de dos distribuciones uniformes está bien descrita por la ley de Benford.

Ni la distribución normal ni la distribución de razón de dos distribuciones normales (la distribución de Cauchy ) obedecen la ley de Benford. Aunque la distribución seminormal no obedece la ley de Benford, la distribución de razón de dos distribuciones seminormales sí lo hace. La ley de Benford no describe bien la distribución normal truncada a la derecha ni la distribución de razón de dos distribuciones normales truncadas a la derecha. Esto no es sorprendente ya que esta distribución se inclina hacia números más grandes.

La ley de Benford también describe bien la distribución exponencial y la distribución de razón de dos distribuciones exponenciales. El ajuste de la distribución chi-cuadrado depende de los grados de libertad (gl) con buen acuerdo con gl = 1 y acuerdo decreciente a medida que aumenta el gl. La distribución F se adapta bien a grados de libertad bajos. Al aumentar la dfs, el ajuste disminuye, pero mucho más lentamente que la distribución chi-cuadrado. El ajuste de la distribución log-normal depende de la media y la varianza de la distribución. La varianza tiene un efecto mucho mayor sobre el ajuste que la media. Valores mayores de ambos parámetros dan como resultado un mejor acuerdo con la ley. La relación de dos distribuciones log normales es log normal, por lo que esta distribución no se examinó.

Otras distribuciones que se han examinado incluyen la distribución de Muth, la distribución de Gompertz , la distribución de Weibull , la distribución gamma , la distribución log-logística y la distribución de potencia exponencial, todas las cuales muestran un acuerdo razonable con la ley. [55] [69] La distribución de Gumbel (una densidad aumenta al aumentar el valor de la variable aleatoria) no muestra acuerdo con esta ley. [69]

Generalización a dígitos más allá del primero.

Gráfico log-log de la probabilidad de que un número comience con los dígitos n , para una distribución que satisface la ley de Benford. Los puntos muestran la fórmula exacta, P ( n ) = log 10 (1 + 1/ n ). La gráfica tiende hacia la asíntota discontinua que pasa por (1, log 10  e ) con pendiente −1 en escala log-log. El ejemplo en amarillo muestra que la probabilidad de que un número comience con 314 es alrededor de 0,00138. Las líneas de puntos muestran las probabilidades de una distribución uniforme para comparar. (En la imagen SVG , coloque el cursor sobre un punto para mostrar sus valores).

Es posible extender la ley a dígitos más allá del primero. [70] En particular, para cualquier número dado de dígitos, la probabilidad de encontrar un número que comience con la cadena de dígitos n de esa longitud (descartando los ceros iniciales) está dada por

Por lo tanto, la probabilidad de que un número comience con los dígitos 3, 1, 4 (algunos ejemplos son 3,14, 3,142, π , 314280,7 y 0,00314005) es log 10 (1 + 1/314) ≈ 0,00138 , como en el cuadro con el gráfico log-log a la derecha.  

Este resultado se puede utilizar para encontrar la probabilidad de que un dígito particular aparezca en una posición determinada dentro de un número. Por ejemplo, la probabilidad de que se encuentre un "2" como segundo dígito es [70]

Y la probabilidad de que d ( d  = 0, 1, ..., 9) se encuentre como el n -ésimo ( n  > 1) dígito es

La distribución del n -ésimo dígito, a medida que n aumenta, se acerca rápidamente a una distribución uniforme con un 10% para cada uno de los diez dígitos, como se muestra a continuación. [70] Cuatro dígitos suelen ser suficientes para asumir una distribución uniforme del 10%, ya que "0" aparece el 10,0176% de las veces en el cuarto dígito, mientras que "9" aparece el 9,9824% de las veces.

Momentos

Se han calculado medias y momentos de variables aleatorias para los dígitos 1 a 9 siguiendo esta ley: [71]

Para la distribución de dos dígitos según la ley de Benford, estos valores también se conocen: [72]

Está disponible una tabla de las probabilidades exactas para la aparición conjunta de los dos primeros dígitos según la ley de Benford, [72] al igual que la correlación poblacional entre el primer y el segundo dígitos: [72] ρ = 0,0561 .

En la cultura popular

La ley de Benford ha aparecido como recurso argumental en algunos entretenimientos populares del siglo XXI.

Ver también

Referencias

  1. ^ Arno Berger y Theodore P. Hill, La ley de Benford contraataca: no hay una explicación simple a la vista para la gema matemática, 2011.
  2. ^ Weisstein, Eric W. "Ley de Benford". MathWorld, un recurso web de Wolfram . Consultado el 7 de junio de 2015 .
  3. ^ Colina, Theodore (1995). "Una derivación estadística de la ley de los dígitos significativos". Ciencia estadística . 10 (4). doi : 10.1214/ss/1177009869 .
  4. ^ Paul H. Kvam, Brani Vidakovic, Estadística no paramétrica con aplicaciones a la ciencia y la ingeniería , p. 158.
  5. ^ ab Berger, Arno; Hill, Theodore P. (30 de junio de 2020). "Las matemáticas de la ley de Benford: una introducción". Estadística. Métodos de aplicación . 30 (3): 779–795. arXiv : 1909.07527 . doi :10.1007/s10260-020-00532-8. S2CID  202583554.
  6. ^ Cai, Zhaodong; Fausto, Mateo; Hildebrand, AJ; Li, Junxian; Zhang, Yuan (15 de marzo de 2020). "La sorprendente precisión de la ley de Benford en matemáticas". El Mensual Matemático Estadounidense . 127 (3): 217–237. arXiv : 1907.08894 . doi :10.1080/00029890.2020.1690387. ISSN  0002-9890. S2CID  198147766.
  7. ^ ab Frank Benford (marzo de 1938). "La ley de los números anómalos". Proc. Soy. Filos. Soc. 78 (4): 551–572. JSTOR  984802.
  8. ^ ab Simon Newcomb (1881). "Nota sobre la frecuencia de uso de los diferentes dígitos en los números naturales". Revista Estadounidense de Matemáticas . 4 (1/4): 39–40. Código bibliográfico : 1881AmJM....4...39N. doi :10.2307/2369148. JSTOR  2369148. S2CID  124556624.
  9. ^ abcd Formann, AK (2010). Morris, Richard James (ed.). "La ley de Newcomb-Benford en su relación con algunas distribuciones comunes". MÁS UNO . 5 (5): e10541. Código Bib : 2010PLoSO...510541F. doi : 10.1371/journal.pone.0010541 . PMC 2866333 . PMID  20479878. 
  10. ^ ab Miller, Steven J. , ed. (9 de junio de 2015). Ley de Benford: teoría y aplicaciones. Prensa de la Universidad de Princeton. pag. 309.ISBN _ 978-1-4008-6659-5.
  11. ^ Deben ser estrictamente barras, pero se muestran como líneas para mayor claridad.
  12. ^ Pimbley, JM (2014). "La ley de Benford como transformación logarítmica" (PDF) . Maxwell Consulting, LLC . Archivado (PDF) desde el original el 9 de octubre de 2022 . Consultado el 15 de noviembre de 2020 .
  13. ^ Khosravani, A. (2012). Invariancia de transformación de variables de Benford y su modelado numérico . Investigaciones Recientes en Control Automático y Electrónica. págs. 57–61. ISBN 978-1-61804-080-0.
  14. ^ ab Ralph Raimi menciona que las primeras 100 potencias de 2 satisfacen aproximadamente la ley de Benford. Raimi, Ralph A. (1976). "El problema del primer dígito". Mensual Matemático Estadounidense . 83 (7): 521–538. doi :10.2307/2319349. JSTOR  2319349.
  15. ^ ab Theodore P. Hill (1995). "Una derivación estadística de la ley de los dígitos significativos". Ciencia estadística . 10 (4): 354–363. doi : 10.1214/ss/1177009869 . SEÑOR  1421567.
  16. ^ Colina, Theodore P. (1995). "La invariancia de base implica la ley de Benford". Actas de la Sociedad Matemática Estadounidense . 123 (3): 887–895. doi : 10.1090/S0002-9939-1995-1233974-8 . ISSN  0002-9939.
  17. ^ a b C Steven W. Smith. "Capítulo 34: Explicación de la ley de Benford. El poder del procesamiento de señales". La guía para científicos e ingenieros sobre el procesamiento de señales digitales . Consultado el 15 de diciembre de 2012 .
  18. ^ a b C Fewster, RM (2009). "Una explicación sencilla de la ley de Benford" (PDF) . El estadístico estadounidense . 63 (1): 26–32. CiteSeerX 10.1.1.572.6719 . doi :10.1198/tast.2009.0005. S2CID  39595550. Archivado (PDF) desde el original el 9 de octubre de 2022. 
  19. ^ Arno Berger y Theodore P. Hill, La ley de Benford contraataca: no hay una explicación simple a la vista para Mathematical Gem, 2011. Los autores describen este argumento pero dicen que "aún deja abierta la pregunta de por qué es razonable suponer que el logaritmo de la dispersión, a diferencia de la dispersión en sí misma, o, digamos, la dispersión logarítmica, debe ser grande" y que "asumir una dispersión grande en una escala logarítmica es equivalente a suponer una conformidad aproximada con [la ley de Benford]" (cursiva agregada) , algo que, según dicen, carece de una "explicación sencilla".
  20. ^ Krieger, Wolfgang (1970). "Sobre la entropía y los generadores de transformaciones que preservan la medida". Transacciones de la Sociedad Matemática Estadounidense . 149 (2): 453. doi : 10.1090/S0002-9947-1970-0259068-3 . ISSN  0002-9947.
  21. ^ Downarowicz, Tomasz (12 de mayo de 2011). Entropía en sistemas dinámicos. Prensa de la Universidad de Cambridge. pag. 106.ISBN _ 978-1-139-50087-6.
  22. ^ Smorodinsky, Meir (1971). "Capítulo IX. Entropía y generadores. Teorema de Krieger". Teoría Ergódica, Entropía . Apuntes de conferencias de matemáticas. vol. 214. Berlín, Heidelberg: Springer. doi :10.1007/BFb0066096.
  23. ^ Jolion, Jean-Michel (2001). "Imágenes y ley de Benford". Revista de visión y imágenes matemáticas . 14 (1): 73–81. doi :10.1023/A:1008363415314. ISSN  0924-9907. S2CID  34151059.
  24. ^ Limones, Don S. (2019). "Termodinámica de la ley del primer dígito de Benford". Revista Estadounidense de Física . 87 (10): 787–790. arXiv : 1604.05715 . Código Bib : 2019AmJPh..87..787L. doi :10.1119/1.5116005. ISSN  0002-9505. S2CID  119207367.
  25. ^ ab L. Pietronero; E. Tosatti; V. Tosatti; A. Vespignani (2001). "Explicando la distribución desigual de los números en la naturaleza: las leyes de Benford y Zipf". Física A. 293 (1–2): 297–304. arXiv : cond-mat/9808305 . Código Bib : 2001PhyA..293..297P. doi :10.1016/S0378-4371(00)00633-6.
  26. ^ Formann, Alaska (2010). "La ley de Newcomb-Benford en su relación con algunas distribuciones comunes". MÁS UNO . 5 (5): e10541. Código Bib : 2010PLoSO...510541F. doi : 10.1371/journal.pone.0010541 . PMC 2866333 . PMID  20479878. 
  27. ^ Theodore P. Hill (julio-agosto de 1998). «El fenómeno del primer dígito» (PDF) . Científico americano . 86 (4): 358. Código bibliográfico : 1998AmSci..86..358H. doi :10.1511/1998.4.358. S2CID  13553246.
  28. ^ Janvresse, Élise; Thierry (2004). "De las distribuciones uniformes a la ley de Benford" (PDF) . Revista de probabilidad aplicada . 41 (4): 1203–1210. doi : 10.1239/jap/1101840566. SEÑOR  2122815. Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 13 de agosto de 2015 .
  29. ^ Pinkham, Roger S. (1961). "Sobre la distribución de los primeros dígitos significativos". Ana. Matemáticas. Estatista . 32 (4): 1223-1230. doi : 10.1214/aoms/1177704862 .
  30. ^ ab Weisstein, Eric W. "Ley de Benford". mathworld.wolfram.com .
  31. ^ Jamain, Adrien (septiembre de 2001). "Ley de Benford" (PDF) . Colegio Imperial de Londres . Archivado (PDF) desde el original el 9 de octubre de 2022 . Consultado el 15 de noviembre de 2020 .
  32. ^ Berger, Arno (junio de 2011). "Una teoría básica de la ley de Benford". Encuestas de probabilidad . 8 (2011): 1–126.
  33. ^ Varian, Hal (1972). "Ley de Benford (Cartas al editor)". El estadístico estadounidense . 26 (3): 65. doi : 10.1080/00031305.1972.10478934.
  34. ^ "De Benford a Erdös". Laboratorio de radio . Episodio 09-10-2009. 30 de septiembre de 2009.
  35. ^ Walter R. Mebane, Jr., "Elecciones forenses: recuento de votos y ley de Benford" (18 de julio de 2006).
  36. ^ "Crítica forense electoral", The Economist (22 de febrero de 2007).
  37. ^ Deckert, José; Myagkov, Mijaíl; Ordeshook, Peter C. (2011). "La ley de Benford y la detección del fraude electoral". Análisis Político . 19 (3): 245–268. doi : 10.1093/pan/mpr014 . ISSN  1047-1987.
  38. ^ Mebane, Walter R. (2011). "Comentario sobre" la ley de Benford y la detección de fraude electoral"". Análisis Político . 19 (3): 269–272. doi : 10.1093/pan/mpr024 .
  39. ^ Stephen Battersby Las estadísticas insinúan fraude en las elecciones iraníes New Scientist 24 de junio de 2009
  40. ^ Walter R. Mebane, Jr., "Nota sobre las elecciones presidenciales en Irán, junio de 2009" (Universidad de Michigan, 29 de junio de 2009), págs.
  41. ^ Roukema, Boudewijn F. (2014). "Una anomalía de primer dígito en las elecciones presidenciales iraníes de 2009". Revista de Estadística Aplicada . 41 : 164-199. arXiv : 0906.2789 . Código Bib : 2014JApS...41..164R. doi :10.1080/02664763.2013.838664. S2CID  88519550.
  42. ^ Bernd Beber y Alexandra Scacco, "El diablo está en los dígitos: evidencia de que las elecciones de Irán fueron amañadas", The Washington Post (20 de junio de 2009).
  43. ^ Mark J. Nigrini, Ley de Benford: aplicaciones de contabilidad forense, auditoría y detección de fraude (Hoboken, Nueva Jersey: Wiley, 2012), págs.
  44. ^ ab Walter R. Mebane, Jr., "Elecciones forenses: la prueba de la ley de Benford de segundo dígito y las recientes elecciones presidenciales estadounidenses" en Fraude electoral: detección y disuasión de la manipulación electoral , editado por R. Michael Alvarez et al. (Washington, DC: Brookings Institution Press, 2008), págs. 162–81. PDF
  45. ^ Shikano, Susumu; Mack, Verena (2011). "¿Cuándo la prueba legal de Benford de segundo dígito indica un fraude electoral? Hechos o resultados de prueba engañosos". Jahrbücher für Nationalökonomie und Statistik . 231 (5–6): 719–732. doi :10.1515/jbnst-2011-5-610. S2CID  153896048.
  46. ^ "Verificación de hechos: la desviación de la ley de Benford no prueba fraude electoral". Reuters . 10 de noviembre de 2020.
  47. ^ Dacey, James (19 de noviembre de 2020). "La ley de Benford y las elecciones presidenciales estadounidenses de 2020: nada fuera de lo común". Mundo de la Física .
  48. ^ William Goodman, Las promesas y los peligros de la ley de Benford, Importancia , Royal Statistical Society (junio de 2016), p. 38.
  49. ^ Goldacre, Ben (16 de septiembre de 2011). "El truco especial que ayuda a identificar estadísticas poco fiables". El guardián . Consultado el 1 de febrero de 2019 .
  50. ^ Sehity, Tarek el; Hoelzl, Erik; Kirchler, Erich (1 de diciembre de 2005). "Evolución de los precios después de un shock nominal: la ley de Benford y los precios psicológicos después de la introducción del euro". Revista Internacional de Investigación en Marketing . 22 (4): 471–480. doi :10.1016/j.ijresmar.2005.09.002. S2CID  154273305.
  51. ^ Fraile, JL; Goldman, T; Pérez-Mercader, J (2012). "Tamaños del genoma y distribución de Benford". MÁS UNO . 7 (5): e36624. arXiv : 1205.6512 . Código bibliográfico : 2012PLoSO...736624F. doi : 10.1371/journal.pone.0036624 . PMC 3356352 . PMID  22629319. 
  52. ^ Diekmann, A (2007). "¡Ni el primer dígito! Uso de la ley de Benford para detectar datos científicos fraudulentos". Estadísticas de aplicaciones J. 34 (3): 321–329. doi :10.1080/02664760601004940. hdl : 20.500.11850/310246 . S2CID  117402608.
  53. ^ Stephens, MA (1970). "Uso de Kolmogorov-Smirnov, Cramér-von Mises y estadísticas relacionadas sin tablas extensas". Revista de la Royal Statistical Society, Serie B. 32 (1): 115-122.
  54. ^ abcd Morrow, John (agosto de 2014). Ley de Benford, familias de distribuciones y base de prueba. Londres, Reino Unido . Consultado el 11 de marzo de 2022 .{{cite book}}: Mantenimiento CS1: falta el editor de la ubicación ( enlace )
  55. ^ abc Leemis, LM; Schmeiser, BW; Evans, DL (2000). "Distribuciones de supervivencia que satisfacen la ley de Benford". El estadístico estadounidense . 54 (4): 236–241. doi :10.1080/00031305.2000.10474554. S2CID  122607770.
  56. ^ Cho, WKT; Gaines, BJ (2007). "Romper la ley (Benford): detección de fraude estadístico en la financiación de campañas". El estadístico estadounidense . 61 (3): 218–223. doi :10.1198/000313007X223496. S2CID  7938920.
  57. ^ Señor, ES; Headrick, TC; Minaburo, S. (2011). "Una técnica analítica eficaz y eficiente: un procedimiento de regresión bootstrap y la ley de Benford". J. Contabilidad forense y de investigación . 3 (3).
  58. ^ Ostrovski, Vladimir (mayo de 2017). "Prueba de equivalencia de distribuciones multinomiales". Cartas de estadística y probabilidad . 124 : 77–82. doi :10.1016/j.spl.2017.01.004. S2CID  126293429.
  59. ^ Washington, LC (1981). "Ley de Benford para los números de Fibonacci y Lucas". El Fibonacci trimestral . 19 (2): 175-177.
  60. ^ Duncan, RL (1967). "Una aplicación de distribución uniforme a los números de Fibonacci". El Fibonacci trimestral . 5 : 137-140.
  61. ^ Sarkar, PB (1973). "Una observación sobre los dígitos significativos de los coeficientes binomiales y factoriales". Sankhya B. 35 : 363–364.
  62. ^ ab En general, la secuencia k 1 , k 2 , k 3 , etc., satisface exactamente la ley de Benford, bajo la condición de que log 10 k sea un número irracional . Ésta es una consecuencia directa del teorema de la equidistribución .
  63. ^ ab Raimi, Ralph A. (agosto-septiembre de 1976). "El problema del primer dígito". Mensual Matemático Estadounidense . 83 (7): 521–538. doi :10.2307/2319349. JSTOR  2319349.
  64. ^ Zyga, Lisa; Phys.org. "Nuevo patrón encontrado en números primos". phys.org . Consultado el 23 de enero de 2022 .
  65. ^ Cho, Wendy K. Tam; Gaines, Brian J. (2007). "Infringir la ley (Benford): detección estadística de fraude en el financiamiento de campañas". El estadístico estadounidense . 61 (3): 218–223. doi :10.1198/000313007X223496. ISSN  0003-1305. JSTOR  27643897. S2CID  7938920 . Consultado el 8 de marzo de 2022 .
  66. ^ Cerveza, Trevor W. (2009). "Preferencia de dígitos terminales: cuidado con la ley de Benford". J.Clin. Patol. 62 (2): 192. doi :10.1136/jcp.2008.061721. PMID  19181640. S2CID  206987736.
  67. ^ Singleton, Tommie W. (1 de mayo de 2011). “Comprensión y Aplicación de la Ley de Benford”, Revista ISACA , Asociación de Control y Auditoría de Sistemas de Información . Consultado el 9 de noviembre de 2020.
  68. ^ Durtschi, C; Hillison, W; Pacini, C (2004). "El uso eficaz de la ley de Benford para ayudar a detectar fraude en datos contables". J Contabilidad Forense . 5 : 17–34.
  69. ^ ab Dümbgen, L; Leuenberger, C (2008). "Límites explícitos del error de aproximación en la ley de Benford". Comunicaciones electrónicas en probabilidad . 13 : 99-112. arXiv : 0705.4488 . doi :10.1214/ECP.v13-1358. S2CID  2596996.
  70. ^ abc Hill, Theodore P. (1995). "El fenómeno de los dígitos significativos". El Mensual Matemático Estadounidense . 102 (4): 322–327. doi :10.1080/00029890.1995.11990578. JSTOR  2974952.
  71. ^ Scott, policía; Fasli, M. (2001) "Ley de Benford: una investigación empírica y una explicación novedosa" Archivado el 13 de diciembre de 2014 en Wayback Machine . Informe técnico CSM 349, Departamento de Ciencias de la Computación, Univ. Essex
  72. ^ abc Suh, ES; Headrick, TC (2010). "Un análisis comparativo del bootstrap versus los procedimientos estadísticos tradicionales aplicados al análisis digital basado en la ley de Benford" (PDF) . Revista de Contabilidad Forense y de Investigación . 2 (2): 144-175.

Otras lecturas

enlaces externos