Ley de Zipf-Mandelbrot

En teoría de probabilidad y estadística , la ley de Zipf-Mandelbrot es una distribución de probabilidad discreta . También conocida como ley de Pareto -Zipf, es una distribución de ley de potencia sobre datos clasificados , que lleva el nombre del lingüista George Kingsley Zipf , quien sugirió una distribución más simple llamada ley de Zipf , y del matemático Benoit Mandelbrot , quien posteriormente la generalizó.

La función de masa de probabilidad viene dada por:

f(k;N,q,s)={\frac {1/(k+q)^{s}}{H_{N,q,s}}}

donde está dado por: $H_{N,q,s}$

H_{N,q,s}=\sum _{i=1}^{N}{\frac {1}{(i+q)^{s}}}

que puede considerarse como una generalización de un número armónico . En la fórmula, es el rango de los datos y son parámetros de la distribución. En el límite cuando se acerca al infinito, esto se convierte en la función zeta de Hurwitz . Para finitos y la ley de Zipf-Mandelbrot se convierte en la ley de Zipf . Para infinito y se convierte en una distribución Zeta . $k$ $q$ $s$ $N$ $\zeta (s,q)$ $N$ $q=0$ $N$ $q=0$

Aplicaciones

La distribución de palabras clasificadas por su frecuencia en un corpus de texto aleatorio se aproxima mediante una distribución de ley de potencia , conocida como ley de Zipf .

Si se traza el rango de frecuencia de las palabras contenidas en un corpus de datos de texto de tamaño moderado versus el número de ocurrencias o frecuencias reales, se obtiene una distribución de ley de potencia , con un exponente cercano a uno (pero ver Powers, 1998 y Gelbukh & Sidorov, 2001). La ley de Zipf supone implícitamente un tamaño de vocabulario fijo, pero la serie armónica con s = 1 no converge, mientras que la generalización de Zipf-Mandelbrot con s > 1 sí lo hace. Además, existe evidencia de que la clase cerrada de palabras funcionales que definen una lengua obedece a una distribución Zipf-Mandelbrot con parámetros diferentes a los de las clases abiertas de palabras contentivas que varían según tema, campo y registro. ^[1]

En estudios ecológicos de campo, a menudo se encuentra que la distribución de la abundancia relativa (es decir, la gráfica del número de especies observadas en función de su abundancia) se ajusta a una ley de Zipf-Mandelbrot. ^[2]

Dentro de la música, muchas métricas para medir la música "agradable" se ajustan a las distribuciones de Zipf-Mandelbrot. ^[3]

Notas

^ Poderes, David MW (1998). "Aplicaciones y explicaciones de la ley de Zipf". Nuevos métodos en procesamiento del lenguaje y aprendizaje computacional del lenguaje natural . Conferencia conjunta sobre nuevos métodos en el procesamiento del lenguaje y el aprendizaje computacional del lenguaje natural. Asociación de Lingüística Computacional. págs. 151-160.
^ Mouillot, D; Lepretre, A (2000). "Introducción de índices de distribución de abundancia relativa (RAD), estimados a partir de diagramas de rango-frecuencia (RFD), para evaluar cambios en la diversidad de la comunidad". Monitoreo y Evaluación Ambiental . 63 (2). Saltador: 279–295. doi :10.1023/A:1006297211561. S2CID 102285701 . Consultado el 24 de diciembre de 2008 .
^ Manaris, B; Vaughan, D; Wagner, CS; Romero, J; Davis, RB. "Música evolutiva y la ley Zipf-Mandelbrot: desarrollo de funciones físicas para una música agradable". Actas del primer taller europeo sobre música y arte evolutivos (EvoMUSART2003) . 611 .

Referencias

Mandelbrot, Benoît (1965). "Teoría de la Información y Psicolingüística". En BB Wolman y E. Nagel (ed.). Psicología científica . Libros básicos.Reimpreso como
- Mandelbrot, Benoît (1968) [1965]. "Teoría de la Información y Psicolingüística". En RC Oldfield y JC Marchall (ed.). Idioma . Libros de pingüinos.
Poderes, David MW (1998). "Aplicaciones y explicaciones de la ley de Zipf". Nuevos métodos en procesamiento del lenguaje y aprendizaje computacional del lenguaje natural . Conferencia conjunta sobre nuevos métodos en el procesamiento del lenguaje y el aprendizaje computacional del lenguaje natural. Asociación de Lingüística Computacional . págs. 151-160.
Zipf, George Kingsley (1932). Estudios seleccionados del principio de frecuencia relativa en el lenguaje . Cambridge, MA: Harvard University Press.
Van Droogenbroeck FJ, 'Una reformulación esencial de la ley de Zipf-Mandelbrot para resolver aplicaciones de atribución de autoría mediante estadísticas gaussianas' (2019) [1]

enlaces externos

ZK Silagadze: Citas y la ley de Zipf-Mandelbrot
NIST: ley de Zipf
Referencias de W. Li sobre la ley de Zipf
Gelbukh y Sidorov, 2001: Los coeficientes de las leyes Zipf y Heaps dependen del idioma
Biblioteca C++ para generar desviaciones aleatorias de Zipf-Mandelbrot.