ley de zipf

La ley de Zipf ( / z ɪ f / , alemán: [ts͡ɪpf] ) es una ley empírica que a menudo se cumple, aproximadamente, cuando una lista de valores medidos se ordena en orden decreciente. Afirma que el valor de la n- ésima entrada es inversamente proporcional a n .

El ejemplo más conocido de la ley de Zipf se aplica a la tabla de frecuencia de palabras en un texto o corpus de lenguaje natural :

{\text{frecuencia de palabras}}\propto {\frac {1}{\text{rango de palabras}}}.

Brown Corpusthedey^[2]ley de Zipf-Mandelbrot

{\text{frecuencia}}\propto {\frac {1}{({\text{rango}}+b)^{a}}}

^[1]

a,b

a\aproximadamente 1

b\aproximadamente 2,7

Esta ley lleva el nombre del lingüista estadounidense George Kingsley Zipf , ^[3]^[4]^[5] y sigue siendo un concepto importante en la lingüística cuantitativa . Se ha descubierto que se aplica a muchos otros tipos de datos estudiados en las ciencias físicas y sociales .

En estadística matemática , el concepto se ha formalizado como distribución zipfiana : una familia de distribuciones de probabilidad discretas relacionadas cuya distribución rango-frecuencia es una relación de ley de potencia inversa . Están relacionados con la ley de Benford y la distribución de Pareto .

Algunos conjuntos de datos empíricos dependientes del tiempo se desvían algo de la ley de Zipf. Se dice que estas distribuciones empíricas son cuasi zipfianas .

Historia

En 1913, el físico alemán Felix Auerbach observó una proporcionalidad inversa entre el tamaño de la población de las ciudades y sus clasificaciones cuando se clasifican por orden decreciente de esa variable. ^[6]

La ley de Zipf ha sido descubierta antes que Zipf, ^[a] por el taquígrafo francés Jean-Baptiste Estoup ' Gammes Stenographiques (4ª ed) en 1916, ^[7] con G. Dewey en 1923, ^[8] y con E. Condon en 1928. ^[9]

George Zipf observó la misma relación para las frecuencias de palabras en textos en lenguaje natural en 1932, ^[4] pero nunca afirmó haberla originado. De hecho, a Zipf no le gustaban las matemáticas. En su publicación de 1932, ^[10] el autor habla con desdén de la implicación matemática en la lingüística, ao ibidem, p. 21: (…) permítanme decir aquí, por el bien de cualquier matemático que planee formular los datos resultantes con mayor exactitud, que la capacidad del positivo altamente intenso de convertirse en el negativo altamente intenso, en mi opinión, introduce el diablo en la fórmula. en la forma de √(-i) . La única expresión matemática que utilizó Zipf parece un archivo . b ² = constante, que "tomó prestada" de la publicación de Alfred J. Lotka de 1926. ^[11]

Se encontró que la misma relación ocurría en muchos otros contextos y para otras variables además de la frecuencia. ^[1] Por ejemplo, cuando las corporaciones se clasifican según su tamaño decreciente, se encuentra que sus tamaños son inversamente proporcionales al rango. ^[12] La misma relación se encuentra para los ingresos personales (donde se llama principio de Pareto ^[13] ), el número de personas que ven el mismo canal de televisión, ^[14] notas musicales, ^[15]transcriptomas de células ^[16]^[17] y más.

En 1992, el bioinformático Wentian Li publicó un breve artículo ^[18] que mostraba que la ley de Zipf surge incluso en textos generados aleatoriamente. Incluía pruebas de que la forma de ley de potencia de la ley de Zipf era un subproducto de ordenar las palabras por rango.

Definicion formal

Formalmente, la distribución Zipf sobre $N$ elementos asigna al elemento de rango $k$ (contando desde 1) la probabilidad

f(k;N)={\frac {1}{H_{N}}}\,{\frac {1}{k}}

donde $H$ _$N$ es una constante de normalización, el $N-$ ésimo número armónico :

H_{N}=\sum _{k=1}^{N}{\frac {1}{k}}\ .

La distribución a veces se generaliza a una ley de potencia inversa con exponente $s$ en lugar de 1. ^[19] Es decir,

f(k;N,s)={\frac {1}{H_{N,s}}}\,{\frac {1}{k^{s}}}

donde $H$ _{$N$ , $s$} es un número armónico generalizado

H_{N,s}=\sum _{k=1}^{N}{\frac {1}{k^{s}}}\ .

La distribución Zipf generalizada se puede extender a infinitos elementos ( $N$ = ∞) solo si el exponente $s$ excede 1. En ese caso, la constante de normalización $H$ _{$N$ , $s$} se convierte en la función zeta de Riemann ,

\zeta (s)=\sum _{k=1}^{\infty }{\frac {1}{k^{s}}}<\infty \ .

Si el exponente $s$ es 1 o menos, la constante de normalización $H$ _{$N$ , $s$} diverge cuando $N$ tiende a infinito.

Pruebas empíricas

Empíricamente, se puede probar un conjunto de datos para ver si la ley de Zipf se aplica verificando la bondad de ajuste de una distribución empírica a la distribución hipotética de la ley de potencia con una prueba de Kolmogorov-Smirnov y luego comparando la relación de probabilidad (log) de la ley de potencia. distribución a distribuciones alternativas como una distribución exponencial o una distribución lognormal. ^[20]

La ley de Zipf se puede visualizar trazando los datos de frecuencia de los elementos en un gráfico log-log , siendo los ejes el logaritmo del orden de clasificación y el logaritmo de la frecuencia. Los datos se ajustan a la ley de Zipf con exponente $s$ en la medida en que la gráfica se aproxima a una función lineal (más precisamente, afín ) con pendiente − $s$ . Para el exponente $s$ = 1, también se puede trazar el recíproco de la frecuencia (intervalo medio entre palabras) contra el rango, o el recíproco del rango contra la frecuencia, y comparar el resultado con la línea que pasa por el origen con pendiente 1. ^[3]

Explicaciones estadísticas

Aunque la Ley de Zipf es válida para la mayoría de los lenguajes naturales, incluso algunos no naturales como el esperanto , ^[21] la razón aún no se comprende bien. ^[22] Las revisiones recientes de los procesos generativos de la ley de Zipf incluyen. ^[23]^[24]

Sin embargo, esto puede explicarse parcialmente por el análisis estadístico de textos generados aleatoriamente. Wentian Li ha demostrado que en un documento en el que cada carácter ha sido elegido al azar de una distribución uniforme de todas las letras (más un carácter de espacio), las "palabras" con diferentes longitudes siguen la macrotendencia de la ley de Zipf (cuanto más probable sea las palabras son las más cortas con igual probabilidad). ^[25] En 1959, Vitold Belevitch observó que si alguna de una gran clase de distribuciones estadísticas de buen comportamiento (no solo la distribución normal ) se expresa en términos de rango y se expande en una serie de Taylor , el truncamiento de primer orden de la serie resulta en la ley de Zipf. Además, un truncamiento de segundo orden de la serie de Taylor dio lugar a la ley de Mandelbrot . ^[26]^[27]

El principio del mínimo esfuerzo es otra posible explicación: el propio Zipf propuso que ni los hablantes ni los oyentes que usan un idioma determinado quieren trabajar más de lo necesario para alcanzar la comprensión, y el proceso que resulta en una distribución aproximadamente igual del esfuerzo conduce a la distribución de Zipf observada. . ^[5]^[28]

Una explicación mínima supone que las palabras son generadas por monos que escriben al azar . Si el lenguaje es generado por un solo mono que escribe aleatoriamente, con una probabilidad fija y distinta de cero de presionar cada tecla de letra o espacio en blanco, entonces las palabras (cadenas de letras separadas por espacios en blanco) producidas por el mono siguen la ley de Zipf. ^[29]

Otra posible causa de la distribución Zipf es un proceso de apego preferencial , en el que el valor $x$ de un artículo tiende a crecer a una tasa proporcional a $x$ (intuitivamente, "los ricos se hacen más ricos" o "el éxito genera éxito"). Tal proceso de crecimiento da como resultado la distribución de Yule-Simon , que se ha demostrado que se ajusta mejor a la frecuencia de las palabras versus el rango en el idioma ^[30] y a la población versus el rango de la ciudad ^[31] que la ley de Zipf. Yule lo derivó originalmente para explicar la población versus el rango en las especies, y Simon lo aplicó a las ciudades.

Una explicación similar se basa en modelos de atlas, sistemas de procesos de difusión intercambiables de valores positivos con parámetros de deriva y varianza que dependen únicamente del rango del proceso. Se ha demostrado matemáticamente que la ley de Zipf es válida para los modelos Atlas que satisfacen ciertas condiciones de regularidad natural. ^[32]^[33] Las distribuciones cuasi-Zipfianas pueden resultar de modelos cuasi-Atlas. ^{[ cita necesaria ]}

Leyes relacionadas

Una generalización de la ley de Zipf es la ley de Zipf-Mandelbrot , propuesta por Benoit Mandelbrot , cuyas frecuencias son:

f(k;N,q,s)={\frac {1}{C}}\,{\frac {1}{(k+q)^{s}}}.\,

^{[ se necesita aclaración ]}

La constante $C$ es la función zeta de Hurwitz evaluada en s .

Las distribuciones zipfianas se pueden obtener a partir de distribuciones de Pareto mediante un intercambio de variables. ^[19]

La distribución Zipf a veces se denomina distribución de Pareto discreta ^[34] porque es análoga a la distribución de Pareto continua de la misma manera que la distribución uniforme discreta es análoga a la distribución uniforme continua .

Las frecuencias de cola de la distribución Yule-Simon son aproximadamente

f(k;\rho )\approx {\frac {[{\text{constant}}]}{k^{\rho +1}}}

para cualquier elección de ρ > 0.

En la distribución fractal parabólica , el logaritmo de la frecuencia es un polinomio cuadrático del logaritmo del rango. Esto puede mejorar notablemente el ajuste con respecto a una relación simple de ley de potencia. ^[35] Al igual que la dimensión fractal, es posible calcular la dimensión Zipf, que es un parámetro útil en el análisis de textos. ^[36]

Se ha argumentado que la ley de Benford es un caso especial acotado de la ley de Zipf, ^[35] y la conexión entre estas dos leyes se explica porque ambas se originan a partir de relaciones funcionales invariantes de escala de la física estadística y los fenómenos críticos. ^[37] Las razones de probabilidades en la ley de Benford no son constantes. Los primeros dígitos de los datos que satisfacen la ley de Zipf con $s$ = 1 satisfacen la ley de Benford.

Ocurrencias

Tamaños de ciudad

Tras la observación de Auerbach de 1913, se ha realizado un examen sustancial de la ley de Zipf para el tamaño de las ciudades. ^[38] Sin embargo, estudios empíricos ^[39]^[40] y teóricos ^[41] más recientes han cuestionado la relevancia de la ley de Zipf para las ciudades.

Frecuencias de palabras en lenguajes naturales.

En muchos textos en lenguajes humanos, las frecuencias de las palabras siguen aproximadamente una distribución Zipf con exponentes cercanos $a$ 1: es decir, la palabra más común aparece aproximadamente n veces la enésima más común.

La gráfica de rango-frecuencia real de un texto en lenguaje natural se desvía en cierta medida de la distribución Zipf ideal, especialmente en los dos extremos del rango. Las desviaciones pueden depender del idioma, del tema del texto, del autor, de si el texto fue traducido de otro idioma y de las reglas ortográficas utilizadas. ^{[ cita requerida ]} Alguna desviación es inevitable debido a un error de muestreo .

En el extremo de baja frecuencia, donde el rango se aproxima $a N$ , la trama toma forma de escalera, porque cada palabra sólo puede aparecer un número entero de veces.

La ley de Zipf se traza para varios idiomas.
Textos en alemán (1669), ruso (1972), francés (1865), italiano (1840) e inglés medieval (1460).
Don Quijote Parte I de Cervantes ( español , 1605) y Dom Casmurro de Assis ( portugués , 1899).
Ge'ez (siglo XIV), árabe (~650), hebreo (500-800), todos con vocales.
Lhasa tibetano , chino , vietnamita , todos con sílabas separadas.
Textos bíblicos: Pentateuco de la Vulgata latina y Biblia sinodal rusa , los cuatro evangelios de la versión mayoritaria griega bizantina
Don Quijote de Cervantes, Parte I (1605) y Parte II (1615).
Primeros cinco libros del Antiguo Testamento (la Torá ) en hebreo, con vocales.
Primeros cinco libros del Antiguo Testamento (el Pentateuco ) en la versión Vulgata Latina .
Primeros cuatro libros del Nuevo Testamento (los Evangelios ) en la versión Vulgata Latina .

Un gráfico log-log de la frecuencia de palabras en Wikipedia (27 de noviembre de 2006). 'Las palabras más populares son "el", "de" y "y", como era de esperar. La ley de Zipf corresponde a la porción lineal media de la curva, siguiendo aproximadamente la línea verde (1/ x ), mientras que la primera parte está más cerca de la línea magenta (1/ x ^0.5 ), mientras que la parte posterior está más cerca de la línea cian (1 /( k + x ) ^2.0 ) línea. Estas líneas corresponden a tres parametrizaciones distintas de la distribución de Zipf-Mandelbrot, en general una ley de potencia rota con tres segmentos: cabeza, medio y cola.

En algunas lenguas romances , las frecuencias de la docena de palabras más frecuentes se desvían significativamente de la distribución Zipf ideal, debido a que esas palabras incluyen artículos flexionados por género y número gramatical . ^[^{cita necesaria}^]

En muchas lenguas de Asia oriental , como el chino , el tibetano de Lhasa y el vietnamita , cada "palabra" consta de una sola sílaba ; una palabra de inglés a menudo se traduce a un compuesto de dos de esas sílabas. La tabla de rango-frecuencia para esas "palabras" se desvía significativamente de la ley Zipf ideal, en ambos extremos del rango. ^{[ cita necesaria ]}

Incluso en inglés, las desviaciones de la ley ideal de Zipf se vuelven más evidentes cuando se examinan grandes colecciones de textos. El análisis de un corpus de 30.000 textos en inglés mostró que sólo alrededor del 15% de los textos que contiene se ajustan bien a la ley de Zipf. Pequeños cambios en la definición de la ley de Zipf pueden aumentar este porcentaje hasta cerca del 50%. ^[42]

En estos casos, la relación observada entre rangos de frecuencia se puede modelar con mayor precisión mediante distribuciones separadas de las leyes de Zipf-Mandelbrot para diferentes subconjuntos o subtipos de palabras. Este es el caso del gráfico de rango de frecuencia de los primeros 10 millones de palabras de la Wikipedia en inglés. En particular, las frecuencias de la clase cerrada de palabras funcionales en inglés se describen mejor con s menor que 1, mientras que el crecimiento del vocabulario abierto con el tamaño del documento y el tamaño del corpus requiere s mayor que 1 para la convergencia de la Serie Armónica Generalizada . ^[3]

Cuando un texto se cifra de tal manera que cada aparición de cada palabra de texto claro distinta siempre se asigna a la misma palabra cifrada (como en el caso de cifrados de sustitución simples , como los cifrados César o los cifrados de libro de códigos simples ), el rango de frecuencia La distribución no se ve afectada. Por otro lado, si se pueden asignar apariciones separadas de la misma palabra a dos o más palabras diferentes (como sucede con el cifrado Vigenère ), la distribución Zipf normalmente tendrá una parte plana en el extremo de alta frecuencia. ^{[ cita necesaria ]}

Aplicaciones

La ley de Zipf se ha utilizado para extraer fragmentos paralelos de textos a partir de corpus comparables. ^[43] Laurance Doyle y otros han sugerido la aplicación de la ley de Zipf para la detección de lenguaje extraterrestre en la búsqueda de inteligencia extraterrestre . ^[44]^[45]

La distribución de palabras por rango de frecuencia suele ser característica del autor y cambia poco con el tiempo. Esta característica se ha utilizado en el análisis de textos para la atribución de autoría. ^[46]^[47]

Se ha descubierto que los grupos de signos en forma de palabras del códice del manuscrito Voynich del siglo XV satisfacen la ley de Zipf, lo que sugiere que lo más probable es que el texto no sea un engaño, sino que esté escrito en un lenguaje o cifrado oscuro. ^[48]^[49]

Ver también

Regla del 1% (cultura de Internet) : hipótesis de que en una comunidad virtual acecharán más personas de las que participarán
Ley de Benford : observación de que en muchos conjuntos de datos de la vida real, es probable que el dígito principal sea pequeño
Ley de Bradford – Patrón de referencias en revistas científicas
Ley de brevedad – Ley de lingüística
Gravitación demográfica
Lista de frecuencias : lista básica de palabras de un idioma en lingüística de corpus
Ley de Gibrat – Principio económico
Hapax legomenon : palabra que solo aparece una vez en un texto o registro determinado
Ley de Heaps : heurística para palabras distintas en un documento
Efecto King : fenómeno en las estadísticas en el que los puntos de datos mejor clasificados son valores atípicos
Cola larga : característica de algunas distribuciones estadísticas
Curva de Lorenz – Representación gráfica de la distribución del ingreso o de la riqueza
Ley de Lotka : una aplicación de la ley de Zipf que describe la frecuencia de publicación de los autores en un campo determinado.
Ley de Menzerath – Ley lingüística
Distribución de Pareto – Distribución de probabilidad
Principio de Pareto : principio estadístico sobre la relación entre efectos y causas, también conocido como la "regla 80-20"
Ley de Price : físico e historiador de la ciencia (1922-1983)
Principio del mínimo esfuerzo : idea de que los agentes prefieren hacer lo que sea más fácil.
Distribución de tamaño por rango : distribución de tamaño por rango
Ley de eponimia de Stigler : observación de que ningún descubrimiento científico lleva el nombre de su descubridor
Frecuencia de letras
Palabras más comunes en inglés

Notas

^ como reconoció Zipf ^[5]^{: 546}

Referencias

^ abc Piantadosi, Steven (25 de marzo de 2014). "Ley de frecuencia de palabras de Zipf en lenguaje natural: una revisión crítica y direcciones futuras". Toro Psicón Rev. 21 (5): 1112-1130. doi :10.3758/s13423-014-0585-6. PMC 4176592 . PMID 24664880.
^ Fagan, Esteban; Gençay, Ramazan (2010), "Una introducción a la econometría textual", en Ullah, Aman; Giles, David EA (eds.), Manual de economía y finanzas empíricas , CRC Press, págs. 133-153, ISBN 9781420070361. P. 139: "Por ejemplo, en el Brown Corpus, que consta de más de un millón de palabras, la mitad del volumen de palabras consta de usos repetidos de sólo 135 palabras".
^ poderes abc, David MW (1998). Aplicaciones y explicaciones de la ley de Zipf. Conferencia conjunta sobre nuevos métodos en el procesamiento del lenguaje y el aprendizaje computacional del lenguaje natural. Asociación de Lingüística Computacional. págs. 151-160. Archivado desde el original el 10 de septiembre de 2015 . Consultado el 2 de febrero de 2015 .
^ ab George K. Zipf (1935): La psicobiología del lenguaje . Houghton-Mifflin.
^ a b C George K. Zipf (1949). Comportamiento humano y el principio del mínimo esfuerzo. Cambridge, Massachusetts: Addison-Wesley. pag. 1.
^ Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Geographische Mitteilungen de Petermann 59, 74–76
^ Christopher D. Manning, Hinrich Schütze Fundamentos del procesamiento estadístico del lenguaje natural , MIT Press (1999), ISBN 978-0-262-13360-9 , p. 24
^ Dewey, Godofredo. Frecuencia relativa de los sonidos del habla inglesa . Prensa de la Universidad de Harvard, 1923.
^ Condon, EDWARD U. "Estadísticas de vocabulario". Ciencia 67.1733 (1928): 300-300.
^ George K. Zipf (1932): Estudios seleccionados sobre el principio de frecuencia relativa en el lenguaje. Harvard, MA: Prensa de la Universidad de Harvard.
^ Zipf, George Kingsley (1942). "La unidad de la naturaleza, la mínima acción y las ciencias sociales naturales". Sociometría . 5 (1): 48–62. doi :10.2307/2784953. ISSN 0038-0431. JSTOR 2784953. Archivado desde el original el 2022-11-20 . Consultado el 20 de noviembre de 2022 .
^ Axtell, Robert L (2001): Distribución Zipf del tamaño de las empresas estadounidenses Archivado el 17 de octubre de 2023 en Wayback Machine , Science, 293, 5536, 1818, Asociación Estadounidense para el Avance de la Ciencia.
^ Sandmo, Agnar (1 de enero de 2015), Atkinson, Anthony B.; Bourguignon, François (eds.), Capítulo 1 - El principal problema de la economía política: la distribución del ingreso en la historia del pensamiento económico, Manual de distribución del ingreso, vol. 2, Elsevier, págs. 3–65, doi :10.1016/B978-0-444-59428-0.00002-3, archivado desde el original el 29 de octubre de 2023 , consultado el 11 de julio de 2023.
^ M. Eriksson, SM Hasibur Rahman, F. Fraille, M. Sjöström, Multidifusión interactiva eficiente sobre DVB-T2: utilización de SFN dinámicos y PARPS Archivado el 2 de mayo de 2014 en Wayback Machine , Conferencia internacional IEEE de 2013 sobre informática y tecnología de la información (BMSB'13), Londres, Reino Unido, junio de 2013. Sugiere un modelo heterogéneo de selección de canales de televisión según la ley Zipf.
^ Zanette, Damián H. (7 de junio de 2004). "La ley de Zipf y la creación de contexto musical". arXiv : cs/0406015 .
^ Lazzardi, Silvia; Valle, Filippo; Mazzolini, Andrea; Scialdone, Antonio; Caselle, Michele; Osella, Matteo (17 de junio de 2021). "Leyes estadísticas emergentes en datos transcriptómicos unicelulares". bioRxiv : 2021–16.06.448706. doi :10.1101/2021.06.16.448706. S2CID 235482777. Archivado desde el original el 17 de junio de 2021 . Consultado el 18 de junio de 2021 .
^ Ramu Chenna, Toby Gibson; Evaluación de la idoneidad de un modelo de brecha zipfiana para la alineación de secuencias por pares Archivado el 6 de marzo de 2014 en Wayback Machine , Conferencia internacional sobre biología computacional bioinformática: 2011.
^ Li, Wentian (1992). "Los textos aleatorios exhiben una distribución de frecuencia de palabras similar a la ley de Zipf". Transacciones EEE sobre teoría de la información . 38 (6): 1842–1845 - vía IEEE Xplore.
^ ab Adamic, Lada A. (2000). Zipf, leyes de potencia y Pareto: un tutorial de clasificación (Informe). Compañía Hewlett-Packard . Archivado desde el original el 1 de abril de 2023 . Consultado el 12 de octubre de 2023 . "publicado originalmente". www.parc.xerox.com . Corporación Xerox . Archivado desde el original el 7 de noviembre de 2001 . Consultado el 23 de febrero de 2016 .
^ Clauset, A., Shalizi, CR y Newman, MEJ (2009). Distribuciones de la ley de potencias en datos empíricos. Revisión SIAM, 51 (4), 661–703. doi :10.1137/070710111
^ Bill Manaris; Luca Pellicoro; George Pothering; Harland Hodges (13 de febrero de 2006). Investigación de las proporciones estadísticas del esperanto en relación con otros idiomas utilizando redes neuronales y la ley de Zipf (PDF) . Inteligencia Artificial y Aplicaciones . Innsbruck, Austria. págs. 102-108. Archivado desde el original (PDF) el 5 de marzo de 2016.
^ Léon Brillouin , La science et la théorie de l'information , 1959, réédité en 1988, traducción inglesa rééditée en 2004
^ Mitzenmacher, Michael (enero de 2004). "Una breve historia de los modelos generativos de la ley de potencia y distribuciones lognormales". Matemáticas de Internet . 1 (2): 226–251. doi : 10.1080/15427951.2004.10129088 . ISSN 1542-7951. S2CID 1671059. Archivado desde el original el 22 de julio de 2023 . Consultado el 25 de julio de 2023 .
^ Simkin, MV; Roychowdhury, vicepresidente (1 de mayo de 2011). "Reinventar a Willis". Informes de Física . 502 (1): 1–35. arXiv : física/0601192 . Código Bib : 2011PhR...502....1S. doi :10.1016/j.physrep.2010.12.004. ISSN 0370-1573. S2CID 88517297. Archivado desde el original el 29 de enero de 2012 . Consultado el 25 de julio de 2023 .
^ Wen Tian Li (1992). "Los textos aleatorios exhiben una distribución de frecuencia de palabras similar a la ley de Zipf". Transacciones IEEE sobre teoría de la información . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . doi :10.1109/18.165464.
^ Belevitch V (18 de diciembre de 1959). "Sobre las leyes estadísticas de las distribuciones lingüísticas" (PDF) . Annales de la Société Scientifique de Bruselas . 73 : 310–326. Archivado (PDF) desde el original el 15 de diciembre de 2020 . Consultado el 24 de abril de 2020 .
^ Neumann, Peter G. "Metalingüística estadística y Zipf/Pareto/Mandelbrot", Laboratorio Internacional de Ciencias de la Computación SRI , consultado y archivado el 29 de mayo de 2011.
^ Ramon Ferrer i Cancho & Ricard V. Sole (2003). "El mínimo esfuerzo y los orígenes del escalado en el lenguaje humano". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (3): 788–791. Código Bib : 2003PNAS..100..788C. doi : 10.1073/pnas.0335980100 . PMC 298679 . PMID 12540826.
^ Conrado, B.; Mitzenmacher, M. (julio de 2004). "Leyes de potencia para monos que escriben al azar: el caso de probabilidades desiguales". Transacciones IEEE sobre teoría de la información . 50 (7): 1403-1414. doi :10.1109/TIT.2004.830752. ISSN 1557-9654. S2CID 8913575. Archivado desde el original el 17 de octubre de 2022 . Consultado el 20 de agosto de 2023 .
^ Lin, Ruokuang; Ma, Qianli DY; Bian, Chunhua (2014). "Leyes de escala en el habla humana, aparición decreciente de nuevas palabras y un modelo generalizado". arXiv : 1412.4846 [cs.CL].
^ Vitanov, Nikolay K.; Ausloos, Marcel; Bian, Chunhua (2015). "Prueba de dos hipótesis que explican el tamaño de las poblaciones en un sistema de ciudades". Revista de Estadística Aplicada . 42 (12): 2686–2693. arXiv : 1506.08535 . Código Bib : 2015JApSt..42.2686V. doi :10.1080/02664763.2015.1047744. S2CID 10599428.
^ Ricardo T. Fernholz; Robert Fernholz (diciembre de 2020). "Ley de Zipf para modelos de atlas". Revista de probabilidad aplicada . 57 (4): 1276-1297. doi : 10.1017/jpr.2020.64. S2CID 146808080. Archivado desde el original el 29 de enero de 2021 . Consultado el 26 de marzo de 2021 .
^ Terence Tao (2012). "E Pluribus Unum: de la complejidad, la universalidad". Dédalo . 141 (3): 23–34. doi :10.1162/DAED_a_00158. S2CID 14535989. Archivado desde el original el 5 de agosto de 2021 . Consultado el 26 de marzo de 2021 .
^ NL Johnson; S. Kotz y AW Kemp (1992). Distribuciones discretas univariadas (segunda ed.). Nueva York: John Wiley & Sons, Inc. ISBN 978-0-471-54897-3., pag. 466.
^ ab Johan Gerard van der Galien (8 de noviembre de 2003). "Aleatoriedad factorial: las leyes de Benford y Zipf con respecto a la distribución del primer dígito de la secuencia de factores de los números naturales". Archivado desde el original el 5 de marzo de 2007 . Consultado el 8 de julio de 2016 .
^ Eftekhari, Ali (2006). "Geometría fractal de textos: una aplicación inicial a las obras de Shakespeare". Revista de Lingüística Cuantitativa . 13 (2–3): 177–193. doi :10.1080/09296170600850106. S2CID 17657731.
^ Pietronero, L.; Tosatti, E.; Tosatti, V.; Vespignani, A. (2001). "Explicando la distribución desigual de los números en la naturaleza: las leyes de Benford y Zipf". Física A. 293 (1–2): 297–304. arXiv : cond-mat/9808305 . Código Bib : 2001PhyA..293..297P. doi :10.1016/S0378-4371(00)00633-6.
^ Gabaix, Xavier (1999). "Ley de Zipf para las ciudades: una explicación". La revista trimestral de economía . 114 (3): 739–767. doi :10.1162/003355399556133. ISSN 0033-5533. JSTOR 2586883. Archivado desde el original el 26 de octubre de 2021 . Consultado el 26 de octubre de 2021 .
^ Arshad, Sidra; Hu, Shougeng; Ashraf, Badar Nadeem (15 de febrero de 2018). "La ley de Zipf y la distribución del tamaño de la ciudad: un estudio de la literatura y la agenda de investigación futura". Physica A: Mecánica estadística y sus aplicaciones . 492 : 75–92. Código Bib : 2018PhyA..492...75A. doi :10.1016/j.physa.2017.10.005. ISSN 0378-4371. Archivado desde el original el 29 de octubre de 2023 . Consultado el 26 de octubre de 2021 .
^ Gan, Li; Li, Dong; Canción, Shunfeng (1 de agosto de 2006). "¿Es la ley Zipf falsa al explicar las distribuciones del tamaño de las ciudades?". Cartas de Economía . 92 (2): 256–262. doi :10.1016/j.econlet.2006.03.004. ISSN 0165-1765. Archivado desde el original el 13 de abril de 2019 . Consultado el 26 de octubre de 2021 .
^ Verbavatz, Vicente; Barthelemy, Marc (noviembre de 2020). "La ecuación de crecimiento de las ciudades". Naturaleza . 587 (7834): 397–401. arXiv : 2011.09403 . Código Bib :2020Natur.587..397V. doi :10.1038/s41586-020-2900-x. ISSN 1476-4687. PMID 33208958. S2CID 227012701. Archivado desde el original el 29 de octubre de 2021 . Consultado el 26 de octubre de 2021 .
^ Moreno-Sánchez, I.; Font-Clos, F.; Corral, A. (2016). "Análisis a gran escala de la ley de Zipf en textos en inglés". MÁS UNO . 11 (1): e0147073. arXiv : 1509.04486 . Código Bib : 2016PLoSO..1147073M. doi : 10.1371/journal.pone.0147073 . PMC 4723055 . PMID 26800025.
^ Mohammadi, Mehdi (2016). "Identificación de documentos paralelos mediante la ley de Zipf" (PDF) . Actas del noveno taller sobre creación y uso de corpus comparables . LREC 2016. Portorož, Eslovenia. págs. 21-25. Archivado (PDF) desde el original el 23 de marzo de 2018.
^ Doyle, Laurance R. (18 de noviembre de 2016). "Por qué el lenguaje alienígena se destacaría entre todo el ruido del universo". Nautilus trimestral . Archivado desde el original el 29 de julio de 2020 . Consultado el 30 de agosto de 2020 .
^ Kershenbaum, Arik (16 de marzo de 2021). La guía del zoólogo de la galaxia: lo que los animales de la Tierra revelan sobre los extraterrestres y sobre nosotros mismos . Pingüino. págs. 251-256. ISBN 978-1-9848-8197-7. OCLC 1242873084.
^ Frans J. Van Droogenbroeck (2016): Manejo de la distribución Zipf en la atribución de autoría computarizada Archivado el 4 de octubre de 2023 en Wayback Machine.
^ Frans J. Van Droogenbroeck (2019): Una reformulación esencial de la ley Zipf-Mandelbrot para resolver aplicaciones de atribución de autoría mediante estadísticas gaussianas Archivado el 30 de septiembre de 2023 en Wayback Machine.
^ Boyle, Rebeca. "Los patrones similares al lenguaje del texto misterioso pueden ser un engaño elaborado". Científico nuevo . Archivado desde el original el 18 de mayo de 2022 . Consultado el 25 de febrero de 2022 .
^ Montemurro, Marcelo A.; Zanette, Damián H. (21 de junio de 2013). "Palabras clave y patrones de coocurrencia en el manuscrito Voynich: un análisis teórico de la información". MÁS UNO . 8 (6): e66344. Código bibliográfico : 2013PLoSO...866344M. doi : 10.1371/journal.pone.0066344 . ISSN 1932-6203. PMC 3689824 . PMID 23805215.

Otras lecturas

Alexander Gelbukh y Grigori Sidorov (2001) "Los coeficientes de las leyes Zipf y Heaps dependen del idioma". Proc. CICLing -2001, Conferencia sobre Procesamiento Inteligente de Textos y Lingüística Computacional , 18 al 24 de febrero de 2001, Ciudad de México. Apuntes de conferencias sobre informática N 2004, ISSN 0302-9743, ISBN 3-540-41687-0 , Springer-Verlag: 332–335.
Kali R. (2003) "La ciudad como componente gigante: un enfoque gráfico aleatorio de la ley de Zipf", Applied Economics Letters 10 : 717–720(4)
Shyklo A. (2017); Explicación simple del misterio de Zipf a través de una nueva distribución de rango compartido, derivada de la combinatoria del proceso de clasificación, disponible en SSRN: https://ssrn.com/abstract=2918642.
Clara Moskowitz , Jen Christiansen y Ni-Ka Ford, "Células por número y tamaño: cuanto más grande es un tipo de célula, más rara es en el cuerpo y viceversa", Scientific American , vol. 330, núm. 1 (enero de 2024), págs. 94–95. "'A medida que se duplica el volumen de una célula, la frecuencia de células de ese tamaño se reduce a la mitad'", descubrieron el ecólogo Ian A. Hatton de la Universidad McGill y sus colegas investigadores de la ley de Zipf, dice Hatton. "Los glóbulos rojos diminutos y no nucleados son, con diferencia, las células más comunes en nuestro cuerpo, mientras que las células musculares comparativamente gigantescas de nuestros brazos y piernas son las más escasas. Ser capaz de utilizar el tamaño de una célula para estimar su frecuencia en el cuerpo podría ayudar a los médicos entender mejor ciertos sistemas del cuerpo y tipos de células difíciles de contar... El estudio sugiere, por ejemplo, que las células inmunes llamadas linfocitos son mucho más comunes de lo que los biólogos pensaban." (pág. 94.)

enlaces externos

Wikimedia Commons tiene medios relacionados con la ley de Zipf .

Strogatz, Steven (29 de mayo de 2009). "Columna invitada: Las matemáticas y la ciudad". Los New York Times . Archivado desde el original el 27 de septiembre de 2015 . Consultado el 29 de mayo de 2009 .—Un artículo sobre la ley de Zipf aplicada a las poblaciones de las ciudades.
Ver en las esquinas (las sociedades artificiales descubren la ley de Zipf)
Artículo de PlanetMath sobre la ley de Zipf
Distributions de type "fractal parabolique" dans la Nature (francés, con resumen en inglés) Archivado el 24 de octubre de 2004 en Wayback Machine.
Un análisis de la distribución del ingreso
Lista Zipf de palabras francesas Archivada el 23 de junio de 2007 en la Wayback Machine.
Lista Zipf para inglés, francés, español, italiano, sueco, islandés, latín, portugués y finlandés del Proyecto Gutenberg y calculadora en línea para clasificar palabras en textos Archivado el 8 de abril de 2011 en Wayback Machine.
Citas y la ley de Zipf-Mandelbrot
Ejemplos y modelos de la ley de Zipf (1985)
Sistemas complejos: descomprimiendo la ley de Zipf (2011)
Ley de Benford, ley de Zipf y distribución de Pareto de Terence Tao.
"Ley Zipf", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]