stringtranslate.com

Ley de Zipf

Ley de Zipf sobre la guerra y la paz . [1] El gráfico inferior muestra el resto cuando se elimina la ley de Zipf. Muestra que sigue habiendo un patrón significativo que no se ajusta a la ley de Zipf.
Gráfico de la frecuencia de cada palabra en función de su rango de frecuencia para dos textos en inglés: Culpeper 's Complete Herbal (1652) y HG Wells 's The War of the Worlds (1898) en una escala logarítmica . La línea de puntos es la ley ideal y  1 / incógnita

La ley de Zipf ( / z ɪ f / , alemán: [t͡sɪpf] ) es una ley empírica que establece que cuando una lista de valores medidos se ordena en orden decreciente, el valor de la entrada n  es a menudo aproximadamente inversamente proporcional a n  .

El ejemplo más conocido de la ley de Zipf se aplica a la tabla de frecuencias de palabras en un texto o corpus de lenguaje natural : se suele encontrar que la palabra más común aparece aproximadamente el doble de veces que la siguiente, el triple que la tercera más común, y así sucesivamente. Por ejemplo, en el Brown Corpus de textos en inglés americano, la palabra " the " es la palabra que aparece con más frecuencia y, por sí sola, representa casi el 7 % de todas las apariciones de palabras (69 971 de un poco más de un millón). Fiel a la ley de Zipf, la palabra que ocupa el segundo lugar, " of ", representa un poco más del 3,5 % de las palabras (36 411 apariciones), seguida de " and " (28 852). [2] A menudo se utiliza en la siguiente forma, llamada ley de Zipf-Mandelbrot : donde y son parámetros ajustados, con y [1]

Esta ley recibe su nombre del lingüista estadounidense George Kingsley Zipf , [3] [4] [5] y sigue siendo un concepto importante en la lingüística cuantitativa . Se ha descubierto que se aplica a muchos otros tipos de datos estudiados en las ciencias físicas y sociales .

En estadística matemática , el concepto se ha formalizado como distribución zipfiana : una familia de distribuciones de probabilidad discretas relacionadas cuya distribución de rango-frecuencia es una relación de ley de potencia inversa . Están relacionadas con la ley de Benford y la distribución de Pareto .

Algunos conjuntos de datos empíricos dependientes del tiempo se desvían un poco de la ley de Zipf. Se dice que dichas distribuciones empíricas son cuasi-zipfianas .

Historia

En 1913, el físico alemán Felix Auerbach observó una proporcionalidad inversa entre el tamaño de la población de las ciudades y su clasificación cuando se ordenaban por orden decreciente de esa variable. [6]

La ley de Zipf había sido descubierta antes que Zipf, [a] primero por el taquígrafo francés Jean-Baptiste Estoup en 1916, [8] [7] y también por G. Dewey en 1923, [9] y por E. Condon en 1928. [10]

George Zipf observó la misma relación para las frecuencias de las palabras en textos en lenguaje natural en 1932 [4] , pero nunca afirmó haberla inventado. De hecho, a Zipf no le gustaban las matemáticas. En su publicación de 1932 [11] , el autor habla con desdén sobre la participación de las matemáticas en la lingüística, entre otras cosas , en la pág. 21:

... permítanme decir aquí, por el bien de cualquier matemático que pueda planear formular los datos resultantes con mayor exactitud, que la capacidad de lo altamente intenso positivo de convertirse en lo altamente intenso negativo, en mi opinión, introduce al diablo en la fórmula en forma de

La única expresión matemática que utilizó Zipf parece ser a . b 2 =   constante, que "tomó prestada" de la publicación de Alfred J. Lotka de 1926. [12]

Se encontró que la misma relación ocurre en muchos otros contextos y para otras variables además de la frecuencia. [1] Por ejemplo, cuando las corporaciones se clasifican por tamaño decreciente, se encuentra que sus tamaños son inversamente proporcionales al rango. [13] La misma relación se encuentra para los ingresos personales (donde se llama principio de Pareto [14] ), el número de personas que ven el mismo canal de televisión, [15] las notas en la música, [16] los transcriptomas de las células , [17] [18] y más.

En 1992, el bioinformático Wentian Li publicó un breve artículo [19] que demostraba que la ley de Zipf surge incluso en textos generados aleatoriamente. Incluía pruebas de que la forma de ley de potencia de la ley de Zipf era un subproducto de ordenar las palabras por rango.

Definición formal

Formalmente, la distribución Zipf sobre N elementos asigna al elemento de rango k (contando desde 1) la probabilidad

donde H N es una constante de normalización: El número armónico N :

La distribución a veces se generaliza a una ley de potencia inversa con exponente s en lugar de 1. [20] Es decir,

donde H N , s es un número armónico generalizado

La distribución Zipf generalizada se puede extender a una cantidad infinita de elementos ( N = ∞) solo si el exponente s es mayor que 1. En ese caso, la constante de normalización H N , s se convierte en la función zeta de Riemann ,

El caso de elementos infinitos se caracteriza por la distribución Zeta y se denomina ley de Lotka . Si el exponente s es 1 o menor, la constante de normalización H N , s diverge cuando N tiende al infinito.

Pruebas empíricas

Empíricamente, se puede probar un conjunto de datos para ver si se aplica la ley de Zipf verificando la bondad de ajuste de una distribución empírica a la distribución de ley de potencia hipotética con una prueba de Kolmogorov-Smirnov y luego comparando la razón de verosimilitud (logaritmo) de la distribución de ley de potencia con distribuciones alternativas como una distribución exponencial o una distribución lognormal. [21]

La ley de Zipf se puede visualizar al representar gráficamente los datos de frecuencia de los ítems en un gráfico logarítmico , con los ejes siendo el logaritmo del orden de rango y el logaritmo de la frecuencia. Los datos se ajustan a la ley de Zipf con exponente s en la medida en que el gráfico se aproxima a una función lineal (más precisamente, afín ) con pendiente −s . Para el exponente s = 1 , también se puede representar gráficamente el recíproco de la frecuencia (intervalo medio entre palabras) contra el rango, o el recíproco del rango contra la frecuencia, y comparar el resultado con la línea que pasa por el origen con pendiente 1 . [3]

Explicaciones estadísticas

Aunque la Ley de Zipf se cumple para la mayoría de las lenguas naturales, e incluso para algunas no naturales como el esperanto [22] y el toki pona [23] , la razón aún no se entiende bien. [24] Las revisiones recientes de los procesos generativos para la ley de Zipf incluyen a Mitzenmacher , "A Brief History of Generative Models for Power Law and Lognormal Distributions", [25] y Simkin, "Re-inventing Willis". [26]

Sin embargo, esto puede explicarse en parte mediante el análisis estadístico de textos generados aleatoriamente. Wentian Li ha demostrado que en un documento en el que cada carácter ha sido elegido aleatoriamente de una distribución uniforme de todas las letras (más un carácter de espacio), las "palabras" con diferentes longitudes siguen la macrotendencia de la ley de Zipf (las palabras más probables son las más cortas y tienen la misma probabilidad). [27] En 1959, Vitold Belevitch observó que si cualquiera de una gran clase de distribuciones estadísticas de buen comportamiento (no solo la distribución normal ) se expresa en términos de rango y se expande en una serie de Taylor , el truncamiento de primer orden de la serie da como resultado la ley de Zipf. Además, un truncamiento de segundo orden de la serie de Taylor dio como resultado la ley de Mandelbrot . [28] [29]

El principio del mínimo esfuerzo es otra explicación posible: el propio Zipf propuso que ni los hablantes ni los oyentes que utilizan una lengua determinada quieren trabajar más de lo necesario para alcanzar la comprensión, y el proceso que resulta en una distribución aproximadamente igual del esfuerzo conduce a la distribución Zipf observada. [5] [30]

Una explicación mínima supone que las palabras son generadas por monos que escriben al azar . Si el lenguaje es generado por un solo mono que escribe al azar, con una probabilidad fija y distinta de cero de pulsar cada tecla de letra o espacio en blanco, entonces las palabras (cadenas de letras separadas por espacios en blanco) producidas por el mono siguen la ley de Zipf. [31]

Otra posible causa de la distribución Zipf es un proceso de apego preferencial , en el que el valor x de un elemento tiende a crecer a una tasa proporcional a x (intuitivamente, " los ricos se hacen más ricos " o "el éxito genera éxito"). Este proceso de crecimiento da como resultado la distribución Yule-Simon , que se ha demostrado que se ajusta a la frecuencia de palabras versus el rango en el lenguaje [32] y a la población versus el rango de la ciudad [33] mejor que la ley de Zipf. Originalmente fue derivada para explicar la población versus el rango en las especies por Yule, y aplicada a las ciudades por Simon.

Una explicación similar se basa en los modelos Atlas, sistemas de procesos de difusión de valor positivo intercambiables con parámetros de deriva y varianza que dependen únicamente del rango del proceso. Se ha demostrado matemáticamente que la ley de Zipf se cumple para los modelos Atlas que satisfacen ciertas condiciones de regularidad natural. [34] [35]

Leyes relacionadas

Una generalización de la ley de Zipf es la ley de Zipf-Mandelbrot , propuesta por Benoit Mandelbrot , cuyas frecuencias son:

[ aclaración necesaria ]

La constante C es la función zeta de Hurwitz evaluada en s .

Las distribuciones zipfianas se pueden obtener a partir de las distribuciones de Pareto mediante un intercambio de variables. [20]

La distribución Zipf a veces se denomina distribución de Pareto discreta [36] porque es análoga a la distribución de Pareto continua de la misma manera que la distribución uniforme discreta es análoga a la distribución uniforme continua .

Las frecuencias de cola de la distribución de Yule-Simon son aproximadamente

para cualquier elección de ρ > 0 .

En la distribución fractal parabólica , el logaritmo de la frecuencia es un polinomio cuadrático del logaritmo del rango. Esto puede mejorar notablemente el ajuste en una relación de ley de potencia simple. [37] Al igual que la dimensión fractal, es posible calcular la dimensión Zipf, que es un parámetro útil en el análisis de textos. [38]

Se ha argumentado que la ley de Benford es un caso acotado especial de la ley de Zipf, [37] y que la conexión entre estas dos leyes se explica por el hecho de que ambas se originan a partir de relaciones funcionales invariantes de escala de la física estadística y de fenómenos críticos. [39] Las razones de probabilidades en la ley de Benford no son constantes. Los dígitos iniciales de los datos que satisfacen la ley de Zipf con s = 1 satisfacen la ley de Benford .

Ocurrencias

Tamaños de las ciudades

Tras la observación de Auerbach en 1913, se han realizado estudios sustanciales sobre la ley de Zipf para el tamaño de las ciudades. [40] Sin embargo, estudios empíricos [41] [42] y teóricos [43] más recientes han cuestionado la relevancia de la ley de Zipf para las ciudades.

Frecuencias de palabras en lenguajes naturales

Gráfico de la ley de Zipf para los primeros 10 millones de palabras en 30 Wikipedias (a octubre de 2015) en una escala logarítmica

En muchos textos en idiomas humanos, las frecuencias de las palabras siguen aproximadamente una distribución Zipf con exponentes cercanos a 1  ; es decir, la palabra más común aparece aproximadamente n veces la n -ésima palabra más común.

La gráfica de rango-frecuencia real de un texto en lenguaje natural se desvía en cierta medida de la distribución Zipf ideal, especialmente en los dos extremos del rango. Las desviaciones pueden depender del idioma, del tema del texto, del autor, de si el texto fue traducido de otro idioma y de las reglas ortográficas utilizadas. [ cita requerida ] Es inevitable que haya alguna desviación debido a errores de muestreo .

En el extremo de baja frecuencia, donde el rango se acerca a N , la gráfica toma forma de escalera, porque cada palabra puede aparecer solo un número entero de veces.

Gráfico logarítmico de la frecuencia de las palabras en la Wikipedia en inglés (27 de noviembre de 2006). Las palabras más populares son "the", "of" y "and", como se esperaba. La ley de Zipf corresponde a la parte lineal media de la curva, que sigue aproximadamente la línea verde ( 1/incógnita) línea,mientras que la parte inicial está más cerca del magenta (1/√x )​​mientras que la parte posterior está más cerca del cian (1/x2 ) línea.Estas líneas corresponden a tres parametrizaciones distintas de la distribución de Zipf-Mandelbrot, en general unaley de potencia rotacon tres segmentos: una cabeza, un medio y una cola.[ cita requerida ]Otras descripciones resaltan dos segmentos o "regímenes" en cambio.[44][45]

.

En algunas lenguas romances , las frecuencias de aproximadamente una docena de palabras más frecuentes se desvían significativamente de la distribución Zipf ideal, debido a que esas palabras incluyen artículos flexionados por género y número gramaticales . [ cita requerida ]

En muchos idiomas del este de Asia , como el chino , el tibetano de Lhasa y el vietnamita , cada "palabra" consta de una sola sílaba ; una palabra en inglés suele traducirse como un compuesto de dos sílabas de este tipo. La tabla de frecuencia de rangos para esas "palabras" se desvía significativamente de la ley de Zipf ideal, en ambos extremos del rango. [ cita requerida ]

Incluso en inglés, las desviaciones de la ley de Zipf ideal se hacen más evidentes cuando se examinan grandes colecciones de textos. El análisis de un corpus de 30.000 textos en inglés mostró que sólo alrededor del 15% de los textos incluidos en él se ajustan bien a la ley de Zipf. Pequeños cambios en la definición de la ley de Zipf pueden aumentar este porcentaje hasta cerca del 50%. [46]

En estos casos, la relación frecuencia-rango observada se puede modelar con mayor precisión mediante distribuciones separadas de las leyes de Zipf-Mandelbrot para diferentes subconjuntos o subtipos de palabras. Este es el caso del gráfico de frecuencia-rango de los primeros 10 millones de palabras de la Wikipedia en inglés. En particular, las frecuencias de la clase cerrada de palabras funcionales en inglés se describen mejor con s menor que 1, mientras que el crecimiento del vocabulario abierto con el tamaño del documento y el tamaño del corpus requiere s mayor que 1 para la convergencia de la Serie Armónica Generalizada . [3]

La Guerra de los Mundos de Wells en texto simple, en código de libro y en cifrado Vigenère

Cuando un texto está cifrado de tal manera que cada ocurrencia de cada palabra distinta del texto simple siempre se asigna a la misma palabra cifrada (como en el caso de los cifrados de sustitución simple , como los cifrados César o los cifrados de libro de códigos simple ), la distribución de rango de frecuencia no se ve afectada. Por otro lado, si ocurrencias separadas de la misma palabra se pueden asignar a dos o más palabras diferentes (como sucede con el cifrado Vigenère ), la distribución Zipf normalmente tendrá una parte plana en el extremo de alta frecuencia. [ cita requerida ]

Aplicaciones

La ley de Zipf se ha utilizado para la extracción de fragmentos paralelos de textos a partir de corpus comparables. [47] Laurance Doyle y otros han sugerido la aplicación de la ley de Zipf para la detección de lenguaje alienígena en la búsqueda de inteligencia extraterrestre . [48] [49]

La distribución de palabras por rango de frecuencia suele ser característica del autor y cambia poco con el tiempo. Esta característica se ha utilizado en el análisis de textos para la atribución de autoría. [50] [51]

Se ha descubierto que los grupos de signos con forma de palabra del códice del Manuscrito Voynich del siglo XV satisfacen la ley de Zipf, lo que sugiere que es muy probable que el texto no sea un engaño, sino que esté escrito en un lenguaje o código oscuro. [52] [53]

Véase también

Notas

  1. ^ como Zipf reconoció [5] : 546 

Referencias

  1. ^ abc Piantadosi, Steven (25 de marzo de 2014). "Ley de frecuencia de palabras de Zipf en lenguaje natural: una revisión crítica y direcciones futuras". Psychon Bull Rev . 21 (5): 1112–1130. doi :10.3758/s13423-014-0585-6. PMC 4176592 . PMID  24664880. 
  2. ^ Fagan, Stephen; Gençay, Ramazan (2010). "Introducción a la econometría textual". En Ullah, Aman; Giles, David EA (eds.). Manual de economía empírica y finanzas . CRC Press. pp. 133–153, esp. 139. ISBN 9781420070361Por ejemplo , en el Corpus Brown, que consta de más de un millón de palabras, la mitad del volumen de palabras consiste en usos repetidos de sólo 135 palabras.
  3. ^ abc Powers, David MW (1998). Aplicaciones y explicaciones de la ley de Zipf. Conferencia conjunta sobre nuevos métodos en el procesamiento del lenguaje y el aprendizaje computacional del lenguaje natural. Association for Computational Linguistics. pp. 151–160. Archivado desde el original el 10 de septiembre de 2015. Consultado el 2 de febrero de 2015 en aclweb.org.
  4. ^ ab Zipf, GK (1935). La psicobiología del lenguaje . Nueva York, NY: Houghton-Mifflin.
  5. ^ abc Zipf, George K. (1949). El comportamiento humano y el principio del mínimo esfuerzo. Cambridge, MA: Addison-Wesley. p. 1 – vía archive.org.
  6. ^ Auerbach, F. (1913). "Das Gesetz der Bevölkerungskonzentration". Geographische Mitteilungen de Petermann (en alemán). 59 : 74–76.
  7. ^ ab Manning, Christopher D.; Schütze, Hinrich (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Prensa del MIT. pag. 24.ISBN 978-0-262-13360-9.
  8. ^ Estoup, J.-B. (1916). Juegos Stenographiques (4ª ed.).Citado en Manning y Schütze (1999). [7]
  9. ^ Dewey, Godfrey (1923). Frecuencia relativa de los sonidos del habla inglesa. Harvard University Press – vía Internet Archive.
  10. ^ Condon, EU (1928). "Estadísticas del vocabulario". Science . 67 (1733): 300. Bibcode :1928Sci....67..300C. doi :10.1126/science.67.1733.300. PMID  17782935.
  11. ^ Zipf, GK (1932). Estudios selectos sobre el principio de frecuencia relativa en el lenguaje . Harvard, MA: Harvard University Press.
  12. ^ Zipf, George Kingsley (1942). «La unidad de la naturaleza, la acción mínima y las ciencias sociales naturales». Sociometría . 5 (1): 48–62. doi :10.2307/2784953. ISSN  0038-0431. JSTOR  2784953. Archivado desde el original el 20 de noviembre de 2022 . Consultado el 20 de noviembre de 2022 .
  13. ^ Axtell, Robert L. (2001). «Distribución Zipf de tamaños de empresas estadounidenses». Science . 293 (5536): 1818–1820. Bibcode :2001Sci...293.1818A. doi :10.1126/science.1062081. PMID  11546870. Archivado desde el original el 17 de octubre de 2023 – vía science.org.
  14. ^ Sandmo, Agnar (enero de 2015). "Capítulo 1 - El problema principal de la economía política: la distribución del ingreso en la historia del pensamiento económico". En Atkinson, Anthony B.; Bourguignon, François (eds.). Handbook of Income Distribution . Vol. 2. Elsevier. págs. 3–65. doi :10.1016/B978-0-444-59428-0.00002-3. ISBN 978-0-444-59430-3Archivado desde el original el 29 de octubre de 2023. Consultado el 11 de julio de 2023 – vía Elsevier (sciencedirect.com).
  15. ^ M. Eriksson, SM Hasibur Rahman, F. Fraille, M. Sjöström, Efficient Interactive Multicast over DVB-T2 - Utilizing Dynamic SFNs and PARPS Archivado el 2 de mayo de 2014 en Wayback Machine , Conferencia internacional IEEE sobre informática y tecnología de la información de 2013 (BMSB'13), Londres, Reino Unido, junio de 2013. Sugiere un modelo de selección de canal de TV de ley Zipf heterogéneo
  16. ^ Zanette, Damián H. (7 de junio de 2004). "La ley de Zipf y la creación del contexto musical". arXiv : cs/0406015 .
  17. ^ Lazzardi, Silvia; Valle, Filippo; Mazzolini, Andrea; Scialdone, Antonio; Caselle, Michele; Osella, Matteo (17 de junio de 2021). "Leyes estadísticas emergentes en datos transcriptómicos unicelulares". bioRxiv : 2021–16.06.448706. doi :10.1101/2021.06.16.448706. S2CID  235482777. Archivado desde el original el 17 de junio de 2021 . Consultado el 18 de junio de 2021 .
  18. ^ Chenna, Ramu; Gibson, Toby (2011). Evaluación de la idoneidad de un modelo de brecha zipfiana para el alineamiento de secuencias por pares (PDF) . Conferencia Internacional sobre Bioinformática, Biología Computacional. BIC 4329. Archivado desde el original (PDF) el 6 de marzo de 2014.
  19. ^ Li, Wentian (1992). "Los textos aleatorios presentan una distribución de frecuencia de palabras similar a la de la ley de Zipf". IEEE Transactions on Information Theory . 38 (6): 1842–1845. doi :10.1109/18.165464 – vía IEEE Xplore.
  20. ^ ab Adamic, Lada A. (2000). Zipf, leyes de potencia y Pareto: un tutorial de clasificación (Informe) (edición reeditada). Hewlett-Packard Company. Archivado desde el original el 1 de abril de 2023. Consultado el 12 de octubre de 2023 . «publicación original». www.parc.xerox.com . Xerox Corporation . Archivado desde el original el 7 de noviembre de 2001 . Consultado el 23 de febrero de 2016 .
  21. ^ Clauset, A.; Shalizi, CR; Newman, MEJ (2009). "Distribuciones de ley de potencia en datos empíricos". SIAM Review . 51 (4): 661–703. arXiv : 0706.1062 . Código Bibliográfico :2009SIAMR..51..661C. doi :10.1137/070710111.
  22. ^ Manaris, Bill; Pellicoro, Luca; Pothering, George; Hodges, Harland (13 de febrero de 2006). Investigación de las proporciones estadísticas del esperanto en relación con otras lenguas mediante redes neuronales y la ley de Zipf (PDF) . Inteligencia artificial y aplicaciones. Innsbruck, Austria. pp. 102–108. Archivado desde el original (PDF) el 5 de marzo de 2016 – vía cs.cofc.edu.
  23. ^ Skotarek, Dariusz (12-14 de octubre de 2020). Ley de Zipf en Toki Pona (PDF) . ExLing 2020: 11.ª Conferencia Internacional de Lingüística Experimental. Atenas, Grecia: ExLing Society. doi :10.36505/ExLing-2020/11/0047/000462. ISBN 978-618-84585-1-2– vía exlingsociety.com.
  24. ^ Brillouin, León (2004) [1959, 1988]. La science et la théorie de l'information [ La ciencia y la teoría de la información ] (en francés). réédité en 1988, traducción inglesa rééditée en 2004
  25. ^ Mitzenmacher, Michael (enero de 2004). "Una breve historia de los modelos generativos para la ley de potencia y las distribuciones lognormales". Internet Mathematics . 1 (2): 226–251. doi : 10.1080/15427951.2004.10129088 . ISSN  1542-7951. S2CID  1671059. Archivado desde el original el 22 de julio de 2023 . Consultado el 25 de julio de 2023 .
  26. ^ Simkin, MV; Roychowdhury, VP (mayo de 2011). "Re-inventing Willis". Physics Reports . 502 (1): 1–35. arXiv : physics/0601192 . Bibcode :2011PhR...502....1S. doi :10.1016/j.physrep.2010.12.004. ISSN  0370-1573. S2CID  88517297. Archivado desde el original el 29 de enero de 2012 . Consultado el 25 de julio de 2023 .
  27. ^ Li, Wentian (1992). "Los textos aleatorios presentan una distribución de frecuencia de palabras similar a la de la ley de Zipf". IEEE Transactions on Information Theory . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . doi :10.1109/18.165464. 
  28. ^ Belevitch, V. (18 de diciembre de 1959). "Sobre las leyes estadísticas de las distribuciones lingüísticas" (PDF) . Annales de la Société Scientifique de Bruselas . 73 : 310–326. Archivado (PDF) desde el original el 15 de diciembre de 2020 . Consultado el 24 de abril de 2020 .
  29. ^ Neumann, PG (c. 2022). Metalingüística estadística y Zipf/Pareto/Mandelbrot (informe). Laboratorio de Ciencias de la Computación. Vol. 12A. Menlo Park, CA: SRI International . Archivado desde el original el 5 de junio de 2011. Consultado el 29 de mayo de 2011 en sri.com.
  30. ^ Ferrer i Cancho, Ramon y Sole, Ricard V. (2003). "El mínimo esfuerzo y los orígenes del escalamiento en el lenguaje humano". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (3): 788–791. Bibcode :2003PNAS..100..788C. doi : 10.1073/pnas.0335980100 . PMC 298679 . PMID  12540826. 
  31. ^ Conrad, B.; Mitzenmacher, M. (julio de 2004). «Leyes de potencia para monos que escriben al azar: el caso de probabilidades desiguales». IEEE Transactions on Information Theory . 50 (7): 1403–1414. doi :10.1109/TIT.2004.830752. ISSN  1557-9654. S2CID  8913575. Archivado desde el original el 17 de octubre de 2022. Consultado el 20 de agosto de 2023 .
  32. ^ Lin, Ruokuang; Ma, Qianli DY; Bian, Chunhua (2014). "Leyes de escala en el habla humana, disminución de la aparición de nuevas palabras y un modelo generalizado". arXiv : 1412.4846 [cs.CL].
  33. ^ Vitanov, Nikolay K.; Ausloos, Marcel; Bian, Chunhua (2015). "Prueba de dos hipótesis que explican el tamaño de las poblaciones en un sistema de ciudades". Journal of Applied Statistics . 42 (12): 2686–2693. arXiv : 1506.08535 . Bibcode :2015JApSt..42.2686V. doi :10.1080/02664763.2015.1047744. S2CID  10599428.
  34. ^ Ricardo T. Fernholz; Robert Fernholz (diciembre de 2020). «Ley de Zipf para modelos atlas». Journal of Applied Probability . 57 (4): 1276–1297. doi :10.1017/jpr.2020.64. S2CID  146808080. Archivado desde el original el 29 de enero de 2021 . Consultado el 26 de marzo de 2021 .
  35. ^ Terence Tao (2012). "E Pluribus Unum: de la complejidad, la universalidad". Dédalo . 141 (3): 23–34. doi : 10.1162/DAED_a_00158 . S2CID  14535989. Archivado desde el original el 5 de agosto de 2021 . Consultado el 26 de marzo de 2021 .
  36. ^ Johnson, NL; Kotz, S. y Kemp, AW (1992). Univariate Discrete Distributions (segunda edición). Nueva York: John Wiley & Sons, Inc., pág. 466. ISBN 978-0-471-54897-3.
  37. ^ ab van der Galien, Johan Gerard (8 de noviembre de 2003). «Aleatoriedad factorial: las leyes de Benford y Zipf con respecto a la distribución del primer dígito de la secuencia de factores de los números naturales». zonnet.nl . Archivado desde el original el 5 de marzo de 2007. Consultado el 8 de julio de 2016 .
  38. ^ Eftekhari, Ali (2006). "Geometría fractal de textos: una aplicación inicial a las obras de Shakespeare". Revista de lingüística cuantitativa . 13 (2–3): 177–193. doi :10.1080/09296170600850106. S2CID  17657731.
  39. ^ Pietronero, L.; Tosatti, E.; Tosatti, V.; Vespignani, A. (2001). "Explicación de la distribución desigual de números en la naturaleza: las leyes de Benford y Zipf". Physica A . 293 (1–2): 297–304. arXiv : cond-mat/9808305 . Código Bibliográfico :2001PhyA..293..297P. doi :10.1016/S0378-4371(00)00633-6.
  40. ^ Gabaix, Xavier (1999). «La ley de Zipf para las ciudades: una explicación». The Quarterly Journal of Economics . 114 (3): 739–767. doi :10.1162/003355399556133. ISSN  0033-5533. JSTOR  2586883. Archivado desde el original el 26 de octubre de 2021 . Consultado el 26 de octubre de 2021 en jstor.org.
  41. ^ Arshad, Sidra; Hu, Shougeng; Ashraf, Badar Nadeem (15 de febrero de 2018). "Ley de Zipf y distribución del tamaño de las ciudades: un estudio de la literatura y la agenda de investigación futura". Physica A: Mecánica estadística y sus aplicaciones . 492 : 75–92. Bibcode :2018PhyA..492...75A. doi :10.1016/j.physa.2017.10.005. ISSN  0378-4371. Archivado desde el original el 29 de octubre de 2023 . Consultado el 26 de octubre de 2021 .
  42. ^ Gan, Li; Li, Dong; Song, Shunfeng (1 de agosto de 2006). "¿Es espuria la ley de Zipf al explicar las distribuciones de tamaño de ciudad?". Economics Letters . 92 (2): 256–262. doi :10.1016/j.econlet.2006.03.004. ISSN  0165-1765. Archivado desde el original el 13 de abril de 2019 . Consultado el 26 de octubre de 2021 .
  43. ^ Verbavatz, Vincent; Barthelemy, Marc (noviembre de 2020). «La ecuación de crecimiento de las ciudades». Nature . 587 (7834): 397–401. arXiv : 2011.09403 . Código Bibliográfico :2020Natur.587..397V. doi :10.1038/s41586-020-2900-x. ISSN  1476-4687. PMID  33208958. S2CID  227012701. Archivado desde el original el 29 de octubre de 2021 . Consultado el 26 de octubre de 2021 .
  44. ^ Ferrer Cancho, Ramon; Solé, Ricard V. (diciembre de 2001). "Dos regímenes en la frecuencia de las palabras y los orígenes de los léxicos complejos: una revisión de la ley de Zipf". Journal of Quantitative Linguistics . 8 (3): 165–173. doi :10.1076/jqul.8.3.165.4101. hdl : 2117/180381 . ISSN  0929-6174.
  45. ^ Dorogovtsev, SN; Mendes, JFF (22 de diciembre de 2001). "El lenguaje como una red de palabras en evolución". Actas de la Royal Society de Londres. Serie B: Ciencias Biológicas . 268 (1485): 2603–2606. doi :10.1098/rspb.2001.1824. ISSN  0962-8452. PMC 1088922 . PMID  11749717. 
  46. ^ Moreno-Sánchez, I.; Font-Clos, F.; Corral, A. (2016). "Análisis a gran escala de la Ley de Zipf en textos ingleses". PLOS ONE . ​​11 (1): e0147073. arXiv : 1509.04486 . Bibcode :2016PLoSO..1147073M. doi : 10.1371/journal.pone.0147073 . PMC 4723055 . PMID  26800025. 
  47. ^ Mohammadi, Mehdi (2016). "Identificación paralela de documentos mediante la ley de Zipf" (PDF) . Actas del Noveno taller sobre construcción y uso de corpus comparables . LREC 2016. Portorož, Eslovenia. pp. 21–25. Archivado (PDF) desde el original el 23 de marzo de 2018.
  48. ^ Doyle, LR (18 de noviembre de 2016). «Por qué el lenguaje extraterrestre se destacaría entre todo el ruido del universo». Nautilus Quarterly . Archivado desde el original el 29 de julio de 2020. Consultado el 30 de agosto de 2020 .
  49. ^ Kershenbaum, Arik (16 de marzo de 2021). Guía del zoólogo para la galaxia: lo que los animales de la Tierra revelan sobre los extraterrestres y sobre nosotros mismos . Penguin. pp. 251–256. ISBN 978-1-9848-8197-7.OCLC 1242873084  .
  50. ^ van Droogenbroeck, Frans J. (2016). Manejo de la distribución Zipf en la atribución de autoría computarizada (Informe). Archivado desde el original el 4 de octubre de 2023 – vía academia.edu.
  51. ^ van Droogenbroeck, Frans J. (2019). Una reformulación esencial de la ley de Zipf-Mandelbrot para resolver aplicaciones de atribución de autoría mediante estadísticas gaussianas (informe). Archivado desde el original el 30 de septiembre de 2023 – vía academia.edu.
  52. ^ Boyle, Rebecca. «Los patrones similares al lenguaje del texto misterioso pueden ser un engaño elaborado». New Scientist . Archivado desde el original el 18 de mayo de 2022. Consultado el 25 de febrero de 2022 .
  53. ^ Montemurro, Marcelo A.; Zanette, Damián H. (21 de junio de 2013). "Palabras clave y patrones de coocurrencia en el manuscrito Voynich: un análisis de la teoría de la información". PLoS One . 8 (6): e66344. Bibcode :2013PLoSO...866344M. doi : 10.1371/journal.pone.0066344 . ISSN  1932-6203. PMC 3689824 . PMID  23805215. 

Lectura adicional

Enlaces externos