stringtranslate.com

ley de montones

Verificación de la ley de Heaps sobre Guerra y Paz , así como una versión barajada aleatoriamente de la misma. Ambos casos se ajustan bien a la ley de Heaps con exponentes β muy similares , pero K diferente .
Un diagrama esquemático de la ley de Heaps. El eje x representa el tamaño del texto y el eje y representa el número de elementos de vocabulario distintos presentes en el texto. Compara los valores de los dos ejes.

En lingüística , la ley de Heaps (también llamada ley de Herdan ) es una ley empírica que describe el número de palabras distintas en un documento (o conjunto de documentos) en función de la longitud del documento (la llamada relación tipo-token). Se puede formular como

donde V R es el número de palabras distintas en un texto de instancia de tamaño n . K y β son parámetros libres determinados empíricamente. Con los corpus de texto en inglés , normalmente K está entre 10 y 100, y β está entre 0,4 y 0,6.

La ley se atribuye frecuentemente a Harold Stanley Heaps, pero fue descubierta originalmente por Gustav Herdan (1960). [1] Bajo supuestos leves, la ley de Herdan-Heaps es asintóticamente equivalente a la ley de Zipf relativa a las frecuencias de palabras individuales dentro de un texto. [2] Esto es una consecuencia del hecho de que la relación tipo-token (en general) de un texto homogéneo puede derivarse de la distribución de sus tipos. [3]

Empíricamente, la ley de Heaps se conserva incluso cuando el documento se baraja aleatoriamente, [4] lo que significa que no depende del orden de las palabras, sino sólo de la frecuencia de las palabras. [5] Esto se utiliza como evidencia para derivar la ley de Heaps a partir de la ley de Zipf. [4]

La ley de Heaps significa que cuanto más texto se recopile, habrá rendimientos decrecientes en términos de descubrimiento del vocabulario completo del que se extraen los distintos términos.

Se han identificado desviaciones de la ley de Heaps, como se observa típicamente en los corpus de textos en inglés, en corpus generados con modelos de lenguaje grandes. [6]

La ley de Heaps también se aplica a situaciones en las que el "vocabulario" es simplemente un conjunto de tipos distintos que son atributos de alguna colección de objetos. Por ejemplo, los objetos podrían ser personas y los tipos podrían ser el país de origen de la persona. Si las personas se seleccionan al azar (es decir, no seleccionamos según el país de origen), entonces la ley de Heaps dice que rápidamente tendremos representantes de la mayoría de los países (en proporción a su población), pero será cada vez más difícil cubrir todo el territorio. conjunto de países al continuar con este método de muestreo. La ley de Heaps se ha observado también en transcriptomas unicelulares [7] considerando a los genes como objetos distintos en el "vocabulario".

Ver también

Referencias

Citas

  1. ^ Egghe (2007): "La ley de Herdan en lingüística y la ley de Heaps en recuperación de información son formulaciones diferentes del mismo fenómeno".
  2. ^ Kornai (1999); Baeza-Yates y Navarro (2000); van Leijenhorst y van der Weide (2005).
  3. ^ Milička (2009)
  4. ^ ab Sano, Yukie; Takayasu, Hideki; Takayasu, Misako (2012). "La ley de Zipf y la ley de Heaps pueden predecir el tamaño de palabras potenciales". Suplemento Avances de Física Teórica . 194 : 202-209. Código Bib : 2012PThPS.194..202S. doi : 10.1143/PTPS.194.202 . ISSN  0375-9687.
  5. ^ Najafi, Elham; Darooneh, Amir H. (19 de junio de 2015). Esteban, Francisco J. (ed.). "Los patrones fractales de las palabras en un texto: un método para la extracción automática de palabras clave". MÁS UNO . 10 (6): e0130617. Código Bib : 2015PLoSO..1030617N. doi : 10.1371/journal.pone.0130617 . ISSN  1932-6203. PMC 4474631 . PMID  26091207. 
  6. ^ Lai, Uyen; Randhawa, Gurjit; Sheridan, Paul (12 de diciembre de 2023). "Ley de Heaps en corpus emulados del modelo de lenguaje grande GPT-Neo". Actas del Décimo Taller Internacional sobre Evaluación del Acceso a la Información (EVIA 2023), un Taller Satélite de la Conferencia NTCIR-17 . Tokio, Japón. págs. 20-23. doi :10.20736/0002001352.
  7. ^ Lazzardi, Silvia; Valle, Filippo; Mazzolini, Andrea; Scialdone, Antonio; Caselle, Michele; Osella, Matteo (17 de junio de 2021). "Leyes estadísticas emergentes en datos transcriptómicos unicelulares". bioRxiv : 2021–16.06.448706. doi :10.1101/2021.06.16.448706. S2CID  235482777 . Consultado el 18 de junio de 2021 .

Fuentes

enlaces externos