stringtranslate.com

Ley de Heaps

Verificación de la ley de Heaps sobre la guerra y la paz , así como una versión aleatoria de la misma. Ambos casos se ajustan bien a la ley de Heaps con exponentes β muy similares , pero diferentes K.
Diagrama esquemático de la ley de Heaps. El eje x representa el tamaño del texto y el eje y representa la cantidad de elementos de vocabulario distintos presentes en el texto. Compare los valores de los dos ejes.

En lingüística , la ley de Heaps (también llamada ley de Herdan ) es una ley empírica que describe el número de palabras distintas en un documento (o conjunto de documentos) en función de la longitud del documento (la llamada relación tipo-muestra). Puede formularse como

donde V R es el número de palabras distintas en un texto de instancia de tamaño n . K y β son parámetros libres determinados empíricamente. En los corpus de textos en inglés , normalmente K está entre 10 y 100, y β está entre 0,4 y 0,6.

La ley se atribuye con frecuencia a Harold Stanley Heaps, pero fue descubierta originalmente por Gustav Herdan (1960). [1] Bajo supuestos moderados, la ley de Herdan-Heaps es asintóticamente equivalente a la ley de Zipf sobre las frecuencias de palabras individuales dentro de un texto. [2] Esto es una consecuencia del hecho de que la relación tipo-muestra (en general) de un texto homogéneo puede derivarse de la distribución de sus tipos. [3]

Empíricamente, la ley de Heaps se conserva incluso cuando el documento se baraja aleatoriamente, [4] lo que significa que no depende del orden de las palabras, sino solo de la frecuencia de las palabras. [5] Esto se utiliza como evidencia para derivar la ley de Heaps de la ley de Zipf. [4]

La ley de Heaps significa que a medida que se recopilan más textos de instancia, habrá rendimientos decrecientes en términos de descubrimiento del vocabulario completo del cual se extraen los términos distintos.

Se han identificado desviaciones de la ley de Heaps, como se observa típicamente en los corpus de textos en inglés, en corpus generados con grandes modelos lingüísticos. [6]

La ley de Heaps también se aplica a situaciones en las que el "vocabulario" es simplemente un conjunto de tipos distintos que son atributos de una colección de objetos. Por ejemplo, los objetos podrían ser personas y los tipos podrían ser el país de origen de la persona. Si las personas se seleccionan aleatoriamente (es decir, no se seleccionan en función del país de origen), la ley de Heaps dice que rápidamente tendremos representantes de la mayoría de los países (en proporción a su población), pero será cada vez más difícil cubrir todo el conjunto de países si continuamos con este método de muestreo. La ley de Heaps también se ha observado en transcriptomas unicelulares [7] considerando a los genes como los objetos distintos del "vocabulario".

Véase también

Referencias

Citas

  1. ^ Egghe (2007): "La ley de Herdan en lingüística y la ley de Heaps en recuperación de información son formulaciones diferentes del mismo fenómeno".
  2. ^ Kornai (1999); Baeza-Yates y Navarro (2000); van Leijenhorst y van der Weide (2005).
  3. ^ Milicka (2009)
  4. ^ ab Sano, Yukie; Takayasu, Hideki; Takayasu, Misako (2012). "La ley de Zipf y la ley de Heaps pueden predecir el tamaño de las palabras potenciales". Suplemento de Progreso de Física Teórica . 194 : 202–209. Código Bibliográfico :2012PThPS.194..202S. doi : 10.1143/PTPS.194.202 . ISSN  0375-9687.
  5. ^ Najafi, Elham; Darooneh, Amir H. (19 de junio de 2015). Esteban, Francisco J. (ed.). "Los patrones fractales de las palabras en un texto: un método para la extracción automática de palabras clave". PLOS ONE . ​​10 (6): e0130617. Bibcode :2015PLoSO..1030617N. doi : 10.1371/journal.pone.0130617 . ISSN  1932-6203. PMC 4474631 . PMID  26091207. 
  6. ^ Lai, Uyen; Randhawa, Gurjit; Sheridan, Paul (12 de diciembre de 2023). "Ley de Heaps en corpus emulados de modelos de lenguaje grandes de GPT-Neo". Actas del Décimo Taller Internacional sobre Evaluación del Acceso a la Información (EVIA 2023), un taller satélite de la Conferencia NTCIR-17 . Tokio, Japón. págs. 20–23. doi :10.20736/0002001352.
  7. ^ Lazzardi, Silvia; Valle, Filippo; Mazzolini, Andrea; Scialdone, Antonio; Caselle, Michele; Osella, Matteo (17 de junio de 2021). "Leyes estadísticas emergentes en datos transcriptómicos unicelulares". bioRxiv : 2021–16.06.448706. doi :10.1101/2021.06.16.448706. S2CID  235482777 . Consultado el 18 de junio de 2021 .

Fuentes

Enlaces externos