Heurística para palabras distintas en un documento
En lingüística , la ley de Heaps (también llamada ley de Herdan ) es una ley empírica que describe el número de palabras distintas en un documento (o conjunto de documentos) en función de la longitud del documento (la llamada relación tipo-muestra). Puede formularse como
donde V R es el número de palabras distintas en un texto de instancia de tamaño n . K y β son parámetros libres determinados empíricamente. En los corpus de textos en inglés , normalmente K está entre 10 y 100, y β está entre 0,4 y 0,6.
La ley se atribuye con frecuencia a Harold Stanley Heaps, pero fue descubierta originalmente por Gustav Herdan (1960). [1] Bajo supuestos moderados, la ley de Herdan-Heaps es asintóticamente equivalente a la ley de Zipf sobre las frecuencias de palabras individuales dentro de un texto. [2] Esto es una consecuencia del hecho de que la relación tipo-muestra (en general) de un texto homogéneo puede derivarse de la distribución de sus tipos. [3]
Empíricamente, la ley de Heaps se conserva incluso cuando el documento se baraja aleatoriamente, [4] lo que significa que no depende del orden de las palabras, sino solo de la frecuencia de las palabras. [5] Esto se utiliza como evidencia para derivar la ley de Heaps de la ley de Zipf. [4]
La ley de Heaps significa que a medida que se recopilan más textos de instancia, habrá rendimientos decrecientes en términos de descubrimiento del vocabulario completo del cual se extraen los términos distintos.
Se han identificado desviaciones de la ley de Heaps, como se observa típicamente en los corpus de textos en inglés, en corpus generados con grandes modelos lingüísticos. [6]
La ley de Heaps también se aplica a situaciones en las que el "vocabulario" es simplemente un conjunto de tipos distintos que son atributos de una colección de objetos. Por ejemplo, los objetos podrían ser personas y los tipos podrían ser el país de origen de la persona. Si las personas se seleccionan aleatoriamente (es decir, no se seleccionan en función del país de origen), la ley de Heaps dice que rápidamente tendremos representantes de la mayoría de los países (en proporción a su población), pero será cada vez más difícil cubrir todo el conjunto de países si continuamos con este método de muestreo. La ley de Heaps también se ha observado en transcriptomas unicelulares [7] considerando a los genes como los objetos distintos del "vocabulario".
Distribución de tamaño de rango : distribución de tamaño por rangoPáginas que muestran descripciones de wikidata como alternativa
Referencias
Citas
^ Egghe (2007): "La ley de Herdan en lingüística y la ley de Heaps en recuperación de información son formulaciones diferentes del mismo fenómeno".
^ Kornai (1999); Baeza-Yates y Navarro (2000); van Leijenhorst y van der Weide (2005).
^ Milicka (2009)
^ ab Sano, Yukie; Takayasu, Hideki; Takayasu, Misako (2012). "La ley de Zipf y la ley de Heaps pueden predecir el tamaño de las palabras potenciales". Suplemento de Progreso de Física Teórica . 194 : 202–209. Código Bibliográfico :2012PThPS.194..202S. doi : 10.1143/PTPS.194.202 . ISSN 0375-9687.
^ Najafi, Elham; Darooneh, Amir H. (19 de junio de 2015). Esteban, Francisco J. (ed.). "Los patrones fractales de las palabras en un texto: un método para la extracción automática de palabras clave". PLOS ONE . 10 (6): e0130617. Bibcode :2015PLoSO..1030617N. doi : 10.1371/journal.pone.0130617 . ISSN 1932-6203. PMC 4474631 . PMID 26091207.
^ Lai, Uyen; Randhawa, Gurjit; Sheridan, Paul (12 de diciembre de 2023). "Ley de Heaps en corpus emulados de modelos de lenguaje grandes de GPT-Neo". Actas del Décimo Taller Internacional sobre Evaluación del Acceso a la Información (EVIA 2023), un taller satélite de la Conferencia NTCIR-17 . Tokio, Japón. págs. 20–23. doi :10.20736/0002001352.
^ Lazzardi, Silvia; Valle, Filippo; Mazzolini, Andrea; Scialdone, Antonio; Caselle, Michele; Osella, Matteo (17 de junio de 2021). "Leyes estadísticas emergentes en datos transcriptómicos unicelulares". bioRxiv : 2021–16.06.448706. doi :10.1101/2021.06.16.448706. S2CID 235482777 . Consultado el 18 de junio de 2021 .
Fuentes
Baeza-Yates, Ricardo; Navarro, Gonzalo (2000), "Índices de direccionamiento de bloques para la recuperación aproximada de texto", Journal of the American Society for Information Science , 51 (1): 69–82, CiteSeerX 10.1.1.31.4832 , doi :10.1002/(sici)1097-4571(2000)51:1<69::aid-asi10>3.0.co;2-c.
Egghe, L. (2007), "Desenredando la ley de Herdan y la ley de Heaps: argumentos matemáticos e informétricos", Journal of the American Society for Information Science and Technology , 58 (5): 702–709, doi :10.1002/asi.20524.
Heaps, Harold Stanley (1978), Recuperación de información: aspectos computacionales y teóricos , Academic PressLa ley de Heaps se propone en la Sección 7.5 (págs. 206-208).
Herdan, Gustav (1960), Matemáticas de tipo-token , La Haya: Mouton.
Kornai, Andras (1999), "La ley de Zipf fuera del rango medio", en Rogers, James (ed.), Actas de la Sexta Reunión sobre Matemáticas del Lenguaje , Universidad de Florida Central, págs. 347–356.
Milička, Jiří (2009), "Relación entre tipo y token y Hapax-token: un modelo combinatorio", Glottotheory. Revista internacional de lingüística teórica , 1 (2): 99–110, doi :10.1515/glot-2009-0009, S2CID 124490442.
van Leijenhorst, DC; van der Weide, Th. P. (2005), "Una derivación formal de la ley de Heaps", Ciencias de la información , 170 (2–4): 263–272, doi :10.1016/j.ins.2004.03.006.