La diversidad léxica es un aspecto de la "riqueza léxica" y se refiere a la relación entre los diferentes tipos de palabras y el número total de palabras ( tokens ). El término se utiliza en lingüística aplicada y se calcula cuantitativamente utilizando numerosas medidas diferentes, entre ellas la relación tipo-token (TTR), vocd [1] y la medida de diversidad léxica textual (MTLD). [2]
Un problema común con las medidas de diversidad léxica, especialmente el TTR, es que las muestras de texto que contienen una gran cantidad de tokens dan valores más bajos para el TTR, ya que a menudo es necesario que el escritor o el hablante reutilice muchas palabras. Una consecuencia de esto es que a menudo se supone que la diversidad léxica solo se puede utilizar para comparar textos de la misma longitud. [3] Sin embargo, muchas medidas de diversidad léxica intentan tener en cuenta la sensibilidad a la longitud del texto. Se proporcionan estudios de dichas medidas en el libro de Harald Baayen (2001) [4] y, más recientemente, en [5] .
En un artículo de 2013, Scott Jarvis propuso que la diversidad léxica, al igual que la diversidad en ecología, es un fenómeno perceptivo. La redundancia léxica es una contraparte positiva de la diversidad léxica, de la misma manera que la variabilidad léxica es la imagen especular de la repetición. Según el modelo de Jarvis, la diversidad léxica incluye variabilidad, volumen, uniformidad, rareza, dispersión y disparidad. [6]
Según Jarvis, las seis propiedades de la diversidad léxica deberían medirse mediante los siguientes índices.