Un índice de variación cualitativa ( IQV ) es una medida de dispersión estadística en distribuciones nominales . Algunos ejemplos son la razón de variación o la entropía de la información .
Existen varios tipos de índices que se utilizan para el análisis de datos nominales. Algunos de ellos son estadísticas estándar que se utilizan en otros ámbitos: rango , desviación estándar , varianza , desviación media , coeficiente de variación , desviación absoluta mediana , rango intercuartil y desviación cuartil .
Además de estas, se han desarrollado varias estadísticas teniendo en cuenta los datos nominales. Wilcox (Wilcox 1967) y (Wilcox 1973) han resumido y elaborado varias, y exigen que se cumplan las siguientes propiedades de normalización:
En particular, el valor de estos índices estandarizados no depende del número de categorías ni del número de muestras.
Para cualquier índice, cuanto más uniforme sea la distribución, mayor será la varianza, y cuanto mayores sean las diferencias en las frecuencias entre las categorías, menor será la varianza.
Los índices de variación cualitativa son, por tanto, análogos a la entropía de la información , que se minimiza cuando todos los casos pertenecen a una sola categoría y se maximiza en una distribución uniforme. De hecho, la entropía de la información puede utilizarse como índice de variación cualitativa.
Una caracterización de un índice particular de variación cualitativa (IQV) es como una relación entre las diferencias observadas y las diferencias máximas.
Wilcox proporciona una serie de fórmulas para varios índices de QV (Wilcox 1973), la primera, que él designa DM por "Desviación de la Moda", es una forma estandarizada de la relación de variación , y es análoga a la varianza como desviación de la media.
La fórmula para la variación alrededor del modo (ModVR) se deriva de la siguiente manera:
donde f m es la frecuencia modal, K es el número de categorías y f i es la frecuencia del i- ésimo grupo.
Esto se puede simplificar a:
donde N es el tamaño total de la muestra.
El índice de Freeman (o relación de variación) es [2]
Esto se relaciona con M de la siguiente manera:
El ModVR se define como
donde v es el índice de Freeman.
Los valores bajos de ModVR corresponden a una pequeña cantidad de variación y los valores altos a cantidades mayores de variación.
Cuando K es grande, ModVR es aproximadamente igual al índice de Freeman v .
Esto se basa en el rango alrededor del modo. Se define como
donde f m es la frecuencia modal y f l es la frecuencia más baja.
Es un análogo de la desviación media. Se define como la media aritmética de las diferencias absolutas de cada valor con respecto a la media.
Se trata de un análogo de la diferencia de medias: el promedio de las diferencias de todos los pares posibles de valores de las variables, tomados independientemente del signo. La diferencia de medias difiere de la media y la desviación estándar porque depende de la dispersión de los valores de las variables entre sí y no de las desviaciones con respecto a un valor central. [3]
donde f i y f j son las frecuencias i y j respectivamente .
El MNDif es el coeficiente de Gini aplicado a datos cualitativos.
Esto es un análogo de la varianza.
Es el mismo índice que el índice de variación cualitativa de Mueller y Schussler [4] y el índice M2 de Gibbs.
Se distribuye como una variable chi cuadrado con K – 1 grados de libertad . [5]
Wilson ha sugerido dos versiones de esta estadística.
El primero se basa en AvDev.
El segundo se basa en MNDif
Este índice fue desarrollado originalmente por Claude Shannon para usarse en la especificación de las propiedades de los canales de comunicación.
donde p i = f i / N .
Esto es equivalente a la entropía de la información dividida por y es útil para comparar la variación relativa entre tablas de frecuencia de múltiples tamaños.
Wilcox adaptó una propuesta de Kaiser [6] basada en la media geométrica y creó el índice B' . El índice B se define como
Varios de estos índices se han implementado en el lenguaje R. [7]
Gibbs y Poston Jr (1975) propusieron seis índices. [8]
El índice no estandarizado ( M 1) (Gibbs y Poston Jr 1975, pág. 471) es
donde K es el número de categorías y es la proporción de observaciones que caen en una categoría dada i .
M 1 puede interpretarse como uno menos la probabilidad de que un par aleatorio de muestras pertenezca a la misma categoría, [9] por lo que esta fórmula para el IQV es una probabilidad estandarizada de que un par aleatorio pertenezca a la misma categoría. Este índice también se conoce como índice de diferenciación, índice de diferenciación de sustento e índice de diferenciación geográfica según el contexto en el que se haya utilizado.
Un segundo índice es el M2 [10] (Gibbs & Poston Jr 1975, p. 472) es:
donde K es el número de categorías y es la proporción de observaciones que caen en una categoría dada i . El factor de es para estandarización.
M 1 y M 2 pueden interpretarse en términos de varianza de una distribución multinomial (Swanson 1976) (denominada allí "modelo binomial expandido"). M 1 es la varianza de la distribución multinomial y M 2 es la relación entre la varianza de la distribución multinomial y la varianza de una distribución binomial .
El índice M 4 es
donde m es la media.
La fórmula para M 6 es
· donde K es el número de categorías, Xi es el número de puntos de datos en la i- ésima categoría, N es el número total de puntos de datos, || es el valor absoluto (módulo) y
Esta fórmula se puede simplificar
donde p i es la proporción de la muestra en la i- ésima categoría.
En la práctica, M 1 y M 6 tienden a estar altamente correlacionados, lo que contradice su uso combinado.
La suma
También se ha utilizado este índice, que se conoce como índice Simpson en ecología y como índice Herfindahl o índice Herfindahl-Hirschman (HHI) en economía. Una variante de este índice se conoce como índice Hunter-Gaston en microbiología [11].
En lingüística y criptoanálisis, esta suma se conoce como tasa de repetición. La incidencia de coincidencia ( CI ) es un estimador imparcial de esta estadística [12]
donde f i es el recuento del i- ésimo grafema en el texto y n es el número total de grafemas en el texto.
La estadística M1 definida anteriormente se ha propuesto varias veces en distintos contextos bajo una variedad de nombres. Estos incluyen el índice de mutabilidad de Gini, [13] la medida de diversidad de Simpson, [14] el índice de homogeneidad lingüística de Bachi, [15] el índice de variación cualitativa de Mueller y Schuessler, [16] el índice de diversificación industrial de Gibbs y Martin, [17] el índice de Lieberson. [18] y el índice de Blau en sociología, psicología y estudios de gestión. [19] La formulación de todos estos índices es idéntica.
La D de Simpson se define como
donde n es el tamaño total de la muestra y n i es el número de elementos en la i- ésima categoría.
Para n grande tenemos
Otra estadística que se ha propuesto es el coeficiente de desagrado que oscila entre 0 y 1. [20]
donde n es el tamaño de la muestra y c ( x , y ) = 1 si x e y son diferentes y 0 en caso contrario.
Para n grande tenemos
donde K es el número de categorías.
Otra estadística relacionada es la entropía cuadrática.
que a su vez está relacionado con el índice de Gini .
El índice no ponderado monolingüe de diversidad lingüística de Greenberg [21] es la estadística M 2 definida anteriormente.
Otro índice, el M 7, se creó basándose en el índice M 4 de Gibbs y Poston Jr (1975) [22].
dónde
y
donde K es el número de categorías, L es el número de subtipos, O ij y E ij son el número observado y esperado respectivamente del subtipo j en la i ésima categoría, n i es el número en la i ésima categoría y p j es la proporción del subtipo j en la muestra completa.
Nota: Este índice fue diseñado para medir la participación de las mujeres en el lugar de trabajo: los dos subtipos para los que fue desarrollado fueron masculino y femenino.
Estos índices son estadísticas resumidas de la variación dentro de la muestra.
El índice de Berger-Parker, llamado así en honor a Wolfgang H. Berger y Frances Lawrence Parker , es igual al valor máximo en el conjunto de datos, es decir, la abundancia proporcional del tipo más abundante. [23] Esto corresponde a la media generalizada ponderada de los valores cuando q se acerca al infinito y, por lo tanto, es igual a la inversa de la diversidad verdadera de orden infinito (1/ ∞ D ).
Este índice es estrictamente aplicable sólo a poblaciones enteras y no a muestras finitas. Se define como
donde N es el número total de individuos en la población, n i es el número de individuos en la categoría i y N ! es el factorial de N . El índice de uniformidad de Brillouin se define como
donde I B (max) es el valor máximo de I B .
Hill sugirió una familia de números de diversidad [24]
Para valores dados de a, se pueden calcular varios de los otros índices
Hill también sugirió una familia de medidas de uniformidad
donde a > b .
El E 4 de Hill es
El E 5 de Hill es
donde S es el número de tipos de datos en la muestra y N es el tamaño total de la muestra. [25]
donde S es el número de tipos de datos en la muestra y N es el tamaño total de la muestra. [26]
En lingüística, este índice es idéntico al índice de Kuraszkiewicz (índice de Guiard), donde S es el número de palabras distintas (tipos) y N es el número total de palabras (muestras) en el texto que se examina. [27] [28] Este índice se puede derivar como un caso especial de la función de Torquist generalizada. [29]
Se trata de una estadística inventada por Kempton y Taylor. [30] e involucra los cuartiles de la muestra. Se define como
donde R 1 y R 2 son los cuartiles 25% y 75% respectivamente en la curva acumulada de especies, n j es el número de especies en la categoría j , n Ri es el número de especies en la clase donde cae R i ( i = 1 o 2).
Esto está tomado de la teoría de la información.
donde N es el número total en la muestra y p i es la proporción en la i- ésima categoría.
En ecología, donde se utiliza habitualmente este índice, H suele estar entre 1,5 y 3,5 y sólo rara vez supera 4,0.
Una fórmula aproximada para la desviación estándar (DE) de H es
donde p i es la proporción compuesta por la i- ésima categoría y N es el total de la muestra.
Un valor aproximado más preciso de la varianza de H (var( H )) se proporciona en [31]
donde N es el tamaño de la muestra y K es el número de categorías.
Un índice relacionado es el Pielou J definido como
Una dificultad con este índice es que S es desconocido para una muestra finita. En la práctica, S suele fijarse en el máximo presente en cualquier categoría de la muestra.
La entropía de Rényi es una generalización de la entropía de Shannon a otros valores de q distintos de la unidad. Puede expresarse:
Lo cual es igual
Esto significa que tomar el logaritmo de la diversidad verdadera basado en cualquier valor de q da la entropía de Rényi correspondiente al mismo valor de q .
El valor de también se conoce como número de Hill. [24]
Medida de diversidad propuesta por McIntosh: [32]
donde n i es el número en la i- ésima categoría y K es el número de categorías.
También propuso varias versiones normalizadas de este índice. La primera es D :
donde N es el tamaño total de la muestra.
Este índice tiene la ventaja de expresar la diversidad observada como una proporción de la diversidad máxima absoluta en un N dado .
Otra normalización propuesta es E , la relación entre la diversidad observada y la máxima diversidad posible de un N y K dados (es decir, si todas las especies son iguales en número de individuos):
Éste fue el primer índice que se derivó para la diversidad. [33]
donde K es el número de categorías y N es el número de puntos de datos en la muestra. El α de Fisher debe estimarse numéricamente a partir de los datos.
El número esperado de individuos en la categoría r donde las categorías se han colocado en tamaño creciente es
donde X es un parámetro empírico que se encuentra entre 0 y 1. Si bien X se estima mejor numéricamente, se puede obtener un valor aproximado resolviendo las dos ecuaciones siguientes
donde K es el número de categorías y N es el tamaño total de la muestra.
La varianza de α es aproximadamente [34]
Este índice ( D w ) es la distancia entre la curva de distribución de especies de Lorenz y la línea de 45 grados. Está estrechamente relacionado con el coeficiente de Gini. [35]
En símbolos es
donde max() es el valor máximo tomado sobre los N puntos de datos, K es el número de categorías (o especies) en el conjunto de datos y c i es el total acumulado hasta la i -ésima categoría inclusive.
Esto está relacionado con la D de Simpson y se define como
donde D es la D de Simpson y K es el número de categorías en la muestra.
Smith y Wilson sugirieron una serie de índices basados en la D de Simpson .
donde D es la D de Simpson y K es el número de categorías.
donde H es la entropía de Shannon y K es el número de categorías.
Este índice está estrechamente relacionado con el índice de Sheldon, que es
donde H es la entropía de Shannon y K es el número de categorías.
Este índice fue creado por Camargo en 1993. [36]
donde K es el número de categorías y p i es la proporción en la i- ésima categoría.
Este índice fue propuesto por Smith y Wilson en 1996. [37]
donde θ es la pendiente de la curva de rango logarítmico (abundancia).
Esta es la pendiente de la curva de rango logarítmico (abundancia).
Hay dos versiones de este índice: una para distribuciones continuas ( E c ) y otra para distribuciones discretas ( E d ). [38]
dónde
es el índice de Schoener-Czekanoski, K es el número de categorías y N es el tamaño de la muestra.
Este índice ( R ik ) se basa en la entropía de Shannon. [39] Se define como
dónde
En estas ecuaciones, x ij y x kj son el número de veces que aparece el j -ésimo tipo de datos en la i- ésima o k -ésima muestra respectivamente.
En una muestra enrarecida, se elige una submuestra aleatoria n de los N elementos totales. En esta muestra, es posible que algunos grupos estén necesariamente ausentes de esta submuestra. Sea el número de grupos que todavía están presentes en la submuestra de n elementos. es menor que K el número de categorías siempre que falte al menos un grupo en esta submuestra.
La curva de rarefacción , se define como:
Tenga en cuenta que 0 ≤ f ( n ) ≤ K .
Además,
A pesar de estar definidas en valores discretos de n , estas curvas se muestran con mayor frecuencia como funciones continuas. [40]
Este índice se analiza con más detalle en Rarefacción (ecología) .
Esta es una estadística de tipo z basada en la entropía de Shannon. [41]
donde H es la entropía de Shannon, E ( H ) es la entropía de Shannon esperada para un modelo de distribución neutral y SD ( H ) es la desviación estándar de la entropía. La desviación estándar se estima a partir de la fórmula derivada por Pielou.
donde p i es la proporción compuesta por la i- ésima categoría y N es el total de la muestra.
Esto es
donde K es el número de categorías y K' es el número de categorías según el modelo de palo roto de MacArthur que produce la diversidad observada.
Este índice se utiliza para comparar la relación entre los huéspedes y sus parásitos. [42] Incorpora información sobre la relación filogenética entre las especies huéspedes.
donde s es el número de especies hospedantes utilizadas por un parásito y ω ij es la distinción taxonómica entre las especies hospedantes i y j .
Se han propuesto varios índices con este nombre.
Uno de estos es
donde K es el número de categorías y p i es la proporción de la muestra que se encuentra en la i- ésima categoría.
Este índice también se conoce como índice de entropía multigrupo o índice de teoría de la información. Fue propuesto por Theil en 1972. [43] El índice es un promedio ponderado de la entropía de las muestras.
Dejar
y
donde p i es la proporción del tipo i en la muestra a , r es el número total de muestras, n i es el tamaño de la muestra i , N es el tamaño de la población de la que se obtuvieron las muestras y E es la entropía de la población.
Se han desarrollado varios de estos índices para documentar el grado en que pueden coexistir diferentes tipos de datos de interés dentro de un área geográfica.
Sean A y B dos tipos de elementos de datos. Entonces, el índice de disimilitud es
dónde
A i es el número de datos de tipo A en el sitio de muestra i , B i es el número de datos de tipo B en el sitio de muestra i , K es el número de sitios muestreados y || es el valor absoluto.
Este índice es probablemente más conocido como el índice de disimilitud ( D ). [44] Está estrechamente relacionado con el índice de Gini.
Este índice está sesgado ya que su expectativa bajo una distribución uniforme es > 0.
Gorard y Taylor propusieron una modificación de este índice. [45] Su índice (GT) es
El índice de segregación ( IS ) [46] es
dónde
y K es el número de unidades, A i y t i es el número de tipo de datos A en la unidad i y el número total de todos los tipos de datos en la unidad i .
Este índice ( H ) se define como [47]
donde p i es la proporción de la muestra compuesta por la i -ésima variable.
Este índice ( L xy ) fue inventado por Lieberson en 1981. [48]
donde Xi e Yi son las variables de interés en el sitio i , K es el número de sitios examinados y X tot es el número total de variables de tipo X en el estudio.
Este índice se define como [49]
donde p x es la proporción de la muestra compuesta por variables de tipo X y
donde N x es el número total de variables de tipo X en el estudio, K es el número de muestras en el estudio y x i y p i son el número de variables y la proporción de variables de tipo X respectivamente en la i -ésima muestra.
El índice de aislamiento es
donde K es el número de unidades en el estudio, A i y t i es el número de unidades del tipo A y el número de todas las unidades en la i- ésima muestra.
También se ha propuesto un índice de aislamiento modificado.
El MII se encuentra entre 0 y 1.
Este índice (GS) se define como
dónde
y A i y t i son el número de elementos de datos del tipo A y el número total de elementos en la i- ésima muestra.
Este índice se define como
dónde
y A i y B i son el número de tipos A y B en la i- ésima categoría y t i es el número total de puntos de datos en la i- ésima categoría.
Esta es una forma binaria del índice de coseno. [50] Se utiliza para comparar datos de presencia/ausencia de dos tipos de datos (aquí A y B ). Se define como
donde a es el número de unidades de muestra donde se encuentran tanto A como B , b es el número de unidades de muestra donde está presente A pero no B y c es el número de unidades de muestra donde está presente el tipo B pero no el tipo A.
Este coeficiente fue inventado por Stanisław Kulczyński en 1927 [51] y es un índice de asociación entre dos tipos (aquí A y B ). Su valor varía entre 0 y 1. Se define como
donde a es el número de unidades de muestra donde están presentes el tipo A y el tipo B , b es el número de unidades de muestra donde está presente el tipo A pero no el tipo B y c es el número de unidades de muestra donde está presente el tipo B pero no el tipo A.
Este índice fue inventado por Yule en 1900. [52] Se trata de la asociación de dos tipos diferentes (aquí A y B ). Se define como
donde a es el número de muestras en las que están presentes tanto los tipos A como B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras en las que está presente el tipo B pero no el tipo A y d es el recuento de muestras en las que no están presentes ni el tipo A ni el tipo B. Q varía en valor entre -1 y +1. En el caso ordinal, Q se conoce como γ de Goodman-Kruskal .
Dado que el denominador potencialmente puede ser cero, Leinhert y Sporer recomendaron agregar +1 a a , b , c y d . [53]
Este índice se define como
donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B.
Este índice fue inventado por Baroni-Urbani y Buser en 1976. [54] Su valor varía entre 0 y 1. Se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Cuando d = 0, este índice es idéntico al índice de Jaccard.
Este coeficiente se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Este coeficiente se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra .
Este coeficiente se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Este coeficiente se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Este coeficiente se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Este coeficiente se define como
donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B.
Este coeficiente se define como
donde b es el número de muestras donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Este coeficiente se define como
donde b es el número de muestras donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A.
Este coeficiente se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Este coeficiente fue propuesto por Stephen Alfred Forbes en 1907. [55] Se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra ( N = a + b + c + d ).
Alroy [56] propuso una modificación de este coeficiente que no requiere el conocimiento de d .
Donde n = a + b + c .
Este coeficiente se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Este coeficiente se define como
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
Este coeficiente se define como
donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A , d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B , n es igual a + b + c + d y || es el módulo (valor absoluto) de la diferencia.
Este coeficiente se define como
donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B.
En 1884 Charles Peirce sugirió [57] el siguiente coeficiente
donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B.
En 1975 Hawkin y Dotson propusieron el siguiente coeficiente
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
En 1901 Benini propuso el siguiente coeficiente
donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B y c es el número de muestras donde está presente el tipo B pero no el tipo A. Min( b , c ) es el mínimo de b y c .
Gilbert propuso el siguiente coeficiente
donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.
El índice de Gini es
donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B y c es el número de muestras donde está presente el tipo B pero no el tipo A.
El índice de Gini modificado es
donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B y c es el número de muestras donde está presente el tipo B pero no el tipo A.
Kuhn propuso el siguiente coeficiente en 1965
donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B y c es el número de muestras donde está presente el tipo B pero no el tipo A. K es un parámetro normalizador. N es el tamaño de la muestra.
Este índice también se conoce como coeficiente de media aritmética.
Eyraud propuso el siguiente coeficiente en 1936
donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el número de muestras donde no están presentes ni A ni B.
Esto se define como
donde a es el número de muestras donde están presentes tanto los tipos A como B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el número de muestras donde no están presentes ni A ni B. N es el tamaño de la muestra.
Esto se define como
donde a es el número de muestras donde están presentes tanto los tipos A como B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el número de muestras donde no están presentes ni A ni B. N es el tamaño de la muestra.
Esto se define como
donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A.
También se conoce como índice de Bray-Curtis , índice de Schoener, índice de mínimo común porcentual, índice de afinidad o de similitud proporcional. Está relacionado con el índice de similitud de Sørensen .
donde x i y x j son el número de especies en los sitios i y j respectivamente y el mínimo se toma sobre el número de especies en común entre los dos sitios.
La distancia de Canberra es una versión ponderada de la métrica L 1 . Fue introducida en 1966 [58] y refinada en 1967 [59] por GN Lance y WT Williams . Se utiliza para definir una distancia entre dos vectores, en este caso dos sitios con K categorías dentro de cada sitio.
La distancia de Canberra d entre los vectores p y q en un espacio vectorial real K -dimensional es
donde p i y q i son los valores de la i- ésima categoría de los dos vectores.
Esto se utiliza para medir similitudes entre comunidades.
donde s 1 y s 2 son el número de especies en las comunidades 1 y 2 respectivamente y c es el número de especies comunes a ambas áreas.
Esta es una medida de la similitud entre dos muestras:
donde A es el número de puntos de datos compartidos entre las dos muestras y B y C son los puntos de datos encontrados solo en la primera y segunda muestra respectivamente.
Este índice fue inventado en 1902 por el botánico suizo Paul Jaccard . [60]
Bajo una distribución aleatoria el valor esperado de J es [61]
El error estándar de este índice con el supuesto de una distribución aleatoria es
donde N es el tamaño total de la muestra.
Esta es una medida de la similitud entre dos muestras:
donde A es el número de puntos de datos compartidos entre las dos muestras y B y C son los puntos de datos encontrados solo en la primera y segunda muestra respectivamente.
Esta es una medida de la similitud entre dos muestras:
donde N es el número de puntos de datos en las dos muestras y B y C son los puntos de datos encontrados solo en la primera y segunda muestra respectivamente.
El índice de dispersión de Masaaki Morisita ( Im ) es la probabilidad escalada de que dos puntos elegidos al azar de toda la población estén en la misma muestra. [62] Los valores más altos indican una distribución más agrupada.
Una formulación alternativa es
donde n es el tamaño total de la muestra, m es la media de la muestra y x son los valores individuales con la suma tomada sobre toda la muestra. También es igual a
donde IMC es el índice de hacinamiento de Lloyd. [63]
Este índice es relativamente independiente de la densidad de población, pero se ve afectado por el tamaño de la muestra.
Morisita demostró que la estadística [62]
se distribuye como una variable chi-cuadrado con n − 1 grados de libertad.
Se ha desarrollado una prueba de significación alternativa para este índice para muestras grandes. [64]
donde m es la media general de la muestra, n es el número de unidades de muestra y z es la abscisa de la distribución normal . La significancia se prueba comparando el valor de z con los valores de la distribución normal .
El índice de superposición de Morisita se utiliza para comparar la superposición entre muestras. [65] El índice se basa en el supuesto de que aumentar el tamaño de las muestras aumentará la diversidad porque incluirá diferentes hábitats.
C D = 0 si las dos muestras no se superponen en términos de especies, y C D = 1 si las especies ocurren en las mismas proporciones en ambas muestras.
Horn introdujo una modificación del índice [66]
Smith-Gill desarrolló una estadística basada en el índice de Morisita, que es independiente tanto del tamaño de la muestra como de la densidad de población y está limitada por −1 y +1. Esta estadística se calcula de la siguiente manera [67]
Primero determine el índice de Morisita ( I d ) de la manera habitual. Luego sea k el número de unidades de las que se tomó la muestra de la población. Calcule los dos valores críticos
donde χ 2 es el valor de chi cuadrado para n − 1 grados de libertad en los niveles de confianza del 97,5% y 2,5%.
El índice estandarizado ( I p ) se calcula entonces a partir de una de las fórmulas siguientes
Cuando I d ≥ M c > 1
Cuando M c > I d ≥ 1
Cuando 1 > I d ≥ M u
Cuando 1 > M u > I d
El rango de I p oscila entre +1 y -1 con intervalos de confianza del 95 % de ±0,5. I p tiene el valor 0 si el patrón es aleatorio; si el patrón es uniforme, I p < 0 y si el patrón muestra agregación, I p > 0.
Estos índices son una medida de uniformidad entre muestras. [68]
donde I es un índice de diversidad, I max e I min son los valores máximo y mínimo de I entre las muestras que se comparan.
Loevinger ha sugerido un coeficiente H definido de la siguiente manera:
donde p max y p min son las proporciones máxima y mínima en la muestra.
El índice de Tversky [69] es una medida asimétrica que se encuentra entre 0 y 1.
Para las muestras A y B el índice de Tversky ( S ) es
Los valores de α y β son arbitrarios. Si se fijan α y β en 0,5, se obtiene el coeficiente de Dice . Si se fijan ambos en 1, se obtiene el coeficiente de Tanimoto .
También se ha propuesto una variante simétrica de este índice. [70]
dónde
Se han propuesto varios índices similares.
Monostori et al. propusieron el índice SymmetricSimilarity [71]
donde d ( X ) es alguna medida de derivada de X .
Bernstein y Zobel han propuesto los índices S2 y S3 [72]
S3 es simplemente el doble del índice de similitud simétrica. Ambos están relacionados con el coeficiente de Dice.
Se han propuesto varias métricas (distancias entre muestras).
Si bien esto se utiliza generalmente en trabajos cuantitativos, también se puede utilizar en trabajos cualitativos. Esto se define como
donde d jk es la distancia entre x ij y x ik .
Esto se define como
donde d i es la distancia entre las i- ésimas muestras y w i es la ponderación dada a la i- ésima distancia.
Si bien esto se usa más comúnmente en el trabajo cuantitativo, también se puede usar en el trabajo cualitativo. Esto se define como
donde d jk es la distancia entre x ij y x ik y || es el valor absoluto de la diferencia entre x ij y x ik .
Se puede utilizar una versión modificada de la distancia de Manhattan para encontrar un cero ( raíz ) de un polinomio de cualquier grado utilizando el método de Lill .
Esto está relacionado con la distancia de Manhattan. Fue descrita por Prevosti et al. y se utilizó para comparar diferencias entre cromosomas . [73] Sean P y Q dos colecciones de r distribuciones de probabilidad finita. Dejemos que estas distribuciones tengan valores que se dividen en k categorías. Entonces la distancia D PQ es
donde r es el número de distribuciones de probabilidad discretas en cada población, k j es el número de categorías en las distribuciones P j y Q j y p ji (respectivamente q ji ) es la probabilidad teórica de la categoría i en la distribución P j ( Q j ) en la población P ( Q ).
Sus propiedades estadísticas fueron examinadas por Sánchez et al. [74] quienes recomendaron un procedimiento bootstrap para estimar intervalos de confianza al probar diferencias entre muestras.
Dejar
donde min( x , y ) es el valor menor del par x e y .
Entonces
es la distancia de Manhattan,
es la distancia de Bray−Curtis,
es la distancia de Jaccard (o Ruzicka) y
es la distancia de Kulczynski.
HaCohen-Kerner et al. han propuesto una variedad de métricas para comparar dos o más textos. [75]
Si las categorías son al menos ordinales , se pueden calcular otros índices.
La medida de dispersión de Leik ( D ) es uno de esos índices. [76] Sea K categorías y sea p i f i / N donde f i es el número en la i ésima categoría y sean las categorías ordenadas en orden ascendente. Sea
donde a ≤ K . Sea d a = c a si c a ≤ 0,5 y 1 − c a ≤ 0,5 en caso contrario. Entonces
Este es el cuadrado del coeficiente de variación dividido por N − 1, donde N es el tamaño de la muestra.
donde m es la media y s es la desviación estándar.
El índice de potencial de conflicto (PCI) describe la relación entre las puntuaciones en ambos lados del punto central de una escala de calificación. [77] Este índice requiere al menos datos ordinales. Esta relación se suele mostrar como un gráfico de burbujas.
El PCI utiliza una escala ordinal con un número impar de puntos de calificación (− n a + n ) centrado en 0. Se calcula de la siguiente manera
donde Z = 2 n , |·| es el valor absoluto (módulo), r + es el número de respuestas en el lado positivo de la escala, r − es el número de respuestas en el lado negativo de la escala, X + son las respuestas en el lado positivo de la escala, X − son las respuestas en el lado negativo de la escala y
Se sabe que existen dificultades teóricas con el PCI. El PCI puede calcularse sólo para escalas con un punto central neutro y un número igual de opciones de respuesta a ambos lados de este. Además, una distribución uniforme de respuestas no siempre produce el punto medio de la estadística PCI, sino que varía con el número de posibles respuestas o valores en la escala. Por ejemplo, escalas de cinco, siete y nueve puntos con una distribución uniforme de respuestas dan PCI de 0,60, 0,57 y 0,50 respectivamente.
El primero de estos problemas es relativamente menor, ya que la mayoría de las escalas ordinales con un número par de respuestas se pueden ampliar (o reducir) con un único valor para dar un número impar de respuestas posibles. La escala se puede volver a centrar si es necesario. El segundo problema es más difícil de resolver y puede limitar la aplicabilidad del PCI.
Se ha ampliado el PCI [78]
donde K es el número de categorías, k i es el número en la i- ésima categoría, d ij es la distancia entre la i -ésima y la i -ésima categoría, y δ es la distancia máxima en la escala multiplicada por el número de veces que puede ocurrir en la muestra. Para una muestra con un número par de puntos de datos
y para una muestra con un número impar de puntos de datos
donde N es el número de puntos de datos en la muestra y d max es la distancia máxima entre puntos en la escala.
Vaske et al. sugieren una serie de posibles medidas de distancia para utilizar con este índice. [78]
Si los signos (+ o −) de r i y r j son diferentes. Si los signos son iguales, d ij = 0.
donde p es un número real arbitrario > 0.
si signo( r i ) ≠ signo( r i ) y p es un número real > 0. Si los signos son los mismos entonces d ij = 0. m es D 1 , D 2 o D 3 .
La diferencia entre D 1 y D 2 es que el primero no incluye a los neutrales en la distancia, mientras que el segundo sí. Por ejemplo, los encuestados que puntúan -2 y +1 tendrían una distancia de 2 en D 1 y de 3 en D 2 .
El uso de una potencia ( p ) en las distancias permite reescalar las respuestas extremas. Estas diferencias pueden resaltarse con p > 1 o disminuirse con p < 1.
En simulaciones con variables extraídas de una distribución uniforme, el PCI 2 tiene una distribución unimodal simétrica. [78] Las colas de su distribución son más grandes que las de una distribución normal.
Vaske et al. sugieren el uso de una prueba t para comparar los valores del PCI entre muestras si los PCI se distribuyen aproximadamente de manera normal.
Esta medida es un promedio ponderado del grado de acuerdo de la distribución de frecuencias. [79] A varía de −1 ( bimodalidad perfecta ) a +1 ( unimodalidad perfecta ). Se define como
donde U es la unimodalidad de la distribución, S el número de categorías que tienen frecuencias distintas de cero y K el número total de categorías.
El valor de U es 1 si la distribución tiene alguna de las tres características siguientes:
Con distribuciones distintas a estas, los datos deben dividirse en "capas". Dentro de una capa, las respuestas son iguales o cero. Las categorías no tienen que ser contiguas. Se calcula un valor para A para cada capa ( A i ) y se determina un promedio ponderado para la distribución. Los pesos ( w i ) para cada capa son el número de respuestas en esa capa. En símbolos
Una distribución uniforme tiene A = 0: cuando todas las respuestas caen en una categoría A = +1.
Un problema teórico de este índice es que supone que los intervalos están espaciados de forma uniforme, lo que puede limitar su aplicabilidad.
Si hay n unidades en la muestra y están distribuidas aleatoriamente en k categorías ( n ≤ k ), esto puede considerarse una variante del problema del cumpleaños . [80] La probabilidad ( p ) de que todas las categorías tengan solo una unidad es
Si c es grande y n es pequeño comparado con k 2/3 entonces es una buena aproximación
Esta aproximación se desprende de la fórmula exacta como sigue:
Para p = 0,5 y p = 0,05 respectivamente, las siguientes estimaciones de n pueden ser útiles
Este análisis se puede extender a múltiples categorías. Para p = 0,5 y p 0,05 tenemos respectivamente
donde c i es el tamaño de la categoría i . Este análisis supone que las categorías son independientes.
Si los datos se ordenan de alguna manera, entonces, para al menos un evento que ocurre en dos categorías que se encuentran dentro de j categorías entre sí, una probabilidad de 0,5 o 0,05 requiere un tamaño de muestra ( n ) de respectivamente [81].
donde k es el número de categorías.
Se ha investigado si existe o no una relación entre los cumpleaños y los días de muerte mediante la estadística [82].
donde d es el número de días del año entre el cumpleaños y el día de la muerte.
El índice Rand se utiliza para comprobar si dos o más sistemas de clasificación coinciden en un conjunto de datos. [83]
Dado un conjunto de elementos y dos particiones de a comparar, , una partición de S en r subconjuntos, y , una partición de S en s subconjuntos, defina lo siguiente:
El índice Rand - - se define como
Intuitivamente, se puede considerar como el número de acuerdos entre y y como el número de desacuerdos entre y .
El índice Rand ajustado es la versión corregida por azar del índice Rand. [83] [84] [85] Aunque el índice Rand solo puede producir un valor entre 0 y +1, el índice Rand ajustado puede producir valores negativos si el índice es menor que el índice esperado. [86]
Dado un conjunto de elementos y dos agrupaciones o particiones ( por ejemplo, clusterizaciones) de estos puntos, a saber , y , la superposición entre y se puede resumir en una tabla de contingencia donde cada entrada denota el número de objetos en común entre y : .
La forma ajustada del índice Rand, el índice Rand ajustado, es
Más específicamente
¿Dónde están los valores de la tabla de contingencia?
Dado que el denominador es el número total de pares, el índice de Rand representa la frecuencia de ocurrencia de acuerdos sobre el total de pares, o la probabilidad de que y coincidan en un par elegido al azar.
Diferentes índices dan diferentes valores de variación y pueden utilizarse para diferentes propósitos: varios de ellos se utilizan y critican especialmente en la literatura sociológica.
Si uno desea simplemente hacer comparaciones ordinales entre muestras (¿una muestra es más o menos variada que otra?), la elección del VCI es relativamente menos importante, ya que a menudo darán el mismo ordenamiento.
Cuando los datos son ordinales, un método que puede ser útil para comparar muestras es ORDANOVA.
En algunos casos es útil no estandarizar un índice para que vaya de 0 a 1, independientemente del número de categorías o muestras (Wilcox 1973, pág. 338), pero generalmente se lo estandariza así.