stringtranslate.com

Variación cualitativa

Un índice de variación cualitativa ( IQV ) es una medida de dispersión estadística en distribuciones nominales . Algunos ejemplos son la razón de variación o la entropía de la información .

Propiedades

Existen varios tipos de índices que se utilizan para el análisis de datos nominales. Algunos de ellos son estadísticas estándar que se utilizan en otros ámbitos: rango , desviación estándar , varianza , desviación media , coeficiente de variación , desviación absoluta mediana , rango intercuartil y desviación cuartil .

Además de estas, se han desarrollado varias estadísticas teniendo en cuenta los datos nominales. Wilcox (Wilcox 1967) y (Wilcox 1973) han resumido y elaborado varias, y exigen que se cumplan las siguientes propiedades de normalización:

En particular, el valor de estos índices estandarizados no depende del número de categorías ni del número de muestras.

Para cualquier índice, cuanto más uniforme sea la distribución, mayor será la varianza, y cuanto mayores sean las diferencias en las frecuencias entre las categorías, menor será la varianza.

Los índices de variación cualitativa son, por tanto, análogos a la entropía de la información , que se minimiza cuando todos los casos pertenecen a una sola categoría y se maximiza en una distribución uniforme. De hecho, la entropía de la información puede utilizarse como índice de variación cualitativa.

Una caracterización de un índice particular de variación cualitativa (IQV) es como una relación entre las diferencias observadas y las diferencias máximas.

Índices de Wilcox

Wilcox proporciona una serie de fórmulas para varios índices de QV (Wilcox 1973), la primera, que él designa DM por "Desviación de la Moda", es una forma estandarizada de la relación de variación , y es análoga a la varianza como desviación de la media.

ModVR

La fórmula para la variación alrededor del modo (ModVR) se deriva de la siguiente manera:

donde f m es la frecuencia modal, K es el número de categorías y f i es la frecuencia del i- ésimo grupo.

Esto se puede simplificar a:

donde N es el tamaño total de la muestra.

El índice de Freeman (o relación de variación) es [2]

Esto se relaciona con M de la siguiente manera:

El ModVR se define como

donde v es el índice de Freeman.

Los valores bajos de ModVR corresponden a una pequeña cantidad de variación y los valores altos a cantidades mayores de variación.

Cuando K es grande, ModVR es aproximadamente igual al índice de Freeman  v .

RanVR

Esto se basa en el rango alrededor del modo. Se define como

donde f m es la frecuencia modal y f l es la frecuencia más baja.

AvDev

Es un análogo de la desviación media. Se define como la media aritmética de las diferencias absolutas de cada valor con respecto a la media.

MNDif

Se trata de un análogo de la diferencia de medias: el promedio de las diferencias de todos los pares posibles de valores de las variables, tomados independientemente del signo. La diferencia de medias difiere de la media y la desviación estándar porque depende de la dispersión de los valores de las variables entre sí y no de las desviaciones con respecto a un valor central. [3]

donde f i y f j son las frecuencias i y j respectivamente .

El MNDif es el coeficiente de Gini aplicado a datos cualitativos.

VarNC

Esto es un análogo de la varianza.

Es el mismo índice que el índice de variación cualitativa de Mueller y Schussler [4] y el índice M2 de Gibbs.

Se distribuye como una variable chi cuadrado con K  – 1 grados de libertad . [5]

Desviación estándar

Wilson ha sugerido dos versiones de esta estadística.

El primero se basa en AvDev.

El segundo se basa en MNDif

HRel

Este índice fue desarrollado originalmente por Claude Shannon para usarse en la especificación de las propiedades de los canales de comunicación.

donde p i = f i / N .

Esto es equivalente a la entropía de la información dividida por y es útil para comparar la variación relativa entre tablas de frecuencia de múltiples tamaños.

Índice B

Wilcox adaptó una propuesta de Kaiser [6] basada en la media geométrica y creó el índice B' . El índice B se define como

Paquetes R

Varios de estos índices se han implementado en el lenguaje R. [7]

Índices de Gibbs y fórmulas relacionadas

Gibbs y Poston Jr (1975) propusieron seis índices. [8]

METRO1

El índice no estandarizado ( M 1) (Gibbs y Poston Jr 1975, pág. 471) es

donde K es el número de categorías y es la proporción de observaciones que caen en una categoría dada i .

M 1 puede interpretarse como uno menos la probabilidad de que un par aleatorio de muestras pertenezca a la misma categoría, [9] por lo que esta fórmula para el IQV es una probabilidad estandarizada de que un par aleatorio pertenezca a la misma categoría. Este índice también se conoce como índice de diferenciación, índice de diferenciación de sustento e índice de diferenciación geográfica según el contexto en el que se haya utilizado.

METRO2

Un segundo índice es el M2 [10] (Gibbs & Poston Jr 1975, p. 472) es:

donde K es el número de categorías y es la proporción de observaciones que caen en una categoría dada i . El factor de es para estandarización.

M 1 y M 2 pueden interpretarse en términos de varianza de una distribución multinomial (Swanson 1976) (denominada allí "modelo binomial expandido"). M 1 es la varianza de la distribución multinomial y M 2 es la relación entre la varianza de la distribución multinomial y la varianza de una distribución binomial .

METRO4

El índice M 4 es

donde m es la media.

METRO6

La fórmula para M 6 es

· donde K es el número de categorías, Xi es el número de puntos de datos en la i- ésima categoría, N es el número total de puntos de datos, || es el valor absoluto (módulo) y

Esta fórmula se puede simplificar

donde p i es la proporción de la muestra en la i- ésima categoría.

En la práctica, M 1 y M 6 tienden a estar altamente correlacionados, lo que contradice su uso combinado.

Índices relacionados

La suma

También se ha utilizado este índice, que se conoce como índice Simpson en ecología y como índice Herfindahl o índice Herfindahl-Hirschman (HHI) en economía. Una variante de este índice se conoce como índice Hunter-Gaston en microbiología [11].

En lingüística y criptoanálisis, esta suma se conoce como tasa de repetición. La incidencia de coincidencia ( CI ) es un estimador imparcial de esta estadística [12]

donde f i es el recuento del i- ésimo grafema en el texto y n es el número total de grafemas en el texto.

M 1

La estadística M1 definida anteriormente se ha propuesto varias veces en distintos contextos bajo una variedad de nombres. Estos incluyen el índice de mutabilidad de Gini, [13] la medida de diversidad de Simpson, [14] el índice de homogeneidad lingüística de Bachi, [15] el índice de variación cualitativa de Mueller y Schuessler, [16] el índice de diversificación industrial de Gibbs y Martin, [17] el índice de Lieberson. [18] y el índice de Blau en sociología, psicología y estudios de gestión. [19] La formulación de todos estos índices es idéntica.

La D de Simpson se define como

donde n es el tamaño total de la muestra y n i es el número de elementos en la i- ésima categoría.

Para n grande tenemos

Otra estadística que se ha propuesto es el coeficiente de desagrado que oscila entre 0 y 1. [20]

donde n es el tamaño de la muestra y c ( x , y ) = 1 si x e y son diferentes y 0 en caso contrario.

Para n grande tenemos

donde K es el número de categorías.

Otra estadística relacionada es la entropía cuadrática.

que a su vez está relacionado con el índice de Gini .

M2

El índice no ponderado monolingüe de diversidad lingüística de Greenberg [21] es la estadística M 2 definida anteriormente.

M 7

Otro índice, el M 7, se creó basándose en el índice M 4 de Gibbs y Poston Jr (1975) [22].

dónde

y

donde K es el número de categorías, L es el número de subtipos, O ij y E ij son el número observado y esperado respectivamente del subtipo j en la i ésima categoría, n i es el número en la i ésima categoría y p j es la proporción del subtipo j en la muestra completa.

Nota: Este índice fue diseñado para medir la participación de las mujeres en el lugar de trabajo: los dos subtipos para los que fue desarrollado fueron masculino y femenino.

Otros índices de muestra única

Estos índices son estadísticas resumidas de la variación dentro de la muestra.

Índice de Berger-Parker

El índice de Berger-Parker, llamado así en honor a Wolfgang H. Berger y Frances Lawrence Parker , es igual al valor máximo en el conjunto de datos, es decir, la abundancia proporcional del tipo más abundante. [23] Esto corresponde a la media generalizada ponderada de los valores cuando q se acerca al infinito y, por lo tanto, es igual a la inversa de la diversidad verdadera de orden infinito (1/ D ).

Índice de diversidad de Brillouin

Este índice es estrictamente aplicable sólo a poblaciones enteras y no a muestras finitas. Se define como

donde N es el número total de individuos en la población, n i es el número de individuos en la categoría i y N ! es el factorial de N . El índice de uniformidad de Brillouin se define como

donde I B (max) es el valor máximo de I B .

Las cifras de diversidad de Hill

Hill sugirió una familia de números de diversidad [24]

Para valores dados de a, se pueden calcular varios de los otros índices

Hill también sugirió una familia de medidas de uniformidad

donde a > b .

El E 4 de Hill es

El E 5 de Hill es

Índice de Margalef

donde S es el número de tipos de datos en la muestra y N es el tamaño total de la muestra. [25]

Índice de Menhinick

donde S es el número de tipos de datos en la muestra y N es el tamaño total de la muestra. [26]

En lingüística, este índice es idéntico al índice de Kuraszkiewicz (índice de Guiard), donde S es el número de palabras distintas (tipos) y N es el número total de palabras (muestras) en el texto que se examina. [27] [28] Este índice se puede derivar como un caso especial de la función de Torquist generalizada. [29]

Estadística Q

Se trata de una estadística inventada por Kempton y Taylor. [30] e involucra los cuartiles de la muestra. Se define como

donde R 1 y R 2 son los cuartiles 25% y 75% respectivamente en la curva acumulada de especies, n j es el número de especies en la categoría j , n Ri es el número de especies en la clase donde cae R i ( i = 1 o 2).

Índice de Shannon-Wiener

Esto está tomado de la teoría de la información.

donde N es el número total en la muestra y p i es la proporción en la i- ésima categoría.

En ecología, donde se utiliza habitualmente este índice, H suele estar entre 1,5 y 3,5 y sólo rara vez supera 4,0.

Una fórmula aproximada para la desviación estándar (DE) de H es

donde p i es la proporción compuesta por la i- ésima categoría y N es el total de la muestra.

Un valor aproximado más preciso de la varianza de H (var( H )) se proporciona en [31]

donde N es el tamaño de la muestra y K es el número de categorías.

Un índice relacionado es el Pielou J definido como

Una dificultad con este índice es que S es desconocido para una muestra finita. En la práctica, S suele fijarse en el máximo presente en cualquier categoría de la muestra.

Entropía de Rényi

La entropía de Rényi es una generalización de la entropía de Shannon a otros valores de q distintos de la unidad. Puede expresarse:

Lo cual es igual

Esto significa que tomar el logaritmo de la diversidad verdadera basado en cualquier valor de q da la entropía de Rényi correspondiente al mismo valor de q .

El valor de también se conoce como número de Hill. [24]

D y E de McIntosh

Medida de diversidad propuesta por McIntosh: [32]

donde n i es el número en la i- ésima categoría y K es el número de categorías.

También propuso varias versiones normalizadas de este índice. La primera es D :

donde N es el tamaño total de la muestra.

Este índice tiene la ventaja de expresar la diversidad observada como una proporción de la diversidad máxima absoluta en un N dado .

Otra normalización propuesta es E , la relación entre la diversidad observada y la máxima diversidad posible de un N y K dados (es decir, si todas las especies son iguales en número de individuos):

Alfa de Fisher

Éste fue el primer índice que se derivó para la diversidad. [33]

donde K es el número de categorías y N es el número de puntos de datos en la muestra. El α de Fisher debe estimarse numéricamente a partir de los datos.

El número esperado de individuos en la categoría r donde las categorías se han colocado en tamaño creciente es

donde X es un parámetro empírico que se encuentra entre 0 y 1. Si bien X se estima mejor numéricamente, se puede obtener un valor aproximado resolviendo las dos ecuaciones siguientes

donde K es el número de categorías y N es el tamaño total de la muestra.

La varianza de α es aproximadamente [34]

Índice de Strong

Este índice ( D w ) es la distancia entre la curva de distribución de especies de Lorenz y la línea de 45 grados. Está estrechamente relacionado con el coeficiente de Gini. [35]

En símbolos es

donde max() es el valor máximo tomado sobre los N puntos de datos, K es el número de categorías (o especies) en el conjunto de datos y c i es el total acumulado hasta la i -ésima categoría inclusive.

La E de Simpson

Esto está relacionado con la D de Simpson y se define como

donde D es la D de Simpson y K es el número de categorías en la muestra.

Smith y Wilson sugirieron una serie de índices basados ​​en la D de Simpson .

donde D es la D de Simpson y K es el número de categorías.

Índice de Heip

donde H es la entropía de Shannon y K es el número de categorías.

Este índice está estrechamente relacionado con el índice de Sheldon, que es

donde H es la entropía de Shannon y K es el número de categorías.

Índice de Camargo

Este índice fue creado por Camargo en 1993. [36]

donde K es el número de categorías y p i es la proporción en la i- ésima categoría.

B de Smith y Wilson

Este índice fue propuesto por Smith y Wilson en 1996. [37]

donde θ es la pendiente de la curva de rango logarítmico (abundancia).

Índice de Nee, Harvey y Cotgreave

Esta es la pendiente de la curva de rango logarítmico (abundancia).

E de Bulla

Hay dos versiones de este índice: una para distribuciones continuas ( E c ) y otra para distribuciones discretas ( E d ). [38]

dónde

es el índice de Schoener-Czekanoski, K es el número de categorías y N es el tamaño de la muestra.

Índice de la teoría de la información de Horn

Este índice ( R ik ) se basa en la entropía de Shannon. [39] Se define como

dónde

En estas ecuaciones, x ij y x kj son el número de veces que aparece el j -ésimo tipo de datos en la i- ésima o k -ésima muestra respectivamente.

Índice de rarefacción

En una muestra enrarecida, se elige una submuestra aleatoria n de los N elementos totales. En esta muestra, es posible que algunos grupos estén necesariamente ausentes de esta submuestra. Sea el número de grupos que todavía están presentes en la submuestra de n elementos. es menor que K el número de categorías siempre que falte al menos un grupo en esta submuestra.

La curva de rarefacción , se define como:

Tenga en cuenta que 0 ≤ f ( n ) ≤ K .

Además,

A pesar de estar definidas en valores discretos de n , estas curvas se muestran con mayor frecuencia como funciones continuas. [40]

Este índice se analiza con más detalle en Rarefacción (ecología) .

V de Caswell

Esta es una estadística de tipo z basada en la entropía de Shannon. [41]

donde H es la entropía de Shannon, E ( H ) es la entropía de Shannon esperada para un modelo de distribución neutral y SD ( H ) es la desviación estándar de la entropía. La desviación estándar se estima a partir de la fórmula derivada por Pielou.

donde p i es la proporción compuesta por la i- ésima categoría y N es el total de la muestra.

Esto es

donde K es el número de categorías y K' es el número de categorías según el modelo de palo roto de MacArthur que produce la diversidad observada.

Índice de distinción taxonómica promedio

Este índice se utiliza para comparar la relación entre los huéspedes y sus parásitos. [42] Incorpora información sobre la relación filogenética entre las especies huéspedes.

donde s es el número de especies hospedantes utilizadas por un parásito y ω ij es la distinción taxonómica entre las especies hospedantes i y j .

Índice de variación cualitativa

Se han propuesto varios índices con este nombre.

Uno de estos es

donde K es el número de categorías y p i es la proporción de la muestra que se encuentra en la i- ésima categoría.

La H de Theil

Este índice también se conoce como índice de entropía multigrupo o índice de teoría de la información. Fue propuesto por Theil en 1972. [43] El índice es un promedio ponderado de la entropía de las muestras.

Dejar

y

donde p i es la proporción del tipo i en la muestra a , r es el número total de muestras, n i es el tamaño de la muestra i , N es el tamaño de la población de la que se obtuvieron las muestras y E es la entropía de la población.

Índices para la comparación de dos o más tipos de datos dentro de una sola muestra

Se han desarrollado varios de estos índices para documentar el grado en que pueden coexistir diferentes tipos de datos de interés dentro de un área geográfica.

Índice de disimilitud

Sean A y B dos tipos de elementos de datos. Entonces, el índice de disimilitud es

dónde

A i es el número de datos de tipo A en el sitio de muestra i , B i es el número de datos de tipo B en el sitio de muestra i , K es el número de sitios muestreados y || es el valor absoluto.

Este índice es probablemente más conocido como el índice de disimilitud ( D ). [44] Está estrechamente relacionado con el índice de Gini.

Este índice está sesgado ya que su expectativa bajo una distribución uniforme es > 0.

Gorard y Taylor propusieron una modificación de este índice. [45] Su índice (GT) es

Índice de segregación

El índice de segregación ( IS ) [46] es

dónde

y K es el número de unidades, A i y t i es el número de tipo de datos A en la unidad i y el número total de todos los tipos de datos en la unidad i .

Índice de raíz cuadrada de Hutchen

Este índice ( H ) se define como [47]

donde p i es la proporción de la muestra compuesta por la i -ésima variable.

Índice de aislamiento de Lieberson

Este índice ( L xy ) fue inventado por Lieberson en 1981. [48]

donde Xi e Yi son las variables de interés en el sitio i , K es el número de sitios examinados y X tot es el número total de variables de tipo X en el estudio.

Índice de Bell

Este índice se define como [49]

donde p x es la proporción de la muestra compuesta por variables de tipo X y

donde N x es el número total de variables de tipo X en el estudio, K es el número de muestras en el estudio y x i y p i son el número de variables y la proporción de variables de tipo X respectivamente en la i -ésima muestra.

Índice de aislamiento

El índice de aislamiento es

donde K es el número de unidades en el estudio, A i y t i es el número de unidades del tipo A y el número de todas las unidades en la i- ésima muestra.

También se ha propuesto un índice de aislamiento modificado.

El MII se encuentra entre 0 y 1.

Índice de segregación de Gorard

Este índice (GS) se define como

dónde

y A i y t i son el número de elementos de datos del tipo A y el número total de elementos en la i- ésima muestra.

Índice de exposición

Este índice se define como

dónde

y A i y B i son el número de tipos A y B en la i- ésima categoría y t i es el número total de puntos de datos en la i- ésima categoría.

Índice de Ochiai

Esta es una forma binaria del índice de coseno. [50] Se utiliza para comparar datos de presencia/ausencia de dos tipos de datos (aquí A y B ). Se define como

donde a es el número de unidades de muestra donde se encuentran tanto A como B , b es el número de unidades de muestra donde está presente A pero no B y c es el número de unidades de muestra donde está presente el tipo B pero no el tipo A.

Coeficiente de Kulczyński

Este coeficiente fue inventado por Stanisław Kulczyński en 1927 [51] y es un índice de asociación entre dos tipos (aquí A y B ). Su valor varía entre 0 y 1. Se define como

donde a es el número de unidades de muestra donde están presentes el tipo A y el tipo B , b es el número de unidades de muestra donde está presente el tipo A pero no el tipo B y c es el número de unidades de muestra donde está presente el tipo B pero no el tipo A.

La Q de Yule

Este índice fue inventado por Yule en 1900. [52] Se trata de la asociación de dos tipos diferentes (aquí A y B ). Se define como

donde a es el número de muestras en las que están presentes tanto los tipos A como B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras en las que está presente el tipo B pero no el tipo A y d es el recuento de muestras en las que no están presentes ni el tipo A ni el tipo B. Q varía en valor entre -1 y +1. En el caso ordinal, Q se conoce como γ de Goodman-Kruskal .

Dado que el denominador potencialmente puede ser cero, Leinhert y Sporer recomendaron agregar +1 a a , b , c y d . [53]

La Y de Yule

Este índice se define como

donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B.

Coeficiente de Baroni-Urbani-Buser

Este índice fue inventado por Baroni-Urbani y Buser en 1976. [54] Su valor varía entre 0 y 1. Se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Cuando d = 0, este índice es idéntico al índice de Jaccard.

Coeficiente de Hamman

Este coeficiente se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Coeficiente de Rogers-Tanimoto

Este coeficiente se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra .

Coeficiente de Sokal-Sneath

Este coeficiente se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Distancia binaria de Sokal

Este coeficiente se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Coeficiente de Russel-Rao

Este coeficiente se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Coeficiente phi

Este coeficiente se define como

donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B.

Coeficiente de Soergel

Este coeficiente se define como

donde b es el número de muestras donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Coeficiente de Simpson

Este coeficiente se define como

donde b es el número de muestras donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A.

Coeficiente de Dennis

Este coeficiente se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Coeficiente de Forbes

Este coeficiente fue propuesto por Stephen Alfred Forbes en 1907. [55] Se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra ( N = a + b + c + d ).

Alroy [56] propuso una modificación de este coeficiente que no requiere el conocimiento de d .

Donde n = a + b + c .

Coeficiente de coincidencia simple

Este coeficiente se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Coeficiente de Fossum

Este coeficiente se define como

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Coeficiente de Stile

Este coeficiente se define como

donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A , d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B , n es igual a + b + c + d y || es el módulo (valor absoluto) de la diferencia.

Coeficiente de Michael

Este coeficiente se define como

donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B.

Coeficiente de Peirce

En 1884 Charles Peirce sugirió [57] el siguiente coeficiente

donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B.

Coeficiente de Hawkin-Dotson

En 1975 Hawkin y Dotson propusieron el siguiente coeficiente

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Coeficiente de Benini

En 1901 Benini propuso el siguiente coeficiente

donde a es el número de muestras donde están presentes ambos tipos A y B , b es donde está presente el tipo A pero no el tipo B y c es el número de muestras donde está presente el tipo B pero no el tipo A. Min( b , c ) es el mínimo de b y c .

Coeficiente de Gilbert

Gilbert propuso el siguiente coeficiente

donde a es el número de muestras donde están presentes tanto el tipo A como el tipo B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el recuento de muestras donde no están presentes ni el tipo A ni el tipo B. N es el tamaño de la muestra.

Índice de Gini

El índice de Gini es

donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B y c es el número de muestras donde está presente el tipo B pero no el tipo A.

Índice de Gini modificado

El índice de Gini modificado es

donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B y c es el número de muestras donde está presente el tipo B pero no el tipo A.

Índice de Kuhn

Kuhn propuso el siguiente coeficiente en 1965

donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B y c es el número de muestras donde está presente el tipo B pero no el tipo A. K es un parámetro normalizador. N es el tamaño de la muestra.

Este índice también se conoce como coeficiente de media aritmética.

Índice de Eyraud

Eyraud propuso el siguiente coeficiente en 1936

donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el número de muestras donde no están presentes ni A ni B.

Distancia de Sörgel

Esto se define como

donde a es el número de muestras donde están presentes tanto los tipos A como B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el número de muestras donde no están presentes ni A ni B. N es el tamaño de la muestra.

Índice de Tanimoto

Esto se define como

donde a es el número de muestras donde están presentes tanto los tipos A como B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A y d es el número de muestras donde no están presentes ni A ni B. N es el tamaño de la muestra.

Índice de Piatetsky-Shapiro

Esto se define como

donde a es el número de muestras donde están presentes los tipos A y B , b es donde está presente el tipo A pero no el tipo B , c es el número de muestras donde está presente el tipo B pero no el tipo A.

Índices de comparación entre dos o más muestras

Índice cuantitativo de Czekanowski

También se conoce como índice de Bray-Curtis , índice de Schoener, índice de mínimo común porcentual, índice de afinidad o de similitud proporcional. Está relacionado con el índice de similitud de Sørensen .

donde x i y x j son el número de especies en los sitios i y j respectivamente y el mínimo se toma sobre el número de especies en común entre los dos sitios.

Métrica de Canberra

La distancia de Canberra es una versión ponderada de la métrica L 1 . Fue introducida en 1966 [58] y refinada en 1967 [59] por GN Lance y WT Williams . Se utiliza para definir una distancia entre dos vectores, en este caso dos sitios con K categorías dentro de cada sitio.

La distancia de Canberra d entre los vectores p y q en un espacio vectorial real K -dimensional es

donde p i y q i son los valores de la i- ésima categoría de los dos vectores.

Coeficiente de comunidad de Sorensen

Esto se utiliza para medir similitudes entre comunidades.

donde s 1 y s 2 son el número de especies en las comunidades 1 y 2 respectivamente y c es el número de especies comunes a ambas áreas.

Índice de Jaccard

Esta es una medida de la similitud entre dos muestras:

donde A es el número de puntos de datos compartidos entre las dos muestras y B y C son los puntos de datos encontrados solo en la primera y segunda muestra respectivamente.

Este índice fue inventado en 1902 por el botánico suizo Paul Jaccard . [60]

Bajo una distribución aleatoria el valor esperado de J es [61]

El error estándar de este índice con el supuesto de una distribución aleatoria es

donde N es el tamaño total de la muestra.

Índice de dados

Esta es una medida de la similitud entre dos muestras:

donde A es el número de puntos de datos compartidos entre las dos muestras y B y C son los puntos de datos encontrados solo en la primera y segunda muestra respectivamente.

Coeficiente de coincidencia

Esta es una medida de la similitud entre dos muestras:

donde N es el número de puntos de datos en las dos muestras y B y C son los puntos de datos encontrados solo en la primera y segunda muestra respectivamente.

Índice de Morisita

El índice de dispersión de Masaaki Morisita ( Im ) es la probabilidad escalada de que dos puntos elegidos al azar de toda la población estén en la misma muestra. [62] Los valores más altos indican una distribución más agrupada.

Una formulación alternativa es

donde n es el tamaño total de la muestra, m es la media de la muestra y x son los valores individuales con la suma tomada sobre toda la muestra. También es igual a

donde IMC es el índice de hacinamiento de Lloyd. [63]

Este índice es relativamente independiente de la densidad de población, pero se ve afectado por el tamaño de la muestra.

Morisita demostró que la estadística [62]

se distribuye como una variable chi-cuadrado con n  − 1 grados de libertad.

Se ha desarrollado una prueba de significación alternativa para este índice para muestras grandes. [64]

donde m es la media general de la muestra, n es el número de unidades de muestra y z es la abscisa de la distribución normal . La significancia se prueba comparando el valor de z con los valores de la distribución normal .

Índice de superposición de Morisita

El índice de superposición de Morisita se utiliza para comparar la superposición entre muestras. [65] El índice se basa en el supuesto de que aumentar el tamaño de las muestras aumentará la diversidad porque incluirá diferentes hábitats.

x i es el número de veces que la especie i está representada en el total X de una muestra.
y i es el número de veces que la especie i está representada en el total Y de otra muestra.
D x y D y son los valores del índice de Simpson para las muestras x e y respectivamente.
S es el número de especies únicas

C D = 0 si las dos muestras no se superponen en términos de especies, y C D = 1 si las especies ocurren en las mismas proporciones en ambas muestras.

Horn introdujo una modificación del índice [66]

Índice de Morisita estandarizado

Smith-Gill desarrolló una estadística basada en el índice de Morisita, que es independiente tanto del tamaño de la muestra como de la densidad de población y está limitada por −1 y +1. Esta estadística se calcula de la siguiente manera [67]

Primero determine el índice de Morisita ( I d ) de la manera habitual. Luego sea k el número de unidades de las que se tomó la muestra de la población. Calcule los dos valores críticos

donde χ 2 es el valor de chi cuadrado para n  − 1 grados de libertad en los niveles de confianza del 97,5% y 2,5%.

El índice estandarizado ( I p ) se calcula entonces a partir de una de las fórmulas siguientes

Cuando I dM c > 1

Cuando M c > I d ≥ 1

Cuando 1 > I dM u

Cuando 1 > M u > I d

El rango de I p oscila entre +1 y -1 con intervalos de confianza del 95 % de ±0,5. I p tiene el valor 0 si el patrón es aleatorio; si el patrón es uniforme, I p < 0 y si el patrón muestra agregación, I p > 0.

Índices de uniformidad de Peet

Estos índices son una medida de uniformidad entre muestras. [68]

donde I es un índice de diversidad, I max e I min son los valores máximo y mínimo de I entre las muestras que se comparan.

Coeficiente de Loevinger

Loevinger ha sugerido un coeficiente H definido de la siguiente manera:

donde p max y p min son las proporciones máxima y mínima en la muestra.

Índice de Tversky

El índice de Tversky [69] es una medida asimétrica que se encuentra entre 0 y 1.

Para las muestras A y B el índice de Tversky ( S ) es

Los valores de α y β son arbitrarios. Si se fijan α y β en 0,5, se obtiene el coeficiente de Dice . Si se fijan ambos en 1, se obtiene el coeficiente de Tanimoto .

También se ha propuesto una variante simétrica de este índice. [70]

dónde

Se han propuesto varios índices similares.

Monostori et al. propusieron el índice SymmetricSimilarity [71]

donde d ( X ) es alguna medida de derivada de  X .

Bernstein y Zobel han propuesto los índices S2 y S3 [72]

S3 es simplemente el doble del índice de similitud simétrica. Ambos están relacionados con el coeficiente de Dice.

Métricas utilizadas

Se han propuesto varias métricas (distancias entre muestras).

Distancia euclidiana

Si bien esto se utiliza generalmente en trabajos cuantitativos, también se puede utilizar en trabajos cualitativos. Esto se define como

donde d jk es la distancia entre x ij y x ik .

Distancia de Gower

Esto se define como

donde d i es la distancia entre las i- ésimas muestras y w i es la ponderación dada a la i- ésima distancia.

Distancia de Manhattan

Si bien esto se usa más comúnmente en el trabajo cuantitativo, también se puede usar en el trabajo cualitativo. Esto se define como

donde d jk es la distancia entre x ij y x ik y || es el valor absoluto de la diferencia entre x ij y x ik .

Se puede utilizar una versión modificada de la distancia de Manhattan para encontrar un cero ( raíz ) de un polinomio de cualquier grado utilizando el método de Lill .

La distancia de Prevosti

Esto está relacionado con la distancia de Manhattan. Fue descrita por Prevosti et al. y se utilizó para comparar diferencias entre cromosomas . [73] Sean P y Q dos colecciones de r distribuciones de probabilidad finita. Dejemos que estas distribuciones tengan valores que se dividen en k categorías. Entonces la distancia D PQ es

donde r es el número de distribuciones de probabilidad discretas en cada población, k j es el número de categorías en las distribuciones P j y Q j y p ji (respectivamente q ji ) es la probabilidad teórica de la categoría i en la distribución P j ( Q j ) en la población P ( Q ).

Sus propiedades estadísticas fueron examinadas por Sánchez et al. [74] quienes recomendaron un procedimiento bootstrap para estimar intervalos de confianza al probar diferencias entre muestras.

Otras métricas

Dejar

donde min( x , y ) es el valor menor del par x e y .

Entonces

es la distancia de Manhattan,

es la distancia de Bray−Curtis,

es la distancia de Jaccard (o Ruzicka) y

es la distancia de Kulczynski.

Similitudes entre textos

HaCohen-Kerner et al. han propuesto una variedad de métricas para comparar dos o más textos. [75]

Datos ordinales

Si las categorías son al menos ordinales , se pueden calcular otros índices.

La D de Leik

La medida de dispersión de Leik ( D ) es uno de esos índices. [76] Sea K categorías y sea p i f i / N donde f i es el número en la i ésima categoría y sean las categorías ordenadas en orden ascendente. Sea

donde aK . Sea d a = c a si c a ≤ 0,5 y 1 −  c a ≤ 0,5 en caso contrario. Entonces

Medida de Herfindahl normalizada

Este es el cuadrado del coeficiente de variación dividido por N  − 1, donde N es el tamaño de la muestra.

donde m es la media y s es la desviación estándar.

Índice de potencial de conflicto

El índice de potencial de conflicto (PCI) describe la relación entre las puntuaciones en ambos lados del punto central de una escala de calificación. [77] Este índice requiere al menos datos ordinales. Esta relación se suele mostrar como un gráfico de burbujas.

El PCI utiliza una escala ordinal con un número impar de puntos de calificación (− n a + n ) centrado en 0. Se calcula de la siguiente manera

donde Z = 2 n , |·| es el valor absoluto (módulo), r + es el número de respuestas en el lado positivo de la escala, r es el número de respuestas en el lado negativo de la escala, X + son las respuestas en el lado positivo de la escala, X son las respuestas en el lado negativo de la escala y

Se sabe que existen dificultades teóricas con el PCI. El PCI puede calcularse sólo para escalas con un punto central neutro y un número igual de opciones de respuesta a ambos lados de este. Además, una distribución uniforme de respuestas no siempre produce el punto medio de la estadística PCI, sino que varía con el número de posibles respuestas o valores en la escala. Por ejemplo, escalas de cinco, siete y nueve puntos con una distribución uniforme de respuestas dan PCI de 0,60, 0,57 y 0,50 respectivamente.

El primero de estos problemas es relativamente menor, ya que la mayoría de las escalas ordinales con un número par de respuestas se pueden ampliar (o reducir) con un único valor para dar un número impar de respuestas posibles. La escala se puede volver a centrar si es necesario. El segundo problema es más difícil de resolver y puede limitar la aplicabilidad del PCI.

Se ha ampliado el PCI [78]

donde K es el número de categorías, k i es el número en la i- ésima categoría, d ij es la distancia entre la i -ésima y la i -ésima categoría, y δ es la distancia máxima en la escala multiplicada por el número de veces que puede ocurrir en la muestra. Para una muestra con un número par de puntos de datos

y para una muestra con un número impar de puntos de datos

donde N es el número de puntos de datos en la muestra y d max es la distancia máxima entre puntos en la escala.

Vaske et al. sugieren una serie de posibles medidas de distancia para utilizar con este índice. [78]

Si los signos (+ o −) de r i y r j son diferentes. Si los signos son iguales, d ij = 0.

donde p es un número real arbitrario > 0.

si signo( r i ) ≠ signo( r i ) y p es un número real > 0. Si los signos son los mismos entonces d ij = 0. m es D 1 , D 2 o D 3 .

La diferencia entre D 1 y D 2 es que el primero no incluye a los neutrales en la distancia, mientras que el segundo sí. Por ejemplo, los encuestados que puntúan -2 y +1 tendrían una distancia de 2 en D 1 y de 3 en D 2 .

El uso de una potencia ( p ) en las distancias permite reescalar las respuestas extremas. Estas diferencias pueden resaltarse con p > 1 o disminuirse con p < 1.

En simulaciones con variables extraídas de una distribución uniforme, el PCI 2 tiene una distribución unimodal simétrica. [78] Las colas de su distribución son más grandes que las de una distribución normal.

Vaske et al. sugieren el uso de una prueba t para comparar los valores del PCI entre muestras si los PCI se distribuyen aproximadamente de manera normal.

La A de van der Eijk

Esta medida es un promedio ponderado del grado de acuerdo de la distribución de frecuencias. [79] A varía de −1 ( bimodalidad perfecta ) a +1 ( unimodalidad perfecta ). Se define como

donde U es la unimodalidad de la distribución, S el número de categorías que tienen frecuencias distintas de cero y K el número total de categorías.

El valor de U es 1 si la distribución tiene alguna de las tres características siguientes:

Con distribuciones distintas a estas, los datos deben dividirse en "capas". Dentro de una capa, las respuestas son iguales o cero. Las categorías no tienen que ser contiguas. Se calcula un valor para A para cada capa ( A i ) y se determina un promedio ponderado para la distribución. Los pesos ( w i ) para cada capa son el número de respuestas en esa capa. En símbolos

Una distribución uniforme tiene A = 0: cuando todas las respuestas caen en una categoría A = +1.

Un problema teórico de este índice es que supone que los intervalos están espaciados de forma uniforme, lo que puede limitar su aplicabilidad.

Estadísticas relacionadas

Problema de cumpleaños

Si hay n unidades en la muestra y están distribuidas aleatoriamente en k categorías ( nk ), esto puede considerarse una variante del problema del cumpleaños . [80] La probabilidad ( p ) de que todas las categorías tengan solo una unidad es

Si c es grande y n es pequeño comparado con k 2/3 entonces es una buena aproximación

Esta aproximación se desprende de la fórmula exacta como sigue:

Estimaciones del tamaño de la muestra

Para p = 0,5 y p = 0,05 respectivamente, las siguientes estimaciones de n pueden ser útiles

Este análisis se puede extender a múltiples categorías. Para p = 0,5 y p 0,05 tenemos respectivamente

donde c i es el tamaño de la categoría i . Este análisis supone que las categorías son independientes.

Si los datos se ordenan de alguna manera, entonces, para al menos un evento que ocurre en dos categorías que se encuentran dentro de j categorías entre sí, una probabilidad de 0,5 o 0,05 requiere un tamaño de muestra ( n ) de respectivamente [81].

donde k es el número de categorías.

Problema del día del cumpleaños y la muerte

Se ha investigado si existe o no una relación entre los cumpleaños y los días de muerte mediante la estadística [82].

donde d es el número de días del año entre el cumpleaños y el día de la muerte.

Índice Rand

El índice Rand se utiliza para comprobar si dos o más sistemas de clasificación coinciden en un conjunto de datos. [83]

Dado un conjunto de elementos y dos particiones de a comparar, , una partición de S en r subconjuntos, y , una partición de S en s subconjuntos, defina lo siguiente:

El índice Rand - - se define como

Intuitivamente, se puede considerar como el número de acuerdos entre y y como el número de desacuerdos entre y .

Índice Rand ajustado

El índice Rand ajustado es la versión corregida por azar del índice Rand. [83] [84] [85] Aunque el índice Rand solo puede producir un valor entre 0 y +1, el índice Rand ajustado puede producir valores negativos si el índice es menor que el índice esperado. [86]

La tabla de contingencia

Dado un conjunto de elementos y dos agrupaciones o particiones ( por ejemplo, clusterizaciones) de estos puntos, a saber , y , la superposición entre y se puede resumir en una tabla de contingencia donde cada entrada denota el número de objetos en común entre y  : .

Definición

La forma ajustada del índice Rand, el índice Rand ajustado, es

Más específicamente

¿Dónde están los valores de la tabla de contingencia?

Dado que el denominador es el número total de pares, el índice de Rand representa la frecuencia de ocurrencia de acuerdos sobre el total de pares, o la probabilidad de que y coincidan en un par elegido al azar.

Evaluación de índices

Diferentes índices dan diferentes valores de variación y pueden utilizarse para diferentes propósitos: varios de ellos se utilizan y critican especialmente en la literatura sociológica.

Si uno desea simplemente hacer comparaciones ordinales entre muestras (¿una muestra es más o menos variada que otra?), la elección del VCI es relativamente menos importante, ya que a menudo darán el mismo ordenamiento.

Cuando los datos son ordinales, un método que puede ser útil para comparar muestras es ORDANOVA.

En algunos casos es útil no estandarizar un índice para que vaya de 0 a 1, independientemente del número de categorías o muestras (Wilcox 1973, pág. 338), pero generalmente se lo estandariza así.

Véase también

Notas

  1. ^ Esto sólo puede suceder si el número de casos es un múltiplo del número de categorías.
  2. ^ Freemen LC (1965) Estadística elemental aplicada . Nueva York: John Wiley and Sons, págs. 40-43
  3. ^ Kendal MC, Stuart A (1958) La teoría avanzada de las estadísticas. Hafner Publishing Company, pág. 46
  4. ^ Mueller JE, Schuessler KP (1961) Razonamiento estadístico en sociología. Boston: Houghton Mifflin Company. págs. 177-179.
  5. ^ Wilcox (1967), pág.  [ página necesaria ] .
  6. ^ Kaiser HF (1968) "Una medida de la calidad de la distribución legislativa en la población". The American Political Science Review 62 (1) 208
  7. ^ Joel Gombin (18 de agosto de 2015). "qualvar: versión inicial (versión v0.1)". Zenodo . doi :10.5281/zenodo.28341.
  8. ^ Gibbs y Poston Jr. (1975).
  9. ^ Lieberson (1969), pág. 851.
  10. ^ IQV en xycoon
  11. ^ Hunter, PR; Gaston, MA (1988). "Índice numérico de la capacidad discriminatoria de los sistemas de tipificación: una aplicación del índice de diversidad de Simpson". J Clin Microbiol . 26 (11): 2465–2466. doi :10.1128/jcm.26.11.2465-2466.1988. PMC 266921 . PMID  3069867. 
  12. ^ Friedman WF (1925) La incidencia de la coincidencia y sus aplicaciones en el criptoanálisis. Documento técnico. Oficina del Jefe de Señales. Imprenta del Gobierno de los Estados Unidos.
  13. ^ Gini CW (1912) Variabilidad y mutabilidad, contribución al estudio de distribuciones y relaciones estadísticas. Studi Economico-Giuricici della R. Università de Cagliari
  14. ^ Simpson, EH (1949). "Medición de la diversidad". Nature . 163 (4148): 688. Bibcode :1949Natur.163..688S. doi : 10.1038/163688a0 .
  15. ^ Bachi R (1956) Un análisis estadístico del renacimiento del hebreo en Israel. En: Bachi R (ed) Scripta Hierosolymitana, Vol III, Jerusalén: Magnus press págs. 179–247
  16. ^ Mueller JH, Schuessler KF (1961) Razonamiento estadístico en sociología. Boston: Houghton Mifflin
  17. ^ Gibbs, JP; Martin, WT (1962). "Urbanización, tecnología y división del trabajo: patrones internacionales". American Sociological Review . 27 (5): 667–677. doi :10.2307/2089624. JSTOR  2089624.
  18. ^ Lieberson (1969), pág.  [ página necesaria ] .
  19. ^ Blau P (1977) Desigualdad y heterogeneidad. Free Press, Nueva York
  20. ^ Perry M, Kader G (2005) Variación como desemejanza. Teaching Stats 27 (2) 58–60
  21. ^ Greenberg, JH (1956). "La medición de la diversidad lingüística". Lengua . 32 (1): 109–115. doi :10.2307/410659. JSTOR  410659.
  22. ^ Lautard EH (1978) Tesis doctoral. [ cita completa requerida ]
  23. ^ Berger, WH; Parker, FL (1970). "Diversidad de forameníferos planctónicos en sedimentos de aguas profundas". Science . 168 (3937): 1345–1347. Bibcode :1970Sci...168.1345B. doi :10.1126/science.168.3937.1345. PMID  17731043. S2CID  29553922.
  24. ^ ab Hill, MO (1973). "Diversidad y uniformidad: una notación unificadora y sus consecuencias". Ecología . 54 (2): 427–431. Bibcode :1973Ecol...54..427H. doi :10.2307/1934352. JSTOR  1934352.
  25. ^ Margalef R (1958) Sucesión temporal y heterogeneidad espacial en el fitoplancton. En: Perspectivas en biología marina. Buzzati-Traverso (ed.) Univ Calif Press, Berkeley, págs. 323-347
  26. ^ Menhinick, EF (1964). "Una comparación de algunos índices de diversidad de especies-individuos aplicados a muestras de insectos de campo". Ecología . 45 (4): 859–861. Bibcode :1964Ecol...45..859M. doi :10.2307/1934933. JSTOR  1934933.
  27. ^ Kuraszkiewicz W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego
  28. ^ Guiraud P (1954) Les caractères statistiques du vocabulaire. Prensas Universitarias de Francia, París
  29. ^ Panas E (2001) El Torquist generalizado: especificación y estimación de una nueva función de tamaño de texto-vocabulario. J Quant Ling 8(3) 233–252
  30. ^ Kempton, RA; Taylor, LR (1976). "Modelos y estadísticas para la diversidad de especies". Nature . 262 (5571): 818–820. Bibcode :1976Natur.262..818K. doi :10.1038/262818a0. PMID  958461. S2CID  4168222.
  31. ^ Hutcheson K (1970) Una prueba para comparar diversidades basada en la fórmula de Shannon. J Theo Biol 29: 151–154
  32. ^ McIntosh RP (1967). Un índice de diversidad y la relación de ciertos conceptos con la diversidad. Ecología, 48(3), 392–404
  33. ^ Fisher RA, Corbet A, Williams CB (1943) La relación entre el número de especies y el número de individuos en una muestra aleatoria de una población animal. Animal Ecol 12: 42–58
  34. ^ Anscombe (1950) Teoría de muestreo de las distribuciones binomiales negativas y de series logarítmicas. Biometrika 37: 358–382
  35. ^ Strong, WL (2002). "Evaluación de la desigualdad en la abundancia de especies dentro y entre comunidades vegetales" (PDF) . Ecología de comunidades . 3 (2): 237–246. doi :10.1556/comec.3.2002.2.9.
  36. ^ Camargo JA (1993) ¿Debe aumentar la dominancia con el número de especies subordinadas en interacciones competitivas? J. Theor Biol 161 537–542
  37. ^ Smith, Wilson (1996) [ cita completa necesaria ]
  38. ^ Bulla, L (1994). "Un índice de uniformidad y su medida de diversidad asociada". Oikos . 70 (1): 167–171. Bibcode :1994Oikos..70..167B. doi :10.2307/3545713. JSTOR  3545713.
  39. ^ Horn, HS (1966). "Medición de la 'superposición' en estudios ecológicos comparativos". Am Nat . 100 (914): 419–423. doi :10.1086/282436. S2CID  : 84469180.
  40. ^ Siegel, Andrew F (2006) "Curvas de rarefacción". Enciclopedia de Ciencias Estadísticas 10.1002/0471667196.ess2195.pub2.
  41. ^ Caswell H (1976) Estructura comunitaria: un análisis de modelo neutral. Ecol Monogr 46: 327–354
  42. ^ Poulin, R; Mouillot, D (2003). "Especialización de parásitos desde una perspectiva filogenética: un nuevo índice de especificidad del hospedador". Parasitología . 126 (5): 473–480. CiteSeerX 10.1.1.574.7432 . doi :10.1017/s0031182003002993. PMID  12793652. S2CID  9440341. 
  43. ^ Theil H (1972) Análisis de descomposición estadística. Ámsterdam: North-Holland Publishing Company>
  44. ^ Duncan OD, Duncan B (1955) Un análisis metodológico de los índices de segregación. Am Sociol Review, 20: 210–217
  45. ^ Gorard S, Taylor C (2002b) ¿Qué es la segregación? Una comparación de medidas en términos de invariancia compositiva "fuerte" y "débil". Sociología, 36(4), 875–895
  46. ^ Massey, DS; Denton, NA (1988). "Las dimensiones de la segregación residencial". Fuerzas sociales . 67 (2): 281–315. doi : 10.1093/sf/67.2.281 .
  47. ^ Hutchens RM (2004) Una medida de segregación. International Economic Review 45: 555–578
  48. ^ Lieberson S (1981). "Un enfoque asimétrico de la segregación". En Peach C, Robinson V, Smith S (eds.). Segregación étnica en las ciudades . Londres: Croom Helm. págs. 61–82.
  49. ^ Bell, W (1954). "Un modelo de probabilidad para la medición de la segregación ecológica". Fuerzas sociales . 32 (4): 357–364. doi :10.2307/2574118. JSTOR  2574118.
  50. ^ Ochiai A (1957) Estudios zoogeográficos sobre los peces soleoideos encontrados en Japón y sus regiones vecinas. Bull Jpn Soc Sci Fish 22: 526–530
  51. ^ Kulczynski S (1927) Die Pflanzenassoziationen der Pieninen. Boletín Internacional de la Academia Polonesa de Ciencias y Letras, Clase de Ciencias
  52. ^ Yule GU (1900) Sobre la asociación de atributos en las estadísticas. Philos Trans Roy Soc
  53. ^ Lienert GA y Sporer SL (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Beitrage psicológico 24: 411–418
  54. ^ Baroni-Urbani, C; Buser, MW (1976). "Similitud de datos binarios". Biología sistemática . 25 (3): 251–259. doi :10.2307/2412493. JSTOR  2412493.
  55. ^ Forbes SA (1907) Sobre la distribución local de ciertos peces de Illinois: un ensayo sobre ecología estadística. Boletín del Laboratorio Estatal de Historia Natural de Illinois 7:272–303
  56. ^ Alroy J (2015) Una nueva versión de un coeficiente de similitud binario muy antiguo. Ecology 96 (2) 575-586
  57. ^ Carl R. Hausman y Douglas R. Anderson (2012). Conversaciones sobre Peirce: realidades e ideales . Fordham University Press. pág. 221. ISBN 9780823234677.
  58. ^ Lance, GN; Williams, WT (1966). "Programas informáticos para la clasificación politética jerárquica ("análisis de similitud")". Computer Journal . 9 (1): 60–64. doi : 10.1093/comjnl/9.1.60 .
  59. ^ Lance, GN; Williams, WT (1967). "Programas de clasificación de datos mixtos I.) Sistemas aglomerativos". Australian Computer Journal : 15–20.
  60. ^ Jaccard P (1902) Lois de distribución floral. Bulletin de la Socíeté Vaudoise des Sciences Naturelles 38:67-130
  61. ^ Archer AW y Maples CG (1989) Respuesta de coeficientes binomiales seleccionados a distintos grados de escasez de matrices y a matrices con interrelaciones de datos conocidas. Mathematical Geology 21: 741–753
  62. ^ ab Morisita M (1959) Medición de la dispersión y análisis de patrones de distribución. Memorias de la Facultad de Ciencias, Universidad de Kyushu Serie E. Biol 2:215–235
  63. ^ Lloyd M (1967) Hacinamiento medio. J Anim Ecol 36: 1–30
  64. ^ Pedigo LP y Buntin GD (1994) Manual de métodos de muestreo para artrópodos en la agricultura. CRC Boca Raton FL
  65. ^ Morisita M (1959) Medición de la dispersión y análisis de patrones de distribución. Memorias de la Facultad de Ciencias, Universidad de Kyushu, Serie E Biología. 2: 215–235
  66. ^ Horn, HS (1966). "Medición de la "superposición" en estudios ecológicos comparativos". The American Naturalist . 100 (914): 419–424. doi :10.1086/282436. S2CID  84469180.
  67. ^ Smith-Gill SJ (1975). "Base citofisiológica de los patrones pigmentarios disruptivos en la rana leopardo Rana pipiens . II. Patrones específicos de células mutantes y de tipo salvaje". J Morphol . 146 (1): 35–54. doi :10.1002/jmor.1051460103. PMID  1080207. S2CID  23780609.
  68. ^ Peet (1974) Las mediciones de la diversidad de especies. Annu Rev Ecol Syst 5: 285–307
  69. ^ Tversky, Amos (1977). "Características de la similitud" (PDF) . Psychological Review . 84 (4): 327–352. doi :10.1037/0033-295x.84.4.327.
  70. ^ Jiménez S, Becerra C, Gelbukh A SOFTCARDINALITY-CORE: Mejorando la superposición de textos con medidas distribucionales para la similitud textual semántica. Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional (*SEM), Volumen 1: Actas de la conferencia principal y la tarea compartida: similitud textual semántica, págs. 194-201. 7 y 8 de junio de 2013, Atlanta, Georgia, EE. UU.
  71. ^ Monostori K, Finkel R, Zaslavsky A, Hodasz G y Patke M (2002) Comparación de técnicas de detección de superposición. En: Actas de la Conferencia Internacional de 2002 sobre Ciencias Computacionales. Apuntes de conferencias sobre Ciencias de la Computación 2329: 51-60
  72. ^ Bernstein Y y Zobel J (2004) Un sistema escalable para identificar documentos coderivados. En: Actas de la 11.ª Conferencia internacional sobre procesamiento de cadenas y recuperación de información (SPIRE) 3246: 55-67
  73. ^ Prevosti, A; Ribo, G; Serra, L; Aguade, M; Balanya, J; Monclus, M; Mestres, F (1988). "Colonización de América por Drosophila subobscura: experimento en poblaciones naturales que apoya el papel adaptativo del polimorfismo de inversión cromosómica". Proc Natl Acad Sci USA . 85 (15): 5597–5600. Bibcode :1988PNAS...85.5597P. doi : 10.1073/pnas.85.15.5597 . PMC 281806 . PMID  16593967. 
  74. ^ Sánchez, A; Ocaña, J; Utzetb, F; Serrac, L (2003). "Comparación de distancias genéticas de Prevosti". Revista de planificación e inferencia estadística . 109 (1–2): 43–65. doi :10.1016/s0378-3758(02)00297-5.
  75. ^ HaCohen-Kerner Y, Tayeb A y Ben-Dror N (2010) Detección de plagio simple en artículos de informática. En: Actas de la 23.ª Conferencia Internacional sobre Lingüística Computacional, págs. 421-429
  76. ^ Leik R (1966) Una medida de consenso ordinal. Revista sociológica del Pacífico 9 (2): 85–90
  77. ^ Manfredo M, Vaske, JJ, Teel TL (2003) El índice de potencial de conflicto: un enfoque gráfico de la importancia práctica de la investigación sobre las dimensiones humanas. Dimensiones humanas de la vida silvestre 8: 219–228
  78. ^ abc Vaske JJ, Beaman J, Barreto H, Shelby LB (2010) Una extensión y validación adicional del índice de potencial de conflicto. Leisure Sciences 32: 240–254
  79. ^ Van der Eijk C (2001) Medición de la concordancia en escalas de calificación ordenadas. Calidad y cantidad 35(3): 325–341
  80. ^ Von Mises R (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Revue de la Facultd des Sciences de la I'Universite d'lstanbul NS 4: 145-163
  81. ^ Sevast'yanov BA (1972) Ley límite de Poisson para un esquema de sumas de variables aleatorias dependientes. (trad. SM Rudolfer) Teoría de la probabilidad y sus aplicaciones, 17: 695−699
  82. ^ Hoaglin DC, Mosteller, F y Tukey, JW (1985) Exploración de tablas de datos, tendencias y formas, Nueva York: John Wiley
  83. ^ ab WM Rand (1971). "Criterios objetivos para la evaluación de métodos de agrupamiento". Revista de la Asociación Estadounidense de Estadística . 66 (336): 846–850. arXiv : 1704.01036 . doi :10.2307/2284239. JSTOR  2284239.
  84. ^ Lawrence Hubert y Phipps Arabie (1985). "Comparación de particiones". Revista de clasificación . 2 (1): 193–218. doi :10.1007/BF01908075. S2CID  189915041.
  85. ^ Nguyen Xuan Vinh, Julien Epps y James Bailey (2009). "Medidas teóricas de la información para la comparación de agrupamientos: ¿es necesaria una corrección por azar?" (PDF) . ICML '09: Actas de la 26.ª Conferencia internacional anual sobre aprendizaje automático . ACM. págs. 1073–1080. Archivado desde el original (PDF) el 25 de marzo de 2012.PDF.
  86. ^ Wagner, Silke; Wagner, Dorothea (12 de enero de 2007). "Comparación de agrupamientos: una descripción general" (PDF) . Consultado el 14 de febrero de 2018 .

Referencias