Una estadística utilizada para comparar la similitud de dos muestras.
El coeficiente Dice-Sørensen (ver más abajo otros nombres) es una estadística que se utiliza para medir la similitud de dos muestras . Fue desarrollado independientemente por los botánicos Lee Raymond Dice [1] y Thorvald Sørensen [2] , quienes lo publicaron en 1945 y 1948 respectivamente.
Nombre
El índice se conoce por otros nombres, especialmente índice de Sørensen-Dice , [3] índice de Sørensen y coeficiente de Dice . Otras variaciones incluyen el "coeficiente de similitud" o "índice", como el coeficiente de similitud de Dice ( DSC ). Las grafías alternativas comunes para Sørensen son Sorenson , Soerenson y Sörenson , y las tres también se pueden ver con la terminación -sen (la letra danesa ø es fonéticamente equivalente a la ö alemana/sueca, que se puede escribir como oe en ASCII).
Otros nombres incluyen:
- Puntuación de F1
- Índice binario (no cuantitativo) de Czekanowski [4]
- Medida de similitud genética [5]
- Índice de similitud de Zijdenbos, [6] [7] en referencia a un artículo de 1994 de Zijdenbos et al. [8] [3]
Fórmula
La fórmula original de Sørensen estaba pensada para ser aplicada a datos discretos. Dados dos conjuntos, X e Y, se define como
donde | X | y | Y | son las cardinalidades de los dos conjuntos (es decir, el número de elementos en cada conjunto). El índice de Sørensen es igual al doble del número de elementos comunes a ambos conjuntos dividido por la suma del número de elementos en cada conjunto. De manera equivalente, el índice es el tamaño de la intersección como una fracción del tamaño promedio de los dos conjuntos.
Cuando se aplica a datos booleanos, utilizando la definición de verdadero positivo (VP), falso positivo (FP) y falso negativo (FN), se puede escribir como
- .
Es diferente del índice de Jaccard , que solo cuenta los verdaderos positivos una vez, tanto en el numerador como en el denominador. El DSC es el cociente de similitud y varía entre 0 y 1. [9] Puede considerarse como una medida de similitud sobre conjuntos.
De manera similar al índice de Jaccard , las operaciones de conjuntos se pueden expresar en términos de operaciones vectoriales sobre los vectores binarios a y b :
que da el mismo resultado sobre vectores binarios y también da una métrica de similitud más general sobre vectores en términos generales.
Para los conjuntos X e Y de palabras clave utilizadas en la recuperación de información , el coeficiente puede definirse como el doble de la información compartida (intersección) sobre la suma de cardinalidades: [10]
Cuando se toma como una medida de similitud de cadenas , el coeficiente se puede calcular para dos cadenas, x e y, utilizando bigramas de la siguiente manera: [11]
donde n t es el número de bigramas de caracteres encontrados en ambas cadenas, n x es el número de bigramas en la cadena x y n y es el número de bigramas en la cadena y . Por ejemplo, para calcular la similitud entre:
night
nacht
Encontraríamos el conjunto de bigramas en cada palabra:
- {
ni
, ig
, gh
, ht
} - {
na
, ac
, ch
, ht
}
Cada conjunto tiene cuatro elementos, y la intersección de estos dos conjuntos tiene solo un elemento: ht
.
Insertando estos números en la fórmula, calculamos, s = (2 · 1) / (4 + 4) = 0,25.
Coeficiente de dados continuo
Fuente: [12]
Para una verdad fundamental discreta (binaria) y medidas continuas en el intervalo [0,1], se puede utilizar la siguiente fórmula:
Dónde y
c se puede calcular de la siguiente manera:
Si esto significa que no hay superposición entre A y B, c se establece en 1 arbitrariamente.
Diferencia con Jaccard
Este coeficiente no es muy diferente en su forma del índice de Jaccard . De hecho, ambos son equivalentes en el sentido de que, dado un valor para el coeficiente de Sørensen–Dice , se puede calcular el valor del índice de Jaccard respectivo y viceversa, utilizando las ecuaciones y .
Dado que el coeficiente de Sørensen-Dice no satisface la desigualdad triangular , puede considerarse una versión semimétrica del índice de Jaccard. [4]
La función varía entre cero y uno, como Jaccard. A diferencia de Jaccard, la función de diferencia correspondiente
no es una métrica de distancia adecuada ya que no satisface la desigualdad triangular. [4] El contraejemplo más simple de esto está dado por los tres conjuntos {a}, {b} y {a,b}, siendo la distancia entre los dos primeros 1, y la diferencia entre el tercero y cada uno de los otros un tercio. Para satisfacer la desigualdad triangular, la suma de dos de estos tres lados debe ser mayor o igual que el lado restante. Sin embargo, la distancia entre {a} y {a,b} más la distancia entre {b} y {a,b} es igual a 2/3 y, por lo tanto, es menor que la distancia entre {a} y {b}, que es 1.
Aplicaciones
El coeficiente de Sørensen-Dice es útil para datos de comunidades ecológicas (por ejemplo, Looman y Campbell, 1960 [13] ). La justificación para su uso es principalmente empírica en lugar de teórica (aunque puede justificarse teóricamente como la intersección de dos conjuntos difusos [14] ). En comparación con la distancia euclidiana , la distancia de Sørensen conserva la sensibilidad en conjuntos de datos más heterogéneos y da menos peso a los valores atípicos. [15] Recientemente, la puntuación Dice (y sus variaciones, por ejemplo, logDice tomando un logaritmo de la misma) se ha vuelto popular en la lexicografía informática para medir la puntuación de asociación léxica de dos palabras dadas. [16]
logDice también se utiliza como parte de la distancia Mash para la estimación de la distancia del genoma y metagenoma [17]
Finalmente, Dice se utiliza en la segmentación de imágenes , en particular para comparar la salida del algoritmo con máscaras de referencia en aplicaciones médicas. [8]
Versión abundancia
La expresión se puede extender fácilmente a la abundancia en lugar de a la presencia/ausencia de especies. Esta versión cuantitativa se conoce con varios nombres:
- Índice cuantitativo de Sørensen-Dice [4]
- Índice cuantitativo de Sørensen [4]
- Índice de dados cuantitativos [4]
- Similitud de Bray-Curtis (1 menos la disimilitud de Bray-Curtis ) [4]
- Índice cuantitativo de Czekanowski [4]
- Índice de Steinhaus [4]
- Porcentaje de similitud de Pielou [4]
- 1 menos la distancia Hellinger [18]
- Proporción de acuerdo específico [19] o acuerdo positivo [20]
Véase también
Referencias
- ^ Dice, Lee R. (1945). "Medidas de la cantidad de asociación ecológica entre especies". Ecología . 26 (3): 297–302. doi :10.2307/1932409. JSTOR 1932409. S2CID 53335638.
- ^ Sørensen, T. (1948). "Un método para establecer grupos de igual amplitud en sociología vegetal basado en la similitud de especies y su aplicación a los análisis de la vegetación en los bienes comunes daneses". Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
- ^ ab Carass, A.; Roy, S.; Gherman, A.; Reinhold, JC; Jesson, A.; et al. (2020). "Evaluación de segmentaciones de lesiones de la sustancia blanca con análisis refinado de Sørensen-Dice". Scientific Reports . 10 (1): 8242. Bibcode :2020NatSR..10.8242C. doi : 10.1038/s41598-020-64803-w . ISSN 2045-2322. PMC 7237671 . PMID 32427874.
- ^ abcdefghij Gallagher, ED, 1999. Documentación COMPAH, Universidad de Massachusetts, Boston
- ^ Nei, M.; Li, WH (1979). "Modelo matemático para estudiar la variación genética en términos de endonucleasas de restricción". PNAS . 76 (10): 5269–5273. Bibcode :1979PNAS...76.5269N. doi : 10.1073/pnas.76.10.5269 . PMC 413122 . PMID 291943.
- ^ Prescott, JW; Pennell, M.; Best, TM; Swanson, MS; Haq, F.; Jackson, R.; Gurcan, MN (2009). "Un método automatizado para segmentar el fémur para la investigación de la osteoartritis". Conferencia internacional anual de 2009 de la IEEE Engineering in Medicine and Biology Society . IEEE. págs. 6364–6367. doi :10.1109/iembs.2009.5333257. PMC 2826829 .
- ^ Swanson, MS; Prescott, JW; Best, TM; Powell, K.; Jackson, RD; Haq, F.; Gurcan, MN (2010). "Segmentación semiautomatizada para evaluar el menisco lateral en rodillas normales y osteoartríticas". Osteoartritis y cartílago . 18 (3): 344–353. doi :10.1016/j.joca.2009.10.004. ISSN 1063-4584. PMC 2826568 . PMID 19857510.
- ^ ab Zijdenbos, AP; Dawant, BM; Margolin, RA; Palmer, AC (1994). "Análisis morfométrico de lesiones de sustancia blanca en imágenes de RM: método y validación". IEEE Transactions on Medical Imaging . 13 (4): 716–724. doi :10.1109/42.363096. ISSN 0278-0062. PMID 18218550.
- ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf [ URL básica PDF ]
- ^ van Rijsbergen, Cornelis Joost (1979). Recuperación de información. Londres: Butterworths. ISBN 3-642-12274-4.
- ^ Kondrak, Grzegorz; Marcu, Daniel; Knight, Kevin (2003). "Los cognados pueden mejorar los modelos estadísticos de traducción" (PDF) . Actas de HLT-NAACL 2003: Conferencia sobre tecnología del lenguaje humano del Capítulo norteamericano de la Asociación de lingüística computacional . págs. 46–48.
- ^ Shamir, Reuben R.; Duchin, Yuval; Kim, Jinyoung; Sapiro, Guillermo; Harel, Noam (25 de abril de 2018). "Coeficiente de dados continuo: un método para evaluar segmentaciones probabilísticas": 306977. arXiv : 1906.11031 . doi :10.1101/306977. S2CID: 90993940.
- ^ Looman, J.; Campbell, JB (1960). "Adaptación de la K de Sorensen (1948) para estimar las afinidades de las unidades en la vegetación de pradera". Ecología . 41 (3): 409–416. doi :10.2307/1933315. JSTOR 1933315.
- ^ Roberts, DW (1986). "Ordenación sobre la base de la teoría de conjuntos difusos". Vegetatio . 66 (3): 123–131. doi :10.1007/BF00039905. S2CID 12573576.
- ^ McCune, Bruce y Grace, James (2002) Análisis de comunidades ecológicas. Mjm Software Design; ISBN 0-9721290-0-6 .
- ^ Rychlý, P. (2008) Una puntuación de asociación fácil de usar para el lexicógrafo. Actas del segundo taller sobre avances recientes en el procesamiento del lenguaje natural eslavo RASLAN 2008: 6–9
- ^ Ondov, Brian D., et al. "Mash: estimación rápida de la distancia entre el genoma y el metagenoma utilizando MinHash". Genome biology 17.1 (2016): 1-14.
- ^ Bray, J. Roger; Curtis, JT (1957). "Una ordenación de las comunidades forestales de las tierras altas del sur de Wisconsin". Monografías ecológicas . 27 (4): 326–349. doi :10.2307/1942268. JSTOR 1942268.
- ^ Ayappa, Indu; Norman, Robert G (2000). "Detección no invasiva de despertares relacionados con el esfuerzo respiratorio (RERA) mediante un sistema de transductor de presión/cánula nasal". Sleep . 23 (6): 763–771. doi : 10.1093/sleep/23.6.763 . PMID 11007443.
- ^ John Uebersax. "Índices de acuerdo bruto".
Enlaces externos
La implementación del algoritmo de Wikibook tiene una página sobre el tema: Coeficiente de Dice