stringtranslate.com

Divergencia de Jensen-Shannon

En teoría de probabilidad y estadística , la divergencia de Jensen-Shannon , llamada así por Johan Jensen y Claude Shannon , es un método para medir la similitud entre dos distribuciones de probabilidad . También se conoce como radio de información ( IRad ) [1] [2] o divergencia total con respecto a la media . [3] Se basa en la divergencia de Kullback-Leibler , con algunas diferencias notables (y útiles), entre ellas que es simétrica y siempre tiene un valor finito. La raíz cuadrada de la divergencia de Jensen-Shannon es una métrica a la que a menudo se hace referencia como distancia de Jensen-Shannon. La similitud entre las distribuciones es mayor cuando la distancia de Jensen-Shannon está más cerca de cero. [4] [5] [6]

Definición

Consideremos el conjunto de distribuciones de probabilidad donde es un conjunto provisto de una σ-álgebra de subconjuntos mensurables. En particular, podemos tomar como un conjunto finito o numerable con todos los subconjuntos mensurables.

La divergencia de Jensen-Shannon (JSD) es una versión simetrizada y suavizada de la divergencia de Kullback-Leibler . Se define por

donde es una distribución mixta de y .

La divergencia geométrica de Jensen-Shannon [7] (o divergencia G-Jensen-Shannon) produce una fórmula de forma cerrada para la divergencia entre dos distribuciones gaussianas tomando la media geométrica.

Una definición más general, que permite la comparación de más de dos distribuciones de probabilidad, es:

dónde

y son pesos que se seleccionan para las distribuciones de probabilidad , y es la entropía de Shannon para la distribución . Para el caso de dos distribuciones descrito anteriormente,

Por lo tanto, para aquellas distribuciones

Límites

La divergencia de Jensen-Shannon está limitada por 1 para dos distribuciones de probabilidad, siempre que se utilice el logaritmo de base 2: [8]

.

Con esta normalización, se obtiene un límite inferior para la distancia de variación total entre P y Q:

.

Con el logaritmo en base e, que se utiliza habitualmente en termodinámica estadística, el límite superior es . En general, el límite en base b es :

.

Un límite más general, la divergencia de Jensen-Shannon, está limitada por más de dos distribuciones de probabilidad: [8]

.

Relación con la información mutua

La divergencia de Jensen-Shannon es la información mutua entre una variable aleatoria asociada a una distribución de mezcla entre y y la variable indicadora binaria que se utiliza para cambiar entre y para producir la mezcla. Sea alguna función abstracta sobre el conjunto subyacente de eventos que discrimine bien entre eventos, y elijamos el valor de según si y según si , donde es equiprobable. Es decir, elegimos según la medida de probabilidad , y su distribución es la distribución de mezcla. Calculamos

Del resultado anterior se desprende que la divergencia de Jensen-Shannon está limitada por 0 y 1 porque la información mutua no es negativa y está limitada por el logaritmo base 2.

Se puede aplicar el mismo principio a una distribución conjunta y al producto de sus dos distribuciones marginales (en analogía con la divergencia de Kullback-Leibler y la información mutua) y medir con qué fiabilidad se puede decidir si una respuesta dada proviene de la distribución conjunta o de la distribución del producto, sujeto al supuesto de que estas son las únicas dos posibilidades. [9]

Divergencia cuántica de Jensen-Shannon

La generalización de distribuciones de probabilidad en matrices de densidad permite definir la divergencia cuántica de Jensen-Shannon (QJSD). [10] [11] Se define para un conjunto de matrices de densidad y una distribución de probabilidad como

donde es la entropía de von Neumann de . Esta cantidad fue introducida en la teoría de la información cuántica , donde se llama información de Holevo: da el límite superior para la cantidad de información clásica codificada por los estados cuánticos bajo la distribución previa (ver el teorema de Holevo ). [12] La divergencia cuántica de Jensen-Shannon para y dos matrices de densidad es una función simétrica, definida en todas partes, acotada e igual a cero solo si dos matrices de densidad son iguales. Es un cuadrado de una métrica para estados puros , [13] y recientemente se ha demostrado que esta propiedad métrica también se cumple para estados mixtos. [14] [15] La métrica de Bures está estrechamente relacionada con la divergencia cuántica de JS; es el análogo cuántico de la métrica de información de Fisher .

Centroide de Jensen-Shannon

El centroide C* de un conjunto finito de distribuciones de probabilidad se puede definir como el minimizador de la suma promedio de las divergencias de Jensen-Shannon entre una distribución de probabilidad y el conjunto prescrito de distribuciones: Se informa un algoritmo eficiente [16] (CCCP) basado en la diferencia de funciones convexas para calcular el centroide de Jensen-Shannon de un conjunto de distribuciones discretas (histogramas).

Aplicaciones

La divergencia de Jensen-Shannon se ha aplicado en bioinformática y comparación de genomas , [17] [18] en comparación de superficies de proteínas, [19] en las ciencias sociales, [20] en el estudio cuantitativo de la historia, [21] en experimentos con fuego, [22] y en aprendizaje automático. [23]

Notas

  1. ^ Frank Nielsen (2021). "Sobre una definición variacional para la simetrización de distancias de Jensen-Shannon basada en el radio de información". Entropía . 23 (4). MDPI: 464. doi : 10.3390/e21050485 . PMC  7514974 . PMID  33267199.
  2. ^ Hinrich Schütze; Christopher D. Manning (1999). Fundamentos del procesamiento estadístico del lenguaje natural. Cambridge, Mass.: MIT Press. pág. 304. ISBN 978-0-262-13360-9.
  3. ^ Dagan, Ido; Lee, Lillian ; Pereira, Fernando CN (1997). "Similarity-based methods for word sense disambiguation". En Cohen, Philip R.; Wahlster, Wolfgang (eds.). 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics, Actas de la Conferencia, 7–12 de julio de 1997, Universidad Nacional de Educación a Distancia (UNED), Madrid, España . Morgan Kaufmann Publishers / ACL. págs. 56–63. arXiv : cmp-lg/9708010 . doi :10.3115/976909.979625.
  4. ^ Endres, DM; JE Schindelin (2003). "Una nueva métrica para distribuciones de probabilidad" (PDF) . IEEE Trans. Inf. Theory . 49 (7): 1858–1860. doi :10.1109/TIT.2003.813506. hdl : 10023/1591 . S2CID  14437777.
  5. ^ Ôsterreicher, F.; I. Vajda (2003). "Una nueva clase de divergencias métricas en espacios de probabilidad y sus aplicaciones estadísticas". Ann. Inst. Statist. Math . 55 (3): 639–653. doi :10.1007/BF02517812. S2CID  13085920.
  6. ^ Fuglede, B.; Topsoe, F. (2004). "Divergencia de Jensen-Shannon e incrustación en el espacio de Hilbert" (PDF) . Actas del Simposio Internacional sobre Teoría de la Información, 2004. IEEE. p. 30. doi :10.1109/ISIT.2004.1365067. ISBN. 978-0-7803-8280-0.S2CID 7891037  .
  7. ^ Frank Nielsen (2019). "Sobre la simetrización de distancias de Jensen-Shannon basándose en medias abstractas". Entropía . 21 (5). MDPI: 485. arXiv : 1904.04017 . Bibcode :2019Entrp..21..485N. doi : 10.3390/e21050485 . PMC 7514974 . PMID  33267199. 
  8. ^ ab Lin, J. (1991). "Medidas de divergencia basadas en la entropía de Shannon" (PDF) . IEEE Transactions on Information Theory . 37 (1): 145–151. CiteSeerX 10.1.1.127.9167 . doi :10.1109/18.61115. S2CID  12121632. 
  9. ^ Schneidman, Elad; Bialek, W; Berry, MJ II (2003). "Sinergia, redundancia e independencia en códigos de población". Revista de neurociencia . 23 (37): 11539–11553. doi : 10.1523/JNEUROSCI.23-37-11539.2003 . PMC 6740962 . PMID  14684857. 
  10. ^ Majtey, A.; Lamberti, P.; Prato, D. (2005). "Divergencia de Jensen-Shannon como medida de distinguibilidad entre estados cuánticos mixtos". Physical Review A . 72 (5): 052310. arXiv : quant-ph/0508138 . Bibcode :2005PhRvA..72e2310M. doi :10.1103/PhysRevA.72.052310. S2CID  32062112.
  11. ^ Briët, Jop; Harremoës, Peter (2009). "Propiedades de la divergencia clásica y cuántica de Jensen-Shannon". Physical Review A . 79 (5): 052311. arXiv : 0806.4472 . Código Bibliográfico :2009PhRvA..79e2311B. doi :10.1103/PhysRevA.79.052311.
  12. ^ Holevo, AS (1973), "Límites para la cantidad de información transmitida por un canal de comunicación cuántica", Problemy Peredachi Informatsii (en ruso), 9 : 3–11Traducción al español: Probl. Inf. Transm ., 9 : 177–183 (1975) MR 456936
  13. ^ Braunstein, Samuel; Caves, Carlton (1994). "Distancia estadística y geometría de estados cuánticos". Physical Review Letters . 72 (22): 3439–3443. Bibcode :1994PhRvL..72.3439B. doi :10.1103/PhysRevLett.72.3439. PMID  10056200.
  14. ^ Virosztek, Dániel (2021). "La propiedad métrica de la divergencia cuántica de Jensen-Shannon". Avances en Matemáticas . 380 : 107595. arXiv : 1910.10447 . doi :10.1016/j.aim.2021.107595. S2CID  204837864.
  15. ^ Sra, Suvrit (2019). "Métricas inducidas por Jensen-Shannon-Renyí cuántico y divergencias relacionadas". arXiv : 1911.02643 [cs.IT].
  16. ^ Frank Nielsen (2021). "Sobre una generalización de la divergencia de Jensen-Shannon y el centroide de Jensen-Shannon". Entropía . 22 (2). MDPI: 221. doi : 10.3390/e22020221 . PMC 7516653 . PMID  33285995. 
  17. ^ Sims, GE; Jun, SR; Wu, GA; Kim, SH (2009). "Comparación de genomas sin alineamiento con perfiles de frecuencia de características (FFP) y resoluciones óptimas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 106 (8): 2677–82. Bibcode :2009PNAS..106.2677S. doi : 10.1073/pnas.0813249106 . PMC 2634796 . PMID  19188606. 
  18. ^ Itzkovitz, S; Hodis, E; Segal, E (2010). "Superposición de códigos dentro de secuencias codificantes de proteínas". Genome Research . 20 (11): 1582–9. doi :10.1101/gr.105072.110. PMC 2963821 . PMID  20841429. 
  19. ^ Ofran, Y; Rost, B (2003). "Análisis de seis tipos de interfaces proteína-proteína". Journal of Molecular Biology . 325 (2): 377–87. CiteSeerX 10.1.1.6.9207 . doi :10.1016/s0022-2836(02)01223-8. PMID  12488102. 
  20. ^ DeDeo, Simon; Hawkins, Robert XD; Klingenstein, Sara; Hitchcock, Tim (2013). "Métodos bootstrap para el estudio empírico de la toma de decisiones y los flujos de información en sistemas sociales". Entropía . 15 (6): 2246–2276. arXiv : 1302.0907 . Código Bibliográfico :2013Entrp..15.2246D. doi : 10.3390/e15062246 .
  21. ^ Klingenstein, Sara; Hitchcock, Tim; DeDeo, Simon (2014). "El proceso de civilización en el Old Bailey de Londres". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 111 (26): 9419–9424. Bibcode :2014PNAS..111.9419K. doi : 10.1073/pnas.1405984111 . PMC 4084475 . PMID  24979792. 
  22. ^ Flavia-Corina Mitroi-Symeonidis; Ion Anghel; Nicuşor Minculete (2020). "Complejidad estadística paramétrica de Jensen-Shannon y sus aplicaciones en datos de incendios de compartimentos a escala real". Symmetry . 12 (1): 22. doi : 10.3390/sym12010022 .
  23. ^ Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Redes generativas antagónicas . NIPS . arXiv : 1406.2661 . Código Bibliográfico :2014arXiv1406.2661G.

Enlaces externos