stringtranslate.com

Información mutua

Diagrama de Venn que muestra relaciones aditivas y sustractivas de varias medidas de información asociadas con variables correlacionadas y . [1] El área contenida por cada círculo es la entropía conjunta . El círculo de la izquierda (rojo y violeta) es la entropía individual , siendo el rojo la entropía condicional . El círculo de la derecha (azul y violeta) es , siendo el azul . El violeta es la información mutua .

En teoría de la probabilidad y teoría de la información , la información mutua ( IM ) de dos variables aleatorias es una medida de la dependencia mutua entre las dos variables. Más específicamente, cuantifica la " cantidad de información " (en unidades como shannons ( bits ), nats o hartleys ) obtenida sobre una variable aleatoria al observar la otra variable aleatoria. El concepto de información mutua está íntimamente ligado al de entropía de una variable aleatoria, una noción fundamental en la teoría de la información que cuantifica la "cantidad de información" esperada contenida en una variable aleatoria.

No se limita a variables aleatorias de valor real y dependencia lineal como el coeficiente de correlación , MI es más general y determina qué tan diferente es la distribución conjunta del par del producto de las distribuciones marginales de y . MI es el valor esperado de la información mutua puntual (PMI).

La cantidad fue definida y analizada por Claude Shannon en su artículo de referencia " Una teoría matemática de la comunicación ", aunque no la llamó "información mutua". Este término fue acuñado más tarde por Robert Fano . [2] La información mutua también se conoce como ganancia de información .

Definición

Sea un par de variables aleatorias con valores en el espacio . Si su distribución conjunta es y las distribuciones marginales son y , la información mutua se define como

donde es la divergencia de Kullback–Leibler , y es la distribución del producto externo que asigna probabilidad a cada .

Nótese que, según la propiedad de la divergencia de Kullback–Leibler , es igual a cero precisamente cuando la distribución conjunta coincide con el producto de las marginales, es decir, cuando y son independientes (y, por lo tanto, observar no dice nada sobre ). no es negativo, es una medida del precio de codificar como un par de variables aleatorias independientes cuando en realidad no lo son.

Si se utiliza el logaritmo natural , la unidad de información mutua es el nat . Si se utiliza el logaritmo en base 2, la unidad de información mutua es el shannon , también conocido como bit. Si se utiliza el logaritmo en base 10, la unidad de información mutua es el hartley , también conocido como ban o dit.

En términos de PMF para distribuciones discretas

La información mutua de dos variables aleatorias discretas conjuntamente se calcula como una suma doble: [3] : 20 

donde es la función de masa de probabilidad conjunta de y , y y son las funciones de masa de probabilidad marginal de y respectivamente.

En términos de PDF para distribuciones continuas

En el caso de variables aleatorias conjuntamente continuas, la doble suma se reemplaza por una doble integral : [3] : 251 

donde ahora es la función de densidad de probabilidad conjunta de y , y y son las funciones de densidad de probabilidad marginal de y respectivamente.

Motivación

Intuitivamente, la información mutua mide la información que y comparten: mide en qué medida el conocimiento de una de estas variables reduce la incertidumbre sobre la otra. Por ejemplo, si y son independientes, entonces el conocimiento no proporciona ninguna información sobre y viceversa, por lo que su información mutua es cero. En el otro extremo, si es una función determinista de y es una función determinista de entonces toda la información transmitida por se comparte con : el conocimiento determina el valor de y viceversa. Como resultado, la información mutua es la misma que la incertidumbre contenida en (o ) solo, es decir, la entropía de (o ). Un caso muy especial de esto es cuando y son la misma variable aleatoria.

La información mutua es una medida de la dependencia inherente expresada en la distribución conjunta de y en relación con la distribución marginal de y bajo el supuesto de independencia. Por lo tanto, la información mutua mide la dependencia en el siguiente sentido: si y solo si y son variables aleatorias independientes. Esto es fácil de ver en una dirección: si y son independientes, entonces , y por lo tanto:

Además, la información mutua es no negativa (es decir, ver más abajo) y simétrica (es decir, ver más abajo).

Propiedades

No negatividad

Usando la desigualdad de Jensen en la definición de información mutua podemos demostrar que no es negativa, es decir [3] : 28 

Simetría

La prueba se da considerando la relación con la entropía, como se muestra a continuación.

Supermodularidad bajo independencia

Si es independiente de , entonces

. [4]

Relación con la entropía condicional y conjunta

La información mutua se puede expresar de forma equivalente como:

donde y son las entropías marginales , y son las entropías condicionales , y es la entropía conjunta de y .

Nótese la analogía con la unión, diferencia e intersección de dos conjuntos: a este respecto, todas las fórmulas dadas anteriormente son evidentes a partir del diagrama de Venn presentado al comienzo del artículo.

En términos de un canal de comunicación en el que la salida es una versión ruidosa de la entrada , estas relaciones se resumen en la figura:

Las relaciones entre las magnitudes teóricas de la información

Como no es negativo, por lo tanto, . Aquí damos la deducción detallada de para el caso de variables aleatorias discretas conjuntas:

Las pruebas de las demás identidades anteriores son similares. La prueba del caso general (no solo del discreto) es similar, con integrales que reemplazan a las sumas.

Intuitivamente, si se considera la entropía como una medida de incertidumbre sobre una variable aleatoria, entonces es una medida de lo que no dice sobre . Esto es "la cantidad de incertidumbre que queda sobre después de que se conoce", y por lo tanto el lado derecho de la segunda de estas igualdades se puede leer como "la cantidad de incertidumbre en , menos la cantidad de incertidumbre en que permanece después de que se conoce", que es equivalente a "la cantidad de incertidumbre en que se elimina al saber ". Esto corrobora el significado intuitivo de información mutua como la cantidad de información (es decir, reducción de la incertidumbre) que el conocimiento de una variable proporciona sobre la otra.

Obsérvese que en el caso discreto y por lo tanto . Por lo tanto , y se puede formular el principio básico de que una variable contiene al menos tanta información sobre sí misma como cualquier otra variable puede proporcionar.

Relación con la divergencia de Kullback-Leibler

Para pares conjuntamente discretos o conjuntamente continuos , la información mutua es la divergencia de Kullback-Leibler del producto de las distribuciones marginales , , de la distribución conjunta , es decir,

Además, sea la función de masa o densidad condicional. Entonces, tenemos la identidad

La prueba para variables aleatorias discretas conjuntas es la siguiente:

De manera similar, esta identidad puede establecerse para variables aleatorias conjuntamente continuas.

Obsérvese que aquí la divergencia de Kullback-Leibler implica la integración sobre los valores de la variable aleatoria únicamente, y la expresión aún denota una variable aleatoria porque es aleatoria. Por lo tanto, la información mutua también puede entenderse como la expectativa de la divergencia de Kullback-Leibler de la distribución univariante de a partir de la distribución condicional de dada : cuanto más diferentes sean las distribuciones y en promedio, mayor será la ganancia de información .

Estimación bayesiana de información mutua

Si se dispone de muestras de una distribución conjunta, se puede utilizar un enfoque bayesiano para estimar la información mutua de esa distribución. El primer trabajo en hacer esto, que también mostró cómo hacer una estimación bayesiana de muchas otras propiedades de la teoría de la información además de la información mutua, fue. [5] Investigadores posteriores han derivado [6] y ampliado [7] este análisis. Véase [8] para un artículo reciente basado en una previa específicamente diseñada para la estimación de la información mutua per se. Además, recientemente se propuso un método de estimación que tiene en cuenta los resultados continuos y multivariados, , en . [9]

Supuestos de independencia

La formulación de divergencia de Kullback-Leibler de la información mutua se basa en que uno está interesado en comparar con el producto externo completamente factorizado . En muchos problemas, como la factorización de matrices no negativas , uno está interesado en factorizaciones menos extremas; específicamente, uno desea comparar con una aproximación de matriz de bajo rango en alguna variable desconocida ; es decir, hasta qué grado uno podría tener

Alternativamente, uno podría estar interesado en saber cuánta información más lleva su factorización. En tal caso, el exceso de información que la distribución completa lleva sobre la factorización matricial está dado por la divergencia de Kullback-Leibler.

La definición convencional de la información mutua se recupera en el caso extremo de que el proceso tenga un solo valor para .

Variaciones

Se han propuesto diversas variaciones de la información mutua para satisfacer distintas necesidades, entre ellas, variantes normalizadas y generalizaciones a más de dos variables.

Métrico

Muchas aplicaciones requieren una métrica , es decir, una medida de distancia entre pares de puntos. La cantidad

satisface las propiedades de una métrica ( desigualdad triangular , no negatividad , indiscernibilidad y simetría), donde por igualdad se entiende que se puede determinar completamente a partir de . [10]

Esta métrica de distancia también se conoce como variación de la información .

Si son variables aleatorias discretas entonces todos los términos de entropía son no negativos, por lo que se puede definir una distancia normalizada.

La métrica es una métrica universal, en el sentido de que si cualquier otra medida de distancias permite medir lugares y cercanías, entonces también los juzgará cercanos. [11] [ dudosodiscutir ]

Al introducir las definiciones se ve que

Esto se conoce como la distancia de Rajski. [12] En una interpretación de la información basada en la teoría de conjuntos (véase la figura de Entropía condicional ), esta es efectivamente la distancia de Jaccard entre y .

Finalmente,

También es una métrica.

Información mutua condicional

A veces es útil expresar la información mutua de dos variables aleatorias condicionadas a una tercera.

Para variables aleatorias discretas conjuntas esto toma la forma

que se puede simplificar como

Para variables aleatorias continuas conjuntas esto toma la forma

que se puede simplificar como

El condicionamiento de una tercera variable aleatoria puede aumentar o disminuir la información mutua, pero siempre es cierto que

para variables aleatorias discretas y distribuidas conjuntamente . Este resultado se ha utilizado como elemento básico para demostrar otras desigualdades en la teoría de la información .

Información de interacción

Se han propuesto varias generalizaciones de la información mutua a más de dos variables aleatorias, como la correlación total (o multiinformación) y la correlación total dual . La expresión y el estudio de la información mutua multivariada de alto grado se logró en dos trabajos aparentemente independientes: McGill (1954) [13], que llamó a estas funciones "información de interacción", y Hu Kuo Ting (1962). [14] La información de interacción se define para una variable de la siguiente manera:

y para

Algunos autores invierten el orden de los términos del lado derecho de la ecuación anterior, lo que cambia el signo cuando el número de variables aleatorias es impar. (Y en este caso, la expresión de una sola variable se convierte en el negativo de la entropía). Nótese que

Independencia estadística multivariante

Las funciones de información mutua multivariadas generalizan el caso de independencia por pares que establece que si y solo si , a un número arbitrario de variables. n variables son mutuamente independientes si y solo si las funciones de información mutua se anulan con (teorema 2 [15] ). En este sentido, se puede utilizar como un criterio de independencia estadística refinado.

Aplicaciones

Para 3 variables, Brenner et al. aplicaron información mutua multivariada a la codificación neuronal y llamaron a su negatividad "sinergia" [16] y Watkinson et al. la aplicaron a la expresión genética. [17] Para k variables arbitrarias, Tapia et al. aplicaron información mutua multivariada a la expresión genética. [18] [15] Puede ser cero, positivo o negativo. [14] La positividad corresponde a relaciones que generalizan las correlaciones por pares, la nulidad corresponde a una noción refinada de independencia y la negatividad detecta relaciones "emergentes" de alta dimensión y puntos de datos agrupados [18] ).

Se ha descubierto que un esquema de generalización de alta dimensión que maximiza la información mutua entre la distribución conjunta y otras variables objetivo es útil en la selección de características . [19]

La información mutua también se utiliza en el área de procesamiento de señales como una medida de similitud entre dos señales. Por ejemplo, la métrica FMI [20] es una medida de rendimiento de fusión de imágenes que utiliza información mutua para medir la cantidad de información que la imagen fusionada contiene sobre las imágenes de origen. El código Matlab para esta métrica se puede encontrar en. [21] Hay disponible un paquete de Python para calcular toda la información mutua multivariada, información mutua condicional, entropías conjuntas, correlaciones totales y distancia de información en un conjunto de datos de n variables. [22]

Información dirigida

La información dirigida , mide la cantidad de información que fluye desde el proceso a , donde denota el vector y denota . El término información dirigida fue acuñado por James Massey y se define como

.

Nótese que si , la información dirigida se convierte en información mutua. La información dirigida tiene muchas aplicaciones en problemas donde la causalidad juega un papel importante, como la capacidad de un canal con retroalimentación. [23] [24]

Variantes normalizadas

Las variantes normalizadas de la información mutua se proporcionan mediante los coeficientes de restricción , [25] coeficiente de incertidumbre [26] o competencia: [27]

Los dos coeficientes tienen un valor que oscila entre [0, 1], pero no son necesariamente iguales. Esta medida no es simétrica. Si se desea una medida simétrica, se puede considerar la siguiente medida de redundancia :

que alcanza un mínimo de cero cuando las variables son independientes y un valor máximo de

cuando una variable se vuelve completamente redundante con el conocimiento de la otra. Véase también Redundancia (teoría de la información) .

Otra medida simétrica es la incertidumbre simétrica (Witten y Frank 2005), dada por

que representa la media armónica de los dos coeficientes de incertidumbre . [26]

Si consideramos la información mutua como un caso especial de la correlación total o correlación total dual , las versiones normalizadas son respectivamente,

y

Esta versión normalizada también se conoce como Índice de Calidad de la Información (RIC) que cuantifica la cantidad de información de una variable en función de otra variable frente a la incertidumbre total: [28]

Existe una normalización [29] que se deriva de pensar primero en la información mutua como un análogo de la covarianza (por lo tanto, la entropía de Shannon es análoga a la varianza ). Luego, la información mutua normalizada se calcula de manera similar al coeficiente de correlación de Pearson ,

Variantes ponderadas

En la formulación tradicional de la información mutua,

Cada evento u objeto especificado por se pondera con la probabilidad correspondiente . Esto supone que todos los objetos o eventos son equivalentes, aparte de su probabilidad de ocurrencia. Sin embargo, en algunas aplicaciones puede darse el caso de que ciertos objetos o eventos sean más significativos que otros, o que ciertos patrones de asociación sean más importantes semánticamente que otros.

Por ejemplo, la aplicación determinista puede considerarse más fuerte que la aplicación determinista , aunque estas relaciones producirían la misma información mutua. Esto se debe a que la información mutua no es sensible en absoluto a ningún ordenamiento inherente en los valores de las variables (Cronbach 1954, Coombs, Dawes y Tversky 1970, Lockhead 1970), y por lo tanto no es sensible en absoluto a la forma de la aplicación relacional entre las variables asociadas. Si se desea que la primera relación, que muestra acuerdo sobre todos los valores de las variables, se juzgue más fuerte que la última relación, entonces es posible utilizar la siguiente información mutua ponderada (Guiasu 1977).

que asigna un peso a la probabilidad de coocurrencia de cada valor variable, . Esto permite que ciertas probabilidades puedan tener mayor o menor importancia que otras, lo que permite la cuantificación de factores holísticos o de Prägnanz relevantes. En el ejemplo anterior, el uso de pesos relativos mayores para , , y tendría el efecto de evaluar una mayor informatividad para la relación que para la relación , lo que puede ser deseable en algunos casos de reconocimiento de patrones y similares. Esta información mutua ponderada es una forma de divergencia KL ponderada, que se sabe que toma valores negativos para algunas entradas, [30] y hay ejemplos en los que la información mutua ponderada también toma valores negativos. [31]

Información mutua ajustada

Una distribución de probabilidad puede considerarse como una partición de un conjunto . Uno puede entonces preguntar: si un conjunto se particionara aleatoriamente, ¿cuál sería la distribución de probabilidades? ¿Cuál sería el valor esperado de la información mutua? La información mutua ajustada o AMI resta el valor esperado de la MI, de modo que la AMI es cero cuando dos distribuciones diferentes son aleatorias, y uno cuando dos distribuciones son idénticas. La AMI se define en analogía con el índice Rand ajustado de dos particiones diferentes de un conjunto.

Información mutua absoluta

Utilizando las ideas de la complejidad de Kolmogorov , se puede considerar la información mutua de dos secuencias independientemente de cualquier distribución de probabilidad:

Para establecer que esta cantidad es simétrica hasta un factor logarítmico ( ) se requiere la regla de la cadena para la complejidad de Kolmogorov (Li & Vitányi 1997). Las aproximaciones de esta cantidad mediante compresión se pueden utilizar para definir una medida de distancia para realizar un agrupamiento jerárquico de secuencias sin tener ningún conocimiento del dominio de las secuencias (Cilibrasi & Vitányi 2005).

Correlación lineal

A diferencia de los coeficientes de correlación, como el coeficiente de correlación del momento del producto , la información mutua contiene información sobre toda la dependencia (lineal y no lineal) y no solo la dependencia lineal, como mide el coeficiente de correlación. Sin embargo, en el caso específico de que la distribución conjunta de y sea una distribución normal bivariada (lo que implica en particular que ambas distribuciones marginales se distribuyen normalmente), existe una relación exacta entre y el coeficiente de correlación (Gel'fand y Yaglom 1957).

La ecuación anterior se puede derivar de la siguiente manera para una gaussiana bivariada:

Por lo tanto,

Para datos discretos

Cuando y están limitados a estar en un número discreto de estados, los datos de observación se resumen en una tabla de contingencia , con variable de fila (o ) y variable de columna (o ). La información mutua es una de las medidas de asociación o correlación entre las variables de fila y columna.

Otras medidas de asociación incluyen las estadísticas de la prueba de chi-cuadrado de Pearson , las estadísticas de la prueba G , etc. De hecho, con la misma base logarítmica, la información mutua será igual a la estadística de log-verosimilitud de la prueba G dividida por , donde es el tamaño de la muestra.

Aplicaciones

En muchas aplicaciones, se desea maximizar la información mutua (lo que aumenta las dependencias), lo que a menudo equivale a minimizar la entropía condicional . Algunos ejemplos son:

donde es el número de veces que aparece el bigrama xy en el corpus, es el número de veces que aparece el unigrama x en el corpus, B es el número total de bigramas y U es el número total de unigramas. [32]

Véase también

Notas

  1. ^ Portada, Thomas M.; Thomas, Joy A. (2005). Elementos de la teoría de la información (PDF) . John Wiley & Sons, Ltd., págs. 13-55. ISBN 9780471748823.
  2. ^ Kreer, JG (1957). "Una cuestión de terminología". IRE Transactions on Information Theory . 3 (3): 208. doi :10.1109/TIT.1957.1057418.
  3. ^ abc Cover, TM; Thomas, JA (1991). Elementos de la teoría de la información (edición Wiley). John Wiley & Sons. ISBN 978-0-471-24195-9.
  4. ^ Janssen, Joseph; Guan, Vincent; Robeva, Elina (2023). "Importancia de características ultramarginales: aprendizaje a partir de datos con garantías causales". Conferencia internacional sobre inteligencia artificial y estadística : 10782–10814. arXiv : 2204.09938 .
  5. ^ Wolpert, DH; Wolf, DR (1995). "Estimación de funciones de distribuciones de probabilidad a partir de un conjunto finito de muestras". Physical Review E . 52 (6): 6841–6854. Bibcode :1995PhRvE..52.6841W. CiteSeerX 10.1.1.55.7122 . doi :10.1103/PhysRevE.52.6841. PMID  9964199. S2CID  9795679. 
  6. ^ Hutter, M. (2001). "Distribución de información mutua". Avances en sistemas de procesamiento de información neuronal .
  7. ^ Archer, E.; Park, IM; Pillow, J. (2013). "Estimadores bayesianos y cuasi-bayesianos para información mutua a partir de datos discretos". Entropy . 15 (12): 1738–1755. Bibcode :2013Entrp..15.1738A. CiteSeerX 10.1.1.294.4690 . doi : 10.3390/e15051738 . 
  8. ^ Wolpert, DH; DeDeo, S. (2013). "Estimación de funciones de distribuciones definidas sobre espacios de tamaño desconocido". Entropy . 15 (12): 4668–4699. arXiv : 1311.4548 . Bibcode :2013Entrp..15.4668W. doi : 10.3390/e15114668 . S2CID  2737117.
  9. ^ Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Slawomir Blonski; Michal Komorowski (2019), "Análisis teórico de la información de respuestas de señalización unicelular multivariadas", PLOS Computational Biology , 15 (7): e1007132, arXiv : 1808.05581 , Bibcode :2019PLSCB..15E7132J, doi : 10.1371/journal.pcbi.1007132 , PMC 6655862 , PMID  31299056 
  10. ^ Rajski, C. (1961). "Un espacio métrico de distribuciones de probabilidad discretas". Información y Control . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
  11. ^ Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). "Agrupamiento jerárquico basado en información mutua". arXiv : q-bio/0311039 . Código Bibliográfico :2003q.bio....11039K. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  12. ^ Rajski, C. (1961). "Un espacio métrico de distribuciones de probabilidad discretas". Información y Control . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
  13. ^ McGill, W. (1954). "Transmisión de información multivariable". Psychometrika . 19 (1): 97–116. doi :10.1007/BF02289159. S2CID  126431489.
  14. ^ ab Hu, KT (1962). "Sobre la cantidad de información". Theory Probab. Appl . 7 (4): 439–447. doi :10.1137/1107041.
  15. ^ ab Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). "Análisis de datos de información topológica". Entropía . 21 (9). 869. arXiv : 1907.04242 . Código Bibliográfico :2019Entrp..21..869B. doi : 10.3390/e21090869 . PMC 7515398 . S2CID  195848308. 
  16. ^ Brenner, N.; Strong, S.; Koberle, R.; Bialek, W. (2000). "Sinergia en un código neuronal". Neural Comput . 12 (7): 1531–1552. doi :10.1162/089976600300015259. PMID  10935917. S2CID  600528.
  17. ^ Watkinson, J.; Liang, K.; Wang, X.; Zheng, T.; Anastassiou, D. (2009). "Inferencia de interacciones de genes reguladores a partir de datos de expresión utilizando información mutua de tres vías". Chall. Syst. Biol. Ann. NY Acad. Sci . 1158 (1): 302–313. Bibcode :2009NYASA1158..302W. doi :10.1111/j.1749-6632.2008.03757.x. PMID  19348651. S2CID  8846229.
  18. ^ ab Tapia, M.; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, JM (2018). "La identidad de los neurotransmisores y el fenotipo electrofisiológico están acoplados genéticamente en las neuronas dopaminérgicas del mesencéfalo". Sci. Rep . 8 (1): 13637. Bibcode :2018NatSR...813637T. doi :10.1038/s41598-018-31765-z. PMC 6134142 . PMID  30206240. 
  19. ^ Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008). Introducción a la recuperación de información . Prensa de la Universidad de Cambridge . ISBN 978-0-521-86571-5.
  20. ^ Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). "Una métrica de fusión de imágenes no referencial basada en información mutua de características de imagen". Computers & Electrical Engineering . 37 (5): 744–756. doi :10.1016/j.compeleceng.2011.07.012. S2CID  7738541.
  21. ^ "Métrica de información mutua de características (FMI) para fusión de imágenes no referenciales - Intercambio de archivos - MATLAB Central" www.mathworks.com . Consultado el 4 de abril de 2018 .
  22. ^ "InfoTopo: Análisis de datos de información topológica. Aprendizaje estadístico profundo supervisado y no supervisado - Intercambio de archivos - Github". github.com/pierrebaudot/infotopopy/ . Consultado el 26 de septiembre de 2020 .
  23. ^ Massey, James (1990). "Causalidad, retroalimentación e información dirigida". Proc. 1990 Intl. Symp. on Info. Th. and its Applications, Waikiki, Hawaii, 27-30 de noviembre de 1990. CiteSeerX 10.1.1.36.5688 . 
  24. ^ Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (febrero de 2009). "Canales de estados finitos con retroalimentación determinista invariante en el tiempo". IEEE Transactions on Information Theory . 55 (2): 644–662. arXiv : cs/0608070 . doi :10.1109/TIT.2008.2009849. S2CID  13178.
  25. ^ Coombs, Dawes y Tversky 1970.
  26. ^ ab Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.3. Entropía condicional e información mutua". Recetas numéricas: el arte de la computación científica (3.ª ed.). Nueva York: Cambridge University Press. ISBN 978-0-521-88068-8Archivado desde el original el 11-08-2011 . Consultado el 13-08-2011 .
  27. ^ White, Jim; Steingold, Sam; Fournelle, Connie. Métricas de rendimiento para algoritmos de detección de grupos (PDF) . Interface 2004. Archivado desde el original (PDF) el 2016-07-05 . Consultado el 2014-02-19 .
  28. ^ Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny (2017). "Relación de calidad de la información como una métrica novedosa para la selección de ondas madre". Quimiometría y Sistemas Inteligentes de Laboratorio . 160 : 59–71. doi :10.1016/j.chemolab.2016.11.012.
  29. ^ Strehl, Alexander; Ghosh, Joydeep (2003). "Conjuntos de clústeres: un marco de reutilización de conocimientos para combinar múltiples particiones" (PDF) . The Journal of Machine Learning Research . 3 : 583–617. doi :10.1162/153244303321897735.
  30. ^ Kvålseth, TO (1991). "La medida de información útil relativa: algunos comentarios". Ciencias de la Información . 56 (1): 35–38. doi :10.1016/0020-0255(91)90022-m.
  31. ^ Pocock, A. (2012). Selección de características mediante verosimilitud conjunta (PDF) (Tesis).
  32. ^ ab Análisis de un lenguaje natural mediante estadísticas de información mutua por David M. Magerman y Mitchell P. Marcus
  33. ^ Teoría de la función de onda universal de Hugh Everett , Tesis, Universidad de Princeton, (1956, 1973), pp 1–140 (página 30)
  34. ^ Everett, Hugh (1957). "Relative State Formulation of Quantum Mechanics". Reseñas de Física Moderna . 29 (3): 454–462. Código Bibliográfico :1957RvMP...29..454E. doi :10.1103/revmodphys.29.454. Archivado desde el original el 27 de octubre de 2011 . Consultado el 16 de julio de 2012 .
  35. ^ Nicoletti, Giorgio; Busiello, Daniel Maria (22 de noviembre de 2021). "La información mutua desenreda las interacciones de entornos cambiantes". Physical Review Letters . 127 (22): 228301. arXiv : 2107.08985 . Código Bibliográfico :2021PhRvL.127v8301N. doi :10.1103/PhysRevLett.127.228301. PMID  34889638. S2CID  236087228.
  36. ^ Nicoletti, Giorgio; Busiello, Daniel Maria (29 de julio de 2022). "Información mutua en entornos cambiantes: interacciones no lineales, sistemas fuera de equilibrio y difusividades que varían continuamente". Physical Review E . 106 (1): 014153. arXiv : 2204.01644 . Bibcode :2022PhRvE.106a4153N. doi :10.1103/PhysRevE.106.014153. PMID  35974654.
  37. ^ GlobalMIT en Google Code
  38. ^ Lee, Se Yoon (2021). "Inferencia variacional mediante el muestreador de Gibbs y el ascenso de coordenadas: una revisión de la teoría de conjuntos". Communications in Statistics - Theory and Methods . 51 (6): 1549–1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID  220935477.
  39. ^ Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (febrero de 2015). "Aplicación de métodos de información mutua en heliosismología de distancia temporal". Física solar . 290 (3): 659–671. arXiv : 1501.05597 . Código Bibliográfico :2015SoPh..290..659K. doi :10.1007/s11207-015-0650-y. S2CID  118472242.
  40. ^ Agrupamiento de información invariante para la segmentación y clasificación de imágenes no supervisadas por Xu Ji, Joao Henriques y Andrea Vedaldi
  41. ^ Nicoletti, Giorgio; Busiello, Daniel Maria (8 de abril de 2024). "Propagación de información en sistemas multicapa con interacciones de orden superior en distintas escalas de tiempo". Physical Review X . 14 (2): 021007. arXiv : 2312.06246 . Código Bibliográfico :2024PhRvX..14b1007N. doi :10.1103/PhysRevX.14.021007.

Referencias