stringtranslate.com

Información mutua

Diagrama de Venn que muestra relaciones aditivas y sustractivas de varias medidas de información asociadas con variables correlacionadas y . [1] El área contenida por cualquiera de los círculos es la entropía conjunta . El círculo de la izquierda (rojo y violeta) es la entropía individual , siendo el rojo la entropía condicional . El círculo de la derecha (azul y violeta) es , siendo el azul . El violeta es la información mutua .

En teoría de la probabilidad y teoría de la información , la información mutua ( IM ) de dos variables aleatorias es una medida de la dependencia mutua entre las dos variables. Más concretamente, cuantifica la " cantidad de información " (en unidades como shannons ( bits ), nats o hartleys ) obtenida sobre una variable aleatoria al observar la otra variable aleatoria. El concepto de información mutua está íntimamente ligado al de entropía de una variable aleatoria, una noción fundamental en la teoría de la información que cuantifica la "cantidad de información" esperada contenida en una variable aleatoria.

Sin limitarse a variables aleatorias de valor real y dependencia lineal como el coeficiente de correlación , MI es más general y determina qué tan diferente es la distribución conjunta del par del producto de las distribuciones marginales de y . MI es el valor esperado de la información mutua puntual (PMI).

La cantidad fue definida y analizada por Claude Shannon en su histórico artículo " Una teoría matemática de la comunicación ", aunque no la llamó "información mutua". Este término fue acuñado posteriormente por Robert Fano . [2] La información mutua también se conoce como ganancia de información .

Definición

Sean un par de variables aleatorias con valores sobre el espacio . Si su distribución conjunta es y las distribuciones marginales son y , la información mutua se define como

donde es la divergencia de Kullback-Leibler y es la distribución del producto externo que asigna probabilidad a cada uno .

Observe que, según la propiedad de la divergencia de Kullback-Leibler , eso es igual a cero precisamente cuando la distribución conjunta coincide con el producto de los marginales, es decir, cuando y son independientes (y por lo tanto, observar no dice nada sobre ). no es negativo, es una medida del precio de codificar como un par de variables aleatorias independientes cuando en realidad no lo son.

Si se utiliza el logaritmo natural , la unidad de información mutua es el nat . Si se utiliza el log base 2, la unidad de información mutua es el shannon , también conocido como bit. Si se utiliza el log base 10, la unidad de información mutua es el hartley , también conocido como ban o dit.

En términos de PMF para distribuciones discretas

La información mutua de dos variables aleatorias discretas conjuntamente se calcula como una suma doble: [3] : 20 

donde es la función de masa de probabilidad conjunta de y , y y son las funciones de masa de probabilidad marginal de y respectivamente.

En términos de PDF para distribuciones continuas

En el caso de variables aleatorias conjuntamente continuas, la doble suma se reemplaza por una doble integral : [3] : 251 

donde ahora es la función de densidad de probabilidad conjunta de y , y y son las funciones de densidad de probabilidad marginal de y respectivamente.

Motivación

Intuitivamente, la información mutua mide la información que comparten : mide en qué medida conocer una de estas variables reduce la incertidumbre sobre la otra. Por ejemplo, si y son independientes, entonces conocer no proporciona ninguna información sobre y viceversa, por lo que su información mutua es cero. En el otro extremo, si es una función determinista de y es una función determinista de entonces toda la información transmitida por se comparte con : el conocimiento determina el valor de y viceversa. Como resultado, en este caso la información mutua es la misma que la incertidumbre contenida en (o ), es decir, la entropía de (o ). Además, esta información mutua es la misma que la entropía de y la entropía de . (Un caso muy especial de esto es cuando y son la misma variable aleatoria).

La información mutua es una medida de la dependencia inherente expresada en la distribución conjunta y relativa a la distribución marginal de y bajo el supuesto de independencia. Por tanto, la información mutua mide la dependencia en el siguiente sentido: si y sólo si y son variables aleatorias independientes. Esto es fácil de ver en una dirección: si y son independientes, entonces y por lo tanto:

Además, la información mutua no es negativa (es decir , ver más abajo) y simétrica (es decir, ver más abajo).

Propiedades

No negatividad

Usando la desigualdad de Jensen en la definición de información mutua podemos demostrar que no es negativa, es decir [3] : 28 

Simetría

La prueba se da considerando la relación con la entropía, como se muestra a continuación.

Supermodularidad bajo independencia.

Si es independiente de , entonces

. [4]

Relación con la entropía condicional y conjunta

La información mutua se puede expresar de manera equivalente como:

donde y son las entropías marginales , y son las entropías condicionales , y es la entropía conjunta de y .

Observe la analogía con la unión, diferencia e intersección de dos conjuntos: a este respecto, todas las fórmulas dadas anteriormente son evidentes en el diagrama de Venn informado al principio del artículo.

En términos de un canal de comunicación en el que la salida es una versión ruidosa de la entrada , estas relaciones se resumen en la figura:

Las relaciones entre cantidades teóricas de la información.

Porque no es negativo, en consecuencia, . Aquí damos la deducción detallada de para el caso de variables aleatorias discretas conjuntamente:

Las pruebas de las otras identidades anteriores son similares. La prueba del caso general (no sólo discreto) es similar, con integrales reemplazando a las sumas.

Intuitivamente, si la entropía se considera una medida de la incertidumbre acerca de una variable aleatoria, entonces es una medida de lo que no dice acerca de . Esta es "la cantidad de incertidumbre que queda después de que se conoce" y, por lo tanto, el lado derecho de la segunda de estas igualdades puede leerse como "la cantidad de incertidumbre en , menos la cantidad de incertidumbre que queda después de que se conoce", que Equivale a "la cantidad de incertidumbre en la que se elimina al saber ". Esto corrobora el significado intuitivo de información mutua como la cantidad de información (es decir, reducción de la incertidumbre) que el conocimiento de una variable proporciona sobre la otra.

Tenga en cuenta que en el caso discreto y por lo tanto . Por lo tanto , se puede formular el principio básico de que una variable contiene al menos tanta información sobre sí misma como cualquier otra variable puede proporcionar.

Relación con la divergencia Kullback-Leibler

Para pares conjuntamente discretos o conjuntamente continuos , la información mutua es la divergencia de Kullback-Leibler del producto de las distribuciones marginales , de la distribución conjunta , es decir,

Además, sea la función de masa o densidad condicional. Entonces tenemos la identidad

La prueba para variables aleatorias discretas conjuntas es la siguiente:

De manera similar, esta identidad se puede establecer para variables aleatorias conjuntas continuas.

Tenga en cuenta que aquí la divergencia de Kullback-Leibler implica la integración solo de los valores de la variable aleatoria , y la expresión aún denota una variable aleatoria porque es aleatoria. Por lo tanto, la información mutua también puede entenderse como la expectativa de la divergencia de Kullback-Leibler entre la distribución univariada de y la distribución condicional de dada : cuanto más diferentes sean las distribuciones y en promedio, mayor será la ganancia de información .

Estimación bayesiana de información mutua.

Si se dispone de muestras de una distribución conjunta, se puede utilizar un enfoque bayesiano para estimar la información mutua de esa distribución. El primer trabajo en hacer esto, que también mostró cómo realizar una estimación bayesiana de muchas otras propiedades teóricas de la información además de la información mutua, fue. [5] Investigadores posteriores han vuelto a derivar [6] y ampliado [7] este análisis. Véase [8] para un artículo reciente basado en un estudio previo específicamente diseñado para la estimación de información mutua per se. Además, recientemente se propuso en . [9]

Supuestos de independencia

La formulación de divergencia de Kullback-Leibler de la información mutua se basa en que uno está interesado en comparar con el producto exterior completamente factorizado . En muchos problemas, como la factorización matricial no negativa , uno está interesado en factorizaciones menos extremas; específicamente, se desea comparar con una aproximación matricial de rango bajo en alguna variable desconocida ; es decir, hasta qué punto uno podría tener

Alternativamente, uno podría estar interesado en saber cuánta información adicional se transfiere a su factorización. En tal caso, el exceso de información que la distribución completa transporta sobre la factorización matricial viene dado por la divergencia de Kullback-Leibler.

La definición convencional de información mutua se recupera en el caso extremo de que el proceso tenga un solo valor para .

Variaciones

Se han propuesto varias variaciones de la información mutua para satisfacer diversas necesidades. Entre ellas se encuentran variantes normalizadas y generalizaciones a más de dos variables.

Métrico

Muchas aplicaciones requieren de una métrica , es decir, una medida de distancia entre pares de puntos. La cantidad

Satisface las propiedades de una métrica ( desigualdad triangular , no negatividad , indiscernibilidad y simetría). Esta métrica de distancia también se conoce como variación de información .

Si son variables aleatorias discretas, entonces todos los términos de entropía no son negativos, por lo que se puede definir una distancia normalizada.

La métrica es una métrica universal, en el sentido de que si cualquier otra medida de distancia se ubica cerca , entonces también la juzgará cerca. [10] [ dudoso ]

Introducir las definiciones muestra que

Esto se conoce como Distancia Rajski. [11] En una interpretación de la información basada en la teoría de conjuntos (consulte la figura de Entropía condicional ), esta es efectivamente la distancia de Jaccard entre y .

Finalmente,

también es una métrica.

Información mutua condicional

En ocasiones resulta útil expresar la información mutua de dos variables aleatorias condicionadas a una tercera.

Para variables aleatorias discretas conjuntas , esto toma la forma

que se puede simplificar como

Para variables aleatorias conjuntas continuas, esto toma la forma

que se puede simplificar como

El condicionamiento sobre una tercera variable aleatoria puede aumentar o disminuir la información mutua, pero siempre es cierto que

para variables aleatorias discretas distribuidas conjuntamente . Este resultado se ha utilizado como elemento básico para demostrar otras desigualdades en la teoría de la información .

Información de interacción

Se han propuesto varias generalizaciones de información mutua a más de dos variables aleatorias, como la correlación total (o información múltiple) y la correlación total dual . La expresión y el estudio de la información mutua multivariada de alto grado se logró en dos trabajos aparentemente independientes: McGill (1954) [12] , que llamó a estas funciones "información de interacción", y Hu Kuo Ting (1962). [13] La información de interacción se define para una variable de la siguiente manera:

y para

Algunos autores invierten el orden de los términos del lado derecho de la ecuación anterior, lo que cambia de signo cuando el número de variables aleatorias es impar. (Y en este caso, la expresión de una sola variable se convierte en el negativo de la entropía). Tenga en cuenta que

Independencia estadística multivariada

Las funciones multivariadas de información mutua generalizan el caso de independencia por pares que establece que si y sólo si , a una variable numerosa arbitraria. n variables son mutuamente independientes si y sólo si las funciones de información mutua desaparecen con (teorema 2 [14] ). En este sentido, puede utilizarse como un criterio refinado de independencia estadística.

Aplicaciones

Para 3 variables, Brenner et al. aplicó información mutua multivariada a la codificación neuronal y llamó a su negatividad "sinergia" [15] y Watkinson et al. lo aplicó a la expresión genética. [16] Para k variables arbitrarias, Tapia et al. información mutua multivariada aplicada a la expresión genética. [17] [14] Puede ser cero, positivo o negativo. [13] La positividad corresponde a relaciones que generalizan las correlaciones por pares, la nulidad corresponde a una noción refinada de independencia y la negatividad detecta relaciones "emergentes" de alta dimensión y puntos de datos agrupados [17] .

Un esquema de generalización de alta dimensión que maximiza la información mutua entre la distribución conjunta y otras variables objetivo resulta útil en la selección de características . [18]

La información mutua también se utiliza en el área del procesamiento de señales como medida de similitud entre dos señales. Por ejemplo, la métrica FMI [19] es una medida del rendimiento de la fusión de imágenes que utiliza información mutua para medir la cantidad de información que contiene la imagen fusionada sobre las imágenes de origen. El código Matlab para esta métrica se puede encontrar en. [20] Está disponible un paquete de Python para calcular toda la información mutua multivariada, información mutua condicional, entropías conjuntas, correlaciones totales y distancia de información en un conjunto de datos de n variables. [21]

Información dirigida

La información dirigida , mide la cantidad de información que fluye del proceso hacia , donde denota el vector y denota . El término información dirigida fue acuñado por James Massey y se define como

.

Tenga en cuenta que si , la información dirigida se convierte en información mutua. La información dirigida tiene muchas aplicaciones en problemas donde la causalidad juega un papel importante, como la capacidad del canal con retroalimentación. [22] [23]

Variantes normalizadas

Las variantes normalizadas de la información mutua son proporcionadas por los coeficientes de restricción , [24], coeficiente de incertidumbre [25] o competencia: [26]

Los dos coeficientes tienen un valor comprendido entre [0, 1], pero no son necesariamente iguales. Esta medida no es simétrica. Si uno desea una medida simétrica, puede considerar la siguiente medida de redundancia :

que alcanza un mínimo de cero cuando las variables son independientes y un valor máximo de

cuando una variable se vuelve completamente redundante con el conocimiento de la otra. Véase también Redundancia (teoría de la información) .

Otra medida simétrica es la incertidumbre simétrica (Witten y Frank 2005), dada por

que representa la media armónica de los dos coeficientes de incertidumbre . [25]

Si consideramos la información mutua como un caso especial de correlación total o correlación total dual , las versiones normalizadas son respectivamente,

y

Esta versión normalizada también conocida como Índice de Calidad de la Información (IQR) que cuantifica la cantidad de información de una variable en función de otra variable frente a una incertidumbre total: [27]

Hay una normalización [28] que se deriva de pensar primero en la información mutua como análoga a la covarianza (por lo tanto, la entropía de Shannon es análoga a la varianza ). Luego, la información mutua normalizada se calcula de manera similar al coeficiente de correlación de Pearson ,

Variantes ponderadas

En la formulación tradicional de la información mutua,

cada evento u objeto especificado por está ponderado por la probabilidad correspondiente . Esto supone que todos los objetos o eventos son equivalentes independientemente de su probabilidad de ocurrencia. Sin embargo, en algunas aplicaciones puede darse el caso de que ciertos objetos o eventos sean más significativos que otros, o que ciertos patrones de asociación sean semánticamente más importantes que otros.

Por ejemplo, el mapeo determinista puede considerarse más fuerte que el mapeo determinista , aunque estas relaciones producirían la misma información mutua. Esto se debe a que la información mutua no es en absoluto sensible a ningún orden inherente en los valores de las variables (Cronbach 1954, Coombs, Dawes y Tversky 1970, Lockhead 1970) y, por lo tanto, no es en absoluto sensible a la forma del mapeo relacional entre los valores de las variables. variables asociadas. Si se desea que la primera relación (que muestra concordancia en todos los valores variables) se considere más fuerte que la relación posterior, entonces es posible utilizar la siguiente información mutua ponderada (Guiasu 1977).

lo que asigna un peso a la probabilidad de que cada valor de variable coincida, . Esto permite que ciertas probabilidades puedan tener más o menos importancia que otras, permitiendo así la cuantificación de factores holísticos o de Prägnanz relevantes . En el ejemplo anterior, usar pesos relativos mayores para , y tendría el efecto de evaluar una mayor capacidad de información para la relación que para la relación , lo que puede ser deseable en algunos casos de reconocimiento de patrones y similares. Esta información mutua ponderada es una forma de KL-Divergencia ponderada, que se sabe que toma valores negativos para algunas entradas, [29] y hay ejemplos en los que la información mutua ponderada también toma valores negativos. [30]

Información mutua ajustada

Una distribución de probabilidad puede verse como una partición de un conjunto . Cabe entonces preguntarse: si un conjunto se dividiera aleatoriamente, ¿cuál sería la distribución de probabilidades? ¿Cuál sería el valor esperado de la información mutua? La información mutua ajustada o AMI resta el valor esperado del IM, de modo que el AMI es cero cuando dos distribuciones diferentes son aleatorias y uno cuando dos distribuciones son idénticas. El AMI se define de forma análoga al índice Rand ajustado de dos particiones diferentes de un conjunto.

Información mutua absoluta

Usando las ideas de complejidad de Kolmogorov , se puede considerar la información mutua de dos secuencias independientes de cualquier distribución de probabilidad:

Para establecer que esta cantidad es simétrica hasta un factor logarítmico ( ) se requiere la regla de la cadena para la complejidad de Kolmogorov (Li & Vitányi 1997). Las aproximaciones de esta cantidad mediante compresión se pueden utilizar para definir una medida de distancia para realizar una agrupación jerárquica de secuencias sin tener ningún conocimiento de dominio de las secuencias (Cilibrasi y Vitányi 2005).

Correlación lineal

A diferencia de los coeficientes de correlación, como el coeficiente de correlación del momento del producto , la información mutua contiene información sobre toda la dependencia (lineal y no lineal) y no solo la dependencia lineal como mide el coeficiente de correlación. Sin embargo, en el caso concreto de que la distribución conjunta de y sea una distribución normal bivariada (lo que implica en particular que ambas distribuciones marginales están distribuidas normalmente), existe una relación exacta entre y el coeficiente de correlación (Gel'fand y Yaglom 1957).

La ecuación anterior se puede derivar de la siguiente manera para un gaussiano bivariado:

Por lo tanto,

Para datos discretos

Cuando y están limitados a estar en un número discreto de estados, los datos de observación se resumen en una tabla de contingencia , con una variable de fila (o ) y una variable de columna (o ). La información mutua es una de las medidas de asociación o correlación entre las variables de fila y columna.

Otras medidas de asociación incluyen las estadísticas de la prueba de chi-cuadrado de Pearson , las estadísticas de la prueba G , etc. De hecho, con la misma base logarítmica, la información mutua será igual a la estadística de probabilidad logarítmica de la prueba G dividida por , donde está el tamaño de la muestra. .

Aplicaciones

En muchas aplicaciones, se desea maximizar la información mutua (aumentando así las dependencias), lo que a menudo equivale a minimizar la entropía condicional . Ejemplos incluyen:

donde es el número de veces que aparece el bigrama xy en el corpus, es el número de veces que aparece el unigrama x en el corpus, B es el número total de bigramas y U es el número total de unigramas. [31]

Ver también

Notas

  1. ^ Portada, Thomas M.; Thomas, alegría A. (2005). Elementos de la teoría de la información (PDF) . John Wiley & Sons, Ltd. págs. 13–55. ISBN 9780471748823.
  2. ^ Kreer, JG (1957). "Una cuestión de terminología". Transacciones IRE sobre teoría de la información . 3 (3): 208. doi :10.1109/TIT.1957.1057418.
  3. ^ Portada abc, TM; Thomas, JA (1991). Elementos de la teoría de la información (Wiley ed.). John Wiley e hijos. ISBN 978-0-471-24195-9.
  4. ^ Janssen, José; Guan, Vicente; Robeva, Elina (2023). "Importancia de las características ultramarginales: aprender de los datos con garantías causales". Conferencia internacional sobre inteligencia artificial y estadística : 10782–10814. arXiv : 2204.09938 .
  5. ^ Wolpert, DH; Lobo, DR (1995). "Estimación de funciones de distribuciones de probabilidad a partir de un conjunto finito de muestras". Revisión física E. 52 (6): 6841–6854. Código bibliográfico : 1995PhRvE..52.6841W. CiteSeerX 10.1.1.55.7122 . doi : 10.1103/PhysRevE.52.6841. PMID  9964199. S2CID  9795679. 
  6. ^ Hutter, M. (2001). "Distribución de Información Mutua". Avances en los sistemas de procesamiento de información neuronal .
  7. ^ Arquero, E.; Park, IM; Almohada, J. (2013). "Estimadores bayesianos y cuasi-bayesianos para información mutua a partir de datos discretos". Entropía . 15 (12): 1738-1755. Código Bib : 2013Entrp..15.1738A. CiteSeerX 10.1.1.294.4690 . doi : 10.3390/e15051738 . 
  8. ^ Wolpert, DH; DeDeo, S. (2013). "Estimación de funciones de distribuciones definidas en espacios de tamaño desconocido". Entropía . 15 (12): 4668–4699. arXiv : 1311.4548 . Código Bib : 2013Entrp..15.4668W. doi : 10.3390/e15114668 . S2CID  2737117.
  9. ^ Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Slawomir Blonski; Michal Komorowski (2019), "Análisis teórico de la información de respuestas de señalización unicelulares multivariadas", PLOS Computational Biology , 15 (7): e1007132, arXiv : 1808.05581 , Bibcode : 2019PLSCB..15E7132J, doi : 10.1371/journal.pcbi. 1007132 , PMC 6655862 , PMID  31299056 
  10. ^ Kraskov, Alejandro; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). "Agrupación jerárquica basada en información mutua". arXiv : q-bio/0311039 . Código Bib : 2003q.bio....11039K. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  11. ^ Rajski, C. (1961). "Un espacio métrico de distribuciones de probabilidad discretas". Información y Control . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
  12. ^ McGill, W. (1954). "Transmisión de información multivariante". Psicometrika . 19 (1): 97-116. doi :10.1007/BF02289159. S2CID  126431489.
  13. ^ ab Hu, KT (1962). "Sobre la cantidad de información". Teoría probable. Aplica . 7 (4): 439–447. doi :10.1137/1107041.
  14. ^ ab Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). "Análisis de datos de información topológica". Entropía . 21 (9). 869. arXiv : 1907.04242 . Código Bib : 2019Entrp..21..869B. doi : 10.3390/e21090869 . PMC 7515398 . S2CID  195848308. 
  15. ^ Brenner, N.; Fuerte, S.; Koberle, R.; Bialek, W. (2000). "Sinergia en un código neuronal". Computación neuronal . 12 (7): 1531-1552. doi :10.1162/089976600300015259. PMID  10935917. S2CID  600528.
  16. ^ Watkinson, J.; Liang, K.; Wang, X.; Zheng, T.; Anastassiou, D. (2009). "Inferencia de interacciones de genes reguladores a partir de datos de expresión utilizando información mutua de tres vías". Desafío. Sistema. Biol. Ana. Académico de Nueva York. Ciencia . 1158 (1): 302–313. Código Bib : 2009NYASA1158..302W. doi :10.1111/j.1749-6632.2008.03757.x. PMID  19348651. S2CID  8846229.
  17. ^ ab Tapia, M.; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, JM (2018). "La identidad de los neurotransmisores y el fenotipo electrofisiológico están acoplados genéticamente en las neuronas dopaminérgicas del mesencéfalo". Ciencia. Representante . 8 (1): 13637. Código bibliográfico : 2018NatSR...813637T. doi :10.1038/s41598-018-31765-z. PMC 6134142 . PMID  30206240. 
  18. ^ Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008). Introducción a la recuperación de información . Prensa de la Universidad de Cambridge . ISBN 978-0-521-86571-5.
  19. ^ Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). "Una métrica de fusión de imágenes sin referencia basada en información mutua de las características de la imagen". Computación e ingeniería eléctrica . 37 (5): 744–756. doi : 10.1016/j.compeleceng.2011.07.012. S2CID  7738541.
  20. ^ "Métrica de información mutua de características (FMI) para la fusión de imágenes sin referencia - Intercambio de archivos - MATLAB Central". www.mathworks.com . Consultado el 4 de abril de 2018 .
  21. ^ "InfoTopo: Análisis de datos de información topológica. Aprendizaje estadístico profundo supervisado y no supervisado - Intercambio de archivos - Github". github.com/pierrebaudot/infotopopy/ . Consultado el 26 de septiembre de 2020 .
  22. ^ Massey, James (1990). "Causalidad, retroalimentación e información dirigida". Proc. 1990 Internacional Síntoma. en Información. Th. y sus aplicaciones, Waikiki, Hawaii, 27-30 de noviembre de 1990 . CiteSeerX 10.1.1.36.5688 . 
  23. ^ Permutador, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (febrero de 2009). "Canales de estado finito con retroalimentación determinista invariante en el tiempo". Transacciones IEEE sobre teoría de la información . 55 (2): 644–662. arXiv : cs/0608070 . doi :10.1109/TIT.2008.2009849. S2CID  13178.
  24. ^ Coombs, Dawes y Tversky 1970.
  25. ^ ab Prensa, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.3. Entropía condicional e información mutua". Recetas numéricas: el arte de la informática científica (3ª ed.). Nueva York: Cambridge University Press. ISBN 978-0-521-88068-8. Archivado desde el original el 11 de agosto de 2011 . Consultado el 13 de agosto de 2011 .
  26. ^ Blanco, Jim; Steingold, Sam; Fournelle, Connie. Métricas de rendimiento para algoritmos de detección de grupos (PDF) . Interfaz 2004. Archivado desde el original (PDF) el 5 de julio de 2016 . Consultado el 19 de febrero de 2014 .
  27. ^ Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny (2017). "Relación de calidad de la información como una métrica novedosa para la selección de ondas madre". Quimiometría y Sistemas Inteligentes de Laboratorio . 160 : 59–71. doi :10.1016/j.chemolab.2016.11.012.
  28. ^ Strehl, Alejandro; Ghosh, Joydeep (2003). "Conjuntos de clústeres: un marco de reutilización de conocimientos para combinar varias particiones" (PDF) . La revista de investigación sobre aprendizaje automático . 3 : 583–617. doi :10.1162/153244303321897735.
  29. ^ Kvålseth, TO (1991). "La medida de información relativa útil: algunos comentarios". Ciencias de la Información . 56 (1): 35–38. doi :10.1016/0020-0255(91)90022-m.
  30. ^ Pocock, A. (2012). Selección de funciones mediante probabilidad conjunta (PDF) (Tesis).
  31. ^ ab Análisis de un lenguaje natural utilizando estadísticas de información mutua por David M. Magerman y Mitchell P. Marcus
  32. ^ Teoría de la función de onda universal de Hugh Everett , Tesis, Universidad de Princeton, (1956, 1973), págs. 1-140 (página 30)
  33. ^ Everett, Hugh (1957). "Formulación del estado relativo de la mecánica cuántica". Reseñas de Física Moderna . 29 (3): 454–462. Código bibliográfico : 1957RvMP...29..454E. doi :10.1103/revmodphys.29.454. Archivado desde el original el 27 de octubre de 2011 . Consultado el 16 de julio de 2012 .
  34. ^ Nicoletti, Giorgio; Busiello, Daniel María (22/11/2021). "La información mutua separa las interacciones de los entornos cambiantes". Cartas de revisión física . 127 (22): 228301. arXiv : 2107.08985 . Código Bib : 2021PhRvL.127v8301N. doi : 10.1103/PhysRevLett.127.228301. PMID  34889638. S2CID  236087228.
  35. ^ Nicoletti, Giorgio; Busiello, Daniel María (29 de julio de 2022). "Información mutua en entornos cambiantes: interacciones no lineales, sistemas fuera de equilibrio y difusividades que varían continuamente". Revisión física E. 106 (1): 014153. arXiv : 2204.01644 . doi : 10.1103/PhysRevE.106.014153.
  36. ^ GlobalMIT en Google Code
  37. ^ Lee, Se Yoon (2021). "Muestreador de Gibbs e inferencia variacional de ascenso de coordenadas: una revisión de la teoría de conjuntos". Comunicaciones en Estadística - Teoría y Métodos . 51 (6): 1549-1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID  220935477.
  38. ^ Llaves, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (febrero de 2015). "Aplicación de métodos de información mutua en heliosismología tiempo-distancia". Física Solar . 290 (3): 659–671. arXiv : 1501.05597 . Código bibliográfico : 2015SoPh..290..659K. doi :10.1007/s11207-015-0650-y. S2CID  118472242.
  39. ^ Agrupación de información invariante para clasificación y segmentación de imágenes no supervisadas por Xu Ji, Joao Henriques y Andrea Vedaldi

Referencias