En teoría de la probabilidad y teoría de la información , la información mutua ( IM ) de dos variables aleatorias es una medida de la dependencia mutua entre las dos variables. Más específicamente, cuantifica la " cantidad de información " (en unidades como shannons ( bits ), nats o hartleys ) obtenida sobre una variable aleatoria al observar la otra variable aleatoria. El concepto de información mutua está íntimamente ligado al de entropía de una variable aleatoria, una noción fundamental en la teoría de la información que cuantifica la "cantidad de información" esperada contenida en una variable aleatoria.
Sea un par de variables aleatorias con valores en el espacio . Si su distribución conjunta es y las distribuciones marginales son y , la información mutua se define como
Nótese que, según la propiedad de la divergencia de Kullback–Leibler , es igual a cero precisamente cuando la distribución conjunta coincide con el producto de las marginales, es decir, cuando y son independientes (y, por lo tanto, observar no dice nada sobre ). no es negativo, es una medida del precio de codificar como un par de variables aleatorias independientes cuando en realidad no lo son.
En el caso de variables aleatorias conjuntamente continuas, la doble suma se reemplaza por una doble integral : [3] : 251
donde ahora es la función de densidad de probabilidad conjunta de y , y y son las funciones de densidad de probabilidad marginal de y respectivamente.
Motivación
Intuitivamente, la información mutua mide la información que y comparten: mide en qué medida el conocimiento de una de estas variables reduce la incertidumbre sobre la otra. Por ejemplo, si y son independientes, entonces el conocimiento no proporciona ninguna información sobre y viceversa, por lo que su información mutua es cero. En el otro extremo, si es una función determinista de y es una función determinista de entonces toda la información transmitida por se comparte con : el conocimiento determina el valor de y viceversa. Como resultado, la información mutua es la misma que la incertidumbre contenida en (o ) solo, es decir, la entropía de (o ). Un caso muy especial de esto es cuando y son la misma variable aleatoria.
La información mutua es una medida de la dependencia inherente expresada en la distribución conjunta de y en relación con la distribución marginal de y bajo el supuesto de independencia. Por lo tanto, la información mutua mide la dependencia en el siguiente sentido: si y solo si y son variables aleatorias independientes. Esto es fácil de ver en una dirección: si y son independientes, entonces , y por lo tanto:
Además, la información mutua es no negativa (es decir, ver más abajo) y simétrica (es decir, ver más abajo).
Propiedades
No negatividad
Usando la desigualdad de Jensen en la definición de información mutua podemos demostrar que no es negativa, es decir [3] : 28
Simetría
La prueba se da considerando la relación con la entropía, como se muestra a continuación.
Supermodularidad bajo independencia
Si es independiente de , entonces
. [4]
Relación con la entropía condicional y conjunta
La información mutua se puede expresar de forma equivalente como:
Nótese la analogía con la unión, diferencia e intersección de dos conjuntos: a este respecto, todas las fórmulas dadas anteriormente son evidentes a partir del diagrama de Venn presentado al comienzo del artículo.
En términos de un canal de comunicación en el que la salida es una versión ruidosa de la entrada , estas relaciones se resumen en la figura:
Como no es negativo, por lo tanto, . Aquí damos la deducción detallada de para el caso de variables aleatorias discretas conjuntas:
Las pruebas de las demás identidades anteriores son similares. La prueba del caso general (no solo del discreto) es similar, con integrales que reemplazan a las sumas.
Intuitivamente, si se considera la entropía como una medida de incertidumbre sobre una variable aleatoria, entonces es una medida de lo que no dice sobre . Esto es "la cantidad de incertidumbre que queda sobre después de que se conoce", y por lo tanto el lado derecho de la segunda de estas igualdades se puede leer como "la cantidad de incertidumbre en , menos la cantidad de incertidumbre en que permanece después de que se conoce", que es equivalente a "la cantidad de incertidumbre en que se elimina al saber ". Esto corrobora el significado intuitivo de información mutua como la cantidad de información (es decir, reducción de la incertidumbre) que el conocimiento de una variable proporciona sobre la otra.
Obsérvese que en el caso discreto y por lo tanto . Por lo tanto , y se puede formular el principio básico de que una variable contiene al menos tanta información sobre sí misma como cualquier otra variable puede proporcionar.
Además, sea la función de masa o densidad condicional. Entonces, tenemos la identidad
La prueba para variables aleatorias discretas conjuntas es la siguiente:
De manera similar, esta identidad puede establecerse para variables aleatorias conjuntamente continuas.
Obsérvese que aquí la divergencia de Kullback-Leibler implica la integración sobre los valores de la variable aleatoria únicamente, y la expresión aún denota una variable aleatoria porque es aleatoria. Por lo tanto, la información mutua también puede entenderse como la expectativa de la divergencia de Kullback-Leibler de la distribución univariante de a partir de la distribución condicional de dada : cuanto más diferentes sean las distribuciones y en promedio, mayor será la ganancia de información .
Estimación bayesiana de información mutua
Si se dispone de muestras de una distribución conjunta, se puede utilizar un enfoque bayesiano para estimar la información mutua de esa distribución. El primer trabajo en hacer esto, que también mostró cómo hacer una estimación bayesiana de muchas otras propiedades de la teoría de la información además de la información mutua, fue. [5] Investigadores posteriores han derivado [6] y ampliado [7]
este análisis. Véase [8] para un artículo reciente basado en una previa específicamente diseñada para la estimación de la información mutua per se. Además, recientemente se propuso un método de estimación que tiene en cuenta los resultados continuos y multivariados, , en . [9]
Supuestos de independencia
La formulación de divergencia de Kullback-Leibler de la información mutua se basa en que uno está interesado en comparar con el producto externo completamente factorizado . En muchos problemas, como la factorización de matrices no negativas , uno está interesado en factorizaciones menos extremas; específicamente, uno desea comparar con una aproximación de matriz de bajo rango en alguna variable desconocida ; es decir, hasta qué grado uno podría tener
Alternativamente, uno podría estar interesado en saber cuánta información más lleva su factorización. En tal caso, el exceso de información que la distribución completa lleva sobre la factorización matricial está dado por la divergencia de Kullback-Leibler.
La definición convencional de la información mutua se recupera en el caso extremo de que el proceso tenga un solo valor para .
Variaciones
Se han propuesto diversas variaciones de la información mutua para satisfacer distintas necesidades, entre ellas, variantes normalizadas y generalizaciones a más de dos variables.
Métrico
Muchas aplicaciones requieren una métrica , es decir, una medida de distancia entre pares de puntos. La cantidad
Si son variables aleatorias discretas entonces todos los términos de entropía son no negativos, por lo que se puede definir una distancia normalizada.
La métrica es una métrica universal, en el sentido de que si cualquier otra medida de distancias permite medir lugares y cercanías, entonces también los juzgará cercanos. [11] [ dudoso – discutir ]
Al introducir las definiciones se ve que
Esto se conoce como la distancia de Rajski. [12] En una interpretación de la información basada en la teoría de conjuntos (véase la figura de Entropía condicional ), esta es efectivamente la distancia de Jaccard entre y .
Finalmente,
También es una métrica.
Información mutua condicional
A veces es útil expresar la información mutua de dos variables aleatorias condicionadas a una tercera.
El condicionamiento de una tercera variable aleatoria puede aumentar o disminuir la información mutua, pero siempre es cierto que
para variables aleatorias discretas y distribuidas conjuntamente . Este resultado se ha utilizado como elemento básico para demostrar otras desigualdades en la teoría de la información .
Información de interacción
Se han propuesto varias generalizaciones de la información mutua a más de dos variables aleatorias, como la correlación total (o multiinformación) y la correlación total dual . La expresión y el estudio de la información mutua multivariada de alto grado se logró en dos trabajos aparentemente independientes: McGill (1954) [13], que llamó a estas funciones "información de interacción", y Hu Kuo Ting (1962). [14] La información de interacción se define para una variable de la siguiente manera:
y para
Algunos autores invierten el orden de los términos del lado derecho de la ecuación anterior, lo que cambia el signo cuando el número de variables aleatorias es impar. (Y en este caso, la expresión de una sola variable se convierte en el negativo de la entropía). Nótese que
Independencia estadística multivariante
Las funciones de información mutua multivariadas generalizan el caso de independencia por pares que establece que si y solo si , a un número arbitrario de variables. n variables son mutuamente independientes si y solo si las funciones de información mutua se anulan con (teorema 2 [15] ). En este sentido, se puede utilizar como un criterio de independencia estadística refinado.
Aplicaciones
Para 3 variables, Brenner et al. aplicaron información mutua multivariada a la codificación neuronal y llamaron a su negatividad "sinergia" [16] y Watkinson et al. la aplicaron a la expresión genética. [17] Para k variables arbitrarias, Tapia et al. aplicaron información mutua multivariada a la expresión genética. [18] [15] Puede ser cero, positivo o negativo. [14] La positividad corresponde a relaciones que generalizan las correlaciones por pares, la nulidad corresponde a una noción refinada de independencia y la negatividad detecta relaciones "emergentes" de alta dimensión y puntos de datos agrupados [18] ).
Se ha descubierto que un esquema de generalización de alta dimensión que maximiza la información mutua entre la distribución conjunta y otras variables objetivo es útil en la selección de características . [19]
La información mutua también se utiliza en el área de procesamiento de señales como una medida de similitud entre dos señales. Por ejemplo, la métrica FMI [20] es una medida de rendimiento de fusión de imágenes que utiliza información mutua para medir la cantidad de información que la imagen fusionada contiene sobre las imágenes de origen. El código Matlab para esta métrica se puede encontrar en. [21] Hay disponible un paquete de Python para calcular toda la información mutua multivariada, información mutua condicional, entropías conjuntas, correlaciones totales y distancia de información en un conjunto de datos de n variables. [22]
Información dirigida
La información dirigida , mide la cantidad de información que fluye desde el proceso a , donde denota el vector y denota . El término información dirigida fue acuñado por James Massey y se define como
.
Nótese que si , la información dirigida se convierte en información mutua. La información dirigida tiene muchas aplicaciones en problemas donde la causalidad juega un papel importante, como la capacidad de un canal con retroalimentación. [23] [24]
Variantes normalizadas
Las variantes normalizadas de la información mutua se proporcionan mediante los coeficientes de restricción , [25] coeficiente de incertidumbre [26] o competencia: [27]
Los dos coeficientes tienen un valor que oscila entre [0, 1], pero no son necesariamente iguales. Esta medida no es simétrica. Si se desea una medida simétrica, se puede considerar la siguiente medida de redundancia :
que alcanza un mínimo de cero cuando las variables son independientes y un valor máximo de
Otra medida simétrica es la incertidumbre simétrica (Witten y Frank 2005), dada por
que representa la media armónica de los dos coeficientes de incertidumbre . [26]
Si consideramos la información mutua como un caso especial de la correlación total o correlación total dual , las versiones normalizadas son respectivamente,
y
Esta versión normalizada también se conoce como Índice de Calidad de la Información (RIC) que cuantifica la cantidad de información de una variable en función de otra variable frente a la incertidumbre total: [28]
En la formulación tradicional de la información mutua,
Cada evento u objeto especificado por se pondera con la probabilidad correspondiente . Esto supone que todos los objetos o eventos son equivalentes, aparte de su probabilidad de ocurrencia. Sin embargo, en algunas aplicaciones puede darse el caso de que ciertos objetos o eventos sean más significativos que otros, o que ciertos patrones de asociación sean más importantes semánticamente que otros.
Por ejemplo, la aplicación determinista puede considerarse más fuerte que la aplicación determinista , aunque estas relaciones producirían la misma información mutua. Esto se debe a que la información mutua no es sensible en absoluto a ningún ordenamiento inherente en los valores de las variables (Cronbach 1954, Coombs, Dawes y Tversky 1970, Lockhead 1970), y por lo tanto no es sensible en absoluto a la forma de la aplicación relacional entre las variables asociadas. Si se desea que la primera relación, que muestra acuerdo sobre todos los valores de las variables, se juzgue más fuerte que la última relación, entonces es posible utilizar la siguiente información mutua ponderada (Guiasu 1977).
que asigna un peso a la probabilidad de coocurrencia de cada valor variable, . Esto permite que ciertas probabilidades puedan tener mayor o menor importancia que otras, lo que permite la cuantificación de factores holísticos o de Prägnanz relevantes . En el ejemplo anterior, el uso de pesos relativos mayores para , , y tendría el efecto de evaluar una mayor informatividad para la relación que para la relación , lo que puede ser deseable en algunos casos de reconocimiento de patrones y similares. Esta información mutua ponderada es una forma de divergencia KL ponderada, que se sabe que toma valores negativos para algunas entradas, [30] y hay ejemplos en los que la información mutua ponderada también toma valores negativos. [31]
Información mutua ajustada
Una distribución de probabilidad puede considerarse como una partición de un conjunto . Uno puede entonces preguntar: si un conjunto se particionara aleatoriamente, ¿cuál sería la distribución de probabilidades? ¿Cuál sería el valor esperado de la información mutua? La información mutua ajustada o AMI resta el valor esperado de la MI, de modo que la AMI es cero cuando dos distribuciones diferentes son aleatorias, y uno cuando dos distribuciones son idénticas. La AMI se define en analogía con el índice Rand ajustado de dos particiones diferentes de un conjunto.
Información mutua absoluta
Utilizando las ideas de la complejidad de Kolmogorov , se puede considerar la información mutua de dos secuencias independientemente de cualquier distribución de probabilidad:
A diferencia de los coeficientes de correlación, como el coeficiente de correlación del momento del producto , la información mutua contiene información sobre toda la dependencia (lineal y no lineal) y no solo la dependencia lineal, como mide el coeficiente de correlación. Sin embargo, en el caso específico de que la distribución conjunta de y sea una distribución normal bivariada (lo que implica en particular que ambas distribuciones marginales se distribuyen normalmente), existe una relación exacta entre y el coeficiente de correlación (Gel'fand y Yaglom 1957).
La ecuación anterior se puede derivar de la siguiente manera para una gaussiana bivariada:
Por lo tanto,
Para datos discretos
Cuando y están limitados a estar en un número discreto de estados, los datos de observación se resumen en una tabla de contingencia , con variable de fila (o ) y variable de columna (o ). La información mutua es una de las medidas de asociación o correlación entre las variables de fila y columna.
Otras medidas de asociación incluyen las estadísticas de la prueba de chi-cuadrado de Pearson , las estadísticas de la prueba G , etc. De hecho, con la misma base logarítmica, la información mutua será igual a la estadística de log-verosimilitud de la prueba G dividida por , donde es el tamaño de la muestra.
Aplicaciones
En muchas aplicaciones, se desea maximizar la información mutua (lo que aumenta las dependencias), lo que a menudo equivale a minimizar la entropía condicional . Algunos ejemplos son:
En la tecnología de motores de búsqueda , la información mutua entre frases y contextos se utiliza como una característica para la agrupación de k-medias para descubrir grupos semánticos (conceptos). [32] Por ejemplo, la información mutua de un bigrama podría calcularse como:
donde es el número de veces que aparece el bigrama xy en el corpus, es el número de veces que aparece el unigrama x en el corpus, B es el número total de bigramas y U es el número total de unigramas. [32]
La información mutua se utiliza para determinar la similitud de dos agrupaciones diferentes de un conjunto de datos. Por ello, ofrece algunas ventajas con respecto al índice Rand tradicional .
La información mutua de las palabras se utiliza a menudo como una función de significación para el cálculo de colocaciones en lingüística de corpus . Esto tiene la complejidad añadida de que ninguna instancia de palabra es una instancia de dos palabras diferentes; en cambio, se cuentan las instancias en las que dos palabras aparecen adyacentes o en estrecha proximidad; esto complica ligeramente el cálculo, ya que la probabilidad esperada de que una palabra aparezca dentro de palabras de otra aumenta con
La información mutua se utiliza en el procesamiento de imágenes médicas para el registro de imágenes . Dada una imagen de referencia (por ejemplo, una tomografía cerebral) y una segunda imagen que debe colocarse en el mismo sistema de coordenadas que la imagen de referencia, esta imagen se deforma hasta que se maximiza la información mutua entre ella y la imagen de referencia.
En mecánica estadística , la paradoja de Loschmidt puede expresarse en términos de información mutua. [33] [34] Loschmidt señaló que debe ser imposible determinar una ley física que carezca de simetría de inversión temporal (por ejemplo, la segunda ley de la termodinámica ) solo a partir de leyes físicas que tengan esta simetría. Señaló que el teorema H de Boltzmann suponía que las velocidades de las partículas en un gas no estaban correlacionadas permanentemente, lo que eliminaba la simetría temporal inherente al teorema H. Se puede demostrar que si un sistema se describe mediante una densidad de probabilidad en el espacio de fases , entonces el teorema de Liouville implica que la información conjunta (negativa de la entropía conjunta) de la distribución permanece constante en el tiempo. La información conjunta es igual a la información mutua más la suma de toda la información marginal (negativa de las entropías marginales) para cada coordenada de partícula. La suposición de Boltzmann equivale a ignorar la información mutua en el cálculo de la entropía, que produce la entropía termodinámica (dividida por la constante de Boltzmann).
En los procesos estocásticos acoplados a entornos cambiantes, la información mutua se puede utilizar para desenredar las dependencias ambientales internas y efectivas. [35] [36] Esto es particularmente útil cuando un sistema físico sufre cambios en los parámetros que describen su dinámica, por ejemplo, cambios en la temperatura.
La información mutua se utiliza para aprender la estructura de las redes bayesianas / redes bayesianas dinámicas , que se cree que explican la relación causal entre variables aleatorias, como lo ejemplifica el kit de herramientas GlobalMIT: [37] aprendizaje de la red bayesiana dinámica globalmente óptima con el criterio de prueba de información mutua.
La información mutua se utiliza para cuantificar la información transmitida durante el procedimiento de actualización en el algoritmo de muestreo de Gibbs . [38]
La información mutua se utiliza en cosmología para probar la influencia de los entornos a gran escala en las propiedades de las galaxias en el Galaxy Zoo .
La información mutua se utilizó en Física Solar para derivar el perfil de rotación diferencial solar , un mapa de desviación del tiempo de viaje para las manchas solares y un diagrama de tiempo-distancia a partir de mediciones del Sol en calma [39].
Se utiliza en agrupamientos de información invariante para entrenar automáticamente clasificadores de redes neuronales y segmentadores de imágenes sin datos etiquetados. [40]
En sistemas dinámicos estocásticos con múltiples escalas temporales , se ha demostrado que la información mutua captura los acoplamientos funcionales entre diferentes escalas temporales. [41] Es importante destacar que se demostró que las interacciones físicas pueden o no dar lugar a información mutua, dependiendo de la escala temporal típica de su dinámica.
^ Portada, Thomas M.; Thomas, Joy A. (2005). Elementos de la teoría de la información (PDF) . John Wiley & Sons, Ltd., págs. 13-55. ISBN 9780471748823.
^ Kreer, JG (1957). "Una cuestión de terminología". IRE Transactions on Information Theory . 3 (3): 208. doi :10.1109/TIT.1957.1057418.
^ abc Cover, TM; Thomas, JA (1991). Elementos de la teoría de la información (edición Wiley). John Wiley & Sons. ISBN978-0-471-24195-9.
^ Janssen, Joseph; Guan, Vincent; Robeva, Elina (2023). "Importancia de características ultramarginales: aprendizaje a partir de datos con garantías causales". Conferencia internacional sobre inteligencia artificial y estadística : 10782–10814. arXiv : 2204.09938 .
^ Wolpert, DH; Wolf, DR (1995). "Estimación de funciones de distribuciones de probabilidad a partir de un conjunto finito de muestras". Physical Review E . 52 (6): 6841–6854. Bibcode :1995PhRvE..52.6841W. CiteSeerX 10.1.1.55.7122 . doi :10.1103/PhysRevE.52.6841. PMID 9964199. S2CID 9795679.
^ Hutter, M. (2001). "Distribución de información mutua". Avances en sistemas de procesamiento de información neuronal .
^ Archer, E.; Park, IM; Pillow, J. (2013). "Estimadores bayesianos y cuasi-bayesianos para información mutua a partir de datos discretos". Entropy . 15 (12): 1738–1755. Bibcode :2013Entrp..15.1738A. CiteSeerX 10.1.1.294.4690 . doi : 10.3390/e15051738 .
^ Wolpert, DH; DeDeo, S. (2013). "Estimación de funciones de distribuciones definidas sobre espacios de tamaño desconocido". Entropy . 15 (12): 4668–4699. arXiv : 1311.4548 . Bibcode :2013Entrp..15.4668W. doi : 10.3390/e15114668 . S2CID 2737117.
^ Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Slawomir Blonski; Michal Komorowski (2019), "Análisis teórico de la información de respuestas de señalización unicelular multivariadas", PLOS Computational Biology , 15 (7): e1007132, arXiv : 1808.05581 , Bibcode :2019PLSCB..15E7132J, doi : 10.1371/journal.pcbi.1007132 , PMC 6655862 , PMID 31299056
^ Rajski, C. (1961). "Un espacio métrico de distribuciones de probabilidad discretas". Información y Control . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
^ Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). "Agrupamiento jerárquico basado en información mutua". arXiv : q-bio/0311039 . Código Bibliográfico :2003q.bio....11039K.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Rajski, C. (1961). "Un espacio métrico de distribuciones de probabilidad discretas". Información y Control . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
^ McGill, W. (1954). "Transmisión de información multivariable". Psychometrika . 19 (1): 97–116. doi :10.1007/BF02289159. S2CID 126431489.
^ ab Hu, KT (1962). "Sobre la cantidad de información". Theory Probab. Appl . 7 (4): 439–447. doi :10.1137/1107041.
^ ab Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). "Análisis de datos de información topológica". Entropía . 21 (9). 869. arXiv : 1907.04242 . Código Bibliográfico :2019Entrp..21..869B. doi : 10.3390/e21090869 . PMC 7515398 . S2CID 195848308.
^ Brenner, N.; Strong, S.; Koberle, R.; Bialek, W. (2000). "Sinergia en un código neuronal". Neural Comput . 12 (7): 1531–1552. doi :10.1162/089976600300015259. PMID 10935917. S2CID 600528.
^ Watkinson, J.; Liang, K.; Wang, X.; Zheng, T.; Anastassiou, D. (2009). "Inferencia de interacciones de genes reguladores a partir de datos de expresión utilizando información mutua de tres vías". Chall. Syst. Biol. Ann. NY Acad. Sci . 1158 (1): 302–313. Bibcode :2009NYASA1158..302W. doi :10.1111/j.1749-6632.2008.03757.x. PMID 19348651. S2CID 8846229.
^ ab Tapia, M.; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, JM (2018). "La identidad de los neurotransmisores y el fenotipo electrofisiológico están acoplados genéticamente en las neuronas dopaminérgicas del mesencéfalo". Sci. Rep . 8 (1): 13637. Bibcode :2018NatSR...813637T. doi :10.1038/s41598-018-31765-z. PMC 6134142 . PMID 30206240.
^ Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). "Una métrica de fusión de imágenes no referencial basada en información mutua de características de imagen". Computers & Electrical Engineering . 37 (5): 744–756. doi :10.1016/j.compeleceng.2011.07.012. S2CID 7738541.
^ "Métrica de información mutua de características (FMI) para fusión de imágenes no referenciales - Intercambio de archivos - MATLAB Central" www.mathworks.com . Consultado el 4 de abril de 2018 .
^ "InfoTopo: Análisis de datos de información topológica. Aprendizaje estadístico profundo supervisado y no supervisado - Intercambio de archivos - Github". github.com/pierrebaudot/infotopopy/ . Consultado el 26 de septiembre de 2020 .
^ Massey, James (1990). "Causalidad, retroalimentación e información dirigida". Proc. 1990 Intl. Symp. on Info. Th. and its Applications, Waikiki, Hawaii, 27-30 de noviembre de 1990. CiteSeerX 10.1.1.36.5688 .
^ Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (febrero de 2009). "Canales de estados finitos con retroalimentación determinista invariante en el tiempo". IEEE Transactions on Information Theory . 55 (2): 644–662. arXiv : cs/0608070 . doi :10.1109/TIT.2008.2009849. S2CID 13178.
^ Coombs, Dawes y Tversky 1970.
^ ab Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.3. Entropía condicional e información mutua". Recetas numéricas: el arte de la computación científica (3.ª ed.). Nueva York: Cambridge University Press. ISBN978-0-521-88068-8Archivado desde el original el 11-08-2011 . Consultado el 13-08-2011 .
^ White, Jim; Steingold, Sam; Fournelle, Connie. Métricas de rendimiento para algoritmos de detección de grupos (PDF) . Interface 2004. Archivado desde el original (PDF) el 2016-07-05 . Consultado el 2014-02-19 .
^ Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny (2017). "Relación de calidad de la información como una métrica novedosa para la selección de ondas madre". Quimiometría y Sistemas Inteligentes de Laboratorio . 160 : 59–71. doi :10.1016/j.chemolab.2016.11.012.
^ Strehl, Alexander; Ghosh, Joydeep (2003). "Conjuntos de clústeres: un marco de reutilización de conocimientos para combinar múltiples particiones" (PDF) . The Journal of Machine Learning Research . 3 : 583–617. doi :10.1162/153244303321897735.
^ Kvålseth, TO (1991). "La medida de información útil relativa: algunos comentarios". Ciencias de la Información . 56 (1): 35–38. doi :10.1016/0020-0255(91)90022-m.
^ Pocock, A. (2012). Selección de características mediante probabilidad conjunta (PDF) (Tesis).
^ ab Análisis de un lenguaje natural mediante estadísticas de información mutua por David M. Magerman y Mitchell P. Marcus
^ Teoría de la función de onda universal de Hugh Everett , Tesis, Universidad de Princeton, (1956, 1973), pp 1–140 (página 30)
^ Everett, Hugh (1957). "Relative State Formulation of Quantum Mechanics". Reseñas de Física Moderna . 29 (3): 454–462. Código Bibliográfico :1957RvMP...29..454E. doi :10.1103/revmodphys.29.454. Archivado desde el original el 27 de octubre de 2011 . Consultado el 16 de julio de 2012 .
^ Nicoletti, Giorgio; Busiello, Daniel Maria (22 de noviembre de 2021). "La información mutua desenreda las interacciones de entornos cambiantes". Physical Review Letters . 127 (22): 228301. arXiv : 2107.08985 . Código Bibliográfico :2021PhRvL.127v8301N. doi :10.1103/PhysRevLett.127.228301. PMID 34889638. S2CID 236087228.
^ Nicoletti, Giorgio; Busiello, Daniel Maria (29 de julio de 2022). "Información mutua en entornos cambiantes: interacciones no lineales, sistemas fuera de equilibrio y difusividades que varían continuamente". Physical Review E . 106 (1): 014153. arXiv : 2204.01644 . Bibcode :2022PhRvE.106a4153N. doi :10.1103/PhysRevE.106.014153. PMID 35974654.
^ Lee, Se Yoon (2021). "Inferencia variacional mediante el muestreador de Gibbs y el ascenso de coordenadas: una revisión de la teoría de conjuntos". Communications in Statistics - Theory and Methods . 51 (6): 1549–1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID 220935477.
^ Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (febrero de 2015). "Aplicación de métodos de información mutua en heliosismología de distancia temporal". Física solar . 290 (3): 659–671. arXiv : 1501.05597 . Código Bibliográfico :2015SoPh..290..659K. doi :10.1007/s11207-015-0650-y. S2CID 118472242.
^ Agrupamiento de información invariante para la segmentación y clasificación de imágenes no supervisadas por Xu Ji, Joao Henriques y Andrea Vedaldi
^ Nicoletti, Giorgio; Busiello, Daniel Maria (8 de abril de 2024). "Propagación de información en sistemas multicapa con interacciones de orden superior en distintas escalas de tiempo". Physical Review X . 14 (2): 021007. arXiv : 2312.06246 . Código Bibliográfico :2024PhRvX..14b1007N. doi :10.1103/PhysRevX.14.021007.
Referencias
Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). "Análisis de datos de información topológica". Entropía . 21 (9). 869. arXiv : 1907.04242 . Bibcode :2019Entrp..21..869B. doi : 10.3390/e21090869 . PMC 7515398 . S2CID 195848308.
Cilibrasi, R.; Vitányi, Paul (2005). "Agrupamiento por compresión" (PDF) . IEEE Transactions on Information Theory . 51 (4): 1523–1545. arXiv : cs/0312044 . doi :10.1109/TIT.2005.844059. S2CID 911.
Cronbach, LJ (1954). "Sobre la aplicación no racional de medidas de información en psicología". En Quastler, Henry (ed.). Teoría de la información en psicología: problemas y métodos . Glencoe, Illinois: Free Press. págs. 14–30.
Coombs, CH; Dawes, RM; Tversky, A. (1970). Psicología matemática: una introducción elemental . Englewood Cliffs, Nueva Jersey: Prentice-Hall.
Church, Kenneth Ward; Hanks, Patrick (1989). "Normas de asociación de palabras, información mutua y lexicografía". Actas de la 27.ª Reunión Anual de la Asociación de Lingüística Computacional . 16 (1): 76–83. doi : 10.3115/981623.981633 .
Gel'fand, IM; Yaglom, AM (1957). "Cálculo de la cantidad de información sobre una función aleatoria contenida en otra función de ese tipo". Traducciones de la American Mathematical Society . Serie 2. 12 : 199–246. doi :10.1090/trans2/012/09. ISBN .9780821817124.Traducción al inglés del original en Uspekhi Matematicheskikh Nauk 12 (1): 3-52.
Guiasu, Silviu (1977). Teoría de la información con aplicaciones . McGraw-Hill, Nueva York. ISBN 978-0-07-025109-0.
Li, Ming; Vitányi, Paul (febrero de 1997). Una introducción a la complejidad de Kolmogorov y sus aplicaciones . Nueva York: Springer-Verlag . ISBN 978-0-387-94868-3.
Lockhead, GR (1970). "Identificación y la forma del espacio de discriminación multidimensional". Revista de Psicología Experimental . 85 (1): 1–10. doi :10.1037/h0029508. PMID 5458322.
David JC MacKay. Teoría de la información, inferencia y algoritmos de aprendizaje. Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1 (disponible en línea de forma gratuita)
Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). "Una métrica de fusión de imágenes no referenciales basada en información mutua de características de imagen". Computers & Electrical Engineering . 37 (5): 744–756. doi :10.1016/j.compeleceng.2011.07.012. S2CID 7738541.
Athanasios Papoulis . Probabilidad, variables aleatorias y procesos estocásticos , segunda edición. Nueva York: McGraw-Hill, 1984. (Véase el capítulo 15.)
Witten, Ian H. y Frank, Eibe (2005). Minería de datos: herramientas y técnicas prácticas de aprendizaje automático. Morgan Kaufmann, Ámsterdam. ISBN 978-0-12-374856-0.
Peng, HC; Long, F. y Ding, C. (2005). "Selección de características basada en información mutua: criterios de máxima dependencia, máxima relevancia y mínima redundancia". IEEE Transactions on Pattern Analysis and Machine Intelligence . 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765 . doi :10.1109/tpami.2005.159. PMID 16119262. S2CID 206764015.
Andre S. Ribeiro; Stuart A. Kauffman; Jason Lloyd-Price; Bjorn Samuelsson y Joshua Socolar (2008). "Información mutua en modelos booleanos aleatorios de redes reguladoras". Physical Review E . 77 (1): 011901. arXiv : 0707.3642 . Bibcode :2008PhRvE..77a1901R. doi :10.1103/physreve.77.011901. PMID 18351870. S2CID 15232112.
Wells, WM III; Viola, P.; Atsumi, H.; Nakajima, S.; Kikinis, R. (1996). "Registro de volumen multimodal mediante la maximización de la información mutua" (PDF) . Análisis de imágenes médicas . 1 (1): 35–51. doi :10.1016/S1361-8415(01)80004-9. PMID 9873920. Archivado desde el original (PDF) el 2008-09-06 . Consultado el 2010-08-05 .
Pandey, Biswajit; Sarkar, Suman (2017). "¿Cuánto sabe una galaxia sobre su entorno a gran escala?: Una perspectiva de teoría de la información". Monthly Notices of the Royal Astronomical Society Letters . 467 (1): L6. arXiv : 1611.00283 . Bibcode :2017MNRAS.467L...6P. doi : 10.1093/mnrasl/slw250 . S2CID 119095496.
Janssen, Joseph; Guan, Vincent; Robeva, Elina (2023). "Importancia de características ultramarginales: aprendizaje a partir de datos con garantías causales". Conferencia internacional sobre inteligencia artificial y estadística : 10782–10814. arXiv : 2204.09938 .