Información mutua

Diagrama de Venn que muestra relaciones aditivas y sustractivas de varias medidas de información asociadas con variables correlacionadas y . ^[1] El área contenida por cualquiera de los círculos es la entropía conjunta . El círculo de la izquierda (rojo y violeta) es la entropía individual , siendo el rojo la entropía condicional . El círculo de la derecha (azul y violeta) es , siendo el azul . El violeta es la información mutua . $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X)$ $\mathrm {H} (X\mid Y)$ $\mathrm {H} (Y)$ $\mathrm {H} (Y\mid X)$ $\operatorname {I} (X;Y)$

En teoría de la probabilidad y teoría de la información , la información mutua ( IM ) de dos variables aleatorias es una medida de la dependencia mutua entre las dos variables. Más concretamente, cuantifica la " cantidad de información " (en unidades como shannons ( bits ), nats o hartleys ) obtenida sobre una variable aleatoria al observar la otra variable aleatoria. El concepto de información mutua está íntimamente ligado al de entropía de una variable aleatoria, una noción fundamental en la teoría de la información que cuantifica la "cantidad de información" esperada contenida en una variable aleatoria.

Sin limitarse a variables aleatorias de valor real y dependencia lineal como el coeficiente de correlación , MI es más general y determina qué tan diferente es la distribución conjunta del par del producto de las distribuciones marginales de y . MI es el valor esperado de la información mutua puntual (PMI). $(X,Y)$ $X$ $Y$

La cantidad fue definida y analizada por Claude Shannon en su histórico artículo " Una teoría matemática de la comunicación ", aunque no la llamó "información mutua". Este término fue acuñado posteriormente por Robert Fano . ^[2] La información mutua también se conoce como ganancia de información .

Definición

Sean un par de variables aleatorias con valores sobre el espacio . Si su distribución conjunta es y las distribuciones marginales son y , la información mutua se define como $(X,Y)$ ${\mathcal {X}}\times {\mathcal {Y}}$ $P_{(X,Y)}$ $P_{X}$ $P_{Y}$

$I(X;Y)=D_{\mathrm {KL} }(P_{(X,Y)}\|P_{X}\otimes P_{Y})$

donde es la divergencia de Kullback-Leibler y es la distribución del producto externo que asigna probabilidad a cada uno . $D_{\mathrm {KL} }$ $P_{X}\otimes P_{Y}$ $P_{X}(x)\cdot P_{Y}(y)$ $(x,y)$

Observe que, según la propiedad de la divergencia de Kullback-Leibler , eso es igual a cero precisamente cuando la distribución conjunta coincide con el producto de los marginales, es decir, cuando y son independientes (y por lo tanto, observar no dice nada sobre ). no es negativo, es una medida del precio de codificar como un par de variables aleatorias independientes cuando en realidad no lo son. $I(X;Y)$ $X$ $Y$ $Y$ $X$ $I(X;Y)$ $(X,Y)$

Si se utiliza el logaritmo natural , la unidad de información mutua es el nat . Si se utiliza el log base 2, la unidad de información mutua es el shannon , también conocido como bit. Si se utiliza el log base 10, la unidad de información mutua es el hartley , también conocido como ban o dit.

En términos de PMF para distribuciones discretas

La información mutua de dos variables aleatorias discretas conjuntamente se calcula como una suma doble: ^[3]^{: 20} $X$ $Y$

donde es la función de masa de probabilidad conjunta de y , y y son las funciones de masa de probabilidad marginal de y respectivamente. $P_{(X,Y)}$ $X$ $Y$ $P_{X}$ $P_{Y}$ $X$ $Y$

En términos de PDF para distribuciones continuas

En el caso de variables aleatorias conjuntamente continuas, la doble suma se reemplaza por una doble integral : ^[3]^{: 251}

donde ahora es la función de densidad de probabilidad conjunta de y , y y son las funciones de densidad de probabilidad marginal de y respectivamente. $P_{(X,Y)}$ $X$ $Y$ $P_{X}$ $P_{Y}$ $X$ $Y$

Motivación

Intuitivamente, la información mutua mide la información que comparten : mide en qué medida conocer una de estas variables reduce la incertidumbre sobre la otra. Por ejemplo, si y son independientes, entonces conocer no proporciona ninguna información sobre y viceversa, por lo que su información mutua es cero. En el otro extremo, si es una función determinista de y es una función determinista de entonces toda la información transmitida por se comparte con : el conocimiento determina el valor de y viceversa. Como resultado, la información mutua es la misma que la incertidumbre contenida en (o ), es decir, la entropía de (o ). Un caso muy especial de esto es cuando y son la misma variable aleatoria. $X$ $Y$ $X$ $Y$ $X$ $Y$ $X$ $Y$ $Y$ $X$ $X$ $Y$ $X$ $Y$ $Y$ $X$ $Y$ $X$ $X$ $Y$

La información mutua es una medida de la dependencia inherente expresada en la distribución conjunta y relativa a la distribución marginal de y bajo el supuesto de independencia. Por tanto, la información mutua mide la dependencia en el siguiente sentido: si y sólo si y son variables aleatorias independientes. Esto es fácil de ver en una dirección: si y son independientes, entonces y por lo tanto: $X$ $Y$ $X$ $Y$ $\operatorname {I} (X;Y)=0$ $X$ $Y$ $X$ $Y$ $p_{(X,Y)}(x,y)=p_{X}(x)\cdot p_{Y}(y)$

\log {\left({\frac {p_{(X,Y)}(x,y)}{p_{X}(x)\,p_{Y}(y)}}\right)}=\log 1=0.

Además, la información mutua no es negativa (es decir, ver más abajo) y simétrica (es decir, ver más abajo). $\operatorname {I} (X;Y)\geq 0$ $\operatorname {I} (X;Y)=\operatorname {I} (Y;X)$

Propiedades

No negatividad

Usando la desigualdad de Jensen en la definición de información mutua podemos demostrar que no es negativa, es decir ^[3]^{: 28} $\operatorname {I} (X;Y)$

\operatorname {I} (X;Y)\geq 0

Simetría

\operatorname {I} (X;Y)=\operatorname {I} (Y;X)

La prueba se da considerando la relación con la entropía, como se muestra a continuación.

Supermodularidad bajo independencia.

Si es independiente de , entonces $C$ $(A,B)$

\operatorname {I} (Y;A,B,C)-\operatorname {I} (Y;A,B)\geq \operatorname {I} (Y;A,C)-\operatorname {I} (Y;A)

. ^[4]

Relación con la entropía condicional y conjunta

La información mutua se puede expresar de manera equivalente como:

{\begin{aligned}\operatorname {I} (X;Y)&{}\equiv \mathrm {H} (X)-\mathrm {H} (X\mid Y)\\&{}\equiv \mathrm {H} (Y)-\mathrm {H} (Y\mid X)\\&{}\equiv \mathrm {H} (X)+\mathrm {H} (Y)-\mathrm {H} (X,Y)\\&{}\equiv \mathrm {H} (X,Y)-\mathrm {H} (X\mid Y)-\mathrm {H} (Y\mid X)\end{aligned}}

donde y son las entropías marginales , y son las entropías condicionales , y es la entropía conjunta de y . $\mathrm {H} (X)$ $\mathrm {H} (Y)$ $\mathrm {H} (X\mid Y)$ $\mathrm {H} (Y\mid X)$ $\mathrm {H} (X,Y)$ $X$ $Y$

Observe la analogía con la unión, diferencia e intersección de dos conjuntos: a este respecto, todas las fórmulas dadas anteriormente son evidentes en el diagrama de Venn informado al principio del artículo.

En términos de un canal de comunicación en el que la salida es una versión ruidosa de la entrada , estas relaciones se resumen en la figura: $Y$ $X$

Las relaciones entre cantidades teóricas de la información.

Porque no es negativo, en consecuencia, . Aquí damos la deducción detallada de para el caso de variables aleatorias discretas conjuntamente: $\operatorname {I} (X;Y)$ $\mathrm {H} (X)\geq \mathrm {H} (X\mid Y)$ $\operatorname {I} (X;Y)=\mathrm {H} (Y)-\mathrm {H} (Y\mid X)$

{\begin{aligned}\operatorname {I} (X;Y)&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log {\frac {p_{(X,Y)}(x,y)}{p_{X}(x)p_{Y}(y)}}\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log {\frac {p_{(X,Y)}(x,y)}{p_{X}(x)}}-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log p_{Y}(y)\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{X}(x)p_{Y\mid X=x}(y)\log p_{Y\mid X=x}(y)-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log p_{Y}(y)\\&{}=\sum _{x\in {\mathcal {X}}}p_{X}(x)\left(\sum _{y\in {\mathcal {Y}}}p_{Y\mid X=x}(y)\log p_{Y\mid X=x}(y)\right)-\sum _{y\in {\mathcal {Y}}}\left(\sum _{x\in {\mathcal {X}}}p_{(X,Y)}(x,y)\right)\log p_{Y}(y)\\&{}=-\sum _{x\in {\mathcal {X}}}p_{X}(x)\mathrm {H} (Y\mid X=x)-\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\log p_{Y}(y)\\&{}=-\mathrm {H} (Y\mid X)+\mathrm {H} (Y)\\&{}=\mathrm {H} (Y)-\mathrm {H} (Y\mid X).\\\end{aligned}}

Las pruebas de las otras identidades anteriores son similares. La prueba del caso general (no sólo discreto) es similar, con integrales reemplazando a las sumas.

Intuitivamente, si la entropía se considera una medida de la incertidumbre acerca de una variable aleatoria, entonces es una medida de lo que no dice acerca de . Esta es "la cantidad de incertidumbre que queda después de que se conoce" y, por lo tanto, el lado derecho de la segunda de estas igualdades puede leerse como "la cantidad de incertidumbre en , menos la cantidad de incertidumbre que queda después de que se conoce", que Equivale a "la cantidad de incertidumbre en la que se elimina al saber ". Esto corrobora el significado intuitivo de información mutua como la cantidad de información (es decir, reducción de la incertidumbre) que el conocimiento de una variable proporciona sobre la otra. $\mathrm {H} (Y)$ $\mathrm {H} (Y\mid X)$ $X$ $Y$ $Y$ $X$ $Y$ $Y$ $X$ $Y$ $X$

Tenga en cuenta que en el caso discreto y por lo tanto . Por lo tanto , se puede formular el principio básico de que una variable contiene al menos tanta información sobre sí misma como cualquier otra variable puede proporcionar. $\mathrm {H} (Y\mid Y)=0$ $\mathrm {H} (Y)=\operatorname {I} (Y;Y)$ $\operatorname {I} (Y;Y)\geq \operatorname {I} (X;Y)$

Relación con la divergencia Kullback-Leibler

Para pares conjuntamente discretos o conjuntamente continuos , la información mutua es la divergencia de Kullback-Leibler del producto de las distribuciones marginales , de la distribución conjunta , es decir, $(X,Y)$ $p_{X}\cdot p_{Y}$ $p_{(X,Y)}$

$\operatorname {I} (X;Y)=D_{\text{KL}}\left(p_{(X,Y)}\parallel p_{X}p_{Y}\right)$

Además, sea la función de masa o densidad condicional. Entonces tenemos la identidad $p_{(X,Y)}(x,y)=p_{X\mid Y=y}(x)*p_{Y}(y)$

$\operatorname {I} (X;Y)=\mathbb {E} _{Y}\left[D_{\text{KL}}\!\left(p_{X\mid Y}\parallel p_{X}\right)\right]$

La prueba para variables aleatorias discretas conjuntas es la siguiente:

{\begin{aligned}\operatorname {I} (X;Y)&=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p_{(X,Y)}(x,y)\log \left({\frac {p_{(X,Y)}(x,y)}{p_{X}(x)\,p_{Y}(y)}}\right)}\\&=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X\mid Y=y}(x)p_{Y}(y)\log {\frac {p_{X\mid Y=y}(x)p_{Y}(y)}{p_{X}(x)p_{Y}(y)}}\\&=\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\sum _{x\in {\mathcal {X}}}p_{X\mid Y=y}(x)\log {\frac {p_{X\mid Y=y}(x)}{p_{X}(x)}}\\&=\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\;D_{\text{KL}}\!\left(p_{X\mid Y=y}\parallel p_{X}\right)\\&=\mathbb {E} _{Y}\left[D_{\text{KL}}\!\left(p_{X\mid Y}\parallel p_{X}\right)\right].\end{aligned}}

De manera similar, esta identidad se puede establecer para variables aleatorias conjuntas continuas.

Tenga en cuenta que aquí la divergencia de Kullback-Leibler implica la integración solo de los valores de la variable aleatoria , y la expresión aún denota una variable aleatoria porque es aleatoria. Por lo tanto, la información mutua también puede entenderse como la expectativa de la divergencia de Kullback-Leibler entre la distribución univariada de y la distribución condicional de dada : cuanto más diferentes sean las distribuciones y en promedio, mayor será la ganancia de información . $X$ $D_{\text{KL}}(p_{X\mid Y}\parallel p_{X})$ $Y$ $p_{X}$ $X$ $p_{X\mid Y}$ $X$ $Y$ $p_{X\mid Y}$ $p_{X}$

Estimación bayesiana de información mutua.

Si se dispone de muestras de una distribución conjunta, se puede utilizar un enfoque bayesiano para estimar la información mutua de esa distribución. El primer trabajo en hacer esto, que también mostró cómo realizar una estimación bayesiana de muchas otras propiedades teóricas de la información además de la información mutua, fue. ^[5] Investigadores posteriores han vuelto a derivar ^[6] y ampliado ^[7] este análisis. Véase ^[8] para un artículo reciente basado en un estudio previo específicamente diseñado para la estimación de información mutua per se. Además, recientemente se propuso en . ^[9] $Y$

Supuestos de independencia

La formulación de divergencia de Kullback-Leibler de la información mutua se basa en que uno está interesado en comparar con el producto exterior completamente factorizado . En muchos problemas, como la factorización matricial no negativa , uno está interesado en factorizaciones menos extremas; específicamente, se desea comparar con una aproximación matricial de rango bajo en alguna variable desconocida ; es decir, hasta qué punto uno podría tener $p(x,y)$ $p(x)\cdot p(y)$ $p(x,y)$ $w$

p(x,y)\approx \sum _{w}p^{\prime }(x,w)p^{\prime \prime }(w,y)

Alternativamente, uno podría estar interesado en saber cuánta información adicional se transfiere a su factorización. En tal caso, el exceso de información que la distribución completa transporta sobre la factorización matricial viene dado por la divergencia de Kullback-Leibler. $p(x,y)$ $p(x,y)$

\operatorname {I} _{LRMA}=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p(x,y)\log {\left({\frac {p(x,y)}{\sum _{w}p^{\prime }(x,w)p^{\prime \prime }(w,y)}}\right)}},

La definición convencional de información mutua se recupera en el caso extremo de que el proceso tenga un solo valor para . $W$ $w$

Variaciones

Se han propuesto varias variaciones de la información mutua para satisfacer diversas necesidades. Entre ellas se encuentran variantes normalizadas y generalizaciones a más de dos variables.

Métrico

Muchas aplicaciones requieren de una métrica , es decir, una medida de distancia entre pares de puntos. La cantidad

{\begin{aligned}d(X,Y)&=\mathrm {H} (X,Y)-\operatorname {I} (X;Y)\\&=\mathrm {H} (X)+\mathrm {H} (Y)-2\operatorname {I} (X;Y)\\&=\mathrm {H} (X\mid Y)+\mathrm {H} (Y\mid X)\\&=2\mathrm {H} (X,Y)-\mathrm {H} (X)-\mathrm {H} (Y)\end{aligned}}

satisface las propiedades de una métrica ( desigualdad triangular , no negatividad , indiscernibilidad y simetría), donde se entiende por igualdad que puede determinarse completamente a partir de . ^[10] $X=Y$ $X$ $Y$

Esta métrica de distancia también se conoce como variación de información .

Si son variables aleatorias discretas, entonces todos los términos de entropía no son negativos, por lo que se puede definir una distancia normalizada. $X,Y$ $0\leq d(X,Y)\leq \mathrm {H} (X,Y)$

D(X,Y)={\frac {d(X,Y)}{\mathrm {H} (X,Y)}}\leq 1.

La métrica es una métrica universal, en el sentido de que si cualquier otra medida de distancia se ubica cerca , entonces también la juzgará cerca. ^[11]^[^dudoso^–^discutir^] $D$ $X$ $Y$ $D$

Introducir las definiciones muestra que

D(X,Y)=1-{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}.

Esto se conoce como Distancia Rajski. ^[12] En una interpretación de la información basada en la teoría de conjuntos (consulte la figura de Entropía condicional ), esta es efectivamente la distancia de Jaccard entre y . $X$ $Y$

Finalmente,

D^{\prime }(X,Y)=1-{\frac {\operatorname {I} (X;Y)}{\max \left\{\mathrm {H} (X),\mathrm {H} (Y)\right\}}}

también es una métrica.

Información mutua condicional

En ocasiones resulta útil expresar la información mutua de dos variables aleatorias condicionadas a una tercera.

$\operatorname {I} (X;Y|Z)=\mathbb {E} _{Z}[D_{\mathrm {KL} }(P_{(X,Y)|Z}\|P_{X|Z}\otimes P_{Y|Z})]$

Para variables aleatorias discretas conjuntas , esto toma la forma

\operatorname {I} (X;Y|Z)=\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p_{Z}(z)\,p_{X,Y|Z}(x,y|z)\log \left[{\frac {p_{X,Y|Z}(x,y|z)}{p_{X|Z}\,(x|z)p_{Y|Z}(y|z)}}\right]},

que se puede simplificar como

\operatorname {I} (X;Y|Z)=\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{X,Y,Z}(x,y,z)p_{Z}(z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}.

Para variables aleatorias conjuntas continuas, esto toma la forma

\operatorname {I} (X;Y|Z)=\int _{\mathcal {Z}}\int _{\mathcal {Y}}\int _{\mathcal {X}}{p_{Z}(z)\,p_{X,Y|Z}(x,y|z)\log \left[{\frac {p_{X,Y|Z}(x,y|z)}{p_{X|Z}\,(x|z)p_{Y|Z}(y|z)}}\right]}dxdydz,

que se puede simplificar como

\operatorname {I} (X;Y|Z)=\int _{\mathcal {Z}}\int _{\mathcal {Y}}\int _{\mathcal {X}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{X,Y,Z}(x,y,z)p_{Z}(z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}dxdydz.

El condicionamiento sobre una tercera variable aleatoria puede aumentar o disminuir la información mutua, pero siempre es cierto que

\operatorname {I} (X;Y|Z)\geq 0

para variables aleatorias discretas distribuidas conjuntamente . Este resultado se ha utilizado como elemento básico para demostrar otras desigualdades en la teoría de la información . $X,Y,Z$

Información de interacción

Se han propuesto varias generalizaciones de información mutua a más de dos variables aleatorias, como la correlación total (o información múltiple) y la correlación total dual . La expresión y el estudio de información mutua multivariada de alto grado se logró en dos trabajos aparentemente independientes: McGill (1954) ^[13] , que llamó a estas funciones "información de interacción", y Hu Kuo Ting (1962). ^[14] La información de interacción se define para una variable de la siguiente manera:

\operatorname {I} (X_{1})=\mathrm {H} (X_{1})

y para $n>1,$

\operatorname {I} (X_{1};\,...\,;X_{n})=\operatorname {I} (X_{1};\,...\,;X_{n-1})-\operatorname {I} (X_{1};\,...\,;X_{n-1}\mid X_{n}).

Algunos autores invierten el orden de los términos del lado derecho de la ecuación anterior, lo que cambia de signo cuando el número de variables aleatorias es impar. (Y en este caso, la expresión de una sola variable se convierte en el negativo de la entropía). Tenga en cuenta que

I(X_{1};\ldots ;X_{n-1}\mid X_{n})=\mathbb {E} _{X_{n}}[D_{\mathrm {KL} }(P_{(X_{1},\ldots ,X_{n-1})\mid X_{n}}\|P_{X_{1}\mid X_{n}}\otimes \cdots \otimes P_{X_{n-1}\mid X_{n}})].

Independencia estadística multivariada

Las funciones multivariadas de información mutua generalizan el caso de independencia por pares que establece que si y sólo si , a una variable numerosa arbitraria. n variables son mutuamente independientes si y sólo si las funciones de información mutua desaparecen con (teorema 2 ^[15] ). En este sentido, puede utilizarse como un criterio refinado de independencia estadística. $X_{1},X_{2}$ $I(X_{1};X_{2})=0$ $2^{n}-n-1$ $I(X_{1};\ldots ;X_{k})=0$ $n\geq k\geq 2$ $I(X_{1};\ldots ;X_{k})=0$

Aplicaciones

Para 3 variables, Brenner et al. aplicó información mutua multivariada a la codificación neuronal y llamó a su negatividad "sinergia" ^[16] y Watkinson et al. lo aplicó a la expresión genética. ^[17] Para k variables arbitrarias, Tapia et al. información mutua multivariada aplicada a la expresión genética. ^[18]^[15] Puede ser cero, positivo o negativo. ^[14] La positividad corresponde a relaciones que generalizan las correlaciones por pares, la nulidad corresponde a una noción refinada de independencia y la negatividad detecta relaciones "emergentes" de alta dimensión y puntos de datos agrupados ^[18] ).

Un esquema de generalización de alta dimensión que maximiza la información mutua entre la distribución conjunta y otras variables objetivo resulta útil en la selección de características . ^[19]

La información mutua también se utiliza en el área del procesamiento de señales como medida de similitud entre dos señales. Por ejemplo, la métrica FMI ^[20] es una medida del rendimiento de la fusión de imágenes que utiliza información mutua para medir la cantidad de información que contiene la imagen fusionada sobre las imágenes de origen. El código Matlab para esta métrica se puede encontrar en. ^[21] Está disponible un paquete de Python para calcular toda la información mutua multivariada, información mutua condicional, entropías conjuntas, correlaciones totales y distancia de información en un conjunto de datos de n variables. ^[22]

Información dirigida

La información dirigida , mide la cantidad de información que fluye del proceso hacia , donde denota el vector y denota . El término información dirigida fue acuñado por James Massey y se define como $\operatorname {I} \left(X^{n}\to Y^{n}\right)$ $X^{n}$ $Y^{n}$ $X^{n}$ $X_{1},X_{2},...,X_{n}$ $Y^{n}$ $Y_{1},Y_{2},...,Y_{n}$

\operatorname {I} \left(X^{n}\to Y^{n}\right)=\sum _{i=1}^{n}\operatorname {I} \left(X^{i};Y_{i}\mid Y^{i-1}\right)

Tenga en cuenta que si , la información dirigida se convierte en información mutua. La información dirigida tiene muchas aplicaciones en problemas donde la causalidad juega un papel importante, como la capacidad del canal con retroalimentación. ^[23]^[24] $n=1$

Variantes normalizadas

Las variantes normalizadas de la información mutua son proporcionadas por los coeficientes de restricción , ^[25], coeficiente de incertidumbre ^[26] o competencia: ^[27]

C_{XY}={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (Y)}}~~~~{\mbox{and}}~~~~C_{YX}={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)}}.

Los dos coeficientes tienen un valor comprendido entre [0, 1], pero no son necesariamente iguales. Esta medida no es simétrica. Si uno desea una medida simétrica, puede considerar la siguiente medida de redundancia :

R={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)+\mathrm {H} (Y)}}

que alcanza un mínimo de cero cuando las variables son independientes y un valor máximo de

R_{\max }={\frac {\min \left\{\mathrm {H} (X),\mathrm {H} (Y)\right\}}{\mathrm {H} (X)+\mathrm {H} (Y)}}

cuando una variable se vuelve completamente redundante con el conocimiento de la otra. Véase también Redundancia (teoría de la información) .

Otra medida simétrica es la incertidumbre simétrica (Witten y Frank 2005), dada por

U(X,Y)=2R=2{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)+\mathrm {H} (Y)}}

que representa la media armónica de los dos coeficientes de incertidumbre . ^[26] $C_{XY},C_{YX}$

Si consideramos la información mutua como un caso especial de correlación total o correlación total dual , las versiones normalizadas son respectivamente,

{\frac {\operatorname {I} (X;Y)}{\min \left[\mathrm {H} (X),\mathrm {H} (Y)\right]}}

{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}\;.

Esta versión normalizada también conocida como Índice de Calidad de la Información (IQR) que cuantifica la cantidad de información de una variable en función de otra variable frente a una incertidumbre total: ^[28]

IQR(X,Y)=\operatorname {E} [\operatorname {I} (X;Y)]={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}={\frac {\sum _{x\in X}\sum _{y\in Y}p(x,y)\log {p(x)p(y)}}{\sum _{x\in X}\sum _{y\in Y}p(x,y)\log {p(x,y)}}}-1

Hay una normalización ^[29] que se deriva del primer pensamiento de la información mutua como análoga a la covarianza (por lo tanto, la entropía de Shannon es análoga a la varianza ). Luego, la información mutua normalizada se calcula de manera similar al coeficiente de correlación de Pearson ,

{\frac {\operatorname {I} (X;Y)}{\sqrt {\mathrm {H} (X)\mathrm {H} (Y)}}}\;.

Variantes ponderadas

En la formulación tradicional de la información mutua,

\operatorname {I} (X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},

cada evento u objeto especificado por está ponderado por la probabilidad correspondiente . Esto supone que todos los objetos o eventos son equivalentes independientemente de su probabilidad de ocurrencia. Sin embargo, en algunas aplicaciones puede darse el caso de que ciertos objetos o eventos sean más significativos que otros, o que ciertos patrones de asociación sean semánticamente más importantes que otros. $(x,y)$ $p(x,y)$

Por ejemplo, el mapeo determinista puede considerarse más fuerte que el mapeo determinista , aunque estas relaciones producirían la misma información mutua. Esto se debe a que la información mutua no es en absoluto sensible a ningún orden inherente en los valores de las variables (Cronbach 1954, Coombs, Dawes y Tversky 1970, Lockhead 1970) y, por lo tanto, no es en absoluto sensible a la forma del mapeo relacional entre los valores de las variables. variables asociadas. Si se desea que la primera relación (que muestra concordancia en todos los valores de las variables) se considere más fuerte que la relación posterior, entonces es posible utilizar la siguiente información mutua ponderada (Guiasu 1977). $\{(1,1),(2,2),(3,3)\}$ $\{(1,3),(2,1),(3,2)\}$

\operatorname {I} (X;Y)=\sum _{y\in Y}\sum _{x\in X}w(x,y)p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},

lo que asigna un peso a la probabilidad de que cada valor de variable coincida . Esto permite que ciertas probabilidades puedan tener más o menos importancia que otras, permitiendo así la cuantificación de factores holísticos o de Prägnanz relevantes. En el ejemplo anterior, usar pesos relativos mayores para , y tendría el efecto de evaluar una mayor capacidad de información para la relación que para la relación , lo que puede ser deseable en algunos casos de reconocimiento de patrones y similares. Esta información mutua ponderada es una forma de KL-Divergencia ponderada, que se sabe que toma valores negativos para algunas entradas, ^[30] y hay ejemplos en los que la información mutua ponderada también toma valores negativos. ^[31] $w(x,y)$ $p(x,y)$ $w(1,1)$ $w(2,2)$ $w(3,3)$ $\{(1,1),(2,2),(3,3)\}$ $\{(1,3),(2,1),(3,2)\}$

Información mutua ajustada

Una distribución de probabilidad puede verse como una partición de un conjunto . Cabe entonces preguntarse: si un conjunto se dividiera aleatoriamente, ¿cuál sería la distribución de probabilidades? ¿Cuál sería el valor esperado de la información mutua? La información mutua ajustada o AMI resta el valor esperado del IM, de modo que el AMI es cero cuando dos distribuciones diferentes son aleatorias y uno cuando dos distribuciones son idénticas. El AMI se define de forma análoga al índice Rand ajustado de dos particiones diferentes de un conjunto.

Información mutua absoluta

Usando las ideas de complejidad de Kolmogorov , se puede considerar la información mutua de dos secuencias independientes de cualquier distribución de probabilidad:

\operatorname {I} _{K}(X;Y)=K(X)-K(X\mid Y).

Para establecer que esta cantidad es simétrica hasta un factor logarítmico ( ) se requiere la regla de la cadena para la complejidad de Kolmogorov (Li & Vitányi 1997). Las aproximaciones de esta cantidad mediante compresión se pueden utilizar para definir una medida de distancia para realizar una agrupación jerárquica de secuencias sin tener ningún conocimiento de dominio de las secuencias (Cilibrasi y Vitányi 2005). $\operatorname {I} _{K}(X;Y)\approx \operatorname {I} _{K}(Y;X)$

Correlación lineal

A diferencia de los coeficientes de correlación, como el coeficiente de correlación del momento del producto , la información mutua contiene información sobre toda la dependencia (lineal y no lineal) y no solo la dependencia lineal como mide el coeficiente de correlación. Sin embargo, en el caso concreto de que la distribución conjunta de y sea una distribución normal bivariada (lo que implica en particular que ambas distribuciones marginales están distribuidas normalmente), existe una relación exacta entre y el coeficiente de correlación (Gel'fand y Yaglom 1957). $X$ $Y$ $\operatorname {I}$ $\rho$

\operatorname {I} =-{\frac {1}{2}}\log \left(1-\rho ^{2}\right)

La ecuación anterior se puede derivar de la siguiente manera para un gaussiano bivariado:

{\begin{aligned}{\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}&\sim {\mathcal {N}}\left({\begin{pmatrix}\mu _{1}\\\mu _{2}\end{pmatrix}},\Sigma \right),\qquad \Sigma ={\begin{pmatrix}\sigma _{1}^{2}&\rho \sigma _{1}\sigma _{2}\\\rho \sigma _{1}\sigma _{2}&\sigma _{2}^{2}\end{pmatrix}}\\\mathrm {H} (X_{i})&={\frac {1}{2}}\log \left(2\pi e\sigma _{i}^{2}\right)={\frac {1}{2}}+{\frac {1}{2}}\log(2\pi )+\log \left(\sigma _{i}\right),\quad i\in \{1,2\}\\\mathrm {H} (X_{1},X_{2})&={\frac {1}{2}}\log \left[(2\pi e)^{2}|\Sigma |\right]=1+\log(2\pi )+\log \left(\sigma _{1}\sigma _{2}\right)+{\frac {1}{2}}\log \left(1-\rho ^{2}\right)\\\end{aligned}}

Por lo tanto,

\operatorname {I} \left(X_{1};X_{2}\right)=\mathrm {H} \left(X_{1}\right)+\mathrm {H} \left(X_{2}\right)-\mathrm {H} \left(X_{1},X_{2}\right)=-{\frac {1}{2}}\log \left(1-\rho ^{2}\right)

Para datos discretos

Cuando y están limitados a estar en un número discreto de estados, los datos de observación se resumen en una tabla de contingencia , con una variable de fila (o ) y una variable de columna (o ). La información mutua es una de las medidas de asociación o correlación entre las variables de fila y columna. $X$ $Y$ $X$ $i$ $Y$ $j$

Otras medidas de asociación incluyen las estadísticas de la prueba de chi-cuadrado de Pearson , las estadísticas de la prueba G , etc. De hecho, con la misma base logarítmica, la información mutua será igual a la estadística de probabilidad logarítmica de la prueba G dividida por , donde está el tamaño de la muestra. . $2N$ $N$

Aplicaciones

En muchas aplicaciones, se desea maximizar la información mutua (aumentando así las dependencias), lo que a menudo equivale a minimizar la entropía condicional . Ejemplos incluyen:

En la tecnología de los motores de búsqueda , la información mutua entre frases y contextos se utiliza como una característica para la agrupación de k-medias para descubrir grupos semánticos (conceptos). ^[32] Por ejemplo, la información mutua de un bigrama podría calcularse como:

$MI(x,y)=\log {\frac {P_{X,Y}(x,y)}{P_{X}(x)P_{Y}(y)}}\approx \log {\frac {\frac {f_{XY}}{B}}{{\frac {f_{X}}{U}}{\frac {f_{Y}}{U}}}}$

donde es el número de veces que aparece el bigrama xy en el corpus, es el número de veces que aparece el unigrama x en el corpus, B es el número total de bigramas y U es el número total de unigramas. ^[32]

f_{XY}

f_{X}

En telecomunicaciones , la capacidad del canal es igual a la información mutua, maximizada en todas las distribuciones de entrada.
Se han propuesto procedimientos de entrenamiento discriminativo para modelos ocultos de Markov basados en el criterio de máxima información mutua (MMI).
"Predicción de la estructura secundaria del ARN a partir de un alineamiento de secuencias múltiples" .
"Predicción de perfiles filogenéticos a partir de la presencia por pares y la desaparición de genes funcionalmente vinculados" .
La información mutua se ha utilizado como criterio para la selección de funciones y las transformaciones de funciones en el aprendizaje automático . Se puede utilizar para caracterizar tanto la relevancia como la redundancia de variables, como la selección de características de redundancia mínima .
La información mutua se utiliza para determinar la similitud de dos agrupaciones diferentes de un conjunto de datos. Como tal, ofrece algunas ventajas sobre el índice Rand tradicional .
La información mutua de palabras se utiliza a menudo como función de significación para el cálculo de colocaciones en lingüística de corpus . Esto tiene la complejidad añadida de que ninguna instancia de palabra es una instancia de dos palabras diferentes; más bien, se cuentan los casos en los que dos palabras aparecen adyacentes o muy próximas; Esto complica ligeramente el cálculo, ya que la probabilidad esperada de que una palabra aparezca dentro de las palabras de otra aumenta con $N$ $N$
La información mutua se utiliza en imágenes médicas para el registro de imágenes . Dada una imagen de referencia (por ejemplo, un escáner cerebral) y una segunda imagen que debe colocarse en el mismo sistema de coordenadas que la imagen de referencia, esta imagen se deforma hasta que se maximiza la información mutua entre ella y la imagen de referencia.
Detección de sincronización de fases en análisis de series temporales .
En el método infomax para redes neuronales y otros aprendizajes automáticos, incluido el algoritmo de análisis de componentes independientes basado en infomax.
La información mutua promedio en el teorema de incrustación de retardo se utiliza para determinar el parámetro de retardo de incrustación .
El algoritmo ARACNE utiliza la información mutua entre genes en datos de microarrays de expresión para la reconstrucción de redes de genes .
En mecánica estadística , la paradoja de Loschmidt puede expresarse en términos de información mutua. ^[33]^[34] Loschmidt señaló que debe ser imposible determinar una ley física que carece de simetría de inversión del tiempo (por ejemplo, la segunda ley de la termodinámica ) sólo a partir de leyes físicas que tienen esta simetría. Señaló que el teorema H de Boltzmann suponía que las velocidades de las partículas en un gas no estaban correlacionadas permanentemente, lo que eliminaba la simetría temporal inherente al teorema H. Se puede demostrar que si un sistema se describe mediante una densidad de probabilidad en el espacio de fases , entonces el teorema de Liouville implica que la información conjunta (negativa de la entropía conjunta) de la distribución permanece constante en el tiempo. La información conjunta es igual a la información mutua más la suma de toda la información marginal (negativa de las entropías marginales) para cada coordenada de partícula. La suposición de Boltzmann equivale a ignorar la información mutua en el cálculo de la entropía, lo que produce la entropía termodinámica (dividida por la constante de Boltzmann).
En procesos estocásticos acoplados a entornos cambiantes, la información mutua se puede utilizar para desenredar las dependencias ambientales internas y efectivas. ^[35]^[36] Esto es particularmente útil cuando un sistema físico sufre cambios en los parámetros que describen su dinámica, por ejemplo, cambios de temperatura.
La información mutua se utiliza para aprender la estructura de las redes bayesianas / redes bayesianas dinámicas , lo que se cree que explica la relación causal entre variables aleatorias, como lo ejemplifica el kit de herramientas GlobalMIT: ^[37] aprender la red bayesiana dinámica globalmente óptima con la información mutua Criterio de prueba.
La información mutua se utiliza para cuantificar la información transmitida durante el procedimiento de actualización en el algoritmo de muestreo de Gibbs . ^[38]
Función de costos popular en el aprendizaje de árboles de decisión .
La información mutua se utiliza en cosmología para probar la influencia de entornos a gran escala en las propiedades de las galaxias en el Galaxy Zoo .
La información mutua se utilizó en Física Solar para derivar el perfil de rotación diferencial solar , un mapa de desviación del tiempo de viaje para las manchas solares y un diagrama tiempo-distancia a partir de mediciones del Sol en calma ^[39].
Se utiliza en agrupaciones de información invariantes para entrenar automáticamente clasificadores de redes neuronales y segmentadores de imágenes sin datos etiquetados. ^[40]
En sistemas dinámicos estocásticos con múltiples escalas de tiempo , se ha demostrado que la información mutua captura los acoplamientos funcionales entre diferentes escalas temporales. ^[41] Es importante destacar que se demostró que las interacciones físicas pueden dar lugar o no a información mutua, dependiendo de la escala de tiempo típica de su dinámica.

Ver también

Notas

^ Portada, Thomas M.; Thomas, alegría A. (2005). Elementos de la teoría de la información (PDF) . John Wiley & Sons, Ltd. págs. 13–55. ISBN 9780471748823.
^ Kreer, JG (1957). "Una cuestión de terminología". Transacciones IRE sobre teoría de la información . 3 (3): 208. doi :10.1109/TIT.1957.1057418.
^ Portada abc, TM; Thomas, JA (1991). Elementos de la teoría de la información (Wiley ed.). John Wiley e hijos. ISBN 978-0-471-24195-9.
^ Janssen, José; Guan, Vicente; Robeva, Elina (2023). "Importancia de las características ultramarginales: aprender de los datos con garantías causales". Conferencia internacional sobre inteligencia artificial y estadística : 10782–10814. arXiv : 2204.09938 .
^ Wolpert, DH; Lobo, DR (1995). "Estimación de funciones de distribuciones de probabilidad a partir de un conjunto finito de muestras". Revisión física E. 52 (6): 6841–6854. Código bibliográfico : 1995PhRvE..52.6841W. CiteSeerX 10.1.1.55.7122 . doi : 10.1103/PhysRevE.52.6841. PMID 9964199. S2CID 9795679.
^ Hutter, M. (2001). "Distribución de Información Mutua". Avances en los sistemas de procesamiento de información neuronal .
^ Arquero, E.; Park, IM; Almohada, J. (2013). "Estimadores bayesianos y cuasi-bayesianos para información mutua a partir de datos discretos". Entropía . 15 (12): 1738-1755. Código Bib : 2013Entrp..15.1738A. CiteSeerX 10.1.1.294.4690 . doi : 10.3390/e15051738 .
^ Wolpert, DH; DeDeo, S. (2013). "Estimación de funciones de distribuciones definidas en espacios de tamaño desconocido". Entropía . 15 (12): 4668–4699. arXiv : 1311.4548 . Código Bib : 2013Entrp..15.4668W. doi : 10.3390/e15114668 . S2CID 2737117.
^ Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Slawomir Blonski; Michal Komorowski (2019), "Análisis teórico de la información de respuestas de señalización unicelulares multivariadas", PLOS Computational Biology , 15 (7): e1007132, arXiv : 1808.05581 , Bibcode : 2019PLSCB..15E7132J, doi : 10.1371/journal.pcbi. 1007132 , PMC 6655862 , PMID 31299056
^ Rajski, C. (1961). "Un espacio métrico de distribuciones de probabilidad discretas". Información y Control . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
^ Kraskov, Alejandro; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). "Agrupación jerárquica basada en información mutua". arXiv : q-bio/0311039 . Código Bib : 2003q.bio....11039K. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Rajski, C. (1961). "Un espacio métrico de distribuciones de probabilidad discretas". Información y Control . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
^ McGill, W. (1954). "Transmisión de información multivariante". Psicometrika . 19 (1): 97-116. doi :10.1007/BF02289159. S2CID 126431489.
^ ab Hu, KT (1962). "Sobre la cantidad de información". Teoría probable. Aplica . 7 (4): 439–447. doi :10.1137/1107041.
^ ab Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). "Análisis de datos de información topológica". Entropía . 21 (9). 869. arXiv : 1907.04242 . Código Bib : 2019Entrp..21..869B. doi : 10.3390/e21090869 . PMC 7515398 . S2CID 195848308.
^ Brenner, N.; Fuerte, S.; Koberle, R.; Bialek, W. (2000). "Sinergia en un código neuronal". Computación neuronal . 12 (7): 1531-1552. doi :10.1162/089976600300015259. PMID 10935917. S2CID 600528.
^ Watkinson, J.; Liang, K.; Wang, X.; Zheng, T.; Anastassiou, D. (2009). "Inferencia de interacciones de genes reguladores a partir de datos de expresión utilizando información mutua de tres vías". Desafío. Sistema. Biol. Ana. Académico de Nueva York. Ciencia . 1158 (1): 302–313. Código Bib : 2009NYASA1158..302W. doi :10.1111/j.1749-6632.2008.03757.x. PMID 19348651. S2CID 8846229.
^ ab Tapia, M.; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, JM (2018). "La identidad de los neurotransmisores y el fenotipo electrofisiológico están acoplados genéticamente en las neuronas dopaminérgicas del mesencéfalo". Ciencia. Representante . 8 (1): 13637. Código bibliográfico : 2018NatSR...813637T. doi :10.1038/s41598-018-31765-z. PMC 6134142 . PMID 30206240.
^ Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008). Introducción a la recuperación de información . Prensa de la Universidad de Cambridge . ISBN 978-0-521-86571-5.
^ Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). "Una métrica de fusión de imágenes sin referencia basada en información mutua de las características de la imagen". Computación e ingeniería eléctrica . 37 (5): 744–756. doi : 10.1016/j.compeleceng.2011.07.012. S2CID 7738541.
^ "Métrica de información mutua de características (FMI) para la fusión de imágenes sin referencia - Intercambio de archivos - MATLAB Central". www.mathworks.com . Consultado el 4 de abril de 2018 .
^ "InfoTopo: Análisis de datos de información topológica. Aprendizaje estadístico profundo supervisado y no supervisado - Intercambio de archivos - Github". github.com/pierrebaudot/infotopopy/ . Consultado el 26 de septiembre de 2020 .
^ Massey, James (1990). "Causalidad, retroalimentación e información dirigida". Proc. 1990 Internacional Síntoma. en Información. Th. y sus aplicaciones, Waikiki, Hawaii, 27-30 de noviembre de 1990 . CiteSeerX 10.1.1.36.5688 .
^ Permutador, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (febrero de 2009). "Canales de estado finito con retroalimentación determinista invariante en el tiempo". Transacciones IEEE sobre teoría de la información . 55 (2): 644–662. arXiv : cs/0608070 . doi :10.1109/TIT.2008.2009849. S2CID 13178.
^ Coombs, Dawes y Tversky 1970.
^ ab Prensa, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.3. Entropía condicional e información mutua". Recetas numéricas: el arte de la informática científica (3ª ed.). Nueva York: Cambridge University Press. ISBN 978-0-521-88068-8. Archivado desde el original el 11 de agosto de 2011 . Consultado el 13 de agosto de 2011 .
^ Blanco, Jim; Steingold, Sam; Fournelle, Connie. Métricas de rendimiento para algoritmos de detección de grupos (PDF) . Interfaz 2004. Archivado desde el original (PDF) el 5 de julio de 2016 . Consultado el 19 de febrero de 2014 .
^ Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny (2017). "Relación de calidad de la información como una métrica novedosa para la selección de ondas madre". Quimiometría y Sistemas Inteligentes de Laboratorio . 160 : 59–71. doi :10.1016/j.chemolab.2016.11.012.
^ Strehl, Alejandro; Ghosh, Joydeep (2003). "Conjuntos de clústeres: un marco de reutilización de conocimientos para combinar varias particiones" (PDF) . La revista de investigación sobre aprendizaje automático . 3 : 583–617. doi :10.1162/153244303321897735.
^ Kvålseth, TO (1991). "La medida de información relativa útil: algunos comentarios". Ciencias de la Información . 56 (1): 35–38. doi :10.1016/0020-0255(91)90022-m.
^ Pocock, A. (2012). Selección de funciones mediante probabilidad conjunta (PDF) (Tesis).
^ ab Análisis de un lenguaje natural utilizando estadísticas de información mutua por David M. Magerman y Mitchell P. Marcus
^ Teoría de la función de onda universal de Hugh Everett , Tesis, Universidad de Princeton, (1956, 1973), págs. 1-140 (página 30)
^ Everett, Hugh (1957). "Formulación del estado relativo de la mecánica cuántica". Reseñas de Física Moderna . 29 (3): 454–462. Código bibliográfico : 1957RvMP...29..454E. doi :10.1103/revmodphys.29.454. Archivado desde el original el 27 de octubre de 2011 . Consultado el 16 de julio de 2012 .
^ Nicoletti, Giorgio; Busiello, Daniel María (22/11/2021). "La información mutua separa las interacciones de los entornos cambiantes". Cartas de revisión física . 127 (22): 228301. arXiv : 2107.08985 . Código Bib : 2021PhRvL.127v8301N. doi : 10.1103/PhysRevLett.127.228301. PMID 34889638. S2CID 236087228.
^ Nicoletti, Giorgio; Busiello, Daniel María (29 de julio de 2022). "Información mutua en entornos cambiantes: interacciones no lineales, sistemas fuera de equilibrio y difusividades que varían continuamente". Revisión física E. 106 (1): 014153. arXiv : 2204.01644 . Código bibliográfico : 2022PhRvE.106a4153N. doi : 10.1103/PhysRevE.106.014153. PMID 35974654.
^ GlobalMIT en Google Code
^ Lee, Se Yoon (2021). "Muestreador de Gibbs e inferencia variacional de ascenso de coordenadas: una revisión de la teoría de conjuntos". Comunicaciones en Estadística - Teoría y Métodos . 51 (6): 1549-1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID 220935477.
^ Llaves, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (febrero de 2015). "Aplicación de métodos de información mutua en heliosismología tiempo-distancia". Física Solar . 290 (3): 659–671. arXiv : 1501.05597 . Código bibliográfico : 2015SoPh..290..659K. doi :10.1007/s11207-015-0650-y. S2CID 118472242.
^ Agrupación de información invariante para clasificación y segmentación de imágenes no supervisadas por Xu Ji, Joao Henriques y Andrea Vedaldi
^ Nicoletti, Giorgio; Busiello, Daniel María (8 de abril de 2024). "Propagación de información en sistemas multicapa con interacciones de orden superior en escalas de tiempo". Revisión física X. 14 (2): 021007. arXiv : 2312.06246 . Código Bib : 2024PhRvX..14b1007N. doi : 10.1103/PhysRevX.14.021007.

Referencias

Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). "Análisis de datos de información topológica". Entropía . 21 (9). 869. arXiv : 1907.04242 . Código Bib : 2019Entrp..21..869B. doi : 10.3390/e21090869 . PMC 7515398 . S2CID 195848308.
Cilibrasi, R.; Vitányi, Paul (2005). "Agrupación por compresión" (PDF) . Transacciones IEEE sobre teoría de la información . 51 (4): 1523-1545. arXiv : cs/0312044 . doi :10.1109/TIT.2005.844059. S2CID 911.
Cronbach, LJ (1954). "Sobre la aplicación no racional de medidas de información en psicología". En Quastler, Henry (ed.). Teoría de la información en psicología: problemas y métodos . Glencoe, Illinois: Prensa libre. págs. 14-30.
Coombs, CH; Dawes, RM; Tversky, A. (1970). Psicología matemática: una introducción elemental . Acantilados de Englewood, Nueva Jersey: Prentice-Hall.
Iglesia, Kenneth Ward; Hanks, Patricio (1989). "Normas de asociación de palabras, información mutua y lexicografía". Actas de la 27ª Reunión Anual de la Asociación de Lingüística Computacional . 16 (1): 76–83. doi : 10.3115/981623.981633 .
Gel'fand, IM; Yaglom, AM (1957). "Cálculo de la cantidad de información sobre una función aleatoria contenida en otra función similar". Traducciones de la Sociedad Estadounidense de Matemáticas . Serie 2. 12 : 199–246. doi :10.1090/trans2/012/09. ISBN 9780821817124.Traducción al inglés del original en Uspekhi Matematicheskikh Nauk 12 (1): 3-52.
Guiasu, Silviu (1977). Teoría de la información con aplicaciones . McGraw-Hill, Nueva York. ISBN 978-0-07-025109-0.
Li, Ming; Vitányi, Paul (febrero de 1997). Una introducción a la complejidad de Kolmogorov y sus aplicaciones . Nueva York: Springer-Verlag . ISBN 978-0-387-94868-3.
Lockhead, GR (1970). "Identificación y forma del espacio de discriminación multidimensional". Revista de Psicología Experimental . 85 (1): 1–10. doi :10.1037/h0029508. PMID 5458322.
David JC MacKay. Teoría de la información, inferencia y algoritmos de aprendizaje Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1 (disponible gratis en línea)
Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). "Una métrica de fusión de imágenes sin referencia basada en información mutua de las características de la imagen". Computación e ingeniería eléctrica . 37 (5): 744–756. doi : 10.1016/j.compeleceng.2011.07.012. S2CID 7738541.
Atanasio Papoulis . Probabilidad, variables aleatorias y procesos estocásticos , segunda edición. Nueva York: McGraw-Hill, 1984. (Véase el Capítulo 15).
Witten, Ian H. y Frank, Eibe (2005). Minería de datos: herramientas y técnicas prácticas de aprendizaje automático. Morgan Kaufmann, Ámsterdam. ISBN 978-0-12-374856-0.
Peng, HC; Largo, F. y Ding, C. (2005). "Selección de funciones basada en información mutua: criterios de máxima dependencia, máxima relevancia y mínima redundancia". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 27 (8): 1226-1238. CiteSeerX 10.1.1.63.5765 . doi :10.1109/tpami.2005.159. PMID 16119262. S2CID 206764015.
André S. Ribeiro; Stuart A. Kauffman; Jason Lloyd-Price; Björn Samuelsson y Joshua Socolar (2008). "Información mutua en modelos booleanos aleatorios de redes regulatorias". Revisión física E. 77 (1): 011901. arXiv : 0707.3642 . Código bibliográfico : 2008PhRvE..77a1901R. doi :10.1103/physreve.77.011901. PMID 18351870. S2CID 15232112.
Wells, WM III; Viola, P.; Atsumi, H.; Nakajima, S.; Kikinis, R. (1996). "Registro de volúmenes multimodal mediante maximización de información mutua" (PDF) . Análisis de Imágenes Médicas . 1 (1): 35–51. doi :10.1016/S1361-8415(01)80004-9. PMID 9873920. Archivado desde el original (PDF) el 6 de septiembre de 2008 . Consultado el 5 de agosto de 2010 .
Pandey, Biswajit; Sarkar, Suman (2017). "¿Cuánto sabe una galaxia sobre su entorno a gran escala?: Una perspectiva teórica de la información". Avisos mensuales de cartas de la Royal Astronomical Society . 467 (1): L6. arXiv : 1611.00283 . Código Bib : 2017MNRAS.467L...6P. doi : 10.1093/mnrasl/slw250 . S2CID 119095496.

Janssen, José; Guan, Vicente; Robeva, Elina (2023). "Importancia de las características ultramarginales: aprender de los datos con garantías causales". Conferencia internacional sobre inteligencia artificial y estadística : 10782–10814. arXiv : 2204.09938 .