Contenido de informacion

En teoría de la información , el contenido de la información , autoinformación , sorpresa o información de Shannon es una cantidad básica derivada de la probabilidad de que ocurra un evento particular a partir de una variable aleatoria . Puede considerarse como una forma alternativa de expresar la probabilidad, muy parecida a las probabilidades o las probabilidades logarítmicas , pero que tiene ventajas matemáticas particulares en el marco de la teoría de la información.

La información de Shannon puede interpretarse como una cuantificación del nivel de "sorpresa" de un resultado particular. Como es una cantidad tan básica, también aparece en varias otras configuraciones, como la longitud de un mensaje necesaria para transmitir el evento dada una codificación fuente óptima de la variable aleatoria.

La información de Shannon está estrechamente relacionada con la entropía , que es el valor esperado de la autoinformación de una variable aleatoria, cuantificando qué tan sorprendente es "en promedio" la variable aleatoria. Ésta es la cantidad promedio de autoinformación que un observador esperaría obtener sobre una variable aleatoria al medirla. ^[1]

El contenido de la información puede expresarse en diversas unidades de información , de las cuales la más común es el "bit" (más correctamente llamado shannon ), como se explica a continuación.

Definición

La definición de autoinformación de Claude Shannon fue elegida para cumplir con varios axiomas:

Un evento con probabilidad del 100% no es nada sorprendente y no proporciona información.
Cuanto menos probable es un suceso, más sorprendente resulta y más información aporta.
Si dos eventos independientes se miden por separado, la cantidad total de información es la suma de las autoinformaciones de los eventos individuales.

La derivación detallada se encuentra a continuación, pero se puede demostrar que existe una función de probabilidad única que cumple estos tres axiomas, hasta un factor de escala multiplicativo. En términos generales, dado un número real y un evento con probabilidad , el contenido de la información se define de la siguiente manera: $b>1$ $x$ $P$

\mathrm {I} (x):=-\log _{b}{\left[\Pr {\left(x\right)}\right]}=-\log _{b}{\left(P\right)}.

La base b corresponde al factor de escala anterior. Diferentes opciones de b corresponden a diferentes unidades de información: cuando b = 2 , la unidad es el shannon (símbolo Sh), a menudo llamado 'bit'; cuando b = e , la unidad es la unidad natural de información (símbolo nat); y cuando b = 10 , la unidad es el hartley (símbolo Hart).

Formalmente, dada una variable aleatoria discreta con función de masa de probabilidad , la autoinformación de la medición como resultado se define como ^[2] $X$ $p_{X}{\left(x\right)}$ $X$ $x$

\operatorname {I} _{X}(x):=-\log {\left[p_{X}{\left(x\right)}\right]}=\log {\left({\frac {1}{p_{X}{\left(x\right)}}}\right)}.

El uso de la notación anterior para la autoinformación no es universal. Dado que la notación también se usa a menudo para la cantidad relacionada de información mutua , muchos autores usan minúsculas para la autoentropía, reflejando el uso de la mayúscula para la entropía. $I_{X}(x)$ $I(X;Y)$ $h_{X}(x)$ $H(X)$

Propiedades

Función de probabilidad monótonamente decreciente

Para un espacio de probabilidad dado , la medición de eventos más raros es intuitivamente más "sorprendente" y produce más contenido de información que los valores más comunes. Por tanto, la autoinformación es una función monótona estrictamente decreciente de la probabilidad, o a veces llamada función "antitónica".

Mientras que las probabilidades estándar están representadas por números reales en el intervalo , las autoinformaciones están representadas por números reales extendidos en el intervalo . En particular, tenemos lo siguiente, para cualquier elección de base logarítmica: $[0,1]$ $[0,\infty ]$

Si un evento particular tiene una probabilidad del 100% de ocurrir, entonces su autoinformación es : su ocurrencia es "perfectamente no sorprendente" y no proporciona ninguna información. $-\log(1)=0$
Si un determinado suceso tiene una probabilidad del 0% de ocurrir, entonces su autoinformación es : su ocurrencia es "infinitamente sorprendente". $-\log(0)=\infty$

De esto podemos obtener algunas propiedades generales:

Intuitivamente, se obtiene más información al observar un evento inesperado: es "sorprendente".
- Por ejemplo, si hay una probabilidad entre un millón de que Alice gane la lotería , su amigo Bob obtendrá mucha más información al saber que ganó que si perdió en un día determinado. (Ver también Matemáticas de lotería ).
Esto establece una relación implícita entre la autoinformación de una variable aleatoria y su varianza .

Relación con las probabilidades logarítmicas

La información de Shannon está estrechamente relacionada con las probabilidades logarítmicas . En particular, dado algún evento , supongamos que esa es la probabilidad de que ocurra y esa es la probabilidad de que no ocurra. Entonces tenemos la siguiente definición de log-odds: $x$ $p(x)$ $x$ $p(\lnot x)=1-p(x)$ $x$

{\text{log-odds}}(x)=\log \left({\frac {p(x)}{p(\lnot x)}}\right)

Esto se puede expresar como una diferencia de dos informaciones de Shannon:

{\text{log-odds}}(x)=\mathrm {I} (\lnot x)-\mathrm {I} (x)

En otras palabras, las probabilidades logarítmicas pueden interpretarse como el nivel de sorpresa cuando el evento no ocurre, menos el nivel de sorpresa cuando el evento sí ocurre.

Aditividad de eventos independientes.

El contenido de información de dos eventos independientes es la suma del contenido de información de cada evento. Esta propiedad se conoce como aditividad en matemáticas y, en particular, aditividad sigma en teoría de la medida y la probabilidad. Considere dos variables aleatorias independientes con funciones de masa de probabilidad y respectivamente. La función de masa de probabilidad conjunta es ${\textstyle X,\,Y}$ $p_{X}(x)$ $p_{Y}(y)$

p_{X,Y}\!\left(x,y\right)=\Pr(X=x,\,Y=y)=p_{X}\!(x)\,p_{Y}\!(y)

porque y son independientes . El contenido informativo del resultado es ${\textstyle X}$ ${\textstyle Y}$ $(X,Y)=(x,y)$

{\begin{aligned}\operatorname {I} _{X,Y}(x,y)&=-\log _{2}\left[p_{X,Y}(x,y)\right]=-\log _{2}\left[p_{X}\!(x)p_{Y}\!(y)\right]\\[5pt]&=-\log _{2}\left[p_{X}{(x)}\right]-\log _{2}\left[p_{Y}{(y)}\right]\\[5pt]&=\operatorname {I} _{X}(x)+\operatorname {I} _{Y}(y)\end{aligned}}

el § Dos dados independientes distribuidos idénticamente

La propiedad correspondiente a las probabilidades es que la probabilidad logarítmica de eventos independientes es la suma de las probabilidades logarítmicas de cada evento. Al interpretar la probabilidad logarítmica como "apoyo" o sorpresa negativa (el grado en que un evento respalda un modelo determinado: un modelo está respaldado por un evento en la medida en que el evento no es sorprendente, dado el modelo), se afirma que los eventos independientes suman Soporte: la información que los dos eventos juntos proporcionan para la inferencia estadística es la suma de su información independiente.

Relación con la entropía

La entropía de Shannon de la variable aleatoria anterior se define como $X$

{\begin{alignedat}{2}\mathrm {H} (X)&=\sum _{x}{-p_{X}{\left(x\right)}\log {p_{X}{\left(x\right)}}}\\&=\sum _{x}{p_{X}{\left(x\right)}\operatorname {I} _{X}(x)}\\&{\overset {\underset {\mathrm {def} }{}}{=}}\ \operatorname {E} {\left[\operatorname {I} _{X}(X)\right]},\end{alignedat}}

esperado^[3]^{: 11}^[4]^{: 19–20}valores discretos soporte

X

A veces, la entropía misma se denomina "autoinformación" de la variable aleatoria, posiblemente porque la entropía satisface dónde está la información mutua consigo misma. ^[5] $\mathrm {H} (X)=\operatorname {I} (X;X)$ $\operatorname {I} (X;X)$ $X$

Para variables aleatorias continuas el concepto correspondiente es entropía diferencial .

Notas

A esta medida también se le ha llamado sorpresa , pues representa la " sorpresa " de ver el desenlace (un resultado altamente improbable es muy sorprendente). Este término (como medida de probabilidad logarítmica) fue acuñado por Myron Tribus en su libro de 1961 Thermostatics and Thermodynamics . ^[6]^[7]

Cuando el evento es una realización aleatoria (de una variable) la autoinformación de la variable se define como el valor esperado de la autoinformación de la realización.

La autoinformación es un ejemplo de una regla de puntuación adecuada . ^{[ se necesita aclaración ]}

Ejemplos

Lanzamiento de moneda justo

Consideremos la prueba de Bernoulli de lanzar una moneda al aire . Las probabilidades de que la moneda caiga como cara y cruz (ver moneda justa y anverso y reverso ) son la mitad cada una . Al medir la variable como cabezas, la ganancia de información asociada es $X$ ${\text{H}}$ ${\text{T}}$ ${\textstyle p_{X}{({\text{H}})}=p_{X}{({\text{T}})}={\tfrac {1}{2}}=0.5}$

\operatorname {I} _{X}({\text{H}})=-\log _{2}{p_{X}{({\text{H}})}}=-\log _{2}\!{\tfrac {1}{2}}=1,

shannon^[2]

T

\operatorname {I} _{X}(T)=-\log _{2}{p_{X}{({\text{T}})}}=-\log _{2}{\tfrac {1}{2}}=1{\text{ Sh}}.

Tirada de dado justa

Supongamos que tenemos un dado justo de seis caras . El valor de una tirada de dados es una variable aleatoria uniforme discreta con función de masa de probabilidad $X\sim \mathrm {DU} [1,6]$

p_{X}(k)={\begin{cases}{\frac {1}{6}},&k\in \{1,2,3,4,5,6\}\\0,&{\text{otherwise}}\end{cases}}

{\textstyle p_{X}(4)={\frac {1}{6}}}

\operatorname {I} _{X}(4)=-\log _{2}{p_{X}{(4)}}=-\log _{2}{\tfrac {1}{6}}\approx 2.585\;{\text{Sh}}

Dos dados independientes distribuidos de forma idéntica.

Supongamos que tenemos dos variables aleatorias independientes y distribuidas idénticamente, cada una de las cuales corresponde a una tirada de dados independiente y justa de 6 caras. La distribución conjunta de y es ${\textstyle X,\,Y\sim \mathrm {DU} [1,6]}$ $X$ $Y$

{\begin{aligned}p_{X,Y}\!\left(x,y\right)&{}=\Pr(X=x,\,Y=y)=p_{X}\!(x)\,p_{Y}\!(y)\\&{}={\begin{cases}\displaystyle {1 \over 36},\ &x,y\in [1,6]\cap \mathbb {N} \\0&{\text{otherwise.}}\end{cases}}\end{aligned}}

El contenido de información de la variable aleatoria es $(X,Y)=(2,\,4)$

{\begin{aligned}\operatorname {I} _{X,Y}{(2,4)}&=-\log _{2}\!{\left[p_{X,Y}{(2,4)}\right]}=\log _{2}\!{36}=2\log _{2}\!{6}\\&\approx 5.169925{\text{ Sh}},\end{aligned}}

{\begin{aligned}\operatorname {I} _{X,Y}{(2,4)}&=-\log _{2}\!{\left[p_{X,Y}{(2,4)}\right]}=-\log _{2}\!{\left[p_{X}(2)\right]}-\log _{2}\!{\left[p_{Y}(4)\right]}\\&=2\log _{2}\!{6}\\&\approx 5.169925{\text{ Sh}}.\end{aligned}}

Información de frecuencia de tiradas.

Si recibimos información sobre el valor de los dados sin saber qué dado tenía qué valor, podemos formalizar el enfoque con las llamadas variables de conteo.

C_{k}:=\delta _{k}(X)+\delta _{k}(Y)={\begin{cases}0,&\neg \,(X=k\vee Y=k)\\1,&\quad X=k\,\veebar \,Y=k\\2,&\quad X=k\,\wedge \,Y=k\end{cases}}

distribución multinomial

k\in \{1,2,3,4,5,6\}

{\textstyle \sum _{k=1}^{6}{C_{k}}=2}

{\begin{aligned}f(c_{1},\ldots ,c_{6})&{}=\Pr(C_{1}=c_{1}{\text{ and }}\dots {\text{ and }}C_{6}=c_{6})\\&{}={\begin{cases}{\displaystyle {1 \over {18}}{1 \over c_{1}!\cdots c_{k}!}},\ &{\text{when }}\sum _{i=1}^{6}c_{i}=2\\0&{\text{otherwise,}}\end{cases}}\\&{}={\begin{cases}{1 \over 18},\ &{\text{when 2 }}c_{k}{\text{ are }}1\\{1 \over 36},\ &{\text{when exactly one }}c_{k}=2\\0,\ &{\text{otherwise.}}\end{cases}}\end{aligned}}

Para verificar esto, los 6 resultados corresponden al evento y a una probabilidad total de ${\textstyle (X,Y)\in \left\{(k,k)\right\}_{k=1}^{6}=\left\{(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)\right\}}$ $C_{k}=2$ 1/6. Estos son los únicos eventos que se conservan fielmente con la identidad de qué dados se lanzaron y qué resultado porque los resultados son los mismos. Sin conocimientos para distinguir los dados que tiran los demás números, las otras combinaciones corresponden a que un dado tire un número y el otro dado un número diferente, teniendo cada uno probabilidad ${\textstyle {\binom {6}{2}}=15}$ 1/18. De hecho, según sea necesario. ${\textstyle 6\cdot {\tfrac {1}{36}}+15\cdot {\tfrac {1}{18}}=1}$

Como era de esperar, el contenido informativo de saber que ambos dados se lanzaron con el mismo número en particular es mayor que el contenido informativo de saber que un dado era un número y el otro era un número diferente. Tomemos como ejemplos los eventos y para . Por ejemplo, y . $A_{k}=\{(X,Y)=(k,k)\}$ $B_{j,k}=\{c_{j}=1\}\cap \{c_{k}=1\}$ $j\neq k,1\leq j,k\leq 6$ $A_{2}=\{X=2{\text{ and }}Y=2\}$ $B_{3,4}=\{(3,4),(4,3)\}$

Los contenidos de la información son

\operatorname {I} (A_{2})=-\log _{2}\!{\tfrac {1}{36}}=5.169925{\text{ Sh}}

\operatorname {I} \left(B_{3,4}\right)=-\log _{2}\!{\tfrac {1}{18}}=4.169925{\text{ Sh}}

Sea el evento de que ambos dados arrojaron el mismo valor y el evento de que los dados difieran. Entonces y . Los contenidos informativos de los eventos son ${\textstyle {\text{Same}}=\bigcup _{i=1}^{6}{A_{i}}}$ ${\text{Diff}}={\overline {\text{Same}}}$ ${\textstyle \Pr({\text{Same}})={\tfrac {1}{6}}}$ ${\textstyle \Pr({\text{Diff}})={\tfrac {5}{6}}}$

\operatorname {I} ({\text{Same}})=-\log _{2}\!{\tfrac {1}{6}}=2.5849625{\text{ Sh}}

\operatorname {I} ({\text{Diff}})=-\log _{2}\!{\tfrac {5}{6}}=0.2630344{\text{ Sh}}.

Información de la suma del dado.

La masa de probabilidad o función de densidad (colectivamente medida de probabilidad ) de la suma de dos variables aleatorias independientes es la convolución de cada medida de probabilidad . En el caso de tiradas de dados de 6 caras justas e independientes, la variable aleatoria tiene una función de masa de probabilidad , donde representa la convolución discreta . El resultado tiene probabilidad . Por lo tanto, la información afirmada es $Z=X+Y$ ${\textstyle p_{Z}(z)=p_{X}(x)*p_{Y}(y)={6-|z-7| \over 36}}$ $*$ $Z=5$ ${\textstyle p_{Z}(5)={\frac {4}{36}}={1 \over 9}}$

\operatorname {I} _{Z}(5)=-\log _{2}{\tfrac {1}{9}}=\log _{2}{9}\approx 3.169925{\text{ Sh}}.

Distribución uniforme discreta general.

Generalizando el ejemplo anterior de tirada justa de dados, considere una variable aleatoria uniforme discreta general (DURV). Por conveniencia, defina . La función de masa de probabilidad es $X\sim \mathrm {DU} [a,b];\quad a,b\in \mathbb {Z} ,\ b\geq a.$ ${\textstyle N:=b-a+1}$

p_{X}(k)={\begin{cases}{\frac {1}{N}},&k\in [a,b]\cap \mathbb {Z} \\0,&{\text{otherwise}}.\end{cases}}

números enteros equiprobables^[2]

X=k

\operatorname {I} _{X}(k)=-\log _{2}{\frac {1}{N}}=\log _{2}{N}{\text{ Sh}}.

Caso especial: variable aleatoria constante

Si es anterior, degenera a una variable aleatoria constante con distribución de probabilidad dada de manera determinista por y medida de probabilidad la medida de Dirac . El único valor que se puede tomar es determinista , por lo que el contenido de información de cualquier medición de es $b=a$ $X$ $X=b$ ${\textstyle p_{X}(k)=\delta _{b}(k)}$ $X$ $b$ $X$

\operatorname {I} _{X}(b)=-\log _{2}{1}=0.

^[2]

Distribución categórica

Generalizando todos los casos anteriores, considere una variable aleatoria discreta categórica con soporte y función de masa de probabilidad dada por ${\textstyle {\mathcal {S}}={\bigl \{}s_{i}{\bigr \}}_{i=1}^{N}}$

p_{X}(k)={\begin{cases}p_{i},&k=s_{i}\in {\mathcal {S}}\\0,&{\text{otherwise}}.\end{cases}}

A los efectos de la teoría de la información, los valores no tienen por qué ser números ; pueden ser cualquier evento mutuamente excluyente en un espacio de medida de medida finita que haya sido normalizado a una medida de probabilidad . Sin pérdida de generalidad , podemos asumir que la distribución categórica se sustenta en el conjunto ; la estructura matemática es isomórfica en términos de teoría de la probabilidad y, por tanto, también de teoría de la información . $s\in {\mathcal {S}}$ $p$ ${\textstyle [N]=\left\{1,2,\dots ,N\right\}}$

La información del resultado se da. $X=x$

\operatorname {I} _{X}(x)=-\log _{2}{p_{X}(x)}.

A partir de estos ejemplos, es posible calcular la información de cualquier conjunto de DRV independientes con distribuciones conocidas por aditividad .

Derivación

Por definición, la información se transfiere de una entidad de origen que posee la información a una entidad receptora sólo cuando el receptor no conocía la información a priori . Si la entidad receptora hubiera conocido previamente con certeza el contenido de un mensaje antes de recibirlo, la cantidad de información del mensaje recibido es cero. Sólo cuando el conocimiento previo del contenido del mensaje por parte del receptor es menos del 100% seguro, el mensaje realmente transmite información.

Por ejemplo, citando a un personaje (el Hippy Dippy Weatherman) del comediante George Carlin , " Pronóstico del tiempo para esta noche: oscuro. Continuará oscuro durante la noche, con luz muy dispersa por la mañana " . ^[8] Suponiendo que uno no resida cerca de las regiones polares , la cantidad de información transmitida en ese pronóstico es cero porque se sabe, antes de recibir el pronóstico, que la oscuridad siempre viene con la noche.

En consecuencia, la cantidad de autoinformación contenida en un mensaje que transmite contenido que informa sobre la ocurrencia de un evento , depende sólo de la probabilidad de ese evento. $\omega _{n}$

\operatorname {I} (\omega _{n})=f(\operatorname {P} (\omega _{n}))

f(\cdot )

\operatorname {P} (\omega _{n})=1

\operatorname {I} (\omega _{n})=0

\operatorname {P} (\omega _{n})<1

\operatorname {I} (\omega _{n})>0

Además, por definición, la medida de la autoinformación no es negativa y es aditiva. Si un mensaje que informa de un evento es la intersección de dos eventos independientes y , entonces la información del evento que ocurre es la del mensaje compuesto de ambos eventos independientes y que ocurren. Se esperaría que la cantidad de información de un mensaje compuesto fuera igual a la suma de las cantidades de información de los mensajes componentes individuales y respectivamente: $C$ $A$ $B$ $C$ $A$ $B$ $C$ $A$ $B$

\operatorname {I} (C)=\operatorname {I} (A\cap B)=\operatorname {I} (A)+\operatorname {I} (B).

Debido a la independencia de los eventos y , la probabilidad del evento es $A$ $B$ $C$

\operatorname {P} (C)=\operatorname {P} (A\cap B)=\operatorname {P} (A)\cdot \operatorname {P} (B).

Sin embargo, la aplicación de la función da como resultado $f(\cdot )$

{\begin{aligned}\operatorname {I} (C)&=\operatorname {I} (A)+\operatorname {I} (B)\\f(\operatorname {P} (C))&=f(\operatorname {P} (A))+f(\operatorname {P} (B))\\&=f{\big (}\operatorname {P} (A)\cdot \operatorname {P} (B){\big )}\\\end{aligned}}

Gracias al trabajo en la ecuación funcional de Cauchy , las únicas funciones monótonas que tienen la propiedad tal que $f(\cdot )$

f(x\cdot y)=f(x)+f(y)

logarítmicas

\log _{b}(x)

f(x)=K\log(x)

¿Dónde está el logaritmo natural ? Dado que las probabilidades de los eventos siempre están entre 0 y 1 y la información asociada con estos eventos no debe ser negativa, eso requiere que . $\log$ $K<0$

Teniendo en cuenta estas propiedades, la autoinformación asociada al resultado con probabilidad se define como: $\operatorname {I} (\omega _{n})$ $\omega _{n}$ $\operatorname {P} (\omega _{n})$

\operatorname {I} (\omega _{n})=-\log(\operatorname {P} (\omega _{n}))=\log \left({\frac {1}{\operatorname {P} (\omega _{n})}}\right)

Cuanto menor sea la probabilidad de que ocurra un evento , mayor será la cantidad de autoinformación asociada con el mensaje de que el evento efectivamente ocurrió. Si el logaritmo anterior es base 2, la unidad es shannon . Esta es la práctica más común. Cuando se utiliza el logaritmo natural de base , la unidad será el nat . Para el logaritmo de base 10, la unidad de información es el hartley . $\omega _{n}$ $I(\omega _{n})$ $e$

Como ilustración rápida, el contenido de información asociado con un resultado de 4 caras (o cualquier resultado específico) en 4 lanzamientos consecutivos de una moneda sería 4 shannons (probabilidad 1/16), y el contenido de información asociado con obtener un resultado distinto de el especificado sería ~0,09 shannons (probabilidad 15/16). Consulte arriba para ver ejemplos detallados.

Ver también

Referencias

^ Jones, DS, Teoría de la información elemental , vol., Clarendon Press, Oxford págs. 11-15 1979
^ abcd McMahon, David M. (2008). Explicación de la computación cuántica . Hoboken, Nueva Jersey: Wiley-Interscience. ISBN 9780470181386. OCLC 608622533.
^ Borda, Mónica (2011). Fundamentos en teoría y codificación de la información. Saltador. ISBN 978-3-642-20346-6.
^ Han, Te Sun; Kobayashi, Kingo (2002). Matemáticas de la Información y Codificación. Sociedad Matemática Estadounidense. ISBN 978-0-8218-4256-0.
^ Portada de Thomas M., Joy A. Thomas; Elementos de Teoría de la Información; pag. 20; 1991.
^ RB Bernstein y RD Levine (1972) "Entropía y cambio químico. I. Caracterización de las distribuciones de energía del producto (y reactivo) en colisiones moleculares reactivas: deficiencia de información y entropía", The Journal of Chemical Physics 57 , enlace 434–449.
^ Myron Tribus (1961) Termodinámica y termostática: una introducción a la energía, la información y los estados de la materia, con aplicaciones de ingeniería (D. Van Nostrand, 24 West 40 Street, Nueva York 18, Nueva York, EE. UU.) Tribus, Myron (1961) , págs. 64–66 prestado.
^ "Una cita de George Carlin". www.goodreads.com . Consultado el 1 de abril de 2021 .

Otras lecturas

CE Shannon , Una teoría matemática de la comunicación , Bell Systems Technical Journal , vol. 27, págs. 379–423, (Parte I), 1948.

enlaces externos

Ejemplos de medidas sorpresa
Entrada "sorpresa" en un glosario de teoría de la información molecular
Teoría bayesiana de la sorpresa