Cantidad básica derivada de la probabilidad de que ocurra un evento particular a partir de una variable aleatoria
En teoría de la información , el contenido de información , autoinformación , sorpresa o información de Shannon es una cantidad básica derivada de la probabilidad de que ocurra un evento particular a partir de una variable aleatoria . Puede considerarse como una forma alternativa de expresar la probabilidad, muy similar a las probabilidades o al logaritmo de las probabilidades , pero que tiene ventajas matemáticas particulares en el contexto de la teoría de la información.
La información de Shannon puede interpretarse como una cuantificación del nivel de "sorpresa" de un resultado particular. Como es una cantidad tan básica, también aparece en otros contextos, como la longitud de un mensaje necesario para transmitir el evento dada una codificación de fuente óptima de la variable aleatoria.
La información de Shannon está estrechamente relacionada con la entropía , que es el valor esperado de la autoinformación de una variable aleatoria, cuantificando cuán sorprendente es la variable aleatoria "en promedio". Esta es la cantidad promedio de autoinformación que un observador esperaría obtener sobre una variable aleatoria al medirla. [1]
El contenido de la información se puede expresar en varias unidades de información , de las cuales la más común es el "bit" (más formalmente llamado shannon ), como se explica a continuación.
El término "perplejidad" se ha utilizado en el modelado del lenguaje para cuantificar la incertidumbre inherente a un conjunto de eventos prospectivos.
Definición
La definición de autoinformación de Claude Shannon fue elegida para cumplir con varios axiomas:
- Un evento con una probabilidad del 100% no es en absoluto sorprendente y no aporta ninguna información.
- Cuanto menos probable sea un acontecimiento, más sorprendente será y más información aportará.
- Si se miden por separado dos eventos independientes, la cantidad total de información es la suma de la autoinformación de los eventos individuales.
La derivación detallada se encuentra a continuación, pero se puede demostrar que existe una función única de probabilidad que cumple con estos tres axiomas, hasta un factor de escala multiplicativo. En términos generales, dado un número real y un evento con probabilidad , el contenido de información se define de la siguiente manera:
La base b corresponde al factor de escala anterior. Diferentes opciones de b corresponden a diferentes unidades de información: cuando b = 2 , la unidad es el shannon (símbolo Sh), a menudo llamado "bit"; cuando b = e , la unidad es la unidad natural de información (símbolo nat); y cuando b = 10 , la unidad es el hartley (símbolo Hart).
Formalmente, dada una variable aleatoria discreta con función de masa de probabilidad , la autoinformación de la medición como resultado se define como [2]
El uso de la notación para la autoinformación mencionada anteriormente no es universal. Dado que la notación también se utiliza a menudo para la cantidad relacionada de información mutua , muchos autores utilizan una minúscula para la autoentropía, lo que refleja el uso de la mayúscula para la entropía.
Propiedades
Función de probabilidad monótonamente decreciente
Para un espacio de probabilidad dado , la medición de eventos más raros es intuitivamente más "sorprendente" y ofrece más contenido informativo que los valores más comunes. Por lo tanto, la autoinformación es una función monótona estrictamente decreciente de la probabilidad, o a veces llamada una función "antitónica".
Mientras que las probabilidades estándar se representan mediante números reales en el intervalo , las autoinformaciones se representan mediante números reales extendidos en el intervalo . En particular, tenemos lo siguiente, para cualquier elección de base logarítmica:
- Si un evento particular tiene un 100% de probabilidad de ocurrir, entonces su autoinformación es : su ocurrencia es "perfectamente no sorprendente" y no produce ninguna información.
- Si un evento particular tiene una probabilidad del 0% de ocurrir, entonces su autoinformación es : su ocurrencia es "infinitamente sorprendente".
De esto podemos obtener algunas propiedades generales:
- Intuitivamente, se obtiene más información al observar un acontecimiento inesperado: es "sorprendente".
- Por ejemplo, si hay una probabilidad de una en un millón de que Alicia gane la lotería , su amigo Bob obtendrá mucha más información al saber que ella ganó que al saber que perdió en un día determinado. (Véase también Matemáticas de la lotería ).
- Esto establece una relación implícita entre la autoinformación de una variable aleatoria y su varianza .
Relación con las probabilidades logarítmicas
La información de Shannon está estrechamente relacionada con el logaritmo de las probabilidades . En particular, dado un evento , supongamos que es la probabilidad de ocurrencia y que es la probabilidad de no ocurrencia. Entonces tenemos la siguiente definición del logaritmo de las probabilidades:
Esto se puede expresar como una diferencia de dos informaciones de Shannon:
En otras palabras, las probabilidades logarítmicas se pueden interpretar como el nivel de sorpresa cuando el evento no sucede, menos el nivel de sorpresa cuando el evento sí sucede.
Aditividad de eventos independientes
El contenido de información de dos eventos independientes es la suma del contenido de información de cada evento. Esta propiedad se conoce como aditividad en matemáticas, y aditividad sigma en particular en la teoría de la medida y la probabilidad. Consideremos dos variables aleatorias independientes con funciones de masa de probabilidad y respectivamente. La función de masa de probabilidad conjunta es
porque y son independientes . El contenido de información del resultado es
Véase § Dos dados independientes, distribuidos de forma idéntica, a continuación, como ejemplo.
La propiedad correspondiente para las probabilidades es que la probabilidad logarítmica de eventos independientes es la suma de las probabilidades logarítmicas de cada evento. Si se interpreta la probabilidad logarítmica como "apoyo" o sorpresa negativa (el grado en que un evento apoya un modelo dado: un modelo es apoyado por un evento en la medida en que el evento no es sorprendente, dado el modelo), esto indica que los eventos independientes suman apoyo: la información que los dos eventos juntos proporcionan para la inferencia estadística es la suma de su información independiente.
Relación con la entropía
La entropía de Shannon de la variable aleatoria anterior se define
por definición como igual al contenido de información esperado de la medición de . [3] : 11 [4] : 19–20
La expectativa se toma sobre los valores discretos sobre su soporte .
A veces, la entropía en sí misma se denomina "autoinformación" de la variable aleatoria, posiblemente porque la entropía satisface , donde es la información mutua de consigo misma. [5]
Para las variables aleatorias continuas el concepto correspondiente es entropía diferencial .
Notas
Esta medida también se ha denominado "sorpresa " , ya que representa la " sorpresa " de ver el resultado (un resultado altamente improbable es muy sorprendente). Este término (como medida de probabilidad logarítmica) fue acuñado por Myron Tribus en su libro de 1961 Thermostatics and Thermodynamics . [6] [7]
Cuando el evento es una realización aleatoria (de una variable) la autoinformación de la variable se define como el valor esperado de la autoinformación de la realización.
La autoinformación es un ejemplo de una regla de puntuación adecuada . [ aclaración necesaria ]
Ejemplos
Lanzamiento de moneda justo
Consideremos el ensayo de Bernoulli de lanzar una moneda justa . Las probabilidades de que la moneda caiga en cara o cruz (ver moneda justa y anverso y reverso ) son la mitad cada una, . Al medir la variable como cara, la ganancia de información asociada es, por lo que la ganancia de información de que una moneda justa caiga en cara es 1 shannon . [2] Asimismo, la ganancia de información de medir cruz es
Tirada de dados justa
Supongamos que tenemos un dado de seis caras . El valor de una tirada de dados es una variable aleatoria uniforme discreta con función de masa de probabilidad. La probabilidad de obtener un 4 es , como en cualquier otra tirada válida. El contenido de información de obtener un 4 es, por tanto, de información.
Dos dados independientes, distribuidos de forma idéntica
Supongamos que tenemos dos variables aleatorias independientes distribuidas de forma idéntica, cada una de las cuales corresponde a una tirada de dados de seis caras independiente y justa. La distribución conjunta de y es
El contenido de información de la variable aleatoria es
y también puede calcularse mediante la aditividad de eventos.
Si recibimos información sobre el valor de los dados sin saber qué dado tenía qué valor, podemos formalizar el enfoque con las llamadas variables de conteo
para , entonces y los conteos tienen la distribución multinomial
Para comprobarlo, los 6 resultados corresponden al evento y una probabilidad total de 1/6 . Estos son los únicos eventos que se conservan fielmente con identidad de qué dados arrojaron qué resultado porque los resultados son los mismos. Sin conocimiento para distinguir los dados que arrojaron los otros números, las otras combinaciones corresponden a un dado que arroja un número y el otro dado arroja un número diferente, cada uno con probabilidad 1/18 . En efecto, , como se requiere.
Como era de esperar, el contenido de información de aprender que ambos dados salieron con el mismo número en particular es mayor que el contenido de información de aprender que un dado salió con un número y el otro con un número diferente. Tomemos como ejemplo los eventos y para . Por ejemplo, y .
El contenido de la información es
Sea el evento de que ambos dados hayan obtenido el mismo valor y sea el evento de que los dados hayan obtenido valores diferentes. Entonces y . El contenido de información de los eventos es
La función de masa de probabilidad o densidad (colectivamente medida de probabilidad ) de la suma de dos variables aleatorias independientes es la convolución de cada medida de probabilidad . En el caso de lanzamientos de dados de 6 caras independientes y justos, la variable aleatoria tiene función de masa de probabilidad , donde representa la convolución discreta . El resultado tiene probabilidad . Por lo tanto, la información afirmada es
Distribución general uniforme discreta
Generalizando el ejemplo anterior de tirada de dados justa, considere una variable aleatoria uniforme discreta general (DURV) Para mayor comodidad, defina . La función de masa de probabilidad es En general, los valores de la DURV no necesitan ser números enteros , o para los fines de la teoría de la información incluso uniformemente espaciados; solo necesitan ser equiprobables . [2] La ganancia de información de cualquier observación es
Caso especial: variable aleatoria constante
Si es lo anterior, se degenera en una variable aleatoria constante con distribución de probabilidad determinada de manera determinista por y la medida de probabilidad es la medida de Dirac . El único valor que puede tomar es de manera determinista , por lo que el contenido de información de cualquier medición de es En general, no se obtiene información al medir un valor conocido. [2]
Distribución categórica
Generalizando todos los casos anteriores, considere una variable aleatoria discreta categórica con función de masa de probabilidad y soporte dada por
Para los fines de la teoría de la información, los valores no tienen que ser números ; pueden ser cualquier evento mutuamente excluyente en un espacio de medida de medida finita que se ha normalizado a una medida de probabilidad . Sin pérdida de generalidad , podemos suponer que la distribución categórica se sustenta en el conjunto ; la estructura matemática es isomorfa en términos de la teoría de la probabilidad y, por lo tanto, también de la teoría de la información .
Se da la información del resultado.
A partir de estos ejemplos, es posible calcular la información de cualquier conjunto de DRV independientes con distribuciones conocidas por aditividad .
Derivación
Por definición, la información se transfiere de una entidad de origen que posee la información a una entidad receptora solo cuando el receptor no conocía la información a priori . Si la entidad receptora conocía previamente con certeza el contenido de un mensaje antes de recibirlo, la cantidad de información del mensaje recibido es cero. Solo cuando el conocimiento previo del contenido del mensaje por parte del receptor es menos del 100% seguro, el mensaje realmente transmite información.
Por ejemplo, citando a un personaje (el Hippy Dippy Weatherman) del comediante George Carlin :
Previsión meteorológica para esta noche: oscuro. Continuará oscuro durante la noche, con luz dispersa por la mañana. [8]
Suponiendo que uno no reside cerca de las regiones polares , la cantidad de información transmitida en ese pronóstico es cero porque se sabe, de antemano de recibir el pronóstico, que la oscuridad siempre llega con la noche.
En consecuencia, la cantidad de autoinformación contenida en un mensaje que transmite contenido que informa sobre la ocurrencia de un evento , depende únicamente de la probabilidad de ese evento.
para alguna función que se determine a continuación. Si , entonces . Si , entonces .
Además, por definición, la medida de autoinformación es no negativa y aditiva. Si un mensaje que informa de un evento es la intersección de dos eventos independientes y , entonces la información de que el evento está ocurriendo es la del mensaje compuesto de ambos eventos independientes y que está ocurriendo. Se esperaría que la cantidad de información del mensaje compuesto fuera igual a la suma de las cantidades de información de los mensajes componentes individuales y respectivamente:
Debido a la independencia de los eventos y , la probabilidad del evento es
Sin embargo, la aplicación de la función da como resultado
Gracias al trabajo sobre la ecuación funcional de Cauchy , las únicas funciones monótonas que tienen la propiedad de que
son las funciones logarítmicas . La única diferencia operativa entre logaritmos de diferentes bases es la de las diferentes constantes de escala, por lo que podemos suponer
donde es el logaritmo natural . Dado que las probabilidades de los eventos siempre están entre 0 y 1 y la información asociada con estos eventos debe ser no negativa, eso requiere que .
Teniendo en cuenta estas propiedades, la autoinformación asociada al resultado con probabilidad se define como:
Cuanto menor sea la probabilidad de que se produzca un evento , mayor será la cantidad de autoinformación asociada al mensaje de que el evento efectivamente ocurrió. Si el logaritmo anterior es de base 2, la unidad de es shannon . Esta es la práctica más común. Cuando se utiliza el logaritmo natural de base , la unidad será nat . Para el logaritmo de base 10, la unidad de información es hartley .
A modo de ejemplo rápido, el contenido de información asociado con un resultado de 4 caras (o cualquier resultado específico) en 4 lanzamientos consecutivos de una moneda sería de 4 shannons (probabilidad 1/16), y el contenido de información asociado con la obtención de un resultado distinto al especificado sería de ~0,09 shannons (probabilidad 15/16). Consulte más arriba para ver ejemplos detallados.
Véase también
Referencias
- ^ Jones, DS, Teoría de la información elemental , vol., Clarendon Press, Oxford, págs. 11-15, 1979
- ^ abcd McMahon, David M. (2008). Explicación de la computación cuántica . Hoboken, Nueva Jersey: Wiley-Interscience. ISBN 9780470181386.OCLC 608622533 .
- ^ Borda, Mónica (2011). Fundamentos de teoría de la información y codificación. Springer. ISBN 978-3-642-20346-6.
- ^ Han, Te Sun; Kobayashi, Kingo (2002). Matemáticas de la información y codificación. American Mathematical Society. ISBN 978-0-8218-4256-0.
- ^ Thomas M. Cover, Joy A. Thomas; Elementos de la teoría de la información; pág. 20; 1991.
- ^ RB Bernstein y RD Levine (1972) "Entropía y cambio químico. I. Caracterización de las distribuciones de energía del producto (y reactivo) en colisiones moleculares reactivas: deficiencia de información y entropía", The Journal of Chemical Physics 57 , 434–449.
- ^ Myron Tribus (1961) Termodinámica y termostática: Introducción a la energía, la información y los estados de la materia, con aplicaciones de ingeniería (D. Van Nostrand, 24 West 40 Street, Nueva York 18, Nueva York, EE. UU.) Tribus, Myron (1961), págs. 64–66 tomado prestado.
- ^ "Una cita de George Carlin". www.goodreads.com . Consultado el 1 de abril de 2021 .
Lectura adicional
Enlaces externos
- Ejemplos de medidas sorpresa
- Entrada "sorpresiva" en un glosario de teoría de la información molecular
- Teoría bayesiana de la sorpresa