stringtranslate.com

Desigualdad de Fano

En teoría de la información , la desigualdad de Fano (también conocida como inverso de Fano y lema de Fano ) relaciona la información promedio perdida en un canal ruidoso con la probabilidad del error de categorización. Fue derivada por Robert Fano a principios de la década de 1950 mientras impartía un seminario de doctorado sobre teoría de la información en el MIT y luego registrada en su libro de texto de 1961.

Se utiliza para encontrar un límite inferior en la probabilidad de error de cualquier decodificador, así como los límites inferiores para los riesgos minimax en la estimación de densidad .

Sean las variables aleatorias discretas y representen mensajes de entrada y salida con una probabilidad conjunta . Sea que represente una ocurrencia de error; es decir, que , con siendo una versión aproximada de . La desigualdad de Fano es

donde denota el soporte de , denota la cardinalidad de (número de elementos en) ,

es la entropía condicional ,

es la probabilidad del error de comunicación, y

es la entropía binaria correspondiente .

Prueba

Defina una variable aleatoria indicadora , que indique el evento de que nuestra estimación sea errónea.

Consideremos . Podemos usar la regla de la cadena para entropías para expandir esto de dos maneras diferentes

Equiparando los dos

Ampliando el término más a la derecha,

Dado que significa ; al tener el valor de , podemos saber el valor de con certeza. Esto hace que el término . Por otro lado, significa que , por lo tanto, dado el valor de , podemos reducirlo a uno de diferentes valores, lo que nos permite limitar superiormente la entropía condicional . Por lo tanto

El otro término, , porque el condicionamiento reduce la entropía. Por la forma en que se define, , lo que significa que . Poniéndolo todo junto,

Debido a que es una cadena de Markov, tenemos por la desigualdad de procesamiento de datos , y por lo tanto , dándonos

Intuición

La desigualdad de Fano puede interpretarse como una forma de dividir la incertidumbre de una distribución condicional en dos preguntas dado un predictor arbitrario. La primera pregunta, correspondiente al término , se relaciona con la incertidumbre del predictor. Si la predicción es correcta, no queda más incertidumbre. Si la predicción es incorrecta, la incertidumbre de cualquier distribución discreta tiene un límite superior de la entropía de la distribución uniforme sobre todas las opciones además de la predicción incorrecta. Esto tiene entropía . Mirando los casos extremos, si el predictor siempre es correcto, el primer y segundo término de la desigualdad son 0, y la existencia de un predictor perfecto implica está totalmente determinada por , y por lo tanto . Si el predictor siempre es incorrecto, entonces el primer término es 0, y solo puede ser acotado superiormente con una distribución uniforme sobre las opciones restantes.

Formulación alternativa

Sea una variable aleatoria con densidad igual a una de las posibles densidades . Además, la divergencia de Kullback-Leibler entre cualquier par de densidades no puede ser demasiado grande,

a pesar de

Sea una estimación del índice. Entonces

¿Dónde está la probabilidad inducida por ?

Generalización

La siguiente generalización se debe a Ibragimov y Khasminskii (1979), Assouad y Birge (1983).

Sea F una clase de densidades con una subclase de r  + 1 densidades ƒ θ tales que para cualquier θ  ≠  θ

Entonces, en el peor de los casos, el valor esperado del error de estimación está limitado desde abajo,

donde ƒ n es cualquier estimador de densidad basado en una muestra de tamaño n .

Referencias