En matemáticas, la desigualdad de Jensen para funciones convexas relaciona el valor que asigna a una integral con la integral de esa misma función permutando, por así decirlo, la función y la integral.Fue probada por el matemático danés Johan Jensen en 1906.[1] Dada su generalidad, la desigualdad aparece en múltiples contextos.En su formulación más simple, la desigualdad es la siguiente: una transformación convexa de la media es menor o igual en valor que la media de una transformación convexa.Sin embargo, su formulación formal más general se expresa en el contexto de la teoría de la medida: Sea (Ω, A, μ) un espacio de medida tal que μ(Ω) = 1.Si g es una función real μ-integrable y φ una función convexa en el eje real, entonces:Dada una función convexa φ, números x1, x2, ..., xn en su dominio y pesos positivos ai se cumple que:En particular, si los pesos ai son todos iguales a 1, entoncesPor ejemplo, como la función -log(x) es convexa, la desigualdad anterior puede concretarse enson números reales yf : [ a , b ] →{\displaystyle f:[a,b]\to \mathbb {R} }es una función real integrable, entonces, reescalando, se puede aplicar la desigualdad de Jensen para obtenerφ ( ( b − a ) f ( x ) ){\displaystyle \varphi \left(\int _{a}^{b}f(x)\,dx\right)\leq \int _{a}^{b}\varphi ((b-a)f(x)){\frac {1}{b-a}}\,dx.}Por otro lado, si f(x) es una función no negativa tal queg es una función real cualquiera y φ es una función convexa sobre el rango de g, entoncesφ ( g ( x ) ) f ( x )En caso de que g sea la función identidad, se obtieneLa desigualdad de Jensen, usando la notación habitual en teoría de la probabilidad, puede reescribirse así: (1)La desigualdad de Jensen desempeña un papel importante en física estadística cuando la función convexa es la exponencial porque entonces (1)fórmula en la que los paréntesis angulares representan la esperanza respecto a la distribución de probabilidad de la variable aleatoria X.Si p(x) es la función de densidad correspondiente a una variable aleatoria X y q(x) es otra función de densidad, entonces, aplicando la desigualdad (1) a la variable aleatoria Y(X) = q(X)/p(X) y la función φ(y) = −log(y) se obtiene∫ p ( x ) log d x ≥ − log ∫ p ( x )⇒ ∫ p ( x ) log ⇒ − ∫ p ( x ) log q ( x )d x ≥ − ∫ p ( x ) log p ( x ){\displaystyle \Rightarrow -\int p(x)\log q(x)\,dx\geq -\int p(x)\log p(x)\,dx,}que es la llamada desigualdad de Gibbs y está relacionada con el hecho de que la longitud de los mensajes es mínima cuando se codifican en términos de la distribución verdadera y con el concepto de la divergencia de Kullback-Leibler.