Probabilidad de registro

En teoría de la probabilidad e informática , una probabilidad logarítmica es simplemente un logaritmo de una probabilidad . ^[1] El uso de probabilidades logarítmicas significa representar probabilidades en una escala logarítmica , en lugar del intervalo unitario estándar . $(-\inf,0]$ $[0,1]$

Dado que las probabilidades de eventos independientes se multiplican y los logaritmos convierten la multiplicación en suma, las probabilidades logarítmicas de eventos independientes se suman. Por tanto, las probabilidades logarítmicas son prácticas para los cálculos y tienen una interpretación intuitiva en términos de teoría de la información : el valor esperado negativo de las probabilidades logarítmicas es la entropía de información de un evento. De manera similar, las probabilidades a menudo se transforman a la escala logarítmica, y la correspondiente probabilidad logarítmica puede interpretarse como el grado en que un evento respalda un modelo estadístico . La probabilidad logarítmica se utiliza ampliamente en implementaciones de cálculos con probabilidad y se estudia como un concepto en sí mismo en algunas aplicaciones de la teoría de la información, como el procesamiento del lenguaje natural .

Motivación

Representar probabilidades de esta manera tiene varias ventajas prácticas:

Velocidad. Dado que la multiplicación es más cara que la suma, obtener el producto de un gran número de probabilidades suele ser más rápido si se representan en forma logarítmica. (La conversión a la forma logarítmica es costosa, pero sólo se realiza una vez). La multiplicación surge del cálculo de la probabilidad de que ocurran múltiples eventos independientes: la probabilidad de que ocurran todos los eventos independientes de interés es el producto de las probabilidades de todos estos eventos.
Exactitud. El uso de probabilidades logarítmicas mejora la estabilidad numérica , cuando las probabilidades son muy pequeñas, debido a la forma en que las computadoras aproximan los números reales . ^[1]
Sencillez. Muchas distribuciones de probabilidad tienen forma exponencial. Tomar el registro de estas distribuciones elimina la función exponencial, desenvolviendo el exponente. Por ejemplo, la probabilidad logarítmica de la función de densidad de probabilidad de la distribución normal es en lugar de . Las probabilidades logarítmicas facilitan la realización de algunas manipulaciones matemáticas. $-((x-m_{x})/\sigma _ {m})^{2}+C$ $C_{2}\exp \left(-((x-m_{x})/\sigma _ {m})^{2}\right)$
Mejoramiento. Dado que las distribuciones de probabilidad más comunes , en particular la familia exponencial , son sólo logarítmicamente cóncavas , ^[2]^[3] y la concavidad de la función objetivo juega un papel clave en la maximización de una función como la probabilidad. Los optimizadores funcionan mejor con probabilidades de registro.

Problemas de representación

La función logaritmo no está definida para cero, por lo que las probabilidades logarítmicas solo pueden representar probabilidades distintas de cero. Dado que el logaritmo de un número en un intervalo es negativo, a menudo se utilizan probabilidades logarítmicas negativas. En ese caso, las probabilidades logarítmicas de las siguientes fórmulas se invertirían . $(0,1)$

Se puede seleccionar cualquier base para el logaritmo.

Manipulaciones básicas

En esta sección nombraríamos probabilidades en espacio logarítmico y para abreviar: $x'$ $y'$

x'=\log(x)\in \mathbb {R}

y'=\log(y)\in \mathbb {R}

El producto de probabilidades corresponde a la suma en el espacio logarítmico. $x\cdot y$

\log(x\cdot y)=\log(x)+\log(y)=x'+y'.

La suma de probabilidades es un poco más complicada de calcular en el espacio logarítmico, ya que requiere el cálculo de un exponente y un logaritmo. $x+y$

Sin embargo, en muchas aplicaciones se utiliza con más frecuencia una multiplicación de probabilidades (que da la probabilidad de que ocurran todos los eventos independientes) que su suma (que da la probabilidad de que ocurra al menos uno de los eventos mutuamente excluyentes). Además, el costo de calcular la suma se puede evitar en algunas situaciones simplemente utilizando la probabilidad más alta como aproximación. Como las probabilidades no son negativas, esto da un límite inferior. Esta aproximación se utiliza a la inversa para obtener una aproximación continua de la función máxima .

Adición de espacio de registro

{\begin{alineado}&\log(x+y)\\={}&\log(x+x\cdot y/x)\\={}&\log(x+x\cdot \ exp(\log(y/x)))\\={}&\log(x\cdot (1+\exp(\log(y)-\log(x))))\\={}&\ log(x)+\log(1+\exp(\log(y)-\log(x)))\\={}&x'+\log \left(1+\exp \left(y'-x) '\right)\right)\end{aligned}}

La fórmula anterior es más precisa que , siempre que se aproveche la asimetría en la fórmula de suma. debe ser el mayor (menos negativo) de los dos operandos. Esto también produce el comportamiento correcto si uno de los operandos es infinito negativo de punto flotante , lo que corresponde a una probabilidad de cero. $\log \left(e^{x'}+e^{y'}\right)$ ${x'}$

-\infty +\log \left(1+\exp \left(y'-(-\infty )\right)\right)=-\infty +\infty

Esta cantidad es indeterminada y dará como resultado NaN .

x'+\log \left(1+\exp \left(-\infty -x'\right)\right)=x'+0

Ésta es la respuesta deseada.

La fórmula anterior por sí sola producirá incorrectamente un resultado indeterminado en el caso de que ambos argumentos sean . Esto se debe comprobar por separado para devolverlo . $-\infty$ $-\infty$

Por razones numéricas, se debe utilizar una función que calcule ( log1p ) directamente. ${\displaystyle\log(1+x)}$

Ver también

Referencias

^ ab Piech, Chris. "Probabilidad para informáticos: registrar probabilidades" . Consultado el 20 de julio de 2023 .
^ Kass, Robert E.; Vos, Paul W. (1997). Fundamentos geométricos de la inferencia asintótica. Nueva York: John Wiley & Sons. pag. 14.ISBN 0-471-82668-5.
^ Papadopoulos, Alecos (25 de septiembre de 2013). "¿Por qué siempre ponemos log() antes del pdf conjunto cuando usamos MLE (Estimación de máxima verosimilitud)?". Intercambio de pila .