Logaritmo de probabilidades, útil para cálculos.
En teoría de probabilidad y ciencia informática , una probabilidad logarítmica es simplemente un logaritmo de una probabilidad . [1] El uso de probabilidades logarítmicas significa representar probabilidades en una escala logarítmica , en lugar del intervalo de unidad estándar .
Dado que las probabilidades de eventos independientes se multiplican y los logaritmos convierten la multiplicación en suma, las probabilidades logarítmicas de eventos independientes se suman. Por lo tanto, las probabilidades logarítmicas son prácticas para los cálculos y tienen una interpretación intuitiva en términos de teoría de la información : el valor esperado negativo de las probabilidades logarítmicas es la entropía de información de un evento. De manera similar, las probabilidades a menudo se transforman a la escala logarítmica, y la probabilidad logarítmica correspondiente se puede interpretar como el grado en que un evento respalda un modelo estadístico . La probabilidad logarítmica se usa ampliamente en implementaciones de cálculos con probabilidad y se estudia como un concepto por derecho propio en algunas aplicaciones de la teoría de la información, como el procesamiento del lenguaje natural .
Motivación
Representar probabilidades de esta manera tiene varias ventajas prácticas:
- Velocidad. Dado que la multiplicación es más costosa que la suma, tomar el producto de un gran número de probabilidades suele ser más rápido si se representan en forma logarítmica. (La conversión a la forma logarítmica es costosa, pero solo se realiza una vez). La multiplicación surge del cálculo de la probabilidad de que ocurran múltiples eventos independientes: la probabilidad de que ocurran todos los eventos independientes de interés es el producto de las probabilidades de todos estos eventos.
- Precisión. El uso de probabilidades logarítmicas mejora la estabilidad numérica , cuando las probabilidades son muy pequeñas, debido a la forma en que las computadoras aproximan los números reales . [1]
- Simplicidad. Muchas distribuciones de probabilidad tienen una forma exponencial. Al tomar el logaritmo de estas distribuciones se elimina la función exponencial, lo que desenrolla el exponente. Por ejemplo, la probabilidad logarítmica de la función de densidad de probabilidad de la distribución normal es en lugar de . Las probabilidades logarítmicas facilitan la realización de algunas manipulaciones matemáticas.
- Optimización. Dado que la mayoría de las distribuciones de probabilidad más comunes (en particular la familia exponencial ) son solo logarítmicamente cóncavas , [2] [3] y la concavidad de la función objetivo desempeña un papel clave en la maximización de una función como la probabilidad, los optimizadores funcionan mejor con probabilidades logarítmicas.
Cuestiones de representación
La función logaritmo no está definida para el valor cero, por lo que las probabilidades logarítmicas solo pueden representar probabilidades distintas de cero. Como el logaritmo de un número en un intervalo es negativo, a menudo se utilizan probabilidades logarítmicas negativas. En ese caso, las probabilidades logarítmicas en las siguientes fórmulas se invertirían .
Se puede seleccionar cualquier base para el logaritmo.
Manipulaciones básicas
En esta sección nombraremos probabilidades en el espacio logarítmico y para abreviar:
El producto de probabilidades corresponde a la suma en el espacio logarítmico.
La suma de probabilidades es un poco más complicada de calcular en el espacio logarítmico y requiere el cálculo de un exponente y un logaritmo.
Sin embargo, en muchas aplicaciones se utiliza con más frecuencia una multiplicación de probabilidades (que da la probabilidad de que ocurran todos los eventos independientes) que su suma (que da la probabilidad de que ocurra al menos uno de los eventos mutuamente excluyentes). Además, el costo de calcular la suma se puede evitar en algunas situaciones simplemente utilizando la probabilidad más alta como aproximación. Dado que las probabilidades no son negativas, esto proporciona un límite inferior. Esta aproximación se utiliza a la inversa para obtener una aproximación continua de la función máxima .
Adición en el espacio de registro
La fórmula anterior es más precisa que , siempre que se aproveche la asimetría en la fórmula de adición. debe ser el mayor (menos negativo) de los dos operandos. Esto también produce el comportamiento correcto si uno de los operandos es un infinito negativo de punto flotante , que corresponde a una probabilidad de cero.
- Esta cantidad es indeterminada y dará como resultado NaN .
- Esta es la respuesta deseada.
La fórmula anterior por sí sola producirá incorrectamente un resultado indeterminado en el caso en que ambos argumentos sean . Esto se debe verificar por separado para devolver .
Por razones numéricas, se debe utilizar una función que calcule ( log1p ) directamente.
Véase también
Referencias
- ^ ab Piech, Chris. "Probabilidad para científicos informáticos: probabilidades logarítmicas" . Consultado el 20 de julio de 2023 .
- ^ Kass, Robert E.; Vos, Paul W. (1997). Fundamentos geométricos de la inferencia asintótica. Nueva York: John Wiley & Sons. pág. 14. ISBN 0-471-82668-5.
- ^ Papadopoulos, Alecos (25 de septiembre de 2013). "¿Por qué siempre ponemos log() antes de la función de densidad de probabilidad conjunta cuando usamos MLE (estimación de máxima verosimilitud)?". Stack Exchange .