stringtranslate.com

Distribución exponencial

En teoría de probabilidad y estadística , la distribución exponencial o distribución exponencial negativa es la distribución de probabilidad de la distancia entre eventos en un proceso de puntos de Poisson , es decir, un proceso en el que los eventos ocurren de forma continua e independiente a una velocidad promedio constante; el parámetro de distancia podría ser cualquier medida monodimensional significativa del proceso, como el tiempo entre errores de producción o la longitud a lo largo de un rollo de tela en el proceso de fabricación de tejido. Es un caso particular de la distribución gamma . Es el análogo continuo de la distribución geométrica y tiene la propiedad clave de no tener memoria . Además de utilizarse para el análisis de procesos de puntos de Poisson, se encuentra en varios otros contextos.

La distribución exponencial no es lo mismo que la clase de familias de distribuciones exponenciales . Esta es una gran clase de distribuciones de probabilidad que incluye la distribución exponencial como uno de sus miembros, pero también incluye muchas otras distribuciones, como las distribuciones normal , binomial , gamma y Poisson .

Definiciones

Función de densidad de probabilidad

La función de densidad de probabilidad (pdf) de una distribución exponencial es

Aquí λ > 0 es el parámetro de la distribución, a menudo llamado parámetro de tasa . La distribución se apoya en el intervalo  [0, ∞) . Si una variable aleatoria X tiene esta distribución, escribimos  X ~ Exp( λ ) .

La distribución exponencial exhibe divisibilidad infinita .

Función de distribución acumulativa

La función de distribución acumulativa viene dada por

Parametrización alternativa

La distribución exponencial a veces se parametriza en términos del parámetro de escala β = 1/ λ , que también es la media:

Propiedades

Media, varianza, momentos y mediana.

La media es el centro de masa de probabilidad, es decir, el primer momento .
La mediana es la preimagen F −1 (1/2).

El valor medio o esperado de una variable aleatoria X distribuida exponencialmente con parámetro de tasa λ viene dado por

A la luz de los ejemplos que se dan a continuación, esto tiene sentido; Una persona que recibe un promedio de dos llamadas telefónicas por hora puede esperar que el tiempo entre llamadas consecutivas sea de 0,5 horas o 30 minutos.

La varianza de X está dada por

desviación estándar

Los momentos de X , para están dados por

Los momentos centrales de X , para están dados por

nsubfactorialn

La mediana de X viene dada por

lnlogaritmo naturaldiferencia absoluta

de acuerdo con la desigualdad mediana-media .

Propiedad de falta de memoria de la variable aleatoria exponencial

Una variable aleatoria T distribuida exponencialmente obedece a la relación

Esto se puede ver considerando la función de distribución acumulativa complementaria :

Cuando T se interpreta como el tiempo de espera para que ocurra un evento en relación con un tiempo inicial, esta relación implica que, si T está condicionado a que no se observe el evento durante un período de tiempo inicial s , la distribución del tiempo de espera restante Es la misma que la distribución incondicional original. Por ejemplo, si un evento no ha ocurrido después de 30 segundos, la probabilidad condicional de que ocurra al menos 10 segundos más es igual a la probabilidad incondicional de observar el evento más de 10 segundos después del tiempo inicial.

La distribución exponencial y la distribución geométrica son las únicas distribuciones de probabilidad sin memoria .

Por lo tanto, la distribución exponencial es necesariamente también la única distribución de probabilidad continua que tiene una tasa de fracaso constante .

Cuantiles

Criterios de anomalía de Tukey para la función de distribución de probabilidad exponencial.
Criterios de Tukey para anomalías. [ cita necesaria ]

La función cuantil (función de distribución acumulativa inversa) para Exp( λ ) es

Los cuartiles son por tanto:

Y como consecuencia el rango intercuartil es ln(3)/ λ .

Valor condicional en riesgo (déficit esperado)

El valor condicional en riesgo (CVaR), también conocido como déficit esperado o supercuantil para Exp( λ ), se deriva de la siguiente manera: [1]

Probabilidad de excedencia amortiguada (bPOE)

La probabilidad de superación amortiguada es uno menos el nivel de probabilidad en el que el CVaR iguala el umbral . Se deriva de la siguiente manera: [1]

Divergencia Kullback-Leibler

La divergencia dirigida de Kullback-Leibler en nats de (distribución "aproximada") de (distribución "verdadera") viene dada por

Distribución máxima de entropía

Entre todas las distribuciones de probabilidad continuas con soporte [0, ∞) y media μ , la distribución exponencial con λ = 1/ μ tiene la mayor entropía diferencial . En otras palabras, es la distribución de probabilidad de entropía máxima para una variable aleatoria X que es mayor o igual a cero y para la cual E[ X ] es fija. [2]

Distribución del mínimo de variables aleatorias exponenciales.

Sean X 1 , …, X n variables aleatorias independientes distribuidas exponencialmente con parámetros de velocidad λ 1 , …, λ n . Entonces

Esto se puede ver considerando la función de distribución acumulativa complementaria :

El índice de la variable que alcanza el mínimo se distribuye según la distribución categórica.

Se puede ver una prueba dejando . Entonces,

Tenga en cuenta que

X 1X n[3]

Momentos conjuntos de estadísticas de orden exponencial iid

Sean variables aleatorias exponenciales independientes e idénticamente distribuidas con parámetro de tasa λ . Denotemos las estadísticas de orden correspondientes . Para , el momento conjunto de las estadísticas del pedido y está dado por

Esto se puede ver invocando la ley de la expectativa total y la propiedad sin memoria:

La primera ecuación se deriva de la ley de la expectativa total . La segunda ecuación explota el hecho de que una vez que condicionamos , debe seguirse eso . La tercera ecuación se basa en la propiedad sin memoria para reemplazarla con .

Suma de dos variables aleatorias exponenciales independientes

La función de distribución de probabilidad (PDF) de una suma de dos variables aleatorias independientes es la convolución de sus PDF individuales . Si y son variables aleatorias exponenciales independientes con parámetros de tasa respectivos y entonces la densidad de probabilidad de está dada por

constante de Euler-Mascheronifunción digamma[4]

En el caso de parámetros de tasa iguales, el resultado es una distribución Erlang con forma 2 y parámetro que a su vez es un caso especial de distribución gamma .

La suma de n variables aleatorias exponenciales independientes Exp( λ) tiene distribución Gamma(n, λ) .

Distribuciones relacionadas

Otras distribuciones relacionadas:

Inferencia estadística

A continuación, supongamos que la variable aleatoria X tiene una distribución exponencial con el parámetro de tasa λ y hay n muestras independientes de X , con media muestral .

Estimación de parámetros

El estimador de máxima verosimilitud para λ se construye de la siguiente manera.

La función de verosimilitud para λ, dada una muestra independiente e idénticamente distribuida x = ( x 1 ,…, x n ) extraída de la variable, es:

dónde:

La derivada del logaritmo de la función de verosimilitud es:

En consecuencia, la estimación de máxima verosimilitud para el parámetro de tasa es:

Este no es un estimador insesgado de aunque sí lo es [6] MLE [7] y la media de distribución.

El sesgo de es igual a

estimador de máxima verosimilitud corregido por el sesgo

Se puede encontrar un minimizador aproximado del error cuadrático medio (ver también: equilibrio entre sesgo y varianza ), suponiendo un tamaño de muestra mayor que dos, con un factor de corrección del MLE:

gamma inversa[8]

Información del pescador

La información de Fisher , denotada , para un estimador del parámetro de tasa viene dada por:

Al conectar la distribución y resolver se obtiene:

Esto determina la cantidad de información que cada muestra independiente de una distribución exponencial lleva sobre el parámetro de tasa desconocido .

Intervalos de confianza

Un intervalo de confianza exacto del 100(1 − α)% para el parámetro de tasa de una distribución exponencial viene dado por: [9]

χ2
p , v
percentil 100( p )distribución chi cuadradov grados de libertadχ2
p , v

Esta aproximación puede ser aceptable para muestras que contengan al menos entre 15 y 20 elementos. [10]

Inferencia bayesiana

El conjugado previo para la distribución exponencial es la distribución gamma (de la cual la distribución exponencial es un caso especial). Es útil la siguiente parametrización de la función de densidad de probabilidad gamma:

La distribución posterior p puede entonces expresarse en términos de la función de probabilidad definida anteriormente y una gamma previa:

Ahora la densidad posterior p se ha especificado hasta una constante de normalización faltante. Como tiene la forma de un pdf gamma, se puede completar fácilmente y se obtiene:

Aquí el hiperparámetro α se puede interpretar como el número de observaciones anteriores y β como la suma de las observaciones anteriores. La media posterior aquí es:

Ocurrencia y aplicaciones

Ocurrencia de eventos

La distribución exponencial ocurre naturalmente al describir las longitudes de los tiempos entre llegadas en un proceso de Poisson homogéneo .

La distribución exponencial puede verse como una contraparte continua de la distribución geométrica , que describe el número de ensayos de Bernoulli necesarios para que un proceso discreto cambie de estado. Por el contrario, la distribución exponencial describe el tiempo que tarda un proceso continuo en cambiar de estado.

En escenarios del mundo real, el supuesto de una tasa constante (o probabilidad por unidad de tiempo) rara vez se cumple. Por ejemplo, la tasa de llamadas telefónicas entrantes difiere según la hora del día. Pero si nos centramos en un intervalo de tiempo durante el cual la tasa es aproximadamente constante, como de 2 a 4 pm durante los días laborables, la distribución exponencial puede usarse como un buen modelo aproximado para el tiempo hasta que llega la siguiente llamada telefónica. Se aplican advertencias similares a los siguientes ejemplos que producen variables distribuidas aproximadamente exponencialmente:

Las variables exponenciales también se pueden utilizar para modelar situaciones en las que ciertos eventos ocurren con una probabilidad constante por unidad de longitud, como la distancia entre mutaciones en una cadena de ADN o entre atropellos en una carretera determinada.

En la teoría de colas , los tiempos de servicio de los agentes en un sistema (por ejemplo, cuánto tiempo le toma a un cajero de banco, etc., atender a un cliente) a menudo se modelan como variables distribuidas exponencialmente. (La llegada de clientes, por ejemplo, también se modela mediante la distribución de Poisson si las llegadas son independientes y están distribuidas de manera idéntica). La duración de un proceso que puede considerarse como una secuencia de varias tareas independientes sigue la distribución de Erlang (que es la distribución de la suma de varias variables independientes distribuidas exponencialmente). La teoría de la confiabilidad y la ingeniería de confiabilidad también hacen un uso extensivo de la distribución exponencial. Debido a la propiedad sin memoria de esta distribución, es muy adecuada para modelar la porción de tasa de riesgo constante de la curva de la bañera utilizada en la teoría de la confiabilidad. También es muy conveniente porque es muy fácil agregar tasas de falla en un modelo de confiabilidad. Sin embargo, la distribución exponencial no es apropiada para modelar la vida útil total de organismos o dispositivos técnicos, porque las "tasas de fallo" aquí no son constantes: se producen más fallos en sistemas muy jóvenes y muy antiguos.

Distribución exponencial acumulativa ajustada a las precipitaciones máximas anuales de 1 día utilizando CumFreq [11]

En física , si se observa un gas a una temperatura y presión fijas en un campo gravitacional uniforme , las alturas de las distintas moléculas también siguen una distribución exponencial aproximada, conocida como fórmula barométrica . Esto es una consecuencia de la propiedad de entropía que se menciona a continuación.

En hidrología , la distribución exponencial se utiliza para analizar valores extremos de variables como los valores máximos mensuales y anuales de precipitación diaria y los volúmenes de descarga de los ríos. [12]

La imagen azul ilustra un ejemplo de ajuste de la distribución exponencial a las precipitaciones máximas de un día clasificadas anualmente, mostrando también el cinturón de confianza del 90% basado en la distribución binomial . Los datos de lluvia se representan trazando posiciones como parte del análisis de frecuencia acumulada .

En la gestión de quirófanos, la distribución de la duración de la cirugía para una categoría de cirugías sin un contenido de trabajo típico (como en una sala de emergencias, que abarca todos los tipos de cirugías).

Predicción

Habiendo observado una muestra de n puntos de datos de una distribución exponencial desconocida, una tarea común es utilizar estas muestras para hacer predicciones sobre datos futuros de la misma fuente. Una distribución predictiva común sobre muestras futuras es la llamada distribución plug-in, formada al insertar una estimación adecuada para el parámetro de tasa λ en la función de densidad exponencial. Una elección común de estimación es la proporcionada por el principio de máxima verosimilitud, y al utilizarlo se obtiene la densidad predictiva sobre una muestra futura x n +1 , condicionada a las muestras observadas x = ( x 1 , ..., x n ) dada por

El enfoque bayesiano proporciona una distribución predictiva que tiene en cuenta la incertidumbre del parámetro estimado, aunque esto puede depender crucialmente de la elección del parámetro previo.

Una distribución predictiva libre de los problemas de elección de antecedentes que surgen bajo el enfoque bayesiano subjetivo es

que puede considerarse como

  1. una distribución de confianza frecuentista , obtenida a partir de la distribución de la cantidad fundamental ; [13]
  2. un perfil de verosimilitud predictiva, obtenido eliminando el parámetro λ de la verosimilitud conjunta de x n +1 y λ por maximización; [14]
  3. una distribución posterior predictiva bayesiana objetiva, obtenida utilizando el previo no informativo de Jeffreys 1/ λ ;
  4. la distribución predictiva de Máxima Verosimilitud Normalizada Condicional (CNML), a partir de consideraciones teóricas de la información. [15]

La precisión de una distribución predictiva se puede medir utilizando la distancia o divergencia entre la distribución exponencial verdadera con parámetro de tasa, λ 0 , y la distribución predictiva basada en la muestra x . La divergencia de Kullback-Leibler es una medida de la diferencia entre dos distribuciones sin parametrización y de uso común. Si Δ( λ 0 || p ) denota la divergencia de Kullback-Leibler entre una exponencial con parámetro de tasa λ 0 y una distribución predictiva p , se puede demostrar que

donde la expectativa se toma con respecto a la distribución exponencial con parámetro de tasa λ 0 ∈ (0, ∞) y ψ( · ) es la función digamma. Está claro que la distribución predictiva CNML es estrictamente superior a la distribución complementaria de máxima verosimilitud en términos de divergencia promedio de Kullback-Leibler para todos los tamaños de muestra n > 0 .

Generación de variables aleatorias

Un método conceptualmente muy simple para generar variables exponenciales se basa en el muestreo por transformada inversa : dada una variable aleatoria U extraída de la distribución uniforme en el intervalo unitario (0, 1) , la variable

tiene una distribución exponencial, donde F −1 es la función cuantil , definida por

Además, si U es uniforme en (0, 1), entonces también lo es 1 − U. Esto significa que se pueden generar variaciones exponenciales de la siguiente manera:

Knuth [16] y Devroye analizan otros métodos para generar variables exponenciales . [17]

También está disponible un método rápido para generar un conjunto de variables exponenciales ya ordenadas sin utilizar una rutina de clasificación. [17]

Ver también

Referencias

  1. ^ ab Norton, Mateo; Khokhlov, Valentyn; Uryasev, Stan (2019). "Cálculo de CVaR y bPOE para distribuciones de probabilidad comunes con aplicación a la optimización de cartera y estimación de densidad" (PDF) . Anales de investigación de operaciones . 299 (1–2). Saltador: 1281-1315. doi :10.1007/s10479-019-03373-1. Archivado desde el original (PDF) el 31 de marzo de 2023 . Consultado el 27 de febrero de 2023 .
  2. ^ Parque, Sung Y.; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Revista de Econometría . 150 (2). Elsevier: 219-230. doi :10.1016/j.jeconom.2008.12.014. Archivado desde el original (PDF) el 7 de marzo de 2016 . Consultado el 2 de junio de 2011 .
  3. ^ Miguel, Lugo. «La expectativa del máximo de exponenciales» (PDF) . Archivado desde el original (PDF) el 20 de diciembre de 2016 . Consultado el 13 de diciembre de 2016 .
  4. ^ Eckford, Andrew W.; Thomas, Peter J. (2016). "Entropía de la suma de dos variables aleatorias exponenciales independientes y no distribuidas de forma idéntica". arXiv : 1609.02911 [cs.IT].
  5. ^ Ibe, Oliver C. (2014). Fundamentos de probabilidad aplicada y procesos aleatorios (2ª ed.). Prensa académica. pag. 128.ISBN 9780128010358.
  6. ^ Richard Arnold Johnson; Dean W. Wichern (2007). Análisis Estadístico Multivariado Aplicado. Pearson-Prentice Hall. ISBN 978-0-13-187715-3. Consultado el 10 de agosto de 2012 .
  7. ^ Manual electrónico de métodos estadísticos de NIST / SEMATECH
  8. ^ Elfessi, Abdulaziz; Reineke, David M. (2001). "Una mirada bayesiana a la estimación clásica: la distribución exponencial". Revista de Educación Estadística . 9 (1). doi : 10.1080/10691898.2001.11910648 .
  9. ^ Ross, Sheldon M. (2009). Introducción a la probabilidad y la estadística para ingenieros y científicos (4ª ed.). Associated Press. pag. 267.ISBN 978-0-12-370483-2.
  10. ^ Guerrero, V. (2012). "Distribución de la ley de potencia: método de estadística inferencial multiescala". Revista de la Frontera de las Matemáticas Modernas . 1 : 21–28.
  11. ^ "Cumfreq, un programa informático gratuito para análisis de frecuencia acumulada".
  12. ^ Ritzema, HP, ed. (1994). Análisis de frecuencia y regresión. Capítulo 6 en: Principios y aplicaciones de drenaje, Publicación 16, Instituto Internacional para la Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. págs. 175-224. ISBN 90-70754-33-9.
  13. ^ Sin ley, JF; Fredette, M. (2005). "Intervalos de predicciones frecuentistas y distribuciones predictivas". Biometrika . 92 (3): 529–542. doi :10.1093/biomet/92.3.529.
  14. ^ Bjornstad, JF (1990). "Probabilidad predictiva: una revisión". Estadístico. Ciencia . 5 (2): 242–254. doi : 10.1214/ss/1177012175 .
  15. ^ DF Schmidt y E. Makalic, "Modelos universales para la distribución exponencial", IEEE Transactions on Information Theory , volumen 55, número 7, págs. 3087–3090, 2009 doi :10.1109/TIT.2009.2018331
  16. ^ Donald E. Knuth (1998). El arte de la programación informática , volumen 2: Algoritmos seminuméricos , 3ª ed. Boston: Addison-Wesley. ISBN 0-201-89684-2 . Véase la sección 3.4.1, pág. 133. 
  17. ^ ab Luc Devroye (1986). Generación de variables aleatorias no uniformes . Nueva York: Springer-Verlag. ISBN 0-387-96305-7 . Véase el capítulo IX, sección 2, págs. 392 a 401. 

enlaces externos