stringtranslate.com

Distribución normal truncada

En probabilidad y estadística, la distribución normal truncada es la distribución de probabilidad derivada de la de una variable aleatoria distribuida normalmente , acotando la variable aleatoria por debajo o por encima (o por ambos lados). La distribución normal truncada tiene amplias aplicaciones en estadística y econometría .

Definiciones

Supongamos que tiene una distribución normal con media y varianza y se encuentra dentro del intervalo . Entonces, condicionalmente, tiene una distribución normal truncada.

Su función de densidad de probabilidad , , para , está dada por

y de otra manera.

Aquí, es la función de densidad de probabilidad de la distribución normal estándar y es su función de distribución acumulativa Por definición, si , entonces , y de manera similar, si , entonces .

Las fórmulas anteriores muestran que cuando se permite que el parámetro de escala de la distribución normal truncada asuma valores negativos, el parámetro es en este caso imaginario, pero la función es, no obstante, real, positiva y normalizable. El parámetro de escala de la distribución normal no truncada debe ser positivo porque, de lo contrario, la distribución no sería normalizable. La distribución normal doblemente truncada, por otro lado, puede, en principio, tener un parámetro de escala negativo (que es diferente de la varianza; véanse las fórmulas de resumen), porque no surgen tales problemas de integrabilidad en un dominio acotado. En este caso, la distribución no puede interpretarse como una normal no truncada condicional a , por supuesto, pero sí puede interpretarse como una distribución de máxima entropía con un primer y un segundo momento como restricciones, y tiene una característica peculiar adicional: presenta dos máximos locales en lugar de uno, ubicados en y .

Propiedades

La normal truncada es una de las dos posibles distribuciones de probabilidad de máxima entropía para una media fija y una varianza restringida al intervalo [a,b], siendo la otra la U truncada . [2] Las normales truncadas con soporte fijo forman una familia exponencial. Nielsen [3] informó una fórmula de forma cerrada para calcular la divergencia de Kullback-Leibler y la distancia de Bhattacharyya entre dos distribuciones normales truncadas con el soporte de la primera distribución anidada en el soporte de la segunda distribución.

Momentos

Si la variable aleatoria se ha truncado solo desde abajo, parte de la masa de probabilidad se ha desplazado a valores más altos, lo que da lugar a una distribución estocásticamente dominante de primer orden y, por lo tanto, aumenta la media a un valor superior a la media de la distribución normal original. Del mismo modo, si la variable aleatoria se ha truncado solo desde arriba, la distribución truncada tiene una media menor que

Independientemente de si la variable aleatoria está limitada por arriba, por abajo o por ambos lados, el truncamiento es una contracción que preserva la media combinada con un desplazamiento rígido que cambia la media y, por lo tanto, la varianza de la distribución truncada es menor que la varianza de la distribución normal original.

Truncamiento de dos lados[4]

Sea y . Entonces: y

Se debe tener cuidado al evaluar numéricamente estas fórmulas, ya que pueden resultar en una cancelación catastrófica cuando el intervalo no incluye . Existen mejores formas de reescribirlas que evitan este problema. [5]

Truncamiento unilateral (de la cola inferior)[6]

En este caso entonces

y

dónde

Truncamiento unilateral (de la cola superior)

En este caso entonces

Barr y Sherrill (1999) ofrecen una expresión más simple para la varianza de los truncamientos unilaterales. Su fórmula se basa en la función de confianza de chi-cuadrado, que se implementa en las bibliotecas de software estándar. Bebu y Mathew (2009) proporcionan fórmulas para intervalos de confianza (generalizados) en torno a los momentos truncados.

Una fórmula recursiva

En cuanto al caso no truncado, existe una fórmula recursiva para los momentos truncados. [7]

Multivariante

Calcular los momentos de una normal truncada multivariada es más difícil.

Generación de valores a partir de la distribución normal truncada

Una variable aleatoria definida como con la función de distribución acumulativa y su inversa, un número aleatorio uniforme en , sigue la distribución truncada al rango . Este es simplemente el método de transformación inversa para simular variables aleatorias. Aunque es uno de los más simples, este método puede fallar cuando se muestrea en la cola de la distribución normal, [8] o ser demasiado lento. [9] Por lo tanto, en la práctica, uno tiene que encontrar métodos alternativos de simulación.

Un generador normal truncado de este tipo (implementado en Matlab y en R (lenguaje de programación) como trandn.R) se basa en una idea de rechazo de aceptación debida a Marsaglia. [10] A pesar de la tasa de aceptación ligeramente subóptima de Marsaglia (1964) en comparación con Robert (1995), el método de Marsaglia es típicamente más rápido, [9] porque no requiere la costosa evaluación numérica de la función exponencial.

Para obtener más información sobre la simulación de un valor extraído de la distribución normal truncada, consulte Robert (1995), Lynch (2007, Sección 8.1.3 (páginas 200–206)), Devroye (1986). El paquete MSM en R tiene una función, rtnorm, que calcula valores extraídos de una distribución normal truncada. El paquete truncnorm en R también tiene funciones para extraer valores de una distribución normal truncada.

Chopin (2011) propuso (arXiv) un algoritmo inspirado en el algoritmo Ziggurat de Marsaglia y Tsang (1984, 2000), que suele considerarse el muestreador gaussiano más rápido, y que también es muy cercano al algoritmo de Ahrens (1995). Se pueden encontrar implementaciones en C, C++, Matlab y Python.

El muestreo de la distribución normal truncada multivariada es considerablemente más difícil. [11] La simulación exacta o perfecta solo es factible en el caso del truncamiento de la distribución normal a una región politópica. [11] [12] En casos más generales, Damien y Walker (2001) introducen una metodología general para el muestreo de densidades truncadas dentro de un marco de muestreo de Gibbs . Su algoritmo introduce una variable latente y, dentro de un marco de muestreo de Gibbs, es computacionalmente más eficiente que el algoritmo de Robert (1995).

Véase también

Notas

  1. ^ "Conferencia 4: Selección" (PDF) . web.ist.utl.pt.Instituto Superior Técnico . 11 de noviembre de 2002. p. 1 . Consultado el 14 de julio de 2015 .
  2. ^ Dowson, D.; Wragg, A. (septiembre de 1973). "Distribuciones de máxima entropía con momentos primero y segundo prescritos (Corresp.)". IEEE Transactions on Information Theory . 19 (5): 689–693. doi :10.1109/TIT.1973.1055060. ISSN  1557-9654.
  3. ^ Frank Nielsen (2022). "Divergencias estadísticas entre densidades de familias exponenciales truncadas con soportes anidados: divergencias dúo Bregman y dúo Jensen". Entropía . 24 (3). MDPI: 421. Bibcode :2022Entrp..24..421N. doi : 10.3390/e24030421 . PMC 8947456 . PMID  35327931. 
  4. ^ Johnson, Norman Lloyd; Kotz, Samuel; Balakrishnan, N. (1994). Distribuciones univariadas continuas. Vol. 1 (2.ª ed.). Nueva York: Wiley. Sección 10.1. ISBN 0-471-58495-9.OCLC 29428092  .
  5. ^ Fernandez-de-Cossio-Diaz, Jorge (2017-12-06), TruncatedNormal.jl: Calcular la media y la varianza de la distribución normal truncada univariada (funciona lejos del pico) , recuperado el 2017-12-06
  6. ^ Greene, William H. (2003). Análisis econométrico (5.ª ed.). Prentice Hall. ISBN 978-0-13-066189-0.
  7. ^ Documento de Eric Orjebin, "https://people.smp.uq.edu.au/YoniNazarathy/teaching_projects/studentWork/EricOrjebin_TruncatedNormalMoments.pdf"
  8. ^ Kroese, DP ; Taimre, T.; Botev, ZI (2011). Manual de métodos de Monte Carlo . John Wiley & Sons.
  9. ^ ab Botev, ZI; L'Ecuyer, P. (2017). "Simulación a partir de la distribución normal truncada a un intervalo en la cola". 10.ª Conferencia internacional EAI sobre metodologías y herramientas de evaluación del desempeño . 25-28 de octubre de 2016 Taormina, Italia: ACM. pp. 23-29. doi :10.4108/eai.25-10-2016.2266879. ISBN 978-1-63190-141-6.{{cite conference}}: CS1 maint: location (link)
  10. ^ Marsaglia, George (1964). "Generación de una variable a partir de la cola de la distribución normal". Technometrics . 6 (1): 101–102. doi :10.2307/1266749. JSTOR  1266749.
  11. ^ ab Botev, ZI (2016). "La ley normal bajo restricciones lineales: simulación y estimación mediante inclinación minimax". Revista de la Royal Statistical Society, Serie B. 79 : 125–148. arXiv : 1603.04166 . doi : 10.1111/rssb.12162. S2CID  88515228.
  12. ^ Botev, Zdravko y L'Ecuyer, Pierre (2018). "Capítulo 8: Simulación a partir de la cola de la distribución normal univariante y multivariante". En Puliafito, Antonio (ed.). Modelado de sistemas: metodologías y herramientas. EAI/Springer Innovations in Communication and Computing . Springer, Cham. págs. 115–132. doi :10.1007/978-3-319-92378-9_8. ISBN 978-3-319-92377-2.S2CID 125554530  .
  13. ^ Sun, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente". Comunicaciones en estadística: teoría y métodos . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

Referencias