stringtranslate.com

Distribución normal plegada

La distribución normal plegada es una distribución de probabilidad relacionada con la distribución normal . Dada una variable aleatoria X con distribución normal con media μ y varianza σ 2 , la variable aleatoria Y = | X | tiene una distribución normal plegada. Tal caso puede darse si solo se registra la magnitud de alguna variable, pero no su signo. La distribución se llama "plegada" porque la masa de probabilidad a la izquierda de x = 0 se pliega tomando el valor absoluto . En la física de la conducción de calor , la distribución normal plegada es una solución fundamental de la ecuación del calor en el semiespacio; corresponde a tener un aislante perfecto en un hiperplano que pasa por el origen.

Definiciones

Densidad

La función de densidad de probabilidad (PDF) está dada por

para x ≥ 0, y 0 en todos los demás lugares. Una formulación alternativa viene dada por

,

donde cosh es la función coseno hiperbólico . De ello se deduce que la función de distribución acumulativa (CDF) viene dada por:

para x ≥ 0, donde erf() es la función de error . Esta expresión se reduce a la CDF de la distribución seminormal cuando μ = 0.

La media de la distribución plegada es entonces

o

¿Dónde está la función de distribución acumulativa normal ?

La varianza se expresa entonces fácilmente en términos de la media:

Tanto la media ( μ ) como la varianza ( σ 2 ) de X en la distribución normal original pueden interpretarse como los parámetros de ubicación y escala de Y en la distribución plegada.

Propiedades

Modo

La moda de la distribución es el valor de para el cual se maximiza la densidad. Para hallar este valor, tomamos la primera derivada de la densidad con respecto a y la igualamos a cero. Lamentablemente, no existe una forma cerrada. Sin embargo, podemos escribir la derivada de una mejor manera y terminar con una ecuación no lineal.

.

Tsagris et al. (2014) observaron a partir de una investigación numérica que cuando , se alcanza el máximo cuando , y cuando se vuelve mayor que , el máximo se acerca a . Por supuesto, esto es algo que se espera, ya que, en este caso, la normal plegada converge a la distribución normal. Para evitar cualquier problema con varianzas negativas, se sugiere la exponenciación del parámetro. Alternativamente, puede agregar una restricción, como si el optimizador opta por una varianza negativa, el valor de la verosimilitud logarítmica es NA o algo muy pequeño.

Función característica y otras funciones relacionadas

.

.

.

.

.

Distribuciones relacionadas

Inferencia estadística

Estimación de parámetros

Existen varias formas de estimar los parámetros de la normal plegada. Todas ellas son, en esencia, el procedimiento de estimación de máxima verosimilitud, pero en algunos casos se realiza una maximización numérica, mientras que en otros se busca la raíz de una ecuación. La verosimilitud logarítmica de la normal plegada cuando se dispone de una muestra de tamaño adecuado se puede escribir de la siguiente manera:

En R (lenguaje de programación) , utilizando el paquete Rfast se puede obtener el MLE muy rápido (comando foldnorm.mle). Alternativamente, el comando optim o nlm se ajustará a esta distribución. La maximización es fácil, ya que intervienen dos parámetros ( y ). Nótese que tanto los valores positivos como los negativos para son aceptables, ya que pertenece a la línea real de números, por lo tanto, el signo no es importante porque la distribución es simétrica con respecto a él. El siguiente código está escrito en R

plegado <- función ( y ) {    ## y es un vector con datos positivos n <- longitud ( y ) ## tamaño de muestra sy2 <- suma ( y ^ 2 )        sam <- función ( para , n , sy2 ) { yo <- para [ 1 ] ; se <- exp ( para [ 2 ] ) f <- - n / 2 * log ( 2 / pi / se ) + n * yo ^ 2 / 2 / se + sy2 / 2 / se - suma ( log ( cosh ( yo * y / se ) ) ) f }                                               mod <- optim ( c ( media ( y ), sd ( y ) ), n = n , sy2 = sy2 , sam , control = list ( maxit = 2000 ) ) mod <- optim ( mod $ par , sam , n = n , sy2 = sy2 , control = list ( maxit = 20000 ) ) resultado <- c ( - mod $ valor , mod $ par [ 1 ], exp ( mod $ par [ 2 ]) ) nombres ( resultado ) <- c ( "log-verosimilitud" , "mu" , "sigma al cuadrado" ) resultado                                                 }

Las derivadas parciales de la log-verosimilitud se escriben como

.

Al igualar la primera derivada parcial de la verosimilitud logarítmica a cero, obtenemos una bonita relación

.

Nótese que la ecuación anterior tiene tres soluciones, una en cero y dos más con el signo opuesto. Al sustituir la ecuación anterior, en la derivada parcial de la verosimilitud logarítmica con respecto a e igualarla a cero, obtenemos la siguiente expresión para la varianza.

,

que es la misma fórmula que en la distribución normal . Una diferencia principal aquí es que y no son estadísticamente independientes. Las relaciones anteriores se pueden utilizar para obtener estimaciones de máxima verosimilitud de una manera recursiva eficiente. Comenzamos con un valor inicial para y encontramos la raíz positiva ( ) de la última ecuación. Luego, obtenemos un valor actualizado de . El procedimiento se repite hasta que el cambio en el valor de log-verosimilitud sea insignificante. Otra forma más fácil y eficiente es realizar un algoritmo de búsqueda. Escribamos la última ecuación de una manera más elegante.

.

Se hace evidente que la optimización de la verosimilitud logarítmica con respecto a los dos parámetros se ha convertido en una búsqueda de raíz de una función. Por supuesto, esto es idéntico a la búsqueda de raíz anterior. Tsagris et al. (2014) observaron que hay tres raíces para esta ecuación para , es decir, hay tres valores posibles de que satisfacen esta ecuación. y , que son las estimaciones de máxima verosimilitud y 0, que corresponde a la verosimilitud logarítmica mínima.

Véase también

Referencias

  1. ^ ab Sun, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente" (PDF) . Comunicaciones en estadística: teoría y métodos . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

Enlaces externos