stringtranslate.com

Distribución beta

En teoría de probabilidad y estadística , la distribución beta es una familia de distribuciones de probabilidad continuas definidas en el intervalo [0, 1] o (0, 1) en términos de dos parámetros positivos , denotados por alfa ( α ) y beta ( β ), que aparecen como exponentes de la variable y su complemento a 1, respectivamente, y controlan la forma de la distribución.

La distribución beta se ha aplicado para modelar el comportamiento de variables aleatorias limitadas a intervalos de longitud finita en una amplia variedad de disciplinas. La distribución beta es un modelo adecuado para el comportamiento aleatorio de porcentajes y proporciones.

En la inferencia bayesiana , la distribución beta es la distribución de probabilidad previa conjugada para las distribuciones de Bernoulli , binomial , binomial negativa y geométrica .

La formulación de la distribución beta analizada aquí también se conoce como distribución beta del primer tipo , mientras que distribución beta del segundo tipo es un nombre alternativo para la distribución beta principal . La generalización a múltiples variables se llama distribución de Dirichlet .

Definiciones

Función de densidad de probabilidad

Una animación de la distribución Beta para diferentes valores de sus parámetros.

La función de densidad de probabilidad (PDF) de la distribución beta, para o , y los parámetros de forma , es una función de potencia de la variable y de su reflejo de la siguiente manera:

¿Dónde está la función gamma ? La función beta , es una constante de normalización para garantizar que la probabilidad total sea 1. En las ecuaciones anteriores hay una realización (un valor observado que realmente ocurrió) de una variable aleatoria .

Varios autores, entre ellos NL Johnson y S. Kotz , [1] utilizan los símbolos y (en lugar de y ) para los parámetros de forma de la distribución beta, que recuerdan a los símbolos utilizados tradicionalmente para los parámetros de la distribución de Bernoulli , porque la distribución beta se acerca a la distribución de Bernoulli en el límite cuando ambos parámetros de forma se acercan al valor de cero.

A continuación, una variable aleatoria distribuida beta con parámetros se denotará por: [2] [3]

Otras notaciones para variables aleatorias con distribución beta utilizadas en la literatura estadística son [4] y . [5]

Función de distribución acumulativa

CDF para distribución beta simétrica frente a xα  =  β
CDF para distribución beta asimétrica frente a xβ  = 5 α

La función de distribución acumulativa es

donde es la función beta incompleta y es la función beta incompleta regularizada .

Parametrizaciones alternativas

Dos parámetros

Tamaño medio y muestral

La distribución beta también se puede reparar en términos de su media μ (0 < μ < 1) y la suma de los dos parámetros de forma ν = α + β > 0 ( [3] p. 83). Denotando por αPosterior y βPosterior los parámetros de forma de la distribución beta posterior resultante de aplicar el teorema de Bayes a una función de verosimilitud binomial y una probabilidad previa, la interpretación de la suma de ambos parámetros de forma es tamaño de muestra = ν = α ·Posterior + β · Posterior solo es correcto para la probabilidad anterior Beta (0,0) de Haldane. Específicamente, para Beta(1,1) anterior de Bayes (uniforme), la interpretación correcta sería tamaño de muestra = α ·Posterior + β  Posterior − 2, o ν = (tamaño de muestra) + 2. Para un tamaño de muestra mucho mayor que 2, la diferencia entre estos dos priores se vuelve insignificante. (Consulte la sección Inferencia bayesiana para obtener más detalles). ν = α + β se conoce como el "tamaño de muestra" de una distribución Beta, pero se debe recordar que, estrictamente hablando, es el "tamaño de muestra" de una función de probabilidad binomial. sólo cuando se utiliza un Haldane Beta(0,0) anterior en el teorema de Bayes.

Esta parametrización puede resultar útil en la estimación de parámetros bayesianos. Por ejemplo, se puede administrar una prueba a varios individuos. Si se supone que la puntuación de cada persona (0 ≤ θ ≤ 1) se extrae de una distribución Beta a nivel de población, entonces una estadística importante es la media de esta distribución a nivel de población. Los parámetros de tamaño medio y de muestra están relacionados con los parámetros de forma α y β mediante [3]

α = μν , β = (1 − μ ) ν

Bajo esta parametrización , se puede colocar una probabilidad previa no informativa sobre la media, y una probabilidad previa vaga (como una distribución exponencial o gamma) sobre los reales positivos para el tamaño de la muestra, si son independientes, y los datos y/o creencias anteriores justificarlo.

Modo y concentración.

Las distribuciones beta cóncavas , que tienen , se pueden parametrizar en términos de modo y "concentración". La moda, y la concentración, se pueden utilizar para definir los parámetros de forma habituales de la siguiente manera: [6]

Para que la moda, esté bien definida, necesitamos , o equivalentemente . Si en cambio definimos la concentración como , la condición se simplifica a y la densidad beta en y puede escribirse como:

donde escala directamente las estadísticas suficientes , y . Tenga en cuenta también que en el límite, la distribución se vuelve plana.

Media y varianza

Resolviendo el sistema de ecuaciones (acopladas) dado en las secciones anteriores como las ecuaciones para la media y la varianza de la distribución beta en términos de los parámetros originales α y β , se pueden expresar los parámetros α y β en términos de la media ( μ ) y la varianza (var):

Esta parametrización de la distribución beta puede conducir a una comprensión más intuitiva que la basada en los parámetros originales α y β . Por ejemplo, expresando la moda, la asimetría, el exceso de curtosis y la entropía diferencial en términos de la media y la varianza:

Cuatro parámetros

Se admite una distribución beta con los dos parámetros de forma α y β en el rango [0,1] o (0,1). Es posible alterar la ubicación y escala de la distribución introduciendo dos parámetros adicionales que representan los valores mínimo, a y máximo c ( c > a ) de la distribución, [1] mediante una transformación lineal que sustituye la variable adimensional x en términos de la nueva variable y (con soporte [ a , c ] o ( a , c )) y los parámetros a y c :

La función de densidad de probabilidad de la distribución beta de cuatro parámetros es igual a la distribución de dos parámetros, escalada por el rango ( c  −  a ), (de modo que el área total bajo la curva de densidad sea igual a una probabilidad de uno), y con el "y "variable desplazada y escalada de la siguiente manera:

Que una variable aleatoria Y tenga distribución Beta con cuatro parámetros α, β, a y c se denotará por:

Algunas medidas de ubicación central se escalan (por ( c  −  a )) y se desplazan (por a ), de la siguiente manera:

Nota: la media geométrica y la media armónica no se pueden transformar mediante una transformación lineal de la misma manera que lo hacen la media, la mediana y la moda.

Los parámetros de forma de Y se pueden escribir en términos de su media y varianza como

Las medidas de dispersión estadística están escaladas (no es necesario desplazarlas porque ya están centradas en la media) por el rango ( c  −  a ), linealmente para la desviación media y no linealmente para la varianza:

Dado que la asimetría y el exceso de curtosis son cantidades adimensionales (como momentos centrados en la media y normalizados por la desviación estándar ), son independientes de los parámetros a y c y, por lo tanto, iguales a las expresiones dadas anteriormente en términos de X (con soporte [0,1] o (0,1)):

Propiedades

Medidas de tendencia central

Modo

La moda de una variable aleatoria X distribuida Beta con α , β > 1 es el valor más probable de la distribución (correspondiente al pico en la PDF) y viene dada por la siguiente expresión: [1]

Cuando ambos parámetros son menores que uno ( α , β < 1), este es el antimodo: el punto más bajo de la curva de densidad de probabilidad. [7]

Dejando α = β , la expresión de la moda se simplifica a 1/2, mostrando que para α = β > 1 la moda (resp. antimoda cuando α , β < 1 ) está en el centro de la distribución: es simétrico en esos casos. Consulte la sección Formas de este artículo para obtener una lista completa de casos modales, para valores arbitrarios de α y β . Para varios de estos casos, el valor máximo de la función de densidad se produce en uno o ambos extremos. En algunos casos, el valor (máximo) de la función de densidad que aparece al final es finito. Por ejemplo, en el caso de α = 2, β = 1 (o α = 1, β = 2), la función de densidad se convierte en una distribución de triángulo rectángulo que es finita en ambos extremos. En varios otros casos hay una singularidad en un extremo, donde el valor de la función de densidad se acerca al infinito. Por ejemplo, en el caso α = β = 1/2, la distribución Beta se simplifica para convertirse en la distribución arcoseno . Existe un debate entre los matemáticos sobre algunos de estos casos y sobre si los extremos ( x = 0 y x = 1) pueden llamarse modos o no. [8] [2]

Modo de distribución Beta para 1 ≤ α ≤ 5 y 1 ≤ β ≤ 5

Mediana

Mediana de la distribución Beta para 0 ≤ α ≤ 5 y 0 ≤ β ≤ 5
(Media-mediana) para la distribución Beta versus alfa y beta de 0 a 2

La mediana de la distribución beta es el único número real para el cual la función beta incompleta regularizada . No existe una expresión general cerrada para la mediana de la distribución beta para valores arbitrarios de α y β . A continuación se muestran expresiones en forma cerrada para valores particulares de los parámetros α y β : [ cita necesaria ]

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites: [ cita necesaria ]

Una aproximación razonable del valor de la mediana de la distribución beta, tanto para α como para β mayor o igual a uno, viene dada por la fórmula [9]

Cuando α, β ≥ 1, el error relativo (el error absoluto dividido por la mediana) en esta aproximación es inferior al 4% y tanto para α ≥ 2 como para β ≥ 2 es inferior al 1%. El error absoluto dividido por la diferencia entre la media y la moda es igualmente pequeño:

Abs[(Mediana-Aprob.)/Mediana] para distribución Beta para 1 ≤ α ≤ 5 y 1 ≤ β ≤ 5Abs[(Median-Appr.)/(Mean-Mode)] para distribución Beta para 1≤α≤5 y 1≤β≤5

Significar

Media de la distribución Beta para 0 ≤ α ≤ 5 y 0 ≤ β ≤ 5

El valor esperado (media) ( μ ) de una variable aleatoria de distribución Beta X con dos parámetros α y β es función únicamente de la relación β / α de estos parámetros: [1]

Dejando α = β en la expresión anterior se obtiene μ = 1/2 , mostrando que para α = β la media está en el centro de la distribución: es simétrica. Además, de la expresión anterior se pueden obtener los siguientes límites:

Por lo tanto, para β / α → 0, o para α / β → ∞, la media se ubica en el extremo derecho, x = 1 . Para estas razones límite, la distribución beta se convierte en una distribución degenerada de un punto con un pico de función delta de Dirac en el extremo derecho, x = 1 , con probabilidad 1 y probabilidad cero en el resto. Hay 100% de probabilidad (certeza absoluta) concentrada en el extremo derecho, x = 1 .

De manera similar, para β / α → ∞, o para α / β → 0, la media se ubica en el extremo izquierdo, x = 0 . La distribución beta se convierte en una distribución degenerada de 1 punto con un pico de función delta de Dirac en el extremo izquierdo, x = 0, con probabilidad 1 y probabilidad cero en el resto. Hay 100% de probabilidad (certeza absoluta) concentrada en el extremo izquierdo, x = 0. A continuación se muestran los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

Mientras que para distribuciones unimodales típicas (con modas ubicadas centralmente, puntos de inflexión a ambos lados de la moda y colas más largas) (con Beta( αβ ) tal que α , β > 2 ), se sabe que la media muestral (como estimación de ubicación) no es tan robusta como la mediana de la muestra, lo contrario es el caso para distribuciones bimodales uniformes o "en forma de U" (con Beta( αβ ) tal que α , β ≤ 1 ), con las modas ubicadas en los extremos de la distribución. Como señalan Mosteller y Tukey ( [10] p. 207) "el promedio de las dos observaciones extremas utiliza toda la información de la muestra. Esto ilustra cómo, para distribuciones de cola corta, las observaciones extremas deberían tener más peso". Por el contrario, se deduce que la mediana de las distribuciones bimodales en "forma de U" con modas en el borde de la distribución (con Beta( αβ ) tal que α , β ≤ 1 ) no es robusta, ya que la mediana muestral cae la observaciones de muestras extremas de la consideración. Una aplicación práctica de esto ocurre por ejemplo para paseos aleatorios , ya que la probabilidad para el momento de la última visita al origen en un paseo aleatorio se distribuye como la distribución arcoseno Beta(1/2, 1/2): [5] [ 11] la media de un número de realizaciones de un paseo aleatorio es un estimador mucho más robusto que la mediana (que es una estimación de medida muestral inapropiada en este caso).

Significado geometrico

(Media - Media geométrica) para la distribución Beta versus α y β de 0 a 2, que muestra la asimetría entre α y β para la media geométrica
Medias geométricas para la distribución Beta Púrpura = G ( x ), Amarillo = G (1 −  x ), valores más pequeños α y β al frente
Medias geométricas para la distribución Beta. morado = G ( x ), amarillo = G (1 −  x ), valores más grandes α y β al frente

El logaritmo de la media geométrica G X de una distribución con variable aleatoria X es la media aritmética de ln( X ), o, de manera equivalente, su valor esperado:

Para una distribución beta, la integral del valor esperado da:

donde ψ es la función digamma .

Por lo tanto, la media geométrica de una distribución beta con parámetros de forma α y β es la exponencial de las funciones digamma de α y β de la siguiente manera:

Mientras que para una distribución beta con parámetros de forma iguales α = β, se deduce que asimetría = 0 y moda = media = mediana = 1/2, la media geométrica es menor que 1/2: 0 < G X < 1/2 . La razón de esto es que la transformación logarítmica pondera fuertemente los valores de X cercanos a cero, ya que ln( X ) tiende fuertemente hacia el infinito negativo cuando X se acerca a cero, mientras que ln( X ) se aplana hacia cero cuando X → 1 .

A lo largo de una línea α = β , se aplican los siguientes límites:

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

El gráfico adjunto muestra la diferencia entre la media y la media geométrica para los parámetros de forma α y β de cero a 2. Además del hecho de que la diferencia entre ellos se acerca a cero cuando α y β se acercan al infinito y que la diferencia se vuelve grande para valores de α y β acercándose a cero, se puede observar una evidente asimetría de la media geométrica con respecto a los parámetros de forma α y β. La diferencia entre la media geométrica y la media es mayor para valores pequeños de α en relación con β que cuando se intercambian las magnitudes de β y α.

NLJohnson y S. Kotz [1] sugieren la aproximación logarítmica a la función digamma ψ ( α ) ≈ ln( α  − 1/2) que resulta en la siguiente aproximación a la media geométrica:

Los valores numéricos para el error relativo en esta aproximación son los siguientes: [ ( α = β = 1): 9,39 % ]; [ ( α = β =2): 1,29% ]; [ ( α = 2, β = 3): 1,51% ]; [ ( α = 3, β = 2): 0,44% ]; [ ( α = β = 3): 0,51% ]; [ ( α = β = 4): 0,26% ]; [ ( α = 3, β = 4): 0,55% ]; [ ( α = 4, β = 3): 0,24% ].

De manera similar, se puede calcular el valor de los parámetros de forma necesarios para que la media geométrica sea igual a 1/2. Dado el valor del parámetro β , ¿cuál sería el valor del otro parámetro,  α , requerido para que la media geométrica sea igual a 1/2? La respuesta es que (para β > 1 ), el valor de α requerido tiende hacia β + 1/2 cuando β → ∞ . Por ejemplo, todas estas parejas tienen la misma media geométrica de 1/2: [ β = 1, α = 1,4427 ], [ β = 2, α = 2,46958 ], [ β = 3, α = 3,47943 ], [ β = 4 , α = 4,48449 ], [ β = 5, α = 5,48756 ], [ β = 10, α = 10,4938 ], [ β = 100, α = 100,499 ].

La propiedad fundamental de la media geométrica, que puede demostrarse que es falsa para cualquier otra media, es

Esto hace que la media geométrica sea la única media correcta al promediar resultados normalizados , es decir, resultados que se presentan como proporciones con respecto a valores de referencia. [12] Esto es relevante porque la distribución beta es un modelo adecuado para el comportamiento aleatorio de porcentajes y es particularmente adecuado para el modelado estadístico de proporciones. La media geométrica juega un papel central en la estimación de máxima verosimilitud; consulte la sección "Estimación de parámetros, máxima verosimilitud". En realidad, al realizar la estimación de máxima verosimilitud, además de la media geométrica G X basada en la variable aleatoria X, también aparece naturalmente otra media geométrica: la media geométrica basada en la transformación lineal –– (1 − X ) , la imagen especular de X , denotado por G (1− X ) :

A lo largo de una línea α = β , se aplican los siguientes límites:

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

Tiene el siguiente valor aproximado:

Aunque tanto G X como G (1− X ) son asimétricos, en el caso de que ambos parámetros de forma sean iguales α = β , las medias geométricas son iguales: G X = G (1− X ) . Esta igualdad se desprende de la siguiente simetría que se presenta entre ambas medias geométricas:

Significado armonico

Media armónica de la distribución beta para 0 <  α  < 5 y 0 <  β  < 5
Media armónica para la distribución beta versus α y β de 0 a 2
Medias armónicas para la distribución beta Púrpura = H ( X ), Amarillo = H (1 −  X ), valores más pequeños α y β al frente
Medios armónicos para la distribución Beta Púrpura = H ( X ), Amarillo = H (1 −  X ), valores más grandes α y β al frente

La inversa de la media armónica ( H X ) de una distribución con variable aleatoria X es la media aritmética de 1/ X o, de manera equivalente, su valor esperado. Por tanto, la media armónica ( H X ) de una distribución beta con parámetros de forma α y β es:

La media armónica ( H X ) de una distribución Beta con α < 1 no está definida, porque su expresión definitoria no está limitada en [0, 1] para el parámetro de forma α menor que la unidad.

Dejando α = β en la expresión anterior se obtiene

mostrando que para α = β la media armónica varía de 0, para α = β = 1, a 1/2, para α = β → ∞.

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

La media armónica juega un papel en la estimación de máxima verosimilitud para el caso de cuatro parámetros, además de la media geométrica. En realidad, al realizar la estimación de máxima verosimilitud para el caso de cuatro parámetros, además de la media armónica H X basada en la variable aleatoria X , también aparece naturalmente otra media armónica: la media armónica basada en la transformación lineal (1 − X ), la media armónica basada en la transformación lineal (1 −  X ), la imagen de X , denotada por H 1 −  X :

La media armónica ( H (1 −  X ) ) de una distribución Beta con β < 1 no está definida, porque su expresión definitoria no está acotada en [0, 1] para el parámetro de forma β menor que la unidad.

Dejando α = β en la expresión anterior se obtiene

mostrando que para α = β la media armónica varía de 0, para α = β = 1, a 1/2, para α = β → ∞.

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

Aunque tanto H X como H 1− X son asimétricos, en el caso de que ambos parámetros de forma sean iguales α = β , las medias armónicas son iguales: H X ​​= H 1− X . Esta igualdad se desprende de la siguiente simetría que se presenta entre ambas medias armónicas:

Medidas de dispersión estadística

Diferencia

La varianza (el segundo momento centrado en la media) de una variable aleatoria de distribución Beta X con parámetros α y β es: [1] [13]

Dejando α = β en la expresión anterior se obtiene

mostrando que para α = β la varianza disminuye monótonamente a medida que α = β aumenta. Al establecer α = β = 0 en esta expresión, se encuentra la varianza máxima var( X ) = 1/4 [1] que solo ocurre cuando se acerca al límite, en α = β = 0 .

La distribución beta también se puede parametrizar en términos de su media μ (0 < μ < 1) y el tamaño de la muestra ν = α + β ( ν > 0 ) (consulte la subsección Media y tamaño de la muestra):

Usando esta parametrización , se puede expresar la varianza en términos de la media μ y el tamaño de la muestra ν de la siguiente manera:

Dado que ν = α + β > 0 , se deduce que var( X ) < μ (1 − μ ) .

Para una distribución simétrica, la media está en el medio de la distribución, μ = 1/2 , y por lo tanto:

Además, los siguientes límites (solo la variable indicada se acerca al límite) se pueden obtener a partir de las expresiones anteriores:

Varianza geométrica y covarianza.

registrar varianzas geométricas frente a α y β
registrar varianzas geométricas frente a α y β

El logaritmo de la varianza geométrica, ln(var GX ), de una distribución con variable aleatoria X es el segundo momento del logaritmo de X centrado en la media geométrica de X , ln( G X ):

y por tanto, la varianza geométrica es:

En la matriz de información de Fisher , y la curvatura de la función logarítmica de verosimilitud , aparecen el logaritmo de la varianza geométrica de la variable  reflejada 1 − X y el logaritmo de la covarianza geométrica entre X y 1 −  X :

Para una distribución beta, se pueden derivar momentos logarítmicos de orden superior utilizando la representación de una distribución beta como una proporción de dos distribuciones Gamma y diferenciando mediante la integral. Se pueden expresar en términos de funciones poligamma de orden superior. Ver la sección § Momentos de variables aleatorias transformadas logarítmicamente. La varianza de las variables logarítmicas y la covarianza de ln  X y ln(1− X ) son:

donde la función trigamma , denotada ψ 1 (α), es la segunda de las funciones poligamma , y ​​se define como la derivada de la función digamma :

Por lo tanto,

Los gráficos adjuntos muestran las varianzas logarítmicas geométricas y la covarianza logarítmica geométrica versus los parámetros de forma α y β . Los gráficos muestran que las varianzas logarítmicas geométricas y la covarianza logarítmica geométrica son cercanas a cero para los parámetros de forma α y β mayores que 2, y que las varianzas logarítmicas geométricas aumentan rápidamente en valor para los valores de los parámetros de forma α y β menores que la unidad. Las varianzas geométricas logarítmicas son positivas para todos los valores de los parámetros de forma. La covarianza logarítmica geométrica es negativa para todos los valores de los parámetros de forma y alcanza grandes valores negativos para α y β menores que la unidad.

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

Límites con dos parámetros que varían:

Aunque tanto ln(var GX ) como ln(var G (1 −  X ) ) son asimétricos, cuando los parámetros de forma son iguales, α = β, se tiene: ln(var GX ) = ln(var G(1−X) ). Esta igualdad se deriva de la siguiente simetría mostrada entre ambas varianzas geométricas logarítmicas:

La covarianza logarítmica geométrica es simétrica:

Desviación media absoluta alrededor de la media

Relación de desviación absoluta media. a Desv.estándar. para distribución Beta con α y β que van de 0 a 5
Relación de desviación absoluta media. a Desv.estándar. para distribución Beta con media 0 ≤ μ ≤ 1 y tamaño de muestra 0 < ν ≤ 10

La desviación absoluta media alrededor de la media para la distribución beta con los parámetros de forma α y β es: [8]

La desviación media absoluta alrededor de la media es un estimador más robusto de la dispersión estadística que la desviación estándar para distribuciones beta con colas y puntos de inflexión a cada lado de la moda, distribuciones Beta( αβ ) con α , β > 2, ya que depende de las desviaciones lineales (absolutas) en lugar de las desviaciones cuadradas de la media. Por lo tanto, el efecto de desviaciones muy grandes de la media no está tan ponderado.

Utilizando la aproximación de Stirling a la función Gamma , NLJohnson y S.Kotz [1] derivaron la siguiente aproximación para valores de los parámetros de forma mayores que la unidad (el error relativo para esta aproximación es sólo −3,5% para α = β = 1, y disminuye a cero cuando α → ∞, β → ∞):

En el límite α → ∞, β → ∞, la relación entre la desviación absoluta media y la desviación estándar (para la distribución beta) se vuelve igual a la relación de las mismas medidas para la distribución normal: . Para α = β = 1 esta relación es igual a , de modo que de α = β = 1 a α, β → ∞ la relación disminuye en un 8,5%. Para α = β = 0, la desviación estándar es exactamente igual a la desviación media absoluta alrededor de la media. Por lo tanto, esta relación disminuye en un 15% de α = β = 0 a α = β = 1, y en un 25% de α = β = 0 a α, β → ∞. Sin embargo, para distribuciones beta asimétricas tales como α → 0 o β → 0, la relación entre la desviación estándar y la desviación absoluta media se acerca al infinito (aunque cada una de ellas, individualmente, se acerca a cero) porque la desviación absoluta media se acerca a cero más rápido que la Desviación Estándar.

Usando la parametrización en términos de media μ y tamaño de muestra ν = α + β > 0:

α = μν, β = (1−μ)ν

se puede expresar la desviación media absoluta alrededor de la media en términos de la media μ y el tamaño de la muestra ν de la siguiente manera:

Para una distribución simétrica, la media está en el medio de la distribución, μ = 1/2, y por lo tanto:

Además, los siguientes límites (solo la variable indicada se acerca al límite) se pueden obtener a partir de las expresiones anteriores:

Diferencia absoluta media

La diferencia absoluta media para la distribución Beta es:

El coeficiente de Gini para la distribución Beta es la mitad de la diferencia absoluta media relativa:

Oblicuidad

Asimetría de la distribución Beta en función de la varianza y la media

La asimetría (el tercer momento centrado en la media, normalizado por la potencia 3/2 de la varianza) de la distribución beta es [1]

Si α = β en la expresión anterior se obtiene γ 1 = 0, lo que demuestra una vez más que para α = β la distribución es simétrica y, por tanto, la asimetría es cero. Sesgo positivo (de cola derecha) para α < β, sesgo negativo (de cola izquierda) para α > β.

Usando la parametrización en términos de media μ y tamaño de muestra ν = α + β:

se puede expresar la asimetría en términos de la media μ y el tamaño de la muestra ν de la siguiente manera:

La asimetría también se puede expresar simplemente en términos de la varianza var y la media μ de la siguiente manera:

El gráfico adjunto de asimetría en función de la varianza y la media muestra que la varianza máxima (1/4) se combina con la asimetría cero y la condición de simetría (μ = 1/2), y que la asimetría máxima (infinito positivo o negativo) ocurre cuando la media se sitúa en un extremo o en el otro, de modo que la "masa" de la distribución de probabilidad se concentra en los extremos (varianza mínima).

La siguiente expresión para el cuadrado de la asimetría, en términos del tamaño de muestra ν = α + β y la varianza var , es útil para el método de estimación de momentos de cuatro parámetros:

Esta expresión da correctamente una asimetría de cero para α = β, ya que en ese caso (ver § Varianza): .

Para el caso simétrico (α = β), asimetría = 0 en todo el rango y se aplican los siguientes límites:

Para los casos asimétricos (α ≠ β), los siguientes límites (con solo la variable indicada acercándose al límite) se pueden obtener a partir de las expresiones anteriores:

Curtosis

Exceso de curtosis para la distribución beta en función de la varianza y la media

La distribución beta se ha aplicado en el análisis acústico para evaluar los daños a los engranajes, ya que se ha informado que la curtosis de la distribución beta es un buen indicador del estado de un engranaje. [14] La curtosis también se ha utilizado para distinguir la señal sísmica generada por los pasos de una persona de otras señales. Como las personas u otros objetivos que se mueven sobre el suelo generan señales continuas en forma de ondas sísmicas, se pueden separar diferentes objetivos en función de las ondas sísmicas que generan. La curtosis es sensible a las señales impulsivas, por lo que es mucho más sensible a la señal generada por los pasos humanos que otras señales generadas por vehículos, vientos, ruido, etc. [15] Desafortunadamente, la notación de la curtosis no se ha estandarizado. Kenney y Keeping [16] usan el símbolo γ 2 para el exceso de curtosis , pero Abramowitz y Stegun [17] usan una terminología diferente. Para evitar confusión [18] entre curtosis (el cuarto momento centrado en la media, normalizado por el cuadrado de la varianza) y exceso de curtosis, cuando se utilicen símbolos, se detallarán de la siguiente manera: [8] [19]

Dejando α = β en la expresión anterior se obtiene

.

Por lo tanto, para distribuciones beta simétricas, el exceso de curtosis es negativo, aumentando desde un valor mínimo de −2 en el límite como {α = β} → 0, y acercándose a un valor máximo de cero como {α = β} → ∞. El valor de −2 es el valor mínimo de exceso de curtosis que cualquier distribución (no sólo las distribuciones beta, sino cualquier distribución de cualquier tipo posible) puede alcanzar. Este valor mínimo se alcanza cuando toda la densidad de probabilidad está completamente concentrada en cada extremo x = 0 y x = 1, sin nada intermedio: una distribución de Bernoulli de 2 puntos con igual probabilidad 1/2 en cada extremo (un lanzamiento de moneda: ver sección siguiente "Curtosis delimitada por el cuadrado de la asimetría" para mayor discusión). La descripción de curtosis como una medida de los "valores atípicos potenciales" (o "valores extremos, raros y potenciales") de la distribución de probabilidad es correcta para todas las distribuciones, incluida la distribución beta. Cuando es raro, pueden ocurrir valores extremos en la distribución beta, cuanto mayor es su curtosis; de lo contrario, la curtosis es menor. Para α ≠ β, distribuciones beta asimétricas, el exceso de curtosis puede alcanzar valores positivos ilimitados (particularmente para α → 0 para β finito, o para β → 0 para α finito) porque el lado alejado de la moda producirá valores extremos ocasionales. La curtosis mínima tiene lugar cuando la densidad de masa se concentra igualmente en cada extremo (y por lo tanto la media está en el centro) y no hay probabilidad de densidad de masa entre los extremos.

Usando la parametrización en términos de media μ y tamaño de muestra ν = α + β:

se puede expresar el exceso de curtosis en términos de la media μ y el tamaño de la muestra ν de la siguiente manera:

El exceso de curtosis también se puede expresar en términos de los dos parámetros siguientes: la varianza var y el tamaño de la muestra ν de la siguiente manera:

y, en términos de la varianza var y la media μ como sigue:

La gráfica del exceso de curtosis en función de la varianza y la media muestra que el valor mínimo del exceso de curtosis (−2, que es el valor mínimo posible para el exceso de curtosis para cualquier distribución) está íntimamente relacionado con el valor máximo de la varianza ( 1/4) y la condición de simetría: la media que ocurre en el punto medio (μ = 1/2). Esto ocurre para el caso simétrico de α = β = 0, con asimetría cero. En el límite, esta es la distribución de Bernoulli de 2 puntos con igual probabilidad 1/2 en cada extremo de la función delta de Dirac x = 0 y x = 1 y probabilidad cero en el resto. (Un lanzamiento de moneda: una cara de la moneda es x = 0 y la otra cara es x = 1.) La varianza es máxima porque la distribución es bimodal sin nada entre los dos modos (picos) en cada extremo. El exceso de curtosis es mínimo: la densidad de probabilidad "masa" es cero en la media y se concentra en los dos picos de cada extremo. El exceso de curtosis alcanza el valor mínimo posible (para cualquier distribución) cuando la función de densidad de probabilidad tiene dos picos en cada extremo: es bi-"pico" sin nada entre ellos.

Por otro lado, el gráfico muestra que para casos extremadamente asimétricos, donde la media se ubica cerca de uno u otro extremo (μ = 0 o μ = 1), la varianza es cercana a cero y el exceso de curtosis se acerca rápidamente al infinito cuando la media de la distribución se acerca a cualquiera de los extremos.

Alternativamente, el exceso de curtosis también se puede expresar en términos de los dos parámetros siguientes: el cuadrado de la asimetría y el tamaño de la muestra ν de la siguiente manera:

A partir de esta última expresión, se pueden obtener los mismos límites publicados hace más de un siglo por Karl Pearson [20] para la distribución beta (ver la sección siguiente titulada "Kurtosis acotada por el cuadrado de la asimetría"). Al establecer α  +  β  =  ν  = 0 en la expresión anterior, se obtiene el límite inferior de Pearson (los valores para la asimetría y el exceso de curtosis por debajo del límite (exceso de curtosis + 2 − asimetría 2  = 0) no pueden ocurrir para ninguna distribución y, por lo tanto, Karl Pearson apropiadamente llamó a la región debajo de este límite la "región imposible"). El límite de α  +  β  =  ν  → ∞ determina el límite superior de Pearson.

por lo tanto:

Los valores de ν  =  α  +  β tales que ν varían de cero a infinito, 0 <  ν  < ∞, abarcan toda la región de la distribución beta en el plano de exceso de curtosis versus asimetría al cuadrado.

Para el caso simétrico ( α  =  β ), se aplican los siguientes límites:

Para los casos asimétricos ( α  ≠  β ), los siguientes límites (con solo la variable indicada acercándose al límite) se pueden obtener a partir de las expresiones anteriores:

Función característica

Re (función característica) caso simétrico α  =  β que oscila entre 25 y 0
Re (función característica) caso simétrico α  =  β que va de 0 a 25
Re(función característica) β = α  + 1/2; α  que oscila entre 25 y 0
Re(función característica) α  =  β  + 1/2; β que oscila entre 25 y 0
Re(función característica) α  =  β  + 1/2; β que va de 0 a 25

La función característica es la transformada de Fourier de la función de densidad de probabilidad. La función característica de la distribución beta es la función hipergeométrica confluente de Kummer (del primer tipo): [1] [17] [21]

dónde

es el factorial ascendente , también llamado "símbolo de Pochhammer". El valor de la función característica para t  = 0, es uno:

Además, las partes real e imaginaria de la función característica disfrutan de las siguientes simetrías con respecto al origen de la variable t :

El caso simétrico α = β simplifica la función característica de la distribución beta a una función de Bessel , ya que en el caso especial α + β = 2α la función hipergeométrica confluente (del primer tipo) se reduce a una función de Bessel (la función de Bessel modificada de el primer tipo ) usando la segunda transformación de Kummer de la siguiente manera:

En los gráficos adjuntos, la parte real (Re) de la función característica de la distribución beta se muestra para casos simétricos (α = β) y asimétricos (α ≠ β).

Otros momentos

Función generadora de momento

También se deduce [1] [8] que la función generadora de momento es

En particular MX ( α ; β ; 0) = 1.

Momentos más altos

Usando la función generadora de momentos , el k -ésimo momento bruto viene dado por [1] el factor

multiplicar el término (serie exponencial) en la serie de la función generadora de momento

donde ( x ) ( k ) es un símbolo de Pochhammer que representa el factorial ascendente. También se puede escribir en forma recursiva como

Dado que la función generadora de momentos tiene un radio de convergencia positivo, la distribución beta está determinada por sus momentos . [22]

Momentos de variables aleatorias transformadas.

Momentos de variables aleatorias transformadas linealmente, producto y invertidas.

También se pueden mostrar las siguientes expectativas para una variable aleatoria transformada, [1] donde la variable aleatoria X tiene distribución Beta con parámetros α y β : X ~ Beta ( αβ ). El valor esperado de la variable 1 −  X es la simetría especular del valor esperado basado en  X :

Debido a la simetría especular de la función de densidad de probabilidad de la distribución beta, las varianzas basadas en las variables X y 1 −  X son idénticas, y la covarianza en X (1 −  X es el negativo de la varianza:

Estos son los valores esperados para variables invertidas (estos están relacionados con las medias armónicas, ver § Media armónica):

La siguiente transformación al dividir la variable X por su imagen especular X /(1 −  X ) da como resultado el valor esperado de la "distribución beta invertida" o distribución beta prima (también conocida como distribución beta de segundo tipo o tipo VI de Pearson). ): [1]

Las varianzas de estas variables transformadas se pueden obtener mediante integración, ya que los valores esperados de los segundos momentos se centran en las variables correspondientes:

La siguiente varianza de la variable X dividida por su imagen especular ( X /(1− X ) da como resultado la varianza de la "distribución beta invertida" o distribución beta prima (también conocida como distribución beta de segundo tipo o tipo VI de Pearson). ): [1]

Las covarianzas son:

  Estas expectativas y variaciones aparecen en la matriz de información de Fisher de cuatro parámetros (§ Información de Fisher).

Momentos de variables aleatorias transformadas logarítmicamente.
Gráfica de logit( X ) = ln( X /(1 − X )) (eje vertical) vs. X en el dominio de 0 a 1 (eje horizontal). Las transformaciones logit son interesantes, ya que generalmente transforman varias formas (incluidas las formas de J) en densidades en forma de campana (generalmente sesgadas) sobre la variable logit, y pueden eliminar las singularidades finales sobre la variable original.

En esta sección se analizan los valores esperados para transformaciones logarítmicas (útiles para estimaciones de máxima verosimilitud , consulte § Estimación de parámetros, Máxima verosimilitud). Las siguientes transformaciones lineales logarítmicas están relacionadas con las medias geométricas G X y G (1− X ) (ver § Media geométrica):

Donde la función digamma ψ(α) se define como la derivada logarítmica de la función gamma : [17]

Las transformaciones logit son interesantes, [23] ya que generalmente transforman varias formas (incluidas las formas de J) en densidades en forma de campana (generalmente sesgadas) sobre la variable logit, y pueden eliminar las singularidades finales sobre la variable original:

Johnson [24] consideró la distribución de la variable logit transformada ln( X /1 −  X ), incluida su función generadora de momentos y aproximaciones para valores grandes de los parámetros de forma. Esta transformación extiende el soporte finito [0, 1] basado en la variable original X al soporte infinito en ambas direcciones de la línea real (−∞, +∞).

Los momentos logarítmicos de orden superior se pueden derivar utilizando la representación de una distribución beta como una proporción de dos distribuciones Gamma y diferenciando mediante la integral. Se pueden expresar en términos de funciones poligamma de orden superior de la siguiente manera:

por lo tanto la varianza de las variables logarítmicas y la covarianza de ln( X ) y ln(1− X ) son:

donde la función trigamma , denotada ψ 1 ( α ), es la segunda de las funciones poligamma , y ​​se define como la derivada de la función digamma :

Las varianzas y la covarianza de las variables X y (1 −  X ) transformadas logarítmicamente son diferentes, en general, porque la transformación logarítmica destruye la simetría especular de las variables X y (1 −  X ) originales, a medida que el logaritmo se acerca al infinito negativo para la variable se acerca a cero.

Estas varianzas logarítmicas y covarianzas son los elementos de la matriz de información de Fisher para la distribución beta. También son una medida de la curvatura de la función logarítmica de verosimilitud (consulte la sección sobre Estimación de máxima verosimilitud).

Las varianzas de las variables logarítmicas inversas son idénticas a las varianzas de las variables logarítmicas:

También se deduce que las varianzas de las variables transformadas logit son

Cantidades de información (entropía)

Dada una variable aleatoria con distribución beta, X ~ Beta( αβ ), la entropía diferencial de X es (medida en nats ), [25] el valor esperado del negativo del logaritmo de la función de densidad de probabilidad :

donde f ( x ; α , β ) es la función de densidad de probabilidad de la distribución beta:

La función digamma ψ aparece en la fórmula de la entropía diferencial como consecuencia de la fórmula integral de Euler para los números armónicos que se deriva de la integral:

La entropía diferencial de la distribución beta es negativa para todos los valores de α y β mayores que cero, excepto en α  =  β  = 1 (para cuyos valores la distribución beta es la misma que la distribución uniforme ), donde la entropía diferencial alcanza su máximo. valor de cero. Es de esperar que la entropía máxima tenga lugar cuando la distribución beta sea igual a la distribución uniforme, ya que la incertidumbre es máxima cuando todos los eventos posibles son equiprobables.

Para α o β que se acercan a cero, la entropía diferencial se acerca a su valor mínimo de infinito negativo. Para (uno o ambos) α o β acercarse a cero, hay una cantidad máxima de orden: toda la densidad de probabilidad se concentra en los extremos y hay una densidad de probabilidad cero en los puntos ubicados entre los extremos. De manera similar, para (uno o ambos) α o β que se acercan al infinito, la entropía diferencial se acerca a su valor mínimo de infinito negativo y a una cantidad máxima de orden. Si α o β se acerca al infinito (y el otro es finito), toda la densidad de probabilidad se concentra en un extremo y la densidad de probabilidad es cero en el resto. Si ambos parámetros de forma son iguales (el caso simétrico), α = β , y se acercan al infinito simultáneamente, la densidad de probabilidad se convierte en un pico ( función delta de Dirac ) concentrado en el medio x  = 1/2, y por lo tanto hay 100% de probabilidad. en el medio x  = 1/2 y probabilidad cero en el resto.

La entropía diferencial (caso continuo) fue introducida por Shannon en su artículo original (donde la llamó "entropía de una distribución continua"), como parte final del mismo artículo donde definió la entropía discreta . [26] Se sabe desde entonces que la entropía diferencial puede diferir del límite infinitesimal de la entropía discreta en un desplazamiento infinito, por lo tanto la entropía diferencial puede ser negativa (como lo es para la distribución beta). Lo que realmente importa es el valor relativo de la entropía.

Dadas dos variables aleatorias distribuidas beta, X 1  ~ Beta ( αβ ) y X 2 ~ Beta ( α , β ), la entropía cruzada es (medida en nats) [27]

La entropía cruzada se ha utilizado como métrica de error para medir la distancia entre dos hipótesis. [28] [29] Su valor absoluto es mínimo cuando las dos distribuciones son idénticas. Es la medida de información más estrechamente relacionada con el logaritmo de máxima verosimilitud [27] (ver sección sobre "Estimación de parámetros. Estimación de máxima verosimilitud")).

La entropía relativa, o divergencia de Kullback-Leibler D KL ( X 1 || X 2 ), es una medida de la ineficiencia de suponer que la distribución es X 2 ~ Beta( α , β ) cuando la distribución es realmente X 1 ~ Beta ( α , β ). Se define de la siguiente manera (medido en nats).

La entropía relativa, o divergencia Kullback-Leibler , siempre es no negativa. A continuación se muestran algunos ejemplos numéricos:

La divergencia de Kullback-Leibler no es simétrica D KL ( X 1 || X 2 ) ≠ D KL ( X 2 || X 1 ) para el caso en el que las distribuciones beta individuales Beta(1, 1) y Beta(3, 3 ) son simétricos, pero tienen diferentes entropías h ( X 1 ) ≠ h ( X 2 ). El valor de la divergencia de Kullback depende de la dirección recorrida: si se pasa de una entropía más alta (diferencial) a una entropía más baja (diferencial) o al revés. En el ejemplo numérico anterior, la divergencia de Kullback mide la ineficiencia de suponer que la distribución es Beta (3, 3) (en forma de campana), en lugar de Beta (1, 1) (uniforme). La entropía "h" de Beta(1, 1) es mayor que la entropía "h" de Beta(3, 3) porque la distribución uniforme Beta(1, 1) tiene una cantidad máxima de desorden. La divergencia de Kullback es más de dos veces mayor (0,598803 en lugar de 0,267864) cuando se mide en la dirección de la entropía decreciente: la dirección que supone que la distribución (uniforme) Beta(1, 1) es Beta(3, 3) y no al revés. En este sentido restringido, la divergencia de Kullback es consistente con la segunda ley de la termodinámica .

La divergencia de Kullback-Leibler es simétrica D KL ( X 1 || X 2 ) = D KL ( X 2 || X 1 ) para los casos sesgados Beta(3, 0.5) y Beta(0.5, 3) que tienen igual entropía diferencial h ( X 1 ) = h ( X 2 ).

La condición de simetría:

se desprende de las definiciones anteriores y de la simetría especular f ( x ; α , β ) = f (1 − x ; α , β ) que disfruta la distribución beta.

Relaciones entre medidas estadísticas

Relación media, moda y mediana

Si 1 < α < β entonces moda ≤ mediana ≤ media. [9] Expresando la moda (sólo para α, β > 1), y la media en términos de α y β:

Si 1 < β < α entonces el orden de las desigualdades se invierte. Para α, β > 1 la distancia absoluta entre la media y la mediana es menor que el 5% de la distancia entre los valores máximo y mínimo de x . Por otro lado, la distancia absoluta entre la media y la moda puede alcanzar el 50% de la distancia entre los valores máximo y mínimo de x , para el caso ( patológico ) de α = 1 y β = 1, para cuyos valores la beta la distribución se acerca a la distribución uniforme y la entropía diferencial se acerca a su valor máximo y, por tanto, al máximo "desorden".

Por ejemplo, para α = 1,0001 y β = 1,00000001:

donde PDF representa el valor de la función de densidad de probabilidad .

Relación media, media geométrica y media armónica

:Media, Mediana, Media Geométrica y Media Armónica para distribución Beta con 0 < α = β < 5

Se sabe por la desigualdad de las medias aritméticas y geométricas que la media geométrica es menor que la media. De manera similar, la media armónica es menor que la media geométrica. El gráfico adjunto muestra que para α = β, tanto la media como la mediana son exactamente iguales a 1/2, independientemente del valor de α = β, y la moda también es igual a 1/2 para α = β > 1, sin embargo, las medias geométrica y armónica son inferiores a 1/2 y solo se aproximan a este valor asintóticamente cuando α = β → ∞.

Kurtosis delimitada por el cuadrado de la asimetría.

Parámetros α y β de distribución beta versus exceso de curtosis y asimetría al cuadrado

Como señaló Feller , [5] en el sistema Pearson la densidad de probabilidad beta aparece como tipo I (cualquier diferencia entre la distribución beta y la distribución tipo I de Pearson es sólo superficial y no hace ninguna diferencia para la siguiente discusión sobre la relación entre curtosis y oblicuidad). Karl Pearson mostró, en la lámina 1 de su artículo [20] publicado en 1916, un gráfico con la curtosis como eje vertical ( ordenadas ) y el cuadrado de la asimetría como eje horizontal ( abcisas ), en el que se representaban varias distribuciones. desplegado. [30] La región ocupada por la distribución beta está delimitada por las dos líneas siguientes en el plano (asimetría 2 , curtosis) o el plano (asimetría 2 , exceso de curtosis) :

o equivalente,

En una época en la que no había ordenadores digitales potentes, Karl Pearson calculó con precisión otros límites, [31] [20] por ejemplo, separando las distribuciones en "forma de U" de las "en forma de J". La línea límite inferior (exceso de curtosis + 2 - asimetría 2 = 0) se produce por distribuciones beta asimétricas en "forma de U" con ambos valores de los parámetros de forma α y β cercanos a cero. La línea límite superior (exceso de curtosis − (3/2) asimetría 2 = 0) se produce por distribuciones extremadamente sesgadas con valores muy grandes de uno de los parámetros y valores muy pequeños del otro parámetro. Karl Pearson demostró [20] que esta línea límite superior (curtosis excesiva − (3/2) asimetría 2 = 0) es también la intersección con la distribución III de Pearson, que tiene apoyo ilimitado en una dirección (hacia el infinito positivo), y puede ser en forma de campana o en forma de J. Su hijo, Egon Pearson , demostró [30] que la región (en el plano de curtosis/asimetría al cuadrado) ocupada por la distribución beta (equivalentemente, la distribución I de Pearson) a medida que se aproxima a este límite (exceso de curtosis − (3/2) asimetría 2 = 0) se comparte con la distribución chi-cuadrado no central . Karl Pearson [32] (Pearson 1895, págs. 357, 360, 373–376) también demostró que la distribución gamma es una distribución de Pearson tipo III. Por lo tanto, esta línea límite para la distribución tipo III de Pearson se conoce como línea gamma. (Esto se puede demostrar por el hecho de que el exceso de curtosis de la distribución gamma es 6/ k y el cuadrado de la asimetría es 4/ k , por lo tanto (el exceso de curtosis − (3/2) asimetría 2 = 0) se satisface de forma idéntica mediante la distribución gamma independientemente del valor del parámetro "k"). Pearson señaló más tarde que la distribución chi-cuadrado es un caso especial del tipo III de Pearson y también comparte esta línea límite (como se desprende del hecho de que para la distribución chi-cuadrado el exceso de curtosis es 12/ k y el cuadrado de la la asimetría es 8/ k , por lo tanto (el exceso de curtosis − (3/2) asimetría 2 = 0) se satisface de manera idéntica independientemente del valor del parámetro "k"). Esto es de esperarse, ya que la distribución chi-cuadrado X ~ χ 2 ( k ) es un caso especial de la distribución gamma, con parametrización X ~ Γ(k/2, 1/2) donde k es un entero positivo que especifica el "número de grados de libertad" de la distribución chi-cuadrado.

Un ejemplo de una distribución beta cerca del límite superior (exceso de curtosis − (3/2) asimetría 2 = 0) viene dado por α = 0,1, β = 1000, para lo cual la relación (exceso de curtosis)/(asimetría 2 ) = 1,49835 se acerca al límite superior de 1,5 desde abajo. Un ejemplo de una distribución beta cerca del límite inferior (exceso de curtosis + 2 − asimetría 2 = 0) viene dado por α = 0,0001, β = 0,1, para cuyos valores la expresión (exceso de curtosis + 2)/(asimetría 2 ) = 1,01621 se acerca al límite inferior de 1 desde arriba. En el límite infinitesimal para α y β que se aproximan a cero simétricamente, el exceso de curtosis alcanza su valor mínimo en −2. Este valor mínimo se produce en el punto en el que la línea límite inferior intersecta el eje vertical ( ordenada ). (Sin embargo, en el gráfico original de Pearson, la ordenada es curtosis, en lugar de curtosis excesiva, y aumenta hacia abajo en lugar de hacia arriba).

Los valores de asimetría y exceso de curtosis por debajo del límite inferior (exceso de curtosis + 2 - asimetría 2 = 0) no pueden ocurrir para ninguna distribución y, por lo tanto, Karl Pearson llamó apropiadamente a la región debajo de este límite la "región imposible". El límite de esta "región imposible" está determinado por distribuciones bimodales (simétricas o sesgadas) en forma de U para las cuales los parámetros α y β se acercan a cero y, por lo tanto, toda la densidad de probabilidad se concentra en los extremos: x = 0, 1 sin prácticamente nada. entre ellos. Dado que para α ≈ β ≈ 0 la densidad de probabilidad se concentra en los dos extremos x = 0 y x = 1, este "límite imposible" está determinado por una distribución de Bernoulli , donde los dos únicos resultados posibles ocurren con probabilidades respectivas p y q = 1- pág . Para los casos que se acercan a este límite con simetría α = β, asimetría ≈ 0, exceso de curtosis ≈ −2 (este es el exceso de curtosis más bajo posible para cualquier distribución), y las probabilidades son pq ≈ 1/2. Para los casos que se acercan a este límite con asimetría, el exceso de curtosis ≈ −2 + asimetría 2 , y la densidad de probabilidad se concentra más en un extremo que en el otro (sin prácticamente nada en el medio), con probabilidades en el extremo izquierdo x = 0 y en el extremo derecho x = 1.

Simetría

Todas las declaraciones son condicionales a α , β > 0:

.

Geometría de la función de densidad de probabilidad.

Puntos de inflexión

Ubicación del punto de inflexión versus α y β que muestran regiones con un punto de inflexión
Ubicación del punto de inflexión versus α y β que muestran una región con dos puntos de inflexión

Para ciertos valores de los parámetros de forma α y β, la función de densidad de probabilidad tiene puntos de inflexión , en los cuales la curvatura cambia de signo. La posición de estos puntos de inflexión puede resultar útil como medida de la dispersión o extensión de la distribución.

Definiendo la siguiente cantidad:

Se producen puntos de inflexión, [1] [7] [8] [19] dependiendo del valor de los parámetros de forma α y β, de la siguiente manera:

No hay puntos de inflexión en las regiones restantes (simétricas y sesgadas): En forma de U: (α, β < 1) En forma de U invertida: (1 < α < 2, 1 < β < 2), inversa- En forma de J (α < 1, β > 2) o en forma de J: (α > 2, β < 1)

Los gráficos adjuntos muestran las ubicaciones de los puntos de inflexión (que se muestran verticalmente, que van de 0 a 1) versus α y β (los ejes horizontales que van de 0 a 5). Hay grandes cortes en las superficies que cruzan las líneas α = 1, β = 1, α = 2 y β = 2 porque en estos valores la distribución beta cambia de 2 modos a 1 modo y a ningún modo.

formas

PDF para distribución beta simétrica frente a x y α  =  β de 0 a 30
PDF para distribución beta simétrica frente a x y α  =  β de 0 a 2
PDF para distribución beta asimétrica frente a x y β  = 2,5 α de 0 a 9
PDF para distribución beta asimétrica frente a x y β  = 5,5 α de 0 a 9
PDF para distribución beta asimétrica frente a x y β  = 8 α de 0 a 10

La función de densidad beta puede adoptar una amplia variedad de formas diferentes dependiendo de los valores de los dos parámetros α y β . La capacidad de la distribución beta para tomar esta gran diversidad de formas (usando sólo dos parámetros) es en parte responsable de encontrar una amplia aplicación para modelar medidas reales:

Simétrico ( α = β )
Sesgado ( αβ )

La función de densidad está sesgada . Un intercambio de valores de parámetros produce la imagen especular (al revés) de la curva inicial, algunos casos más específicos:

Implementaciones prácticas

La implementación de una distribución Beta depende del conocimiento de los valores de y . Si solo se conocen la media, la desviación estándar, el pico y/o la mediana, entonces se deben calcular ambos antes de poder implementar una distribución Beta.

Una vez determinados y , la eficiencia computacional de implementar una distribución Beta acumulativa depende de los valores de y . Los valores enteros positivos se implementan con facilidad y precisión, mientras que los valores continuos pueden no ser necesariamente precisos y eficientes. Los valores unitarios definen una distribución uniforme delimitada por 0 y 1, y su implementación es trivial.

Resumen de cálculos alfa y beta

La siguiente tabla de resumen de cálculos se basa en las definiciones anteriores para y , o se derivan algebraicamente de las definiciones anteriores y nuevamente de LibreTexts.

Implementación de la distribución acumulativa

La implementación de la distribución acumulativa Beta se basa en resolver la integral de la distribución Beta, ya sea numérica o algebraicamente.

Solución de integración general

En todos los casos, la Distribución Beta Acumulada se encuentra resolviendo la integral:

La solución más sencilla es la integración numérica directa de la integral definitoria utilizando el método que funcione mejor para la aplicación. Se esperaría que los requisitos de alta precisión requieran tamaños de paso más pequeños y utilicen algoritmos más sofisticados, como la integración interpolada . Los requisitos de precisión más bajos pueden utilizar tamaños de paso más grandes y utilizar algoritmos simples, como la integración de pasos . Las soluciones de integración matemática existen como una alternativa a las integraciones numéricas con distintos grados de velocidad y precisión para ciertos casos de y .

Caso 1: alfa y beta son unidad: solución de distribución uniforme

La integral definitoria se reduce a una muy simple . La solución de la integral es x , por inspección.

Caso 2: alfa y beta son números enteros positivos: solución polinómica

El valor acumulado se puede calcular directamente convirtiendo los términos y de la solución integral general a un polinomio , integrando el polinomio y multiplicando el resultado por las funciones gamma . La función Gamma se puede calcular usando tablas o con sus definiciones factoriales enteras , y el argumento de integración se puede simplificar aprovechando la forma usando coeficientes binomiales para definir el polinomio.


Por ejemplo, si = 2, = 3 y x=0,3, entonces la integral de solución se reduce a

Tenga en cuenta que y no es necesario que ambos sean números enteros para que esta solución funcione, si los coeficientes binomiales se reemplazan con cálculos de coeficientes manuales. Si es un entero positivo y no lo es, entonces es una simple cuestión de invertir los valores de y y luego resolver para 1-x en lugar de x. Si alguno o no son números enteros, entonces se debe utilizar la definición continua completa de la función Gamma.

Caso 3: solución de integración continua

La definición integral definitoria de la distribución Beta acumulativa se puede resolver de forma recursiva para todos utilizando soluciones integrales conocidas para la forma del rango definitorio . Utilizando la última solución integral del párrafo de tablas de integración correspondiente y luego estableciendo a en 1, b en -1, m en -1 yp en -1, la solución recursiva a la integral de distribución Beta acumulativa se puede determinar de la siguiente manera.

La clave para la convergencia es el incremento continuo de en 1, hasta que el factor bajo condiciones se vuelve tan pequeño que su iteración asociada ya no produce ningún valor contribuyente significativo, es decir, y se pueden descuidar iteraciones adicionales. Por ejemplo, un valor de donde = 0,5 y =30 produce un valor de 9,3132257e-10, que probablemente dé como resultado una contribución lo suficientemente pequeña como para despreciarla.

Dado que la convergencia es muy pobre para valores cercanos a 1, la integral definitoria se puede resolver y hacer converger intercambiando e invirtiendo el sesgo, integrando de 0 a 1- (1- es un número pequeño que converge más fácilmente) y luego negando el resultado de 1.

Caso 4: alfa y beta tienen el mismo valor: solución precisa de la serie de Taylor

Si y son iguales, entonces la distribución es simétrica. Esto crea la conveniencia de que se sabe que la mediana de la distribución acumulativa es 0,5, lo que a su vez define el valor de integración acumulativa, , como 0,5 en x=0,5. Este valor puede usarse para generar una serie de Taylor que puede usarse para calcular el valor de f(x) para 0>x>1 con altos grados arbitrarios de precisión. Se obtiene una mayor precisión simplemente utilizando más términos en la serie de Taylor. En general, el punto de partida x=0,5 funciona para x muy pequeño, x cerca de 0 y x, x muy grande cerca de 1. Sin embargo, no se puede garantizar el éxito en estos puntos finales. puede ser necesario realizar cálculos intermedios más cercanos a 0,5 y luego utilizar el intervalo para generar otros cálculos de series de Taylor hasta alcanzar un punto lo suficientemente cercano a la x deseada para que se produzca la convergencia.

La expresión general de la serie de Taylor es:

Sustituyendo 0,5 por xo y moviendo las funciones Gamma al frente de la suma, la serie de Taylor aplicable a una distribución Beta acumulativa simétrica es:

¿Dónde está la enésima derivada de la integral general en 0,5, menos el prefijo de la función Gamma, o

Las primeras derivadas de la sumatoria son

Está surgiendo un patrón en los términos de la serie de Taylor, pero las expresiones directas se vuelven inmanejables si se continúa expresándolas en forma directa. Sin embargo, se puede ver que algunas de las expresiones internas son meras réplicas de expresiones anteriores y pueden reemplazarse por esas expresiones anteriores. Hacerlo y continuar con los rendimientos

A continuación, se encuentra que los coeficientes encontrados en el término (1,1) y (1,2,1) respectivamente son el coeficiente binomial , que son los (k-1)ésimos coeficientes del polinomio . Siguiendo con el patrón, los coeficientes de los términos son los coeficientes binomiales (1,3,3,1) y (1,4,6,4,1) respectivamente. Con el reconocimiento de este patrón, existe suficiente información para resumir la serie de Taylor para la distribución Beta acumulativa.

.

Caso 5: alfa y beta no tienen el mismo valor, alfa>1 y beta >1: solución aproximada de la serie de Taylor

Si y y no son iguales, entonces la distribución es una campana asimétrica, es decir, sesgada hacia un lado. Esto es problemático porque la mediana de la distribución acumulativa no se conoce con precisión y, por lo tanto, no se puede utilizar para sembrar con precisión la serie de Taylor. Además, los valores conocidos de y no se pueden utilizar porque sus segundas y mayores derivadas no están definidas debido a la presencia de entradas en las derivadas que siempre existen en o . Dado que la mediana también puede estar demasiado alejada de x para que la serie converja. Por ejemplo, si la mediana es 0,1 y x es 0,9, la convergencia es poco probable. En estas condiciones, es necesario realizar cálculos intermedios más cercanos a la mediana y luego utilizar el intervalo para generar otros cálculos de series de Taylor hasta alcanzar un punto lo suficientemente cercano a la x deseada para que se produzca la convergencia.

Sin embargo, se sabe que un valor aproximado para la mediana cuando >1, >1 es [36] tiene una precisión del 1% para valores altos de y , es decir, y ~> 2, y un pequeño porcentaje para valores más bajos. es decir, 1< y ~< 2. La relación no se cumple para eso es, y <=1. Si este pequeño error es aceptable, entonces se puede utilizar la solución de la serie de Taylor para la distribución acumulativa. Cabe señalar que las soluciones numéricas de la integración pueden producir soluciones de precisión similar con menos complejidad y gastos generales. La serie de Taylor puede modificarse para adaptarse a la distribución sesgada con una precisión aproximada de la siguiente manera:

Implementando la distribución acumulativa inversa

Si se conoce una probabilidad deseada para una distribución Beta acumulativa definida, entonces se pueden emplear métodos numéricos para determinar el valor de x para dicha distribución acumulativa definida que dará como resultado el valor acumulativo deseado.

Interpolación

La solución de integración general para la distribución Beta se puede utilizar para calcular numéricamente la tabla de distribución acumulativa directamente y luego intercambiar las variables dependientes e independientes para determinar la solución inversa. Es posible que sea necesario eliminar las entradas duplicadas de 0 y/o 1 para el valor acumulativo independiente para evitar discontinuidades. Se puede utilizar la interpolación lineal o la interpolación cúbica para calcular la variable dependiente.

Algebraico

Si ambos y son números enteros positivos, el valor acumulado inverso se puede calcular directamente factorizando el polinomio que define la distribución acumulativa. Por ejemplo, si se conoce una probabilidad deseada, para la implementación del caso 2 del ejemplo de distribución acumulativa anterior, el valor de puede calcularse factorizando el polinomio y utilizando el valor de eso es real y .

Si la probabilidad deseada es 0,2 , entonces la expresión se convierte en

Las otras soluciones para , =(1.3093931, 0.44160355), =(1.3093931, -0.44160355) y =-0.16443664 se descartan debido a que no cumplen con el requisito de que sea real, positiva y .

El método de Newton

El método de Newton se puede utilizar para aplicar la solución de integración continua o serie de Taylor a la solución inversa. Se necesita un punto de partida para x, posiblemente el pico o la media, luego se puede repetir el método de Newton hasta que la diferencia en el valor acumulativo deseado se acerque lo suficiente al valor acumulativo calculado para .

es la solución de una serie de Taylor usando y

Cuando los cálculos repetidos convergen a un error por debajo del valor aceptablemente pequeño elegido, x será el valor necesario para obtener a del valor deseado, . Debe recordarse que las iteraciones del método de Newton pueden intentar desviarse fuera del "rango seguro" de 0 a 1, lo que resulta en errores o valores erróneos. Se deben aplicar límites a los valores de iteración según sea necesario para mantenerlos dentro del rango de 0 a 1 para evitar este tipo de errores.

Encontrar la mediana exacta

Como se mencionó anteriormente, las distribuciones asimétricas con diferentes y no tienen una expresión de forma cerrada precisa disponible para calcular fácilmente la mediana, sino que dependen de expresiones aproximadas. Sin embargo, si la distribución acumulativa inversa se calcula usando el método de Newton en la solución de integración continua, o la solución algebraica si y son números enteros, entonces se espera que el valor resultante para sea esencialmente un valor exacto de precisión elegida arbitrariamente para todos los casos de y , y no una aproximación.

Distribuciones relacionadas

Transformaciones

Casos especiales y limitantes

Ejemplo de ocho realizaciones de un paseo aleatorio en una dimensión a partir de 0: la probabilidad para el momento de la última visita al origen se distribuye como Beta(1/2, 1/2)
Beta (1/2, 1/2): Harold Jeffreys propuso la densidad de probabilidad de la distribución arcoseno para representar la incertidumbre de una distribución Bernoulli o binomial en la inferencia bayesiana , y ahora se la conoce comúnmente como Jeffreys antes : p −1/2 (1 −  p ) −1/2 . Esta distribución también aparece en varios teoremas fundamentales del paseo aleatorio.

Derivado de otras distribuciones

Combinación con otras distribuciones

Compuesto con otras distribuciones

Generalizaciones

Inferencia estadística

Estimación de parámetros

Método de momentos

Dos parámetros desconocidos

Se pueden estimar dos parámetros desconocidos ( de una distribución beta soportada en el intervalo [0,1]) utilizando el método de momentos, siendo los dos primeros momentos (media muestral y varianza muestral) de la siguiente manera. Dejar:

ser la estimación de la media muestral y

Sea la estimación de la varianza muestral . Las estimaciones de los parámetros por el método de los momentos son

si
si

Cuando se requiere la distribución en un intervalo conocido distinto de [0, 1] con la variable aleatoria X , digamos [ a , c ] con la variable aleatoria Y , luego reemplace con y con en el par de ecuaciones anteriores para los parámetros de forma (consulte la Sección "Cuatro parámetros desconocidos" a continuación), [41] donde:

Cuatro parámetros desconocidos
Soluciones para estimaciones de parámetros versus exceso de curtosis (muestra) y distribución Beta de asimetría al cuadrado (muestra)

Los cuatro parámetros ( de una distribución beta soportada en el intervalo [ a , c ], consulte la sección "Parametrizaciones alternativas, Cuatro parámetros") se pueden estimar utilizando el método de momentos desarrollado por Karl Pearson , equiparando los valores muestrales y poblacionales de la primeros cuatro momentos centrales (media, varianza, asimetría y exceso de curtosis). [1] [42] [43] El exceso de curtosis se expresó en términos del cuadrado de la asimetría y el tamaño de la muestra ν = α + β (consulte la sección anterior "Curtosis") de la siguiente manera:

Se puede utilizar esta ecuación para resolver el tamaño de la muestra ν= α + β en términos del cuadrado de la asimetría y el exceso de curtosis de la siguiente manera: [42]

Esta es la relación (multiplicada por un factor de 3) entre los límites límite previamente derivados para la distribución beta en un espacio (como lo hizo originalmente Karl Pearson [20] ) definido con las coordenadas del cuadrado de la asimetría en un eje y el exceso de curtosis en el otro eje (ver § Curtosis delimitada por el cuadrado de la asimetría):

El caso de asimetría cero se puede resolver inmediatamente porque para asimetría cero, α = β y por lo tanto ν = 2α = 2β, por lo tanto α = β = ν/2

(El exceso de curtosis es negativo para la distribución beta con asimetría cero, que va de -2 a 0, por lo que -y por lo tanto los parámetros de forma de la muestra- es positivo, y va desde cero cuando los parámetros de forma se aproximan a cero y el exceso de curtosis se aproxima a -2, hasta el infinito cuando los parámetros de forma se acercan al infinito y el exceso de curtosis se acerca a cero).

Para una asimetría muestral distinta de cero es necesario resolver un sistema de dos ecuaciones acopladas. Dado que la asimetría y el exceso de curtosis son independientes de los parámetros , los parámetros se pueden determinar de forma única a partir de la asimetría de la muestra y el exceso de curtosis de la muestra, resolviendo las ecuaciones acopladas con dos variables conocidas (asimetría de la muestra y exceso de curtosis de la muestra) y dos incógnitas ( los parámetros de forma):

dando como resultado la siguiente solución: [42]

Donde se deben tomar las soluciones de la siguiente manera: para asimetría de muestra (negativa) <0, y para asimetría de muestra (positiva)> 0.

El gráfico adjunto muestra estas dos soluciones como superficies en un espacio con ejes horizontales de (exceso de curtosis de la muestra) y (asimetría al cuadrado de la muestra) y los parámetros de forma como el eje vertical. Las superficies están limitadas por la condición de que el exceso de curtosis de la muestra debe estar limitado por la asimetría al cuadrado de la muestra como se estipula en la ecuación anterior. Las dos superficies se encuentran en el borde derecho definido por una asimetría cero. A lo largo de este borde derecho, ambos parámetros son iguales y la distribución es simétrica en forma de U para α = β < 1, uniforme para α = β = 1, en forma de U invertida para 1 < α = β < 2 y en forma de campana. formado para α = β > 2. Las superficies también se encuentran en el borde frontal (inferior) definido por la línea "el límite imposible" (exceso de curtosis + 2 - asimetría 2 = 0). A lo largo de este límite frontal (inferior), ambos parámetros de forma se acercan a cero, y la densidad de probabilidad se concentra más en un extremo que en el otro (prácticamente nada en el medio), con probabilidades en el extremo izquierdo x = 0 y en el extremo derecho x = 1. Las dos superficies se separan más hacia el borde trasero. En este borde trasero los parámetros de la superficie son bastante diferentes entre sí. Como observaron, por ejemplo, Bowman y Shenton, [44] el muestreo en la vecindad de la línea (curtosis excesiva de la muestra - (3/2)(asimetría de la muestra) 2 = 0) (la porción en forma de J de la parte trasera borde donde el azul se encuentra con el beige), "está peligrosamente cerca del caos", porque en esa línea el denominador de la expresión anterior para la estimación ν = α + β se vuelve cero y, por lo tanto, ν se acerca al infinito a medida que se acerca a esa línea. Bowman y Shenton [44] escriben que "los parámetros de momento más altos (curtosis y asimetría) son extremadamente frágiles (cerca de esa línea). Sin embargo, la media y la desviación estándar son bastante confiables". Por lo tanto, el problema es para el caso de estimación de cuatro parámetros para distribuciones muy asimétricas tales que el exceso de curtosis se aproxima a (3/2) veces el cuadrado de la asimetría. Esta línea límite se produce por distribuciones extremadamente sesgadas con valores muy grandes de uno de los parámetros y valores muy pequeños del otro parámetro. Consulte § Curtosis delimitada por el cuadrado de la asimetría para ver un ejemplo numérico y comentarios adicionales sobre esta línea límite del borde posterior (exceso de curtosis de la muestra - (3/2) (asimetría de la muestra) 2 = 0). Como señaló el propio Karl Pearson [45], esta cuestión puede no tener mucha importancia práctica, ya que este problema surge sólo para distribuciones en forma de J muy sesgadas (o en forma de J con imagen especular) con valores muy diferentes de parámetros de forma que es poco probable que coincidan. ocurren mucho en la práctica). Las distribuciones habituales en forma de campana sesgada que ocurren en la práctica no tienen este problema de estimación de parámetros.

Los dos parámetros restantes se pueden determinar utilizando la media muestral y la varianza muestral mediante una variedad de ecuaciones. [1] [42] Una alternativa es calcular el rango del intervalo de soporte en función de la varianza de la muestra y la curtosis de la muestra. Para ello se puede resolver, en términos del rango , la ecuación que expresa el exceso de curtosis en términos de la varianza muestral y el tamaño de la muestra ν (ver § Curtosis y § Parametrizaciones alternativas, cuatro parámetros):

para obtener:

Otra alternativa es calcular el rango del intervalo de soporte en función de la varianza de la muestra y la asimetría de la muestra. [42] Para este propósito se puede resolver, en términos del rango , la ecuación que expresa la asimetría al cuadrado en términos de la varianza muestral y el tamaño de la muestra ν (ver sección titulada "Asimetría" y "Parametrizaciones alternativas, cuatro parámetros") :

obtener: [42]

El parámetro restante se puede determinar a partir de la media muestral y los parámetros obtenidos previamente :

y finalmente, .

En las fórmulas anteriores se pueden tomar, por ejemplo, como estimaciones de los momentos muestrales:

Los estimadores G1 para la asimetría de la muestra y G2 para la curtosis de la muestra son utilizados por DAP / SAS , PSPP / SPSS y Excel . Sin embargo, no son utilizados por BMDP y (según [46] ) no fueron utilizados por MINITAB en 1998. En realidad, Joanes y Gill en su estudio de 1998 [46] concluyeron que los estimadores de asimetría y curtosis utilizados en BMDP y en MINITAB (en ese momento) tenía una varianza y un error cuadrático medio más pequeños en muestras normales, pero los estimadores de asimetría y curtosis utilizados en DAP / SAS , PSPP / SPSS , es decir, G 1 y G 2 , tenían un error cuadrático medio más pequeño en muestras de un distribución muy sesgada. Es por esta razón que hemos detallado "asimetría muestral", etc., en las fórmulas anteriores, para dejar explícito que el usuario debe elegir el mejor estimador según el problema en cuestión, como el mejor estimador de asimetría y curtosis. depende de la cantidad de asimetría (como lo muestran Joanes y Gill [46] ).

Máxima verosimilitud

Dos parámetros desconocidos
Max (probabilidad logarítmica conjunta/ N ) para máximos de distribución beta en α  =  β  = 2
Max (probabilidad logarítmica conjunta/ N ) para máximos de distribución Beta en α  =  β  ∈ {0.25,0.5,1,2,4,6,8}

Como también es el caso de las estimaciones de máxima verosimilitud para la distribución gamma , las estimaciones de máxima verosimilitud para la distribución beta no tienen una solución general cerrada para valores arbitrarios de los parámetros de forma. Si X 1 , ..., X N son variables aleatorias independientes, cada una con una distribución beta, la función logarítmica de verosimilitud conjunta para N observaciones iid es:

Encontrar el máximo con respecto a un parámetro de forma implica tomar la derivada parcial con respecto al parámetro de forma y establecer la expresión igual a cero, lo que produce el estimador de máxima verosimilitud de los parámetros de forma:

dónde:

ya que la función digamma denotada ψ(α) se define como la derivada logarítmica de la función gamma : [17]

Para garantizar que los valores con pendiente tangente cero sean realmente un máximo (en lugar de un punto de silla o un mínimo), también se debe satisfacer la condición de que la curvatura sea negativa. Esto equivale a satisfacer que la segunda derivada parcial con respecto a los parámetros de forma es negativa.

usando las ecuaciones anteriores, esto equivale a:

donde la función trigamma , denotada ψ 1 ( α ), es la segunda de las funciones poligamma , y ​​se define como la derivada de la función digamma :

Estas condiciones equivalen a afirmar que las varianzas de las variables transformadas logarítmicamente son positivas, ya que:

Por tanto, la condición de curvatura negativa en un máximo es equivalente a las afirmaciones:

Alternativamente, la condición de curvatura negativa en un máximo también equivale a afirmar que las siguientes derivadas logarítmicas de las medias geométricas G X y G (1−X) son positivas, ya que:

Si bien estas pendientes son positivas, las otras pendientes son negativas:

Las pendientes de la media y la mediana con respecto a α y β muestran un comportamiento de signos similar.

A partir de la condición de que, como máximo, la derivada parcial con respecto al parámetro de forma sea igual a cero, obtenemos el siguiente sistema de ecuaciones de estimación de máxima verosimilitud acopladas (para las probabilidades logarítmicas promedio) que deben invertirse para obtener la (desconocida) estimaciones de los parámetros de forma en términos del promedio (conocido) de logaritmos de las muestras X 1 , ..., X N : [1]

donde reconocemos como logaritmo de la media geométrica muestral y como logaritmo de la media geométrica muestral basado en (1 −  X ) , la imagen especular de  X. Pues , se sigue que .

Estas ecuaciones acopladas que contienen funciones digamma de las estimaciones de los parámetros de forma deben resolverse mediante métodos numéricos como lo hacen, por ejemplo, Beckman et al. [47] Gnanadesikan et al. dar soluciones numéricas para algunos casos. [48] ​​NLJohnson y S.Kotz [1] sugieren que para estimaciones de parámetros de forma "no demasiado pequeñas" , la aproximación logarítmica a la función digamma puede usarse para obtener valores iniciales para una solución iterativa, ya que las ecuaciones resultantes de esta aproximación pueden resolverse exactamente:

lo que conduce a la siguiente solución para los valores iniciales (de los parámetros de forma estimados en términos de las medias geométricas de la muestra) para una solución iterativa:

Alternativamente, las estimaciones proporcionadas por el método de los momentos pueden usarse como valores iniciales para una solución iterativa de las ecuaciones acopladas de máxima verosimilitud en términos de las funciones digamma.

Cuando se requiere la distribución en un intervalo conocido distinto de [0, 1] con la variable aleatoria X , digamos [ a , c ] con la variable aleatoria Y , luego reemplace ln( X i ) en la primera ecuación con

y reemplace ln(1− X i ) en la segunda ecuación con

(ver sección "Parametrizaciones alternativas, cuatro parámetros" más abajo).

Si se conoce uno de los parámetros de forma, el problema se simplifica considerablemente. La siguiente transformación logit se puede utilizar para resolver el parámetro de forma desconocido (para casos asimétricos en los que , de lo contrario, si es simétrico, ambos parámetros -iguales- se conocen cuando se conoce uno):

Esta transformación logit es el logaritmo de la transformación que divide la variable X por su imagen especular ( X /(1 - X ) dando como resultado la "distribución beta invertida" o distribución beta prima (también conocida como distribución beta de segundo tipo o Tipo VI de Pearson ) con soporte [0, +∞). Como se discutió previamente en la sección "Momentos de variables aleatorias transformadas logarítmicamente", la transformación logit , estudiada por Johnson, [24] extiende el soporte finito [0, 1] basado en la variable original X hasta el soporte infinito en ambas direcciones del real. línea (−∞, +∞).

Si, por ejemplo, se conoce, el parámetro desconocido se puede obtener en términos de la función digamma inversa [49] del lado derecho de esta ecuación:

En particular, si uno de los parámetros de forma tiene un valor de unidad, por ejemplo para (la distribución de la función de potencia con soporte acotado [0,1]), utilizando la identidad ψ( x + 1) = ψ( x ) + 1/ x en la ecuación , el estimador de máxima verosimilitud para el parámetro desconocido es, [1] exactamente:

La beta tiene soporte [0, 1], por lo tanto , y por lo tanto , y por lo tanto

En conclusión, las estimaciones de máxima verosimilitud de los parámetros de forma de una distribución beta son (en general) una función complicada de la media geométrica muestral y de la media geométrica muestral basada en (1−X) , la imagen especular de X. Uno puede preguntarse, si la varianza (además de la media) es necesaria para estimar dos parámetros de forma con el método de momentos, ¿por qué no es necesaria la varianza (logarítmica o geométrica) para estimar dos parámetros de forma con el método de máxima verosimilitud, por ejemplo? ¿Qué sólo los medios geométricos son suficientes? La respuesta es porque la media no proporciona tanta información como la media geométrica. Para una distribución beta con parámetros de forma iguales α  =  β , la media es exactamente 1/2, independientemente del valor de los parámetros de forma y, por lo tanto, independientemente del valor de la dispersión estadística (la varianza). Por otro lado, la media geométrica de una distribución beta con iguales parámetros de forma α  =  β , depende del valor de los parámetros de forma y, por tanto, contiene más información. Además, la media geométrica de una distribución beta no satisface las condiciones de simetría que satisface la media, por lo tanto, al emplear tanto la media geométrica basada en X como la media geométrica basada en (1 −  X ), el método de máxima verosimilitud puede proporcionar mejores estimaciones para ambos parámetros α  =  β , sin necesidad de emplear la varianza.

Se puede expresar la probabilidad logarítmica conjunta por N observaciones iid en términos de estadísticas suficientes (las medias geométricas muestrales) de la siguiente manera:

Podemos trazar la probabilidad logarítmica conjunta por N observaciones para valores fijos de las medias geométricas de muestra para ver el comportamiento de la función de probabilidad en función de los parámetros de forma α y β. En tal gráfico, los estimadores de los parámetros de forma corresponden a los máximos de la función de verosimilitud. Consulte el gráfico adjunto que muestra que todas las funciones de probabilidad se cruzan en α = β = 1, lo que corresponde a los valores de los parámetros de forma que dan la entropía máxima (la entropía máxima ocurre para parámetros de forma iguales a la unidad: la distribución uniforme). Del gráfico se desprende claramente que la función de verosimilitud da picos pronunciados para valores de los estimadores de los parámetros de forma cercanos a cero, pero que para valores de los estimadores de los parámetros de forma mayores que uno, la función de verosimilitud se vuelve bastante plana, con picos menos definidos. Obviamente, el método de estimación de parámetros de máxima verosimilitud para la distribución beta se vuelve menos aceptable para valores mayores de los estimadores de los parámetros de forma, ya que la incertidumbre en la definición de pico aumenta con el valor de los estimadores de los parámetros de forma. Se puede llegar a la misma conclusión al observar que la expresión de la curvatura de la función de verosimilitud está en términos de las varianzas geométricas.

Estas variaciones (y por lo tanto las curvaturas) son mucho mayores para valores pequeños del parámetro de forma α y β. Sin embargo, para valores de parámetros de forma α, β > 1, las variaciones (y por lo tanto las curvaturas) se aplanan. De manera equivalente, este resultado se deriva del límite de Cramér-Rao , ya que los componentes de la matriz de información de Fisher para la distribución beta son estas varianzas logarítmicas. La cota de Cramér-Rao establece que la varianza de cualquier estimador insesgado de α está acotada por el recíproco de la información de Fisher :

por lo que la varianza de los estimadores aumenta al aumentar α y β, a medida que las varianzas logarítmicas disminuyen.

También se puede expresar la probabilidad logarítmica conjunta por N observaciones iid en términos de las expresiones de la función digamma para los logaritmos de las medias geométricas muestrales de la siguiente manera:

esta expresión es idéntica a la negativa de la entropía cruzada (ver sección sobre "Cantidades de información (entropía)"). Por lo tanto, encontrar el máximo de la probabilidad logarítmica conjunta de los parámetros de forma, según N observaciones iid , es idéntico a encontrar el mínimo de la entropía cruzada para la distribución beta, en función de los parámetros de forma.

con la entropía cruzada definida de la siguiente manera:

Cuatro parámetros desconocidos

El procedimiento es similar al seguido en el caso de los dos parámetros desconocidos. Si Y 1 , ..., Y N son variables aleatorias independientes, cada una con una distribución beta con cuatro parámetros, la función logarítmica de verosimilitud conjunta para N observaciones iid es:

Encontrar el máximo con respecto a un parámetro de forma implica tomar la derivada parcial con respecto al parámetro de forma y establecer la expresión igual a cero, lo que produce el estimador de máxima verosimilitud de los parámetros de forma:

estas ecuaciones se pueden reorganizar como el siguiente sistema de cuatro ecuaciones acopladas (las dos primeras ecuaciones son medias geométricas y las dos segundas son medias armónicas) en términos de las estimaciones de máxima verosimilitud para los cuatro parámetros :

con medias geométricas de muestra:

Los parámetros están incrustados dentro de las expresiones medias geométricas de forma no lineal (a la potencia 1/ N ). Esto excluye, en general, una solución de forma cerrada, incluso para una aproximación de valor inicial para propósitos de iteración. Una alternativa es utilizar como valores iniciales para la iteración los valores obtenidos de la solución del método de momentos para el caso de cuatro parámetros. Además, las expresiones para las medias armónicas están bien definidas solo para , lo que impide una solución de máxima verosimilitud para parámetros de forma menores que la unidad en el caso de cuatro parámetros. La matriz de información de Fisher para el caso de cuatro parámetros es definida positiva sólo para α, β > 2 (para mayor discusión, consulte la sección sobre Matriz de información de Fisher, caso de cuatro parámetros), para distribuciones beta en forma de campana (simétricas o asimétricas), con inflexión puntos ubicados a ambos lados del modo. Los siguientes componentes de información de Fisher (que representan las expectativas de la curvatura de la función logarítmica de verosimilitud) tienen singularidades en los siguientes valores:

(Para más información, consulte la sección sobre la matriz de información de Fisher). Por lo tanto, no es posible realizar estrictamente la estimación de máxima verosimilitud para algunas distribuciones bien conocidas que pertenecen a la familia de distribuciones beta de cuatro parámetros, como la distribución uniforme (Beta(1, 1, a , c )) y la distribución arcoseno . (Beta(1/2, 1/2, a , c )). NLJohnson y S.Kotz [1] ignoran las ecuaciones para las medias armónicas y en su lugar sugieren "Si a y c son desconocidos y se requieren estimadores de máxima verosimilitud de a , c , α y β, el procedimiento anterior (para los dos parámetros desconocidos) En este caso, con X transformado como X = ( Y  −  a )/( c  −  a )) se puede repetir usando una sucesión de valores de prueba de a y c , hasta que el par ( a , c ) para el cual la máxima verosimilitud (dados a y c ) es lo mayor posible, se logra" (donde, para mayor claridad, su notación para los parámetros se ha traducido a la notación actual).

Matriz de información de Fisher

Sea una variable aleatoria X que tenga una densidad de probabilidad f ( x ; α ). La derivada parcial con respecto al parámetro α (desconocido y por estimar) de la función logarítmica de verosimilitud se denomina puntuación . El segundo momento de la puntuación se llama información de Fisher :

La expectativa de la puntuación es cero, por lo tanto la información de Fisher es también el segundo momento centrado en la media de la puntuación: la varianza de la puntuación.

Si la función logarítmica de verosimilitud es dos veces diferenciable con respecto al parámetro α, y bajo ciertas condiciones de regularidad, [50] entonces la información de Fisher también se puede escribir de la siguiente manera (que suele ser una forma más conveniente para fines de cálculo):

Así, la información de Fisher es la negativa de la expectativa de la segunda derivada con respecto al parámetro α de la función logarítmica de verosimilitud . Por lo tanto, la información de Fisher es una medida de la curvatura de la función logarítmica de verosimilitud de α. Una curva de función de probabilidad logarítmica más plana y de baja curvatura (y, por lo tanto, de alto radio de curvatura ), tiene poca información de Fisher; mientras que una curva de función logarítmica de verosimilitud con gran curvatura (y, por tanto, bajo radio de curvatura ) tiene una alta información de Fisher. Cuando la matriz de información de Fisher se calcula en las evaluaciones de los parámetros ("la matriz de información de Fisher observada") es equivalente a reemplazar la superficie de probabilidad logarítmica verdadera por una aproximación de la serie de Taylor, tomada hasta los términos cuadráticos. [51] La palabra información, en el contexto de la información de Fisher, se refiere a información sobre los parámetros. Información como: estimación, suficiencia y propiedades de varianzas de estimadores. El límite de Cramér-Rao establece que la inversa de la información de Fisher es un límite inferior de la varianza de cualquier estimador de un parámetro α:

La precisión con la que se puede estimar el estimador de un parámetro α está limitada por la información de Fisher de la función logarítmica de verosimilitud. La información de Fisher es una medida del error mínimo involucrado en la estimación de un parámetro de una distribución y puede verse como una medida del poder de resolución de un experimento necesario para discriminar entre dos hipótesis alternativas de un parámetro. [52]

Cuando hay N parámetros

entonces la información de Fisher toma la forma de una matriz simétrica semidefinida positiva N × N , la matriz de información de Fisher, con un elemento típico:

Bajo ciertas condiciones de regularidad, [50] la Matriz de Información de Fisher también puede escribirse en la siguiente forma, que suele ser más conveniente para el cálculo:

Con variables aleatorias X 1 , ..., X N iid , se puede construir una "caja" N -dimensional con lados X 1 , ..., X N . Costa y Cover [53] muestran que la entropía diferencial (Shannon) h ( X ) está relacionada con el volumen del conjunto típico (teniendo la entropía de la muestra cercana a la entropía verdadera), mientras que la información de Fisher está relacionada con la superficie de este conjunto típico.

Dos parámetros

Para X 1 , ..., X N variables aleatorias independientes, cada una con una distribución beta parametrizada con parámetros de forma α y β , la función de probabilidad logarítmica conjunta para N observaciones iid es:

por lo tanto, la función logarítmica de verosimilitud conjunta por N observaciones iid es

Para el caso de dos parámetros, la información de Fisher tiene 4 componentes: 2 diagonales y 2 fuera de diagonal. Dado que la matriz de información de Fisher es simétrica, uno de estos componentes fuera de la diagonal es independiente. Por lo tanto, la matriz de información de Fisher tiene 3 componentes independientes (2 diagonales y 1 fuera de diagonal).

Aryal y Nadarajah [54] calcularon la matriz de información de Fisher para el caso de cuatro parámetros, de la cual el caso de dos parámetros se puede obtener de la siguiente manera:

Dado que la matriz de información de Fisher es simétrica

Los componentes de información de Fisher son iguales a las varianzas geométricas logarítmicas y a la covarianza geométrica logarítmica. Por tanto, pueden expresarse como funciones trigamma , denotadas ψ 1 (α), la segunda de las funciones poligamma , definida como la derivada de la función digamma :

Estas derivadas también se derivan en la sección § Dos parámetros desconocidos y en esa sección también se muestran los gráficos de la función de probabilidad logarítmica. § Varianza y covarianza geométricas contiene gráficos y una discusión adicional de los componentes de la matriz de información de Fisher: las varianzas geométricas logarítmicas y la covarianza geométrica logarítmica en función de los parámetros de forma α y β. § Momentos de variables aleatorias transformadas logarítmicamente contiene fórmulas para momentos de variables aleatorias transformadas logarítmicamente. Imágenes de los componentes de información de Fisher y se muestran en § Varianza geométrica.

El determinante de la matriz de información de Fisher es de interés (por ejemplo, para el cálculo de la probabilidad previa de Jeffreys ). De las expresiones para los componentes individuales de la matriz de información de Fisher, se deduce que el determinante de la matriz de información (simétrica) de Fisher para la distribución beta es:

Del criterio de Sylvester (comprobar si los elementos diagonales son todos positivos), se deduce que la matriz de información de Fisher para el caso de dos parámetros es definida positiva (bajo la condición estándar de que los parámetros de forma sean positivos α  > 0 y  β  > 0).

Cuatro parámetros
Información de Fisher I ( a , a ) para α  =  β vs rango ( c  −  a ) y exponente  α  =  β
Información de Fisher I ( α , a ) para α  =  β , vs. rango ( c  −  a ) y exponente α  =  β

Si Y 1 , ..., Y N son variables aleatorias independientes, cada una con una distribución beta con cuatro parámetros: los exponentes α y β , y también a (el mínimo del rango de distribución) y c (el máximo del rango de distribución ). ) (sección titulada "Parametrizaciones alternativas", "Cuatro parámetros"), con función de densidad de probabilidad :

la función de probabilidad logarítmica conjunta por N observaciones iid es:

Para el caso de cuatro parámetros, la información de Fisher tiene 4*4=16 componentes. Tiene 12 componentes fuera de la diagonal = (4×4 en total − 4 diagonal). Dado que la matriz de información de Fisher es simétrica, la mitad de estos componentes (12/2=6) son independientes. Por lo tanto, la matriz de información de Fisher tiene 6 componentes independientes fuera de la diagonal + 4 diagonales = 10 componentes independientes. Aryal y Nadarajah [54] calcularon la matriz de información de Fisher para el caso de cuatro parámetros de la siguiente manera:

En las expresiones anteriores, el uso de X en lugar de Y en las expresiones var[ln( X )] = ln(var GX ) no es un error . Las expresiones en términos de las varianzas logarítmicas geométricas y la covarianza logarítmica geométrica ocurren como funciones de la parametrización de dos parámetros X ~ Beta( α , β ) porque al tomar las derivadas parciales con respecto a los exponentes ( α , β ) en el caso de cuatro parámetros , se obtienen expresiones idénticas que para el caso de dos parámetros: estos términos de la matriz de información de Fisher de cuatro parámetros son independientes del mínimo a y del máximo c del rango de distribución. El único término distinto de cero en la doble diferenciación de la función logarítmica de verosimilitud con respecto a los exponentes α y β es la segunda derivada del logaritmo de la función beta: ln(B( α , β )). Este término es independiente del mínimo a y del máximo c del rango de la distribución. La doble diferenciación de este término da como resultado funciones trigamma. Las secciones tituladas "Máxima probabilidad", "Dos parámetros desconocidos" y "Cuatro parámetros desconocidos" también muestran este hecho.

La información de Fisher para muestras de Ni.id es N veces la información de Fisher individual (ecuación 11.279, página 394 de Cover y Thomas [27] ). (Aryal y Nadarajah [54] toman una sola observación, N = 1, para calcular los siguientes componentes de la información de Fisher, lo que conduce al mismo resultado que al considerar las derivadas de la probabilidad logarítmica por N observaciones. Además, debajo de la expresión errónea porque en Aryal y Nadarajah ha sido corregido.)

Las dos entradas diagonales inferiores de la matriz de información de Fisher, con respecto al parámetro a (el mínimo del rango de la distribución): , y con respecto al parámetro c (el máximo del rango de la distribución): solo están definidas para exponentes α > 2 y β > 2 respectivamente. El componente de la matriz de información de Fisher para el mínimo a tiende al infinito para el exponente α que se acerca a 2 desde arriba, y el componente de la matriz de información de Fisher para el máximo c se acerca al infinito para el exponente β que se acerca a 2 desde arriba.

La matriz de información de Fisher para el caso de cuatro parámetros no depende de los valores individuales del mínimo a y del máximo c , sino solo del rango total ( c  −  a ). Además, los componentes de la matriz de información de Fisher que dependen del rango ( c  −  a ), dependen solo a través de su inversa (o el cuadrado de la inversa), de modo que la información de Fisher disminuye al aumentar el rango ( c  −  a ).

Las imágenes adjuntas muestran los componentes de información de Fisher y . Imágenes de los componentes de información de Fisher y se muestran en § Varianza geométrica. Todos estos componentes de información de Fisher parecen una cuenca, estando las "paredes" de la cuenca ubicadas en valores bajos de los parámetros.

Los siguientes componentes de información de Fisher con distribución beta de cuatro parámetros se pueden expresar en términos de dos parámetros: X ~ Beta(α, β) expectativas de la relación transformada ((1 −  X )/ X ) y de su imagen especular ( X /(1 −  X )), escalado por el rango ( c  −  a ), que puede ser útil para la interpretación:

Estos son también los valores esperados de la "distribución beta invertida" o distribución beta prima (también conocida como distribución beta de segundo tipo o Tipo VI de Pearson ) [1] y su imagen especular, escalada por el rango ( c  −  a ).

Además, los siguientes componentes de información de Fisher se pueden expresar en términos de varianzas armónicas (1/X) o de varianzas basadas en la relación de variables transformadas ((1-X)/X) de la siguiente manera:

Consulte la sección "Momentos de variables aleatorias invertidas, producto y transformadas linealmente" para conocer estas expectativas.

El determinante de la matriz de información de Fisher es de interés (por ejemplo, para el cálculo de la probabilidad previa de Jeffreys ). De las expresiones de los componentes individuales se deduce que el determinante de la matriz de información (simétrica) de Fisher para la distribución beta con cuatro parámetros es:

Usando el criterio de Sylvester (verificando si los elementos diagonales son todos positivos), y dado que los componentes diagonales tienen singularidades en α=2 y β=2 , se deduce que la matriz de información de Fisher para el caso de cuatro parámetros es definida positiva para α>2 y β>2. Dado que para α > 2 y β > 2 la distribución beta tiene forma de campana (simétrica o asimétrica), se deduce que la matriz de información de Fisher es definida positiva sólo para distribuciones beta en forma de campana (simétrica o asimétrica), con puntos de inflexión ubicados en a ambos lados del modo. Así, distribuciones importantes y conocidas que pertenecen a la familia de distribuciones beta de cuatro parámetros, como la distribución parabólica (Beta(2,2,a,c)) y la distribución uniforme (Beta(1,1,a,c)) tienen Fisher componentes de información ( ) que explotan (se acercan al infinito) en el caso de cuatro parámetros (aunque sus componentes de información de Fisher están todos definidos para el caso de dos parámetros). La distribución semicircular de Wigner de cuatro parámetros (Beta(3/2,3/2, a , c )) y la distribución arcoseno (Beta(1/2,1/2, a , c )) tienen determinantes de información de Fisher negativos para los cuatro -caso de parámetros.

Inferencia bayesiana

Thomas Bayes propuso la densidad de probabilidad de distribución uniforme para representar la ignorancia de las probabilidades previas en la inferencia bayesiana .

El uso de distribuciones Beta en la inferencia bayesiana se debe al hecho de que proporcionan una familia de distribuciones de probabilidad previa conjugadas para distribuciones binomiales (incluida Bernoulli ) y geométricas . El dominio de la distribución beta puede verse como una probabilidad y, de hecho, la distribución beta se utiliza a menudo para describir la distribución de un valor de probabilidad p : ​​[23]

Ejemplos de distribuciones beta utilizadas como probabilidades previas para representar la ignorancia de los valores de parámetros anteriores en la inferencia bayesiana son Beta(1,1), Beta(0,0) y Beta(1/2,1/2).

Regla de sucesión

Una aplicación clásica de la distribución beta es la regla de sucesión , introducida en el siglo XVIII por Pierre-Simon Laplace [55] mientras trataba el problema del amanecer . Afirma que, dados s éxitos en n ensayos de Bernoulli condicionalmente independientes con probabilidad p, la estimación del valor esperado en el siguiente ensayo es . Esta estimación es el valor esperado de la distribución posterior sobre p, es decir Beta( s +1, ns +1), que viene dada por la regla de Bayes si se supone una probabilidad previa uniforme sobre p (es decir, Beta(1, 1)) y luego observa que p generó s éxitos en n ensayos. La regla de sucesión de Laplace ha sido criticada por destacados científicos. RT Cox describió la aplicación de Laplace de la regla de sucesión al problema del amanecer ( [56] p. 89) como "una parodia del uso adecuado del principio". Keynes comenta ( [57] Ch.XXX, p. 382) "de hecho, este es un teorema tan tonto que considerarlo es vergonzoso". Karl Pearson [58] demostró que la probabilidad de que los siguientes ( n  + 1) ensayos sean exitosos, después de n éxitos en n ensayos, es sólo del 50%, lo que ha sido considerado demasiado bajo por científicos como Jeffreys e inaceptable como representación de El proceso científico de experimentación para probar una ley científica propuesta. Como lo señala Jeffreys ( [59] p. 128) (dando crédito a CD Broad [60] ), la regla de sucesión de Laplace establece una alta probabilidad de éxito ((n+1)/(n+2)) en el siguiente ensayo, pero sólo una probabilidad moderada (50%) de que otra muestra (n+1) comparable en tamaño tenga el mismo éxito. Como señaló Perks, [61] "La regla de sucesión en sí misma es difícil de aceptar. Asigna una probabilidad al siguiente ensayo, lo que implica la suposición de que la ejecución real observada es una ejecución promedio y que siempre estamos al final de la prueba". Se podría pensar que sería más razonable suponer que estamos en medio de una carrera promedio. Claramente es necesario un valor más alto para ambas probabilidades si se quiere que estén de acuerdo con una creencia razonable. Estos problemas con la regla de sucesión de Laplace motivaron a Haldane, Perks, Jeffreys y otros a buscar otras formas de probabilidad previa (ver el siguiente § Inferencia bayesiana). Según Jaynes, [52]El principal problema de la regla de sucesión es que no es válida cuando s=0 o s=n (ver regla de sucesión , para un análisis de su validez).

Probabilidad previa de Bayes-Laplace (Beta(1,1))

La distribución beta logra la máxima entropía diferencial para Beta(1,1): la densidad de probabilidad uniforme , para la cual todos los valores en el dominio de la distribución tienen la misma densidad. Esta distribución uniforme Beta(1,1) fue sugerida ("con muchas dudas") por Thomas Bayes [62] como la distribución de probabilidad previa para expresar ignorancia sobre la distribución previa correcta. Esta distribución previa fue adoptada (aparentemente, a partir de sus escritos, con pocos signos de duda [55] ) por Pierre-Simon Laplace , y por lo tanto también fue conocida como la "regla de Bayes-Laplace" o la "regla de Laplace" de " inversa ". probabilidad " en publicaciones de la primera mitad del siglo XX. A finales del siglo XIX y principios del XX, los científicos se dieron cuenta de que el supuesto de una densidad de probabilidad "igual" uniforme dependía de las funciones reales (por ejemplo, si una escala lineal o logarítmica era la más apropiada) y las parametrizaciones utilizadas. . En particular, el comportamiento cerca de los extremos de distribuciones con soporte finito (por ejemplo, cerca de x = 0, para una distribución con soporte inicial en x = 0) requirió especial atención. Keynes ( [57] Ch.XXX, p. 381) criticó el uso de la probabilidad previa uniforme de Bayes (Beta(1,1)) de que todos los valores entre cero y uno son equiprobables, de la siguiente manera: "Así, la experiencia, si muestra algo , muestra que hay una agrupación muy marcada de razones estadísticas en las proximidades de cero y la unidad, de las de teorías positivas y de correlaciones entre cualidades positivas en las proximidades de cero, y de las de teorías negativas y de correlaciones entre cualidades negativas en las proximidades de cero. el barrio de la unidad".

Probabilidad previa de Haldane (Beta(0,0))

: La probabilidad previa de Haldane expresa ignorancia total sobre la información previa, donde ni siquiera estamos seguros de si es físicamente posible que un experimento tenga éxito o fracase. Cuando α, β → 0, la distribución beta se acerca a una distribución de Bernoulli de dos puntos con toda la densidad de probabilidad concentrada en cada extremo, en 0 y 1, y nada en el medio. Un lanzamiento de moneda: una cara de la moneda está en 0 y la otra cara en 1.

La distribución Beta(0,0) fue propuesta por JBS Haldane , [63] quien sugirió que la probabilidad previa que representa una incertidumbre total debería ser proporcional a p −1 (1− p ) −1 . La función p −1 (1− p ) −1 puede verse como el límite del numerador de la distribución beta cuando ambos parámetros de forma se acercan a cero: α, β → 0. La función Beta (en el denominador de la distribución beta) se acerca al infinito, para ambos parámetros se acercan a cero, α, β → 0. Por lo tanto, p −1 (1− p ) −1 dividido por la función Beta se aproxima a una distribución de Bernoulli de 2 puntos con igual probabilidad 1/2 en cada extremo, en 0 y 1, y nada intermedio, como α, β → 0. Un lanzamiento de moneda: una cara de la moneda está en 0 y la otra cara en 1. La distribución de probabilidad previa de Haldane Beta(0,0) es una " anterior inadecuado " porque su integración (de 0 a 1) no converge estrictamente a 1 debido a las singularidades en cada extremo. Sin embargo, esto no es un problema para calcular probabilidades posteriores a menos que el tamaño de la muestra sea muy pequeño. Además, Zellner [64] señala que en la escala logarítmica de probabilidades (la transformación logit ln( p /1 −  p )), el prior de Haldane es el prior uniformemente plano. Harold Jeffreys señaló el hecho de que una probabilidad previa uniforme en la variable transformada logit ln( p /1 −  p ) (con dominio (−∞, ∞)) es equivalente a la previa de Haldane en el dominio [0, 1]. en la primera edición (1939) de su libro Teoría de la probabilidad ( [59] p. 123). Jeffreys escribe: "Ciertamente, si llevamos la regla de Bayes-Laplace hasta los extremos, llegaremos a resultados que no corresponden a la forma de pensar de nadie. La regla (de Haldane) d x /( x (1 −  x )) también se aplica todo lo contrario. Llevaría a la conclusión de que si una muestra es de un tipo con respecto a alguna propiedad, existe una probabilidad 1 de que toda la población sea de ese tipo". El hecho de que "uniforme" dependa de la parametrización llevó a Jeffreys a buscar una forma de prior que fuera invariante bajo diferentes parametrizaciones.

Probabilidad previa de Jeffreys (Beta(1/2,1/2) para Bernoulli o para una distribución binomial)

Probabilidad previa de Jeffreys para la distribución beta: la raíz cuadrada del determinante de la matriz de información de Fisher : es una función de la función trigamma ψ 1 de los parámetros de forma α, β
Densidades Beta posteriores con muestras que tienen éxito = "s", fracaso = "f" de s /( s + f ) = 1/2 y s + f = {3,10,50}, basadas en 3 funciones de probabilidad anteriores diferentes : Haldane (Beta(0,0), Jeffreys (Beta(1/2,1/2)) y Bayes (Beta(1,1)). La imagen muestra que hay poca diferencia entre los anteriores para el posterior con la muestra. tamaño de 50 (con un pico más pronunciado cerca de p  = 1/2). Aparecen diferencias significativas para tamaños de muestra muy pequeños (la distribución más plana para un tamaño de muestra de 3).
Densidades Beta posteriores con muestras que tienen éxito = "s", fracaso = "f" de s /( s + f ) = 1/4, y s + f ∈ {3,10,50}, basadas en tres funciones de probabilidad anteriores diferentes : Haldane (Beta(0,0), Jeffreys (Beta(1/2,1/2)) y Bayes (Beta(1,1)). La imagen muestra que hay poca diferencia entre los anteriores para el posterior con la muestra. tamaño de 50 (con un pico más pronunciado cerca de p = 1/4). Aparecen diferencias significativas para tamaños de muestra muy pequeños (la distribución muy sesgada para el caso degenerado de tamaño de muestra = 3; en este caso degenerado e improbable, el resultado previo de Haldane es). una forma de "J" inversa con moda en p  = 0 en lugar de p  = 1/4. Si hay suficientes datos de muestreo , los tres priores de Bayes (Beta(1,1)), Jeffreys (Beta(1/2,1). /2)) y Haldane (Beta(0,0)) deberían producir densidades de probabilidad posteriores similares.
Densidades Beta posteriores con muestras que tienen éxito = s , fracaso = f de s /( s + f ) = 1/4, y s + f ∈ {4,12,40}, basadas en tres funciones de probabilidad previas diferentes: Haldane (Beta (0,0), Jeffreys (Beta(1/2,1/2)) y Bayes (Beta(1,1)). La imagen muestra que hay poca diferencia entre los anteriores para el posterior con un tamaño de muestra de 40 (). con un pico más pronunciado cerca de p  = 1/4). Aparecen diferencias significativas para tamaños de muestra muy pequeños.

Harold Jeffreys [59] [65] propuso utilizar una medida de probabilidad previa no informativa que debería ser invariante bajo reparametrización : proporcional a la raíz cuadrada del determinante de la matriz de información de Fisher . Para la distribución de Bernoulli , esto se puede mostrar de la siguiente manera: para una moneda que es "cara" con probabilidad p ∈ [0, 1] y es "cruz" con probabilidad 1 − p , para un dado (H,T) ∈ { (0,1), (1,0)} la probabilidad es p H (1 − p ) T . Como T = 1 − H , la distribución de Bernoulli es p H (1 − p ) 1 − H . Considerando p como único parámetro, se deduce que la probabilidad logarítmica para la distribución de Bernoulli es

La matriz de información de Fisher tiene un solo componente (es escalar, porque solo hay un parámetro: p ), por lo tanto:

De manera similar, para la distribución Binomial con n ensayos de Bernoulli , se puede demostrar que

Por lo tanto, para las distribuciones Bernoulli y Binomial , Jeffreys prior es proporcional a , que resulta ser proporcional a una distribución beta con variable de dominio x = p , y parámetros de forma α = β = 1/2, la distribución arcoseno :

En la siguiente sección se mostrará que la constante de normalización para Jeffreys anterior es irrelevante para el resultado final porque la constante de normalización se cancela en el teorema de Bayes para la probabilidad posterior. Por lo tanto, Beta (1/2, 1/2) se utiliza como a priori de Jeffreys tanto para las distribuciones de Bernoulli como para las binomiales. Como se muestra en la siguiente sección, cuando se utiliza esta expresión como probabilidad previa multiplicada por la probabilidad en el teorema de Bayes , la probabilidad posterior resulta ser una distribución beta. Es importante tener en cuenta, sin embargo, que el prior de Jeffreys es proporcional a para la distribución binomial y de Bernoulli, pero no para la distribución beta. El adelanto de Jeffreys para la distribución beta viene dado por el determinante de la información de Fisher para la distribución beta, que, como se muestra en la § Matriz de información de Fisher, es función de la función trigamma ψ 1 de los parámetros de forma α y β de la siguiente manera:

Como se discutió anteriormente, Jeffreys prior para las distribuciones de Bernoulli y binomial es proporcional a la distribución arcoseno Beta(1/2,1/2), una curva unidimensional que parece una cuenca en función del parámetro p de Bernoulli y distribuciones binomiales. Las paredes de la cuenca están formadas por p acercándose a las singularidades en los extremos p → 0 y p → 1, donde Beta (1/2,1/2) tiende al infinito. Jeffreys prior para la distribución beta es una superficie bidimensional (incrustada en un espacio tridimensional) que parece un lavabo con solo dos de sus paredes reuniéndose en la esquina α = β = 0 (y faltando las otras dos paredes) como una función de los parámetros de forma α y β de la distribución beta. Las dos paredes contiguas de esta superficie bidimensional están formadas por los parámetros de forma α y β que se aproximan a las singularidades (de la función trigamma) en α, β → 0. No tiene paredes para α, β → ∞ porque en este caso la determinante de la matriz de información de Fisher para la distribución beta se aproxima a cero.

En la siguiente sección se mostrará que la probabilidad previa de Jeffreys da como resultado probabilidades posteriores (cuando se multiplica por la función de probabilidad binomial) que son intermedias entre los resultados de probabilidad posterior de las probabilidades previas de Haldane y Bayes.

El previo de Jeffreys puede ser difícil de obtener analíticamente y, en algunos casos, simplemente no existe (incluso para funciones de distribución simples como la distribución triangular asimétrica ). Berger, Bernardo y Sun, en un artículo de 2009 [66] definieron una distribución de probabilidad previa de referencia que (a diferencia de la anterior de Jeffreys) existe para la distribución triangular asimétrica . No pueden obtener una expresión en forma cerrada para su anterior de referencia, pero los cálculos numéricos muestran que se ajusta casi perfectamente a la anterior (adecuada)

donde θ es la variable de vértice para la distribución triangular asimétrica con soporte [0, 1] (correspondiente a los siguientes valores de parámetros en el artículo de Wikipedia sobre la distribución triangular : vértice c = θ , extremo izquierdo a = 0 y extremo derecho b = 1 ). Berger et al. También proporcione un argumento heurístico de que Beta (1/2, 1/2) podría ser la referencia exacta de Berger-Bernardo-Sol antes de la distribución triangular asimétrica. Por lo tanto, Beta(1/2,1/2) no sólo es el previo de Jeffreys para las distribuciones binomial y de Bernoulli, sino que también parece ser el previo de referencia de Berger-Bernardo-Sol para la distribución triangular asimétrica (para la cual el previo de Jeffreys no existe), una distribución utilizada en la gestión de proyectos y el análisis PERT para describir el costo y la duración de las tareas del proyecto.

Clarke y Barron [67] demuestran que, entre a priori positivos continuos, el a priori de Jeffreys (cuando existe) maximiza asintóticamente la información mutua de Shannon entre una muestra de tamaño n y el parámetro, y por lo tanto el a priori de Jeffreys es el a priori menos informativo (midiendo información como Shannon información). La prueba se basa en un examen de la divergencia de Kullback-Leibler entre funciones de densidad de probabilidad para variables aleatorias iid .

Efecto de diferentes elecciones de probabilidad previa sobre la distribución beta posterior

Si se extraen muestras de la población de una variable aleatoria X que resulta en s éxitos y f fracasos en n ensayos de Bernoulli n  =  s  +  f , entonces la función de probabilidad para los parámetros s y f dado x  =  p (la notación x  =  p en las siguientes expresiones enfatizarán que el dominio x representa el valor del parámetro p en la distribución binomial), es la siguiente distribución binomial :

Si las creencias sobre la información de probabilidad previa se aproximan razonablemente mediante una distribución beta con parámetros α  Prior y β  Prior, entonces:

Según el teorema de Bayes para un espacio de eventos continuo, la densidad de probabilidad posterior viene dada por el producto de la probabilidad anterior y la función de verosimilitud (dada la evidencia s y f  =  n  −  s ), normalizada de modo que el área bajo la curva sea igual uno, de la siguiente manera:

El coeficiente binomial

aparece tanto en el numerador como en el denominador de la probabilidad posterior, y no depende de la variable de integración x , por lo tanto se cancela y es irrelevante para el resultado final. De manera similar, el factor de normalización para la probabilidad previa, la función beta B(αPrior,βPrior) se cancela y es irrelevante para el resultado final. Se puede obtener el mismo resultado de probabilidad posterior si se utiliza un método previo no normalizado.

porque todos los factores de normalización se cancelan. Varios autores (incluido el propio Jeffreys) utilizan una fórmula previa no normalizada ya que la constante de normalización se cancela. El numerador de la probabilidad posterior termina siendo simplemente el producto (no normalizado) de la probabilidad anterior y la función de verosimilitud, y el denominador es su integral de cero a uno. La función beta en el denominador, B( s  +  α  Prior,  n  −  s  +  β  Prior), aparece como una constante de normalización para garantizar que la probabilidad posterior total se integre a la unidad.

La relación s / n entre el número de éxitos y el número total de intentos es una estadística suficiente en el caso binomial, que es relevante para los siguientes resultados.

Para la probabilidad previa de Bayes (Beta(1,1)), la probabilidad posterior es:

Para la probabilidad previa de Jeffreys (Beta(1/2,1/2)), la probabilidad posterior es:

y para la probabilidad previa de Haldane (Beta(0,0)), la probabilidad posterior es:

De las expresiones anteriores se deduce que para s / n  = 1/2) las tres probabilidades anteriores anteriores dan como resultado la ubicación idéntica para la probabilidad posterior media = moda = 1/2. Para s / n  < 1/2, la media de las probabilidades posteriores, utilizando los siguientes anteriores, son tales que: media para el anterior de Bayes > media para el anterior de Jeffreys > media para el anterior de Haldane. Para s / n  > 1/2, el orden de estas desigualdades se invierte de modo que la probabilidad anterior de Haldane da como resultado la media posterior más grande. La probabilidad previa de Haldane Beta(0,0) da como resultado una densidad de probabilidad posterior con media (el valor esperado para la probabilidad de éxito en la "siguiente" prueba) idéntica a la relación s / n del número de éxitos con el número total. de juicios. Por lo tanto, el método previo de Haldane da como resultado una probabilidad posterior con un valor esperado en el siguiente ensayo igual a la probabilidad máxima. La probabilidad previa de Bayes Beta (1,1) da como resultado una densidad de probabilidad posterior con una moda idéntica a la relación s / n (la máxima verosimilitud).

En el caso de que el 100% de los ensayos hayan tenido éxito s  =  n , la probabilidad previa de Bayes Beta(1,1) da como resultado un valor esperado posterior igual a la regla de sucesión ( n  + 1)/( n  + 2), mientras que el Beta previo de Haldane (0,0) da como resultado un valor esperado posterior de 1 (certeza absoluta de éxito en el siguiente ensayo). La probabilidad previa de Jeffreys da como resultado un valor esperado posterior igual a ( n  + 1/2)/( n  + 1). Perks [61] (p. 303) señala: "Esto proporciona una nueva regla de sucesión y expresa una posición 'razonable' a adoptar, es decir, que después de una serie ininterrumpida de n éxitos asumimos una probabilidad para el siguiente ensayo equivalente al supuesto de que estamos aproximadamente a la mitad de una ejecución promedio, es decir, que esperamos un fracaso una vez en (2 n  + 2) ensayos. La regla de Bayes-Laplace implica que estamos aproximadamente al final de una ejecución promedio o que. esperamos un fracaso una vez en ( n  + 2) ensayos. La comparación claramente favorece el nuevo resultado (lo que ahora se llama Jeffreys prior) desde el punto de vista de la 'razonabilidad'."

Por el contrario, en el caso de que el 100% de los ensayos hayan resultado en fracaso ( s  = 0), la probabilidad previa de Bayes Beta(1,1) da como resultado un valor esperado posterior de éxito en el siguiente ensayo igual a 1/( n  + 2), mientras que el Beta previo de Haldane (0,0) da como resultado un valor esperado posterior de éxito en el siguiente ensayo de 0 (certeza absoluta de fracaso en el siguiente ensayo). La probabilidad previa de Jeffreys da como resultado un valor esperado posterior para el éxito en la siguiente prueba igual a (1/2)/( n  + 1), que Perks [61] (p. 303) señala: "es un resultado mucho más razonablemente remoto". que el resultado de Bayes-Laplace 1/( n  + 2)".

Jaynes [52] cuestiona (para el previo uniforme Beta(1,1)) el uso de estas fórmulas para los casos s  = 0 o s  =  n porque las integrales no convergen (Beta(1,1) es un previo inadecuado para s  = 0 o s  =  n ). En la práctica, las condiciones 0<s<n necesarias para que exista un modo entre ambos extremos para el previo de Bayes generalmente se cumplen y, por lo tanto, el previo de Bayes (siempre que 0 <  s  <  n ) resulte en un modo posterior ubicado entre ambos. extremos del dominio.

Como se señaló en la sección sobre la regla de sucesión, K. Pearson demostró que después de n éxitos en n ensayos, la probabilidad posterior (basada en la distribución Bayes Beta(1,1) como probabilidad previa) de que el siguiente ( n  + 1) todas las pruebas serán éxitos es exactamente 1/2, cualquiera que sea el valor de  n . Basado en la distribución Haldane Beta (0,0) como probabilidad previa, esta probabilidad posterior es 1 (certeza absoluta de que después de n éxitos en n ensayos, los siguientes ( n  + 1) ensayos serán todos exitosos). Perks [61] (p. 303) muestra que, para lo que ahora se conoce como Jeffreys prior, esta probabilidad es (( n  + 1/2)/( n  + 1))(( n  + 3/2)/( n  + 2))...(2 n  + 1/2)/(2 n  + 1), que para n  = 1, 2, 3 da 15/24, 315/480, 9009/13440; acercándose rápidamente a un valor límite de cuando n tiende a infinito. Perks señala que lo que ahora se conoce como el análisis previo de Jeffreys: "es claramente más 'razonable' que el resultado de Bayes-Laplace o el resultado de la regla alternativa (Haldane) rechazada por Jeffreys, que da la certeza como probabilidad. Claramente proporciona una una correspondencia mucho mejor con el proceso de inducción. Si es "absolutamente" razonable para el propósito, es decir, si es todavía lo suficientemente grande, sin el absurdo de alcanzar la unidad, es una cuestión que deben decidir otros. el resultado depende de la suposición de total indiferencia y ausencia de conocimiento antes del experimento de muestreo."

A continuación se muestran las varianzas de la distribución posterior obtenidas con estas tres distribuciones de probabilidad previas:

para la probabilidad previa de Bayes (Beta (1,1)), la varianza posterior es:

para la probabilidad previa de Jeffreys (Beta(1/2,1/2)), la varianza posterior es:

y para la probabilidad previa de Haldane (Beta(0,0)), la varianza posterior es:

Entonces, como señaló Silvey, [50] para n grande , la varianza es pequeña y, por lo tanto, la distribución posterior está altamente concentrada, mientras que la distribución anterior supuesta era muy difusa. Esto está de acuerdo con lo que cabría esperar, ya que un conocimiento previo vago se transforma (mediante el teorema de Bayes) en un conocimiento posterior más preciso mediante un experimento informativo. Para n pequeño, el anterior Haldane Beta (0,0) da como resultado la varianza posterior más grande, mientras que el anterior Bayes Beta (1,1) da como resultado el posterior más concentrado. Beta anterior de Jeffreys (1/2,1/2) da como resultado una variación posterior entre los otros dos. A medida que n aumenta, la varianza disminuye rápidamente de modo que la varianza posterior de los tres anteriores converge aproximadamente al mismo valor (acercándose a la varianza cero cuando n → ∞). Recordando el resultado anterior de que la probabilidad previa de Haldane Beta(0,0) da como resultado una densidad de probabilidad posterior con media (el valor esperado para la probabilidad de éxito en la "próxima" prueba) idéntica a la relación s/n del número de éxitos al número total de ensayos, se deduce de la expresión anterior que también el Beta(0,0) previo de Haldane da como resultado un posterior con una varianza idéntica a la varianza expresada en términos del máximo. estimación de probabilidad s/n y tamaño de muestra (en § Varianza):

con la media μ  =  s / n y el tamaño de muestra  ν  =  n .

En la inferencia bayesiana, utilizar una distribución previa Beta ( α Prior, β Prior) antes de una distribución binomial equivale a sumar ( α Prior − 1) pseudoobservaciones de "éxito" y ( β Prior − 1) pseudoobservaciones de " "fracaso" al número real de éxitos y fracasos observados, y luego estimar el parámetro p de la distribución binomial por la proporción de éxitos sobre observaciones reales y pseudo. Una Beta(1,1) previa uniforme no suma (ni resta) ninguna pseudoobservación ya que para Beta(1,1) se sigue que ( α Prior − 1) = 0 y ( β Prior − 1) = 0. La Beta anterior de Haldane (0,0) resta una pseudoobservación de cada una y Beta anterior de Jeffreys (1/2,1/2) resta 1/2 pseudoobservación de éxito y un número igual de fracaso. Esta resta tiene el efecto de suavizar la distribución posterior. Si la proporción de éxitos no es del 50% ( s / n  ≠ 1/2), los valores de α Prior y β Prior menores que 1 (y por lo tanto negativos ( α Prior − 1) y ( β Prior − 1)) favorecen la escasez, es decir distribuciones donde el parámetro p está más cerca de 0 o 1. De hecho, los valores de α Prior y β Prior entre 0 y 1, cuando operan juntos, funcionan como un parámetro de concentración .

Los gráficos adjuntos muestran las funciones de densidad de probabilidad posterior para tamaños de muestra n  ∈ {3,10,50}, éxitos s  ∈ { n /2, n /4} y Beta( α Prior, β Prior) ∈ {Beta(0,0 ),Beta(1/2,1/2),Beta(1,1)}. También se muestran los casos para n  = {4,12,40}, éxito s  = { n /4} y Beta( α Prior, β Prior) ∈ {Beta(0,0),Beta(1/2,1/ 2),Beta(1,1)}. El primer gráfico muestra los casos simétricos, para éxitos s  ∈ {n/2}, con media = moda = 1/2 y el segundo gráfico muestra los casos sesgados s  ∈ { n /4}. Las imágenes muestran que hay poca diferencia entre los anteriores para el posterior con un tamaño de muestra de 50 (caracterizado por un pico más pronunciado cerca de p  = 1/2). Aparecen diferencias significativas para tamaños de muestra muy pequeños (en particular para la distribución más plana para el caso degenerado de tamaño de muestra = 3). Por lo tanto, los casos asimétricos, con éxitos s  = { n /4}, muestran un efecto mayor de la elección del a priori, con un tamaño de muestra pequeño, que los casos simétricos. Para distribuciones simétricas, la Beta(1,1) anterior de Bayes da como resultado las distribuciones posteriores más "picos" y más altas y la Beta(0,0) anterior de Haldane da como resultado la distribución de pico más plana y más baja. La Beta(1/2,1/2) anterior de Jeffreys se encuentra entre ellos. Para distribuciones casi simétricas, no demasiado sesgadas, el efecto de las prioridades es similar. Para un tamaño de muestra muy pequeño (en este caso para un tamaño de muestra de 3) y una distribución sesgada (en este ejemplo para s  ∈ { n /4}), el prior de Haldane puede dar como resultado una distribución en forma de J inversa con una singularidad en el extremo izquierdo. Sin embargo, esto sucede sólo en casos degenerados (en este ejemplo n  = 3 y por lo tanto s  = 3/4 < 1, un valor degenerado porque s debe ser mayor que la unidad para que la parte posterior del Haldane anterior tenga una moda ubicada entre los extremos, y debido a que s  = 3/4 no es un número entero, por lo tanto viola el supuesto inicial de una distribución binomial para la probabilidad) y no es un problema en casos genéricos de tamaño de muestra razonable (tal que la condición 1 <  s  <  n  − 1, necesario para que exista un modo entre ambos extremos, se cumple).

En el capítulo 12 (p. 385) de su libro, Jaynes [52] afirma que el Beta(0,0) previo de Haldane describe un estado previo de conocimiento de completa ignorancia , donde ni siquiera estamos seguros de si es físicamente posible para un experimento para producir un éxito o un fracaso, mientras que el Beta (1,1) anterior de Bayes (uniforme) se aplica si se sabe que ambos resultados binarios son posibles . Jaynes afirma: " interpretar el anterior de Bayes-Laplace (Beta(1,1)) como que describe no un estado de completa ignorancia , sino el estado de conocimiento en el que hemos observado un éxito y un fracaso... una vez que hemos visto al menos Al menos un éxito y un fracaso, entonces sabemos que el experimento es verdaderamente binario, en el sentido de posibilidad física". Jaynes [52] no analiza específicamente la Beta(1/2,1/2) anterior de Jeffreys (la discusión de Jaynes sobre "Jeffreys prior" en las págs. 181, 423 y en el capítulo 12 del libro de Jaynes [52] se refiere en cambio a lo inadecuado, "1/ p  dp " anterior no normalizado introducido por Jeffreys en la edición de 1939 de su libro, [59] siete años antes de que introdujera lo que ahora se conoce como el anterior invariante de Jeffreys: la raíz cuadrada del determinante de la matriz de información de Fisher. " 1/p" es la invariante previa de Jeffreys (1946) para la distribución exponencial , no para las distribuciones de Bernoulli o binomiales . Sin embargo, de la discusión anterior se desprende que Jeffreys Beta (1/2,1/2) anterior representa un estado de conocimiento entre Haldane Beta (0,0) y Bayes Beta (1,1) anterior.

De manera similar, Karl Pearson en su libro de 1892 The Grammar of Science [68] [69] (p. 144 de la edición de 1900) sostuvo que el previo uniforme de Bayes (Beta(1,1) no era un previo de completa ignorancia, y que debería utilizarse cuando la información previa esté justificada para "distribuir nuestra ignorancia por igual"". K. Pearson escribió: "Sin embargo, la única suposición que parece haber hecho es ésta: que, al no saber nada de la naturaleza, la rutina y la anomia (del griego ανομία, a saber: a- "sin" y nomos "ley") deben considerarse igualmente probables. Ahora bien, ni siquiera estábamos justificados para hacer esta suposición, ya que implica un conocimiento que no poseemos sobre la naturaleza. Usamos nuestra experiencia de la constitución y acción de las monedas en general para afirmar que cara y cruz son igualmente probables, pero no tenemos derecho a afirmar antes de la experiencia que, como no sabemos nada de la naturaleza, la rutina y la infracción son igualmente probables en nuestra ignorancia. debemos considerar antes de la experiencia que la naturaleza puede consistir en todas las rutinas, todas las anomias (falta de normas), o una mezcla de las dos en cualquier proporción, y que todas ellas son igualmente probables. Cuál de estas constituciones después de la experiencia es la más probable debe depender claramente de cómo haya sido esa experiencia".

Si hay suficientes datos de muestreo y el modo de probabilidad posterior no está ubicado en uno de los extremos del dominio ( x  = 0 o x  = 1), los tres priores de Bayes (Beta(1,1)), Jeffreys (Beta (1/2,1/2)) y Haldane (Beta(0,0)) deberían producir densidades de probabilidad posteriores similares. De lo contrario, como Gelman et al. [70] (p. 65) señalan, "si hay tan pocos datos disponibles que la elección de una distribución previa no informativa marca la diferencia, uno debería poner información relevante en la distribución previa", o como Berger [4] (p. 125 ) ) señala "cuando diferentes antecedentes razonables producen respuestas sustancialmente diferentes, ¿puede ser correcto afirmar que hay una única respuesta? ¿No sería mejor admitir que existe incertidumbre científica, y que la conclusión depende de creencias previas?".

Ocurrencia y aplicaciones

Estadísticas de pedidos

La distribución beta tiene una aplicación importante en la teoría de la estadística de orden . Un resultado básico es que la distribución del k -ésimo más pequeño de una muestra de tamaño n de una distribución uniforme continua tiene una distribución beta. [39] Este resultado se resume como:

A partir de esto, y de la aplicación de la teoría relacionada con la transformada integral de probabilidad , se puede derivar la distribución de cualquier estadística de orden individual a partir de cualquier distribución continua . [39]

Lógica subjetiva

En lógica estándar, las proposiciones se consideran verdaderas o falsas. Por el contrario, la lógica subjetiva supone que los humanos no pueden determinar con absoluta certeza si una proposición sobre el mundo real es absolutamente verdadera o falsa. En lógica subjetiva, las estimaciones de probabilidad a posteriori de eventos binarios pueden representarse mediante distribuciones beta. [71]

Análisis de ondas

Una wavelet es una oscilación similar a una onda con una amplitud que comienza en cero, aumenta y luego disminuye hasta llegar a cero. Por lo general, se puede visualizar como una "breve oscilación" que decae rápidamente. Las wavelets se pueden utilizar para extraer información de muchos tipos diferentes de datos, incluidas, entre otras, señales de audio e imágenes. Por lo tanto, las wavelets se diseñan intencionalmente para tener propiedades específicas que las hagan útiles para el procesamiento de señales . Las wavelets se localizan tanto en tiempo como en frecuencia , mientras que la transformada de Fourier estándar solo se localiza en frecuencia. Por lo tanto, las Transformadas de Fourier estándar solo son aplicables a procesos estacionarios , mientras que las wavelets son aplicables a procesos no estacionarios . Se pueden construir wavelets continuas basándose en la distribución beta. Las ondas beta [72] pueden verse como una variedad suave de ondas de Haar cuya forma se ajusta mediante dos parámetros de forma α y β.

Genética de poblaciones

El modelo de Balding-Nichols es una parametrización de dos parámetros de la distribución beta utilizada en genética de poblaciones . [73] Es una descripción estadística de las frecuencias alélicas en los componentes de una población subdividida:

dónde y ; aquí F es la distancia genética (de Wright) entre dos poblaciones.

Gestión de proyectos: modelado de costes y cronogramas de tareas.

La distribución beta se puede utilizar para modelar eventos que están obligados a ocurrir dentro de un intervalo definido por un valor mínimo y máximo. Por esta razón, la distribución beta, junto con la distribución triangular  , se utiliza ampliamente en PERT , método de ruta crítica (CPM), modelado de programación de costos conjuntos (JCSM) y otros sistemas de control/ gestión de proyectos para describir el tiempo hasta la finalización y el costo. de una tarea. En la gestión de proyectos, los cálculos abreviados se utilizan ampliamente para estimar la media y la desviación estándar de la distribución beta: [38]

donde a es el mínimo, c es el máximo y b es el valor más probable (la moda para α > 1 y β > 1).

La estimación anterior de la media se conoce como estimación de tres puntos PERT y es exacta para cualquiera de los siguientes valores de β (para α arbitrario dentro de estos rangos):

β = α > 1 (caso simétrico) con desviación estándar , asimetría = 0 y exceso de curtosis =

o

β = 6 − α para 5 > α > 1 (caso asimétrico) con desviación estándar

asimetría y exceso de curtosis

La estimación anterior para la desviación estándar σ ( X ) = ( ca )/6 es exacta para cualquiera de los siguientes valores de α y β :

α = β = 4 (simétrico) con asimetría = 0 y exceso de curtosis = −6/11.
β = 6 − α y (sesgo positivo de cola derecha) con asimetría y exceso de curtosis = 0
β = 6 − α y (sesgo negativo de cola izquierda) con asimetría y exceso de curtosis = 0

De lo contrario, estas pueden ser aproximaciones deficientes para distribuciones beta con otros valores de α y β, mostrando errores promedio del 40% en la media y del 549% en la varianza. [74] [75] [76]

Generación de variables aleatorias

Si X e Y son independientes, con y entonces

Entonces, un algoritmo para generar variables beta es generar , donde X es una variable gamma con parámetros (α, 1) e Y es una variable gamma independiente con parámetros (β, 1). [77] De hecho, aquí y son independientes, y . Si y es independiente de y , entonces y es independiente de . Esto muestra que el producto de variables independientes y aleatorias es una variable aleatoria.

Además, el estadístico de orden k de n variables distribuidas uniformemente es , por lo que una alternativa si α y β son enteros pequeños es generar α + β − 1 variables uniformes y elegir la α-ésima más pequeña. [39]

Otra forma de generar la distribución Beta es mediante el modelo de urna Pólya . Según este método, se comienza con una "urna" con bolas α "negras" y bolas β "blancas" y se extrae uniformemente con reemplazo. En cada prueba se añade una bola adicional según el color de la última bola extraída. Asintóticamente, la proporción de bolas blancas y negras se distribuirá según la distribución Beta, donde cada repetición del experimento producirá un valor diferente.

También es posible utilizar el muestreo por transformación inversa .

Aproximación normal a la distribución Beta

Una distribución beta con α ~ β y α y β >> 1 es aproximadamente normal con media 1/2 y varianza 1/(4(2 α + 1)). Si αβ la aproximación normal se puede mejorar tomando la raíz cúbica del logaritmo del recíproco de [78]

Historia

Thomas Bayes , en un artículo póstumo [62] publicado en 1763 por Richard Price , obtuvo una distribución beta como densidad de la probabilidad de éxito en los ensayos de Bernoulli (ver § Aplicaciones, inferencia bayesiana), pero el artículo no analiza ninguna de las momentos de la distribución beta o discutir cualquiera de sus propiedades.

Karl Pearson analizó la distribución beta como la solución Tipo I de las distribuciones de Pearson

La primera discusión moderna sistemática sobre la distribución beta se debe probablemente a Karl Pearson . [79] [80] En los artículos de Pearson [20] [32] la distribución beta se presenta como una solución de una ecuación diferencial: la distribución Tipo I de Pearson, a la que es esencialmente idéntica excepto por cambios y cambios de escala arbitrarios (la distribución beta y Las distribuciones de Pearson Tipo I siempre pueden ecualizarse mediante la elección adecuada de los parámetros). De hecho, en varios libros y artículos de revistas ingleses de las pocas décadas anteriores a la Segunda Guerra Mundial, era común referirse a la distribución beta como distribución Tipo I de Pearson. William P. Elderton en su monografía de 1906 "Curvas de frecuencia y correlación" [42] analiza más a fondo la distribución beta como distribución Tipo I de Pearson, incluida una discusión completa del método de los momentos para el caso de cuatro parámetros y diagramas de (lo que Elderton describe). como) Cajas en forma de U, en forma de J, en forma de J torcida, en forma de "sombrero de tres picos", en forma de líneas rectas horizontales y en ángulo. Elderton escribió: "Estoy en deuda principalmente con el profesor Pearson, pero la deuda es de un tipo por el cual es imposible ofrecerle un agradecimiento formal". Elderton en su monografía de 1906 [42] proporciona una cantidad impresionante de información sobre la distribución beta, incluidas ecuaciones para el origen de la distribución elegida como moda, así como para otras distribuciones de Pearson: tipos I a VII. Elderton también incluyó varios apéndices, incluido un apéndice ("II") sobre las funciones beta y gamma. En ediciones posteriores, Elderton añadió ecuaciones para el origen de la distribución elegida como media y análisis de las distribuciones de Pearson VIII a XII.

Como observaron Bowman y Shenton [44] "Fisher y Pearson tenían una diferencia de opinión en el enfoque de la estimación (de parámetros), en particular en relación con (el método de Pearson de) momentos y (el método de Fisher de) máxima verosimilitud en el caso de la Distribución beta." También según Bowman y Shenton, "el caso de que un modelo de Tipo I (distribución beta) fuera el centro de la controversia fue pura casualidad. Un modelo más difícil de 4 parámetros habría sido difícil de encontrar". El prolongado conflicto público de Fisher con Karl Pearson se puede seguir en varios artículos publicados en revistas prestigiosas. Por ejemplo, en lo que respecta a la estimación de los cuatro parámetros para la distribución beta y la crítica de Fisher al método de momentos de Pearson por ser arbitrario, consulte el artículo de Pearson "Método de momentos y método de máxima probabilidad" [45] (publicado tres años después de su retiro). del University College de Londres, donde su puesto había sido dividido entre Fisher y el hijo de Pearson, Egon) en el que Pearson escribe: "Leí (el artículo de Koshai en el Journal of the Royal Statistical Society, 1933) que, hasta donde yo sé, es el único caso actualmente publicado de la aplicación del método del profesor Fisher. Para mi sorpresa, ese método depende de calcular primero las constantes de la curva de frecuencia mediante el método (de Pearson) de los momentos y luego superponerlo, mediante lo que Fisher denomina "el método de Máxima Verosimilitud" una mayor aproximación para obtener lo que sostiene, obtendrá así "valores más eficientes" de las constantes de la curva".

El tratado de David y Edwards sobre la historia de la estadística [81] cita el primer tratamiento moderno de la distribución beta, en 1911, [82] utilizando la designación beta que se ha convertido en estándar, debido a Corrado Gini , un estadístico , demógrafo y sociólogo italiano. , quien desarrolló el coeficiente de Gini . NLJohnson y S.Kotz , en su exhaustiva y muy informativa monografía [83] sobre destacadas personalidades históricas de las ciencias estadísticas, dan crédito a Corrado Gini [84] como "uno de los primeros bayesianos... que se ocupó del problema de obtener los parámetros de una beta inicial". distribución, destacando técnicas que anticiparon el advenimiento del llamado enfoque empírico de Bayes".

Referencias

  1. ^ abcdefghijklmnopqrstu vwxy Johnson, Norman L.; Kotz, Samuel; Balakrishnan, N. (1995). "Capítulo 25: Distribuciones Beta". Distribuciones univariadas continuas vol. 2 (2ª ed.). Wiley. ISBN 978-0-471-58494-0.
  2. ^ ab Rose, Colin; Smith, Murray D. (2002). Estadística Matemática con MATHEMATICA . Saltador. ISBN 978-0387952345.
  3. ^ abc Kruschke, John K. (2011). "Hacer análisis de datos bayesianos: un tutorial con R y BUGS" . Prensa académica / Elsevier. pag. 83.ISBN 978-0123814852.
  4. ^ ab Berger, James O. (2010). Teoría de la decisión estadística y análisis bayesiano (2ª ed.). Saltador. ISBN 978-1441930743.
  5. ^ abcd Feller, William (1971). Introducción a la teoría de la probabilidad y sus aplicaciones, vol. 2. Wiley. ISBN 978-0471257097.
  6. ^ Kruschke, John K. (2015). Realización de análisis de datos bayesianos: un tutorial con R, JAGS y Stan . Prensa académica / Elsevier. ISBN 978-0-12-405888-0.
  7. ^ ab Wadsworth, George P. y Joseph Bryan (1960). Introducción a la probabilidad y las variables aleatorias . McGraw-Hill.
  8. ^ abcdefg Gupta, Arjun K., ed. (2004). Manual de distribución Beta y sus aplicaciones . Prensa CRC. ISBN 978-0824753962.
  9. ^ ab Kerman, Jouni (2011). "Una aproximación de forma cerrada para la mediana de la distribución beta". arXiv : 1111.0433 [matemáticas.ST].
  10. ^ Mosteller, Frederick y John Tukey (1977). Análisis de datos y regresión: un segundo curso de estadística . Pub Addison-Wesley. Co. Bibcode : 1977dars.book.....M. ISBN 978-0201048544.
  11. ^ ab Feller, William (1968). Una introducción a la teoría de la probabilidad y sus aplicaciones . vol. 1 (3ª ed.). ISBN 978-0471257080.
  12. ^ Philip J. Fleming y John J. Wallace. Cómo no mentir con las estadísticas: la forma correcta de resumir los resultados de los benchmarks . Comunicaciones de la ACM, 29(3):218–221, marzo de 1986.
  13. ^ "Manual electrónico de métodos estadísticos de NIST / SEMATECH 1.3.6.6.17. Distribución Beta". Instituto Nacional de Estándares y Tecnología Laboratorio de Tecnologías de la Información . Abril de 2012 . Consultado el 31 de mayo de 2016 .
  14. ^ Oguamanam, DCD; Martín, Recursos Humanos; Huissoon, JP (1995). "Sobre la aplicación de la distribución beta al análisis de daños en los engranajes". Acústica Aplicada . 45 (3): 247–261. doi :10.1016/0003-682X(95)00001-P.
  15. ^ Zhiqiang Liang; Jian Ming Wei; Junyu Zhao; Haitao Liu; Baoqing Li; Jie Shen; Chunlei Zheng (27 de agosto de 2008). "El significado estadístico de la curtosis y su nueva aplicación a la identificación de personas basada en señales sísmicas". Sensores . 8 (8): 5106–5119. Código Bib : 2008Senso...8.5106L. doi : 10.3390/s8085106 . PMC 3705491 . PMID  27873804. 
  16. ^ Kenney, JF y ES Keeping (1951). Matemáticas de Estadística Segunda Parte, 2ª edición . D. Van Nostrand Company Inc.{{cite book}}: CS1 maint: multiple names: authors list (link)
  17. ^ abcd Abramowitz, Milton e Irene A. Stegun (1965). Manual de funciones matemáticas con fórmulas, gráficas y tablas matemáticas. Dover. ISBN 978-0-486-61272-0.
  18. ^ Weisstein., Eric W. "Kurtosis". MathWorld: un recurso web de Wolfram . Consultado el 13 de agosto de 2012 .
  19. ^ ab Panik, Michael J (2005). Estadística avanzada desde un punto de vista elemental . Prensa académica. ISBN 978-0120884940.
  20. ^ abcdef Pearson, Karl (1916). "Contribuciones matemáticas a la teoría de la evolución, XIX: Segundo suplemento de una memoria sobre variación sesgada". Transacciones filosóficas de la Royal Society A. 216 (538–548): 429–457. Código Bib : 1916RSPTA.216..429P. doi : 10.1098/rsta.1916.0009 . JSTOR  91092.
  21. ^ Gradshteyn, Izrail Solomonovich ; Ryzhik, Iosif Moiseevich ; Geronimus, Yuri Veniaminovich ; Tseytlin, Michail Yulyevich ; Jeffrey, Alan (2015) [octubre de 2014]. Zwillinger, Daniel; Moll, Víctor Hugo (eds.). Tabla de Integrales, Series y Productos . Traducido por Scripta Technica, Inc. (8 ed.). Prensa académica, Inc. ISBN  978-0-12-384933-5. LCCN  2014010276.
  22. ^ Billingsley, Patricio (1995). "30". Probabilidad y medida (3ª ed.). Wiley-Interscience. ISBN 978-0-471-00710-4.
  23. ^ ab MacKay, David (2003). Teoría de la información, inferencia y algoritmos de aprendizaje . Prensa de la Universidad de Cambridge; Primera edición. Código bibliográfico : 2003itil.book.....M. ISBN 978-0521642989.
  24. ^ ab Johnson, NL (1949). «Sistemas de curvas de frecuencia generadas por métodos de traducción» (PDF) . Biometrika . 36 (1–2): 149–176. doi :10.1093/biomet/36.1-2.149. hdl :10338.dmlcz/135506. PMID  18132090.
  25. ^ Verdugo Lazo, ACG; Rathie, PN (1978). "Sobre la entropía de distribuciones de probabilidad continuas". Traducción IEEE. inf. Teoría . 24 (1): 120–122. doi :10.1109/TIT.1978.1055832.
  26. ^ Shannon, Claude E. (1948). "Una teoría matemática de la comunicación". Revista técnica del sistema Bell . 27 (4): 623–656. doi :10.1002/j.1538-7305.1948.tb01338.x.
  27. ^ Portada de abc, Thomas M. y Joy A. Thomas (2006). Elementos de teoría de la información, segunda edición (Serie Wiley en telecomunicaciones y procesamiento de señales) . Wiley-Interscience; 2 edición. ISBN 978-0471241959.
  28. ^ Plunkett, Kim y Jeffrey Elman (1997). Ejercicios para repensar lo innato: un manual para simulaciones conexionistas (modelado de redes neuronales y conexionismo) . Un libro de Bradford. pag. 166.ISBN 978-0262661058.{{cite book}}: CS1 maint: multiple names: authors list (link)
  29. ^ Nallapati, Ramesh (2006). La distribución de Dirichlet suavizada: comprensión de la clasificación de entropía cruzada en la recuperación de información (Tesis). Departamento de Ciencias de la Computación, Universidad de Massachusetts Amherst.
  30. ^ ab Pearson, Egon S. (julio de 1969). "Algunas reflexiones históricas trazadas a través del desarrollo del uso de curvas de frecuencia". Programa de investigación de análisis estadístico THEMIS, Informe técnico 38 . Oficina de Investigaciones Navales, Contrato N000014-68-A-0515 (Proyecto NR 042–260).
  31. ^ Hahn, Gerald J.; Shapiro, S. (1994). Modelos estadísticos en ingeniería (Biblioteca Wiley Classics) . Wiley-Interscience. ISBN 978-0471040651.
  32. ^ ab Pearson, Karl (1895). "Contribuciones a la teoría matemática de la evolución, II: Variación sesgada en material homogéneo". Transacciones filosóficas de la Royal Society . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . JSTOR  90649.
  33. ^ Buchanan, K.; Rockway, J.; Sternberg, O.; Mai, NN (mayo de 2016). "Formación de haz de suma-diferencia para aplicaciones de radar utilizando matrices aleatorias ahusadas circularmente". Conferencia de radar IEEE 2016 (RadarConf) . págs. 1 a 5. doi :10.1109/RADAR.2016.7485289. ISBN 978-1-5090-0863-6. S2CID  32525626.
  34. ^ Buchanan, K.; Flores, C.; Wheeland, S.; Jensen, J.; Grayson, D.; Huff, G. (mayo de 2017). "Transmitir formación de haces para aplicaciones de radar utilizando matrices aleatorias ahusadas circularmente". Conferencia de radar IEEE 2017 (RadarConf) . págs. 0112-0117. doi :10.1109/RADAR.2017.7944181. ISBN 978-1-4673-8823-8. S2CID  38429370.
  35. ^ Ryan, Buchanan, Kristopher (29 de mayo de 2014). "Teoría y aplicaciones de arreglos en fase aperiódicos (aleatorios)". {{cite journal}}: Citar diario requiere |journal=( ayuda )CS1 maint: multiple names: authors list (link)
  36. ^ Kerman, Jouni (2 de noviembre de 2011). "Una aproximación de forma cerrada para la mediana de la distribución beta". arXiv : 1111.0433 [matemáticas.ST].
  37. ^ Herrerías-Velasco, José Manuel y Herrerías-Pleguezuelo, Rafael y René van Dorp, Johan. (2011). Revisando la media y la varianza del PERT. Revista europea de investigación operativa (210), pág. 448–451.
  38. ^ ab Malcolm, director general; Roseboom, JH; Clark, CE; Fazar, W. (septiembre-octubre de 1958). "Aplicación de una Técnica para la Evaluación de Programas de Investigación y Desarrollo". La investigación de operaciones . 7 (5): 646–669. doi :10.1287/opre.7.5.646. ISSN  0030-364X.
  39. ^ abcd David, HA, Nagaraja, HN (2003) Estadísticas de pedidos (tercera edición). Wiley, Nueva Jersey págs. 458. ISBN 0-471-38926-9 
  40. ^ "Distribución Beta". www.statlect.com .
  41. ^ "1.3.6.6.17. Distribución Beta". www.itl.nist.gov .
  42. ^ abcdefgh Elderton, William Palin (1906). Curvas de frecuencia y correlación. Charles y Edwin Layton (Londres).
  43. ^ Elderton, William Palin y Norman Lloyd Johnson (2009). Sistemas de Curvas de Frecuencia . Prensa de la Universidad de Cambridge. ISBN 978-0521093361.
  44. ^ abc Bowman, KO ; Shenton, LR (2007). "La distribución beta, método del momento, Karl Pearson y RA Fisher" (PDF) . Lejano Oriente J. Theo. Estadística . 23 (2): 133–164.
  45. ^ ab Pearson, Karl (junio de 1936). "Método de momentos y método de máxima verosimilitud". Biometrika . 28 (1/2): 34–59. doi :10.2307/2334123. JSTOR  2334123.
  46. ^ abc Joanes, DN; CA Gill (1998). "Comparación de medidas de asimetría y curtosis de la muestra". El estadístico . 47 (Parte 1): 183–189. doi :10.1111/1467-9884.00122.
  47. ^ Beckman, RJ; GL Tietjen (1978). "Estimación de máxima verosimilitud para la distribución beta". Revista de simulación y computación estadística . 7 (3–4): 253–258. doi :10.1080/00949657808810232.
  48. ^ Gnanadesikan, R., Pinkham y Hughes (1967). "Estimación de máxima verosimilitud de los parámetros de la distribución beta a partir de estadísticas de orden más pequeño". Tecnometría . 9 (4): 607–620. doi :10.2307/1266199. JSTOR  1266199.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  49. ^ Fackler, Paul. "Función digamma inversa (Matlab)". Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Harvard . Consultado el 18 de agosto de 2012 .
  50. ^ abc Silvey, SD (1975). Inferencia estadística . Chapman y Hal. pag. 40.ISBN 978-0412138201.
  51. ^ Edwards, AWF (1992). Probabilidad . Prensa de la Universidad Johns Hopkins. ISBN 978-0801844430.
  52. ^ abcdef Jaynes, y (2003). Teoría de la probabilidad, la lógica de la ciencia . Prensa de la Universidad de Cambridge. ISBN 978-0521592710.
  53. ^ Costa, Max y Cover, Thomas (septiembre de 1983). Sobre la similitud de la desigualdad del poder de la entropía y la desigualdad de Brunn Minkowski (PDF) . Tech.Report 48, Departamento de Estadística, Universidad de Stanford.{{cite book}}: CS1 maint: multiple names: authors list (link)
  54. ^ abc Aryal, Gokarna; Saralees Nadarajah (2004). «Matriz de información para distribuciones beta» (PDF) . Revista Matemática Serdica (Academia de Ciencias de Bulgaria) . 30 : 513–526.
  55. ^ ab Laplace, Pierre Simon, marqués de (1902). Un ensayo filosófico sobre las probabilidades. Nueva York: J. Wiley; Londres: Chapman & Hall. ISBN 978-1-60206-328-0.{{cite book}}: CS1 maint: multiple names: authors list (link)
  56. ^ Cox, Richard T. (1961). Álgebra de inferencia probable . Prensa de la Universidad Johns Hopkins. ISBN 978-0801869822.
  57. ^ ab Keynes, John Maynard (2010) [1921]. Un tratado sobre probabilidad: la conexión entre la filosofía y la historia de la ciencia . Prensa salvaje. ISBN 978-1434406965.
  58. ^ Pearson, Karl (1907). "Sobre la influencia de la experiencia pasada en las expectativas futuras". Revista Filosófica . 6 (13): 365–378.
  59. ^ abcdJeffreys , Harold (1998). Teoría de la probabilidad . Oxford University Press, tercera edición. ISBN 978-0198503682.
  60. ^ Amplio, CD (octubre de 1918). "Sobre la relación entre inducción y probabilidad". MIND, Revista trimestral de psicología y filosofía . 27 (Nueva Serie) (108): 389–404. doi :10.1093/mente/XXVII.4.389. JSTOR  2249035.
  61. ^ abcd Perks, Wilfred (enero de 1947). "Algunas observaciones sobre la probabilidad inversa, incluida una nueva regla de indiferencia". Revista del Instituto de Actuarios . 73 (2): 285–334. doi :10.1017/S0020268100012270. Archivado desde el original el 12 de enero de 2014 . Consultado el 19 de septiembre de 2012 .
  62. ^ ab Bayes, Thomas; comunicado por Richard Price (1763). "Un ensayo para la solución de un problema en la doctrina de las posibilidades". Transacciones filosóficas de la Royal Society . 53 : 370–418. doi : 10.1098/rstl.1763.0053 . JSTOR  105741.
  63. ^ Haldane, JBS (1932). "Una nota sobre la probabilidad inversa". Actas matemáticas de la Sociedad Filosófica de Cambridge . 28 (1): 55–61. Código Bib : 1932PCPS...28...55H. doi :10.1017/s0305004100010495. S2CID  122773707.
  64. ^ Zellner, Arnold (1971). Introducción a la inferencia bayesiana en econometría . Wiley-Interscience. ISBN 978-0471169376.
  65. ^ Jeffreys, Harold (septiembre de 1946). "Una forma invariante para la probabilidad previa en problemas de estimación". Actas de la Royal Society . A 24. 186 (1007): 453–461. Código bibliográfico : 1946RSPSA.186..453J. doi : 10.1098/rspa.1946.0056 . PMID  20998741.
  66. ^ Berger, James; Bernardo, José; Sol, Dongchu (2009). "La definición formal de antecedentes de referencia". Los anales de la estadística . 37 (2): 905–938. arXiv : 0904.0156 . Código Bib : 2009arXiv0904.0156B. doi :10.1214/07-AOS587. S2CID  3221355.
  67. ^ Clarke, Bertrand S.; Andrew R. Barrón (1994). "El historial de Jeffreys es asintóticamente menos favorable bajo riesgo de entropía" (PDF) . Revista de planificación e inferencia estadística . 41 : 37–60. doi :10.1016/0378-3758(94)90153-8.
  68. ^ Pearson, Karl (1892). La gramática de la ciencia. Walter Scott, Londres.
  69. ^ Pearson, Karl (2009). La gramática de la ciencia . BiblioVida. ISBN 978-1110356119.
  70. ^ Gelman, A., Carlin, JB, Stern, HS y Rubin, DB (2003). Análisis de datos bayesianos . Chapman y Hall/CRC. ISBN 978-1584883883.{{cite book}}: CS1 maint: multiple names: authors list (link)
  71. ^ A. Jøsang. Una lógica para probabilidades inciertas. Revista internacional de incertidumbre, confusión y sistemas basados ​​en el conocimiento . 9(3), pp.279-311, junio de 2001. PDF [ enlace muerto permanente ]
  72. ^ HM de Oliveira y GAA Araújo,. Wavelets monocíclicos con soporte compacto derivados de distribuciones Beta. Revista de sistemas de información y comunicación. vol.20, n.3, págs.27-33, 2005.
  73. ^ Calvicie, David J .; Nichols, Richard A. (1995). "Un método para cuantificar la diferenciación entre poblaciones en loci multialélicos y sus implicaciones para la investigación de identidad y paternidad". Genética . 96 (1–2). Saltador: 3–12. doi :10.1007/BF01441146. PMID  7607457. S2CID  30680826.
  74. ^ Keefer, Donald L. y Verdini, William A. (1993). Mejor estimación de los parámetros de tiempo de actividad PERT. Ciencias de la gestión 39 (9), pág. 1086-1091.
  75. ^ Keefer, Donald L. y Bodily, Samuel E. (1983). Aproximaciones de tres puntos para variables aleatorias continuas. Ciencias de la gestión 29 (5), pág. 595–609.
  76. ^ "Instituto de Gestión de Recursos de Defensa - Escuela de Postgrado Naval". www.nps.edu .
  77. ^ van der Waerden, BL, "Estadística matemática", Springer, ISBN 978-3-540-04507-6
  78. ^ Sobre la normalización de la función beta incompleta para ajustarse a las curvas dosis-respuesta ME Wise Biometrika vol 47, No. 1/2, junio de 1960, págs. 173-175
  79. ^ Navidad, GU ; Filón, GNL (1936). "Karl Pearson. 1857-1936" . Avisos necrológicos de miembros de la Royal Society . 2 (5): 72. doi :10.1098/rsbm.1936.0007. JSTOR  769130.
  80. ^ "Catálogo de Biblioteca y Archivo". Archivo digital Sackler . Sociedad de la realeza. Archivado desde el original el 25 de octubre de 2011 . Consultado el 1 de julio de 2011 .
  81. ^ David, HA y AWF Edwards (2001). Lecturas comentadas de Historia de la Estadística . Saltador; 1 edición. ISBN 978-0387988443.
  82. ^ Gini, Corrado (1911). "Considerazioni Sulle Probabilità Posteriori e Applicazioni al Rapporto dei Sessi Nelle Nascite Umane". Studi Economico-Giuridici della Università de Cagliari . Anno III (reproducido en Metron 15, 133, 171, 1949): 5–41.
  83. ^ Johnson, Norman L. y Samuel Kotz, ed. (1997). Personalidades destacadas de las ciencias estadísticas: desde el siglo XVII hasta el presente (Serie Wiley sobre probabilidad y estadística . Wiley. ISBN 978-0471163817.
  84. ^ Revista Metron. "Biografía de Corrado Gini". Diario Metron. Archivado desde el original el 16 de julio de 2012 . Consultado el 18 de agosto de 2012 .

enlaces externos