stringtranslate.com

Distribución normal

En estadística , una distribución normal o distribución gaussiana es un tipo de distribución de probabilidad continua para una variable aleatoria de valor real . La forma general de su función de densidad de probabilidad es

El parámetro es la media o expectativa de la distribución (y también su mediana y moda ), mientras que el parámetro es su desviación estándar . La varianza de la distribución es . Se dice que una variable aleatoria con una distribución gaussiana tiene una distribución normal y se denomina desviación normal .

Las distribuciones normales son importantes en estadística y a menudo se utilizan en las ciencias naturales y sociales para representar variables aleatorias de valor real cuyas distribuciones se desconocen. [2] [3] Su importancia se debe en parte al teorema del límite central . Afirma que, bajo algunas condiciones, el promedio de muchas muestras (observaciones) de una variable aleatoria con media y varianza finitas es en sí misma una variable aleatoria, cuya distribución converge a una distribución normal a medida que aumenta el número de muestras. Por lo tanto, las cantidades físicas que se espera que sean la suma de muchos procesos independientes, como los errores de medición , a menudo tienen distribuciones que son casi normales. [4]

Además, las distribuciones gaussianas tienen algunas propiedades únicas que son valiosas en estudios analíticos. Por ejemplo, cualquier combinación lineal de una colección fija de desviaciones normales independientes es una desviación normal. Muchos resultados y métodos, como la propagación de la incertidumbre y el ajuste de parámetros por mínimos cuadrados [5] , pueden derivarse analíticamente de forma explícita cuando las variables relevantes se distribuyen normalmente.

Una distribución normal a veces se denomina informalmente curva de campana . [6] Sin embargo, muchas otras distribuciones tienen forma de campana (como las distribuciones de Cauchy , t de Student y logísticas ). Para otros nombres, consulte Nomenclatura .

La distribución de probabilidad univariada se generaliza para vectores en la distribución normal multivariada y para matrices en la distribución normal matricial .

Definiciones

Distribución normal estándar

El caso más simple de una distribución normal se conoce como distribución normal estándar o distribución normal unitaria . Este es un caso especial cuando y , y se describe mediante esta función de densidad de probabilidad (o densidad):

La variable tiene una media de 0 y una varianza y desviación estándar de 1. La densidad tiene su pico y puntos de inflexión en y .

Aunque la densidad anterior se conoce más comúnmente como normal estándar, algunos autores han utilizado ese término para describir otras versiones de la distribución normal. Carl Friedrich Gauss , por ejemplo, una vez definió la normal estándar como

que tiene una varianza de 1/2, y Stephen Stigler [7] una vez definió la normal estándar como

que tiene una forma funcional simple y una variación de

Distribución normal general

Cada distribución normal es una versión de la distribución normal estándar, cuyo dominio ha sido ampliado por un factor (la desviación estándar) y luego traducido por (el valor medio):

La densidad de probabilidad debe ampliarse para que la integral siga siendo 1.

Si es una desviación normal estándar , entonces tendrá una distribución normal con valor esperado y desviación estándar . Esto equivale a decir que la distribución normal estándar se puede escalar/estirar por un factor de y desplazarse para producir una distribución normal diferente, llamada . Por el contrario, si es una desviación normal con parámetros y , entonces esta distribución se puede volver a escalar y cambiar mediante la fórmula para convertirla a la distribución normal estándar. Esta variante también se llama forma estandarizada de .

Notación

La densidad de probabilidad de la distribución gaussiana estándar (distribución normal estándar, con media cero y varianza unitaria) a menudo se denota con la letra griega ( phi ). [8] La forma alternativa de la letra griega phi, también se utiliza con bastante frecuencia.

La distribución normal a menudo se denomina o . [9] Por lo tanto, cuando una variable aleatoria se distribuye normalmente con media y desviación estándar , se puede escribir

Parametrizaciones alternativas

Algunos autores abogan por utilizar la precisión como parámetro que define el ancho de la distribución, en lugar de la desviación o la varianza . La precisión normalmente se define como el recíproco de la varianza, . [10] La fórmula para la distribución entonces se convierte en

Se afirma que esta elección tiene ventajas en los cálculos numéricos cuando está muy cerca de cero y simplifica las fórmulas en algunos contextos, como en la inferencia bayesiana de variables con distribución normal multivariada .

Alternativamente, el recíproco de la desviación estándar podría definirse como la precisión , en cuyo caso la expresión de la distribución normal se convierte en

Según Stigler, esta formulación es ventajosa debido a una fórmula mucho más simple y fácil de recordar, y a fórmulas aproximadas simples para los cuantiles de la distribución.

Las distribuciones normales forman una familia exponencial con parámetros naturales y y estadísticas naturales x y x 2 . Los parámetros de expectativa dual para la distribución normal son η 1 = μ y η 2 = μ 2 + σ 2 .

Función de distribución acumulativa

La función de distribución acumulativa (CDF) de la distribución normal estándar, generalmente denotada con la letra griega mayúscula ( phi ), es la integral

Función de error

La función de error relacionada proporciona la probabilidad de una variable aleatoria, con una distribución normal de media 0 y varianza 1/2 en el rango . Eso es:

Estas integrales no se pueden expresar en términos de funciones elementales y, a menudo, se dice que son funciones especiales . Sin embargo, se conocen muchas aproximaciones numéricas; consulte a continuación para obtener más información.

Las dos funciones están estrechamente relacionadas, a saber

Para una distribución normal genérica con densidad , media y desviación , la función de distribución acumulativa es

El complemento de la función de distribución acumulativa normal estándar, a menudo se denomina función Q , especialmente en los textos de ingeniería. [11] [12] Da la probabilidad de que el valor de una variable aleatoria normal estándar supere : . Ocasionalmente también se utilizan otras definiciones de la función -, todas las cuales son transformaciones simples de . [13]

La gráfica de la función de distribución acumulativa normal estándar tiene simetría rotacional doble alrededor del punto (0,1/2); eso es, . Su antiderivada (integral indefinida) se puede expresar de la siguiente manera:

La función de distribución acumulativa de la distribución normal estándar se puede ampliar integrando por partes en una serie:

donde denota el doble factorial .

También se puede derivar una expansión asintótica de la función de distribución acumulativa para x grande mediante integración por partes. Para obtener más información, consulte Función de error#Expansión asintótica . [14]

Se puede encontrar una aproximación rápida a la función de distribución acumulativa de la distribución normal estándar utilizando una aproximación de la serie de Taylor:

Cálculo recursivo con expansión de la serie de Taylor.

La naturaleza recursiva de la familia de derivadas se puede utilizar para construir fácilmente una expansión de la serie de Taylor rápidamente convergente utilizando entradas recursivas sobre cualquier punto de valor conocido de la distribución :

dónde:

Usando la serie de Taylor y el método de Newton para la función inversa

Una aplicación para la expansión de la serie de Taylor anterior es utilizar el método de Newton para invertir el cálculo. Es decir, si tenemos un valor para la función de distribución acumulativa , pero no sabemos la x necesaria para obtener , podemos usar el método de Newton para encontrar x y usar la expansión de la serie de Taylor anterior para minimizar el número de cálculos. El método de Newton es ideal para resolver este problema porque la primera derivada de , que es una integral de la distribución estándar normal, es la distribución estándar normal y está fácilmente disponible para usar en la solución del método de Newton.

Para resolver, seleccione una solución aproximada conocida, , a la deseada . puede ser un valor de una tabla de distribución o una estimación inteligente seguida de un cálculo utilizando cualquier medio deseado para calcular. Utilice este valor de y la expansión de la serie de Taylor anterior para minimizar los cálculos.

Repita el siguiente proceso hasta que la diferencia entre el calculado y el deseado , que llamaremos , esté por debajo de un error elegido aceptablemente pequeño, como 10 −5 , 10 −15 , etc.:

dónde

es la solución de una serie de Taylor usando y

Cuando los cálculos repetidos convergen a un error por debajo del valor aceptablemente pequeño elegido, x será el valor necesario para obtener a del valor deseado, .

Desviación estándar y cobertura

Para la distribución normal, los valores a menos de una desviación estándar de la media representan el 68,27% del conjunto; mientras que dos desviaciones estándar de la media representan el 95,45%; y tres desviaciones estándar representan el 99,73%.

Aproximadamente el 68% de los valores extraídos de una distribución normal están dentro de una desviación estándar σ de la media; alrededor del 95% de los valores se encuentran dentro de dos desviaciones estándar; y alrededor del 99,7% están dentro de tres desviaciones estándar. [6] Este hecho se conoce como regla (empírica) 68–95–99,7 o regla de 3 sigma .

Más precisamente, la probabilidad de que una desviación normal se encuentre en el rango entre y está dada por

Hasta 12 dígitos significativos, los valores para son: [ cita necesaria ]

Para grandes , se puede utilizar la aproximación .

Función cuantil

La función cuantil de una distribución es la inversa de la función de distribución acumulativa. La función cuantil de la distribución normal estándar se llama función probit y puede expresarse en términos de la función de error inversa :

Para una variable aleatoria normal con media y varianza , la función cuantil es

El cuantil de la distribución normal estándar se denota comúnmente como . Estos valores se utilizan en pruebas de hipótesis , construcción de intervalos de confianza y gráficos Q–Q . Una variable aleatoria normal excederá con probabilidad y quedará fuera del intervalo con probabilidad . En particular, el cuantil es 1,96 ; por lo tanto, una variable aleatoria normal estará fuera del intervalo sólo en el 5% de los casos.

La siguiente tabla proporciona el cuantil que se encontrará en el rango con una probabilidad específica . Estos valores son útiles para determinar el intervalo de tolerancia para promedios muestrales y otros estimadores estadísticos con distribuciones normales (o asintóticamente normales). [15] La siguiente tabla muestra , no como se define anteriormente.

Para pequeñas , la función cuantil tiene la útil expansión asintótica [ cita necesaria ]

Propiedades

La distribución normal es la única distribución cuyos cumulantes más allá de las dos primeras (es decir, distintos de la media y la varianza ) son cero. También es la distribución continua con la entropía máxima para una media y una varianza específicas. [16] [17] Geary ha demostrado, suponiendo que la media y la varianza son finitas, que la distribución normal es la única distribución donde la media y la varianza calculadas a partir de un conjunto de sorteos independientes son independientes entre sí. [18] [19]

La distribución normal es una subclase de las distribuciones elípticas . La distribución normal es simétrica con respecto a su media y no es cero en toda la recta real. Como tal, puede no ser un modelo adecuado para variables que son inherentemente positivas o fuertemente sesgadas, como el peso de una persona o el precio de una acción . Estas variables pueden describirse mejor mediante otras distribuciones, como la distribución log-normal o la distribución de Pareto .

El valor de la distribución normal es prácticamente cero cuando el valor se encuentra a más de unas pocas desviaciones estándar de la media (por ejemplo, una extensión de tres desviaciones estándar cubre todo menos el 0,27% de la distribución total). Por lo tanto, puede no ser un modelo apropiado cuando se espera una fracción significativa de valores atípicos (valores que se encuentran a muchas desviaciones estándar de la media) y los mínimos cuadrados y otros métodos de inferencia estadística que son óptimos para variables distribuidas normalmente a menudo se vuelven muy poco confiables cuando se aplican. a tales datos. En esos casos, se debe asumir una distribución de colas más pesadas y aplicar los métodos de inferencia estadística robustos apropiados.

La distribución gaussiana pertenece a la familia de distribuciones estables que son los atractores de sumas de distribuciones independientes distribuidas idénticamente, independientemente de que la media o la varianza sean finitas o no. Excepto la gaussiana, que es un caso límite, todas las distribuciones estables tienen colas pesadas y varianza infinita. Es una de las pocas distribuciones que son estables y que tienen funciones de densidad de probabilidad que pueden expresarse analíticamente, siendo las otras la distribución de Cauchy y la distribución de Lévy .

Simetrías y derivadas

La distribución normal con densidad (media y desviación estándar ) tiene las siguientes propiedades:

Además, la densidad de la distribución normal estándar (es decir, y ) también tiene las siguientes propiedades:

Momentos

Los momentos simples y absolutos de una variable son los valores esperados de y , respectivamente. Si el valor esperado de es cero, estos parámetros se denominan momentos centrales; de lo contrario, estos parámetros se denominan momentos no centrales. Normalmente nos interesan sólo los momentos con orden de números enteros .

Si tiene una distribución normal, los momentos no centrales existen y son finitos para cualquiera cuya parte real sea mayor que −1. Para cualquier número entero no negativo , los momentos centrales simples son: [23]

Aquí se denota el factorial doble , es decir, el producto de todos los números del a 1 que tienen la misma paridad que

Los momentos centrales absolutos coinciden con los momentos simples para todos los órdenes pares, pero son distintos de cero para los órdenes impares. Para cualquier número entero no negativo

La última fórmula es válida también para cualquier número no entero. Cuando la media , los momentos simples y absolutos se pueden expresar en términos de funciones hipergeométricas confluentes y [24]

Estas expresiones siguen siendo válidas incluso si no son un número entero. Véase también polinomios de Hermite generalizados .

La expectativa de condicionada al evento que se encuentra en un intervalo está dada por

donde y respectivamente son la densidad y la función de distribución acumulada de . A esto se le conoce como relación de Mills inversa . Tenga en cuenta que arriba, se usa la densidad de en lugar de la densidad normal estándar como en la relación de Mills inversa, por lo que aquí tenemos en lugar de .

Transformada de Fourier y función característica.

La transformada de Fourier de una densidad normal con media y desviación estándar es [25]

¿ Dónde está la unidad imaginaria ? Si la media , el primer factor es 1, y la transformada de Fourier es, además de un factor constante, una densidad normal en el dominio de la frecuencia , con media 0 y desviación estándar . En particular, la distribución normal estándar es una función propia de la transformada de Fourier.

En teoría de la probabilidad, la transformada de Fourier de la distribución de probabilidad de una variable aleatoria de valor real está estrechamente relacionada con la función característica de esa variable, que se define como el valor esperado de , en función de la variable real (el parámetro de frecuencia de la transformada de Fourier). Esta definición se puede ampliar analíticamente a una variable de valor complejo . [26] La relación entre ambos es:

Funciones generadoras de momentos y acumuladores

La función generadora de momentos de una variable aleatoria real es el valor esperado de , en función del parámetro real . Para una distribución normal con densidad , media y desviación , la función generadora de momento existe y es igual a

La función generadora acumulativa es el logaritmo de la función generadora de momentos, es decir

Dado que se trata de un polinomio cuadrático en , sólo los dos primeros cumulantes son distintos de cero, es decir, la media  y la varianza  .

Algunos autores prefieren trabajar con E[ e itX ] = e iμtσ 2 t 2 /2 y ln E[ e itX ] = iμt1/2σ 2 t 2 .

Operador Stein y clase

Dentro del método de Stein el operador Stein y la clase de una variable aleatoria son y la clase de todas las funciones absolutamente continuas .

Límite de variación cero

En el límite cuando tiende a cero, la densidad de probabilidad eventualmente tiende a cero en cualquier , pero crece sin límite si , mientras que su integral permanece igual a 1. Por lo tanto, la distribución normal no puede definirse como una función ordinaria cuando .

Sin embargo, se puede definir la distribución normal con varianza cero como una función generalizada ; específicamente, como una función delta de Dirac traducida por la media , es decir, su función de distribución acumulativa es entonces la función escalonada de Heaviside traducida por la media , es decir

Entropía máxima

De todas las distribuciones de probabilidad sobre los reales con una media finita y una varianza finitas  especificadas , la distribución normal es la que tiene máxima entropía . [27] Para ver esto, sea una variable aleatoria continua con densidad de probabilidad . La entropía de se define como [28] [29] [30]

donde se entiende que es cero siempre que . Esta funcional se puede maximizar, sujeta a las restricciones de que la distribución esté correctamente normalizada y tenga una media y una varianza específicas, mediante el uso de cálculo variacional . Se define una función con tres multiplicadores de Lagrange :

En máxima entropía, una pequeña variación producirá una variación igual a 0:

Dado que esto debe ser válido para cualquier valor pequeño , el factor multiplicador debe ser cero y al resolver se obtiene:

Las restricciones de Lagrange que están adecuadamente normalizadas y tienen la media y la varianza especificadas se satisfacen si y sólo si , y se eligen de modo que

La entropía de una distribución normal es igual a

que es independiente de la media .

Otras propiedades

  1. Si la función característica de alguna variable aleatoria es de la forma , donde es un polinomio , entonces el teorema de Marcinkiewicz (llamado así por Józef Marcinkiewicz ) afirma que puede ser como mucho un polinomio cuadrático, y por tanto es una variable aleatoria normal. [31] La consecuencia de este resultado es que la distribución normal es la única distribución con un número finito (dos) de acumuladores distintos de cero .
  2. Si y son conjuntamente normales y no correlacionados , entonces son independientes . El requisito de que y sean conjuntamente normales es esencial; sin él la propiedad no se sostiene. [32] [33] [prueba] Para variables aleatorias no normales, la falta de correlación no implica independencia.
  3. La divergencia Kullback-Leibler de una distribución normal de otra viene dada por: [34]
    La distancia de Hellinger entre las mismas distribuciones es igual a
  4. La matriz de información de Fisher para una distribución normal es diagonal y toma la forma
  5. El prior conjugado de la media de una distribución normal es otra distribución normal. [35] Específicamente, si son iid y el anterior es , entonces la distribución posterior para el estimador de será
  6. La familia de distribuciones normales no solo forma una familia exponencial (EF), sino que de hecho forma una familia exponencial natural (NEF) con función de varianza cuadrática ( NEF-QVF ). Muchas propiedades de las distribuciones normales se generalizan a propiedades de las distribuciones NEF-QVF, las distribuciones NEF o las distribuciones EF en general. Las distribuciones NEF-QVF comprenden 6 familias, incluidas las distribuciones Poisson, Gamma, binomial y binomial negativa, mientras que muchas de las familias comunes estudiadas en probabilidad y estadística son NEF o EF.
  7. En geometría de la información , la familia de distribuciones normales forma una variedad estadística con curvatura constante . La misma familia es plana con respecto a las conexiones (±1) y . [36]

Distribuciones relacionadas

Teorema del límite central

A medida que aumenta el número de eventos discretos, la función comienza a parecerse a una distribución normal.
Comparación de funciones de densidad de probabilidad, para que la suma de dados justos de 6 caras muestre su convergencia a una distribución normal al aumentar , de acuerdo con el teorema del límite central. En el gráfico inferior derecho, los perfiles suavizados de los gráficos anteriores se redimensionan, se superponen y se comparan con una distribución normal (curva negra).

El teorema del límite central establece que bajo ciertas condiciones (bastante comunes), la suma de muchas variables aleatorias tendrá una distribución aproximadamente normal. Más específicamente, ¿dónde hay variables aleatorias independientes e idénticamente distribuidas con la misma distribución arbitraria, media cero y varianza y su media está escalada por

Luego, a medida que aumenta, la distribución de probabilidad de tenderá a la distribución normal con media y varianza cero .

El teorema se puede extender a variables que no son independientes y/o no están distribuidas idénticamente si se imponen ciertas restricciones al grado de dependencia y a los momentos de las distribuciones.

Muchas estadísticas de prueba , puntuaciones y estimadores que se encuentran en la práctica contienen sumas de ciertas variables aleatorias, e incluso más estimadores se pueden representar como sumas de variables aleatorias mediante el uso de funciones de influencia . El teorema del límite central implica que esos parámetros estadísticos tendrán distribuciones asintóticamente normales.

El teorema del límite central también implica que ciertas distribuciones pueden aproximarse mediante la distribución normal, por ejemplo:

Que estas aproximaciones sean suficientemente precisas depende del propósito para el que se necesitan y de la tasa de convergencia a la distribución normal. Generalmente ocurre que tales aproximaciones son menos precisas en las colas de la distribución.

El teorema de Berry-Esseen proporciona un límite superior general para el error de aproximación en el teorema del límite central ; las mejoras de la aproximación vienen dadas por las expansiones de Edgeworth .

Este teorema también se puede utilizar para justificar el modelado de la suma de muchas fuentes de ruido uniforme como ruido gaussiano . Véase AWGN .

Operaciones y funciones de variables normales.

a: Densidad de probabilidad de una función de una variable normal con y . b: Densidad de probabilidad de una función de dos variables normales y , donde , , , y . c: Mapa de calor de la densidad de probabilidad conjunta de dos funciones de dos variables normales correlacionadas y , donde , , , y . d: Densidad de probabilidad de una función de 4 variables normales estándar iid. Estos se calculan mediante el método numérico de trazado de rayos. [38]

La densidad de probabilidad , la distribución acumulativa y la distribución acumulativa inversa de cualquier función de una o más variables normales independientes o correlacionadas se pueden calcular con el método numérico de trazado de rayos [38] (código Matlab). En las siguientes secciones analizamos algunos casos especiales.

Operaciones sobre una sola variable normal

Si se distribuye normalmente con media y varianza , entonces

Operaciones sobre dos variables normales independientes
Operaciones con dos variables normales estándar independientes

Si y son dos variables aleatorias normales estándar independientes con media 0 y varianza 1, entonces

Operaciones sobre múltiples variables normales independientes.

Operaciones sobre múltiples variables normales correlacionadas

Operaciones sobre la función de densidad.

La distribución normal dividida se define más directamente en términos de unir secciones escaladas de las funciones de densidad de diferentes distribuciones normales y reescalar la densidad para integrarla en una. La distribución normal truncada resulta del cambio de escala de una sección de una función de densidad única.

Divisibilidad infinita y teorema de Cramér

Para cualquier número entero positivo , cualquier distribución normal con media y varianza es la distribución de la suma de desviaciones normales independientes, cada una con media y varianza . Esta propiedad se llama divisibilidad infinita . [44]

Por el contrario, si y son variables aleatorias independientes y su suma tiene una distribución normal, entonces ambas y deben ser normales se desvían. [45]

Este resultado se conoce como teorema de descomposición de Cramér , y equivale a decir que la convolución de dos distribuciones es normal si y sólo si ambas son normales. El teorema de Cramér implica que una combinación lineal de variables independientes no gaussianas nunca tendrá una distribución exactamente normal, aunque puede acercarse arbitrariamente a ella. [31]

teorema de berstein

El teorema de Bernstein establece que si y son independientes y y también son independientes, entonces tanto X como Y necesariamente deben tener distribuciones normales. [46] [47]

De manera más general, si son variables aleatorias independientes, entonces dos combinaciones lineales distintas serán independientes si y solo si todas son normales y , donde denota la varianza de . [46]

Extensiones

La noción de distribución normal, al ser una de las distribuciones más importantes en la teoría de la probabilidad, se ha extendido mucho más allá del marco estándar del caso univariado (es decir, unidimensional) (Caso 1). Todas estas extensiones también se denominan leyes normales o gaussianas , por lo que existe cierta ambigüedad en los nombres.

Una variable aleatoria X tiene una distribución normal de dos partes si tiene una distribución

donde μ es la media y σ 1 y σ 2 son las desviaciones estándar de la distribución a la izquierda y derecha de la media respectivamente.

Se han determinado la media, la varianza y el tercer momento central de esta distribución [48]

donde E( X ), V( X ) y T( X ) son la media, la varianza y el tercer momento central respectivamente.

Uno de los principales usos prácticos de la ley de Gauss es modelar las distribuciones empíricas de muchas variables aleatorias diferentes que se encuentran en la práctica. En tal caso, una posible extensión sería una familia de distribuciones más rica, que tuviera más de dos parámetros y, por lo tanto, pudiera ajustarse a la distribución empírica con mayor precisión. Los ejemplos de tales extensiones son:

Inferencia estadística

Estimación de parámetros

A menudo ocurre que no conocemos los parámetros de la distribución normal, sino que queremos estimarlos . Es decir, teniendo una muestra de una población normal nos gustaría conocer los valores aproximados de los parámetros y . El enfoque estándar para este problema es el método de máxima verosimilitud , que requiere la maximización de la función logarítmica de verosimilitud :

Tomar derivadas con respecto a y resolver el sistema resultante de condiciones de primer orden produce las estimaciones de máxima verosimilitud :

Entonces es el siguiente:

Muestra promedio

El estimador se llama media muestral , ya que es la media aritmética de todas las observaciones. El estadístico es completo y suficiente para , y por lo tanto según el teorema de Lehmann-Scheffé , es el estimador insesgado de varianza mínima uniforme (UMVU). [49] En muestras finitas se distribuye normalmente:

La varianza de este estimador es igual al elemento μμ de la matriz de información inversa de Fisher . Esto implica que el estimador es eficiente para muestras finitas . De importancia práctica es el hecho de que el error estándar de es proporcional a , es decir, si se desea disminuir el error estándar en un factor de 10, se debe aumentar el número de puntos de la muestra en un factor de 100. Este hecho Se utiliza ampliamente para determinar tamaños de muestra para encuestas de opinión y el número de ensayos en simulaciones de Monte Carlo .

Desde el punto de vista de la teoría asintótica , es consistente , es decir, converge en probabilidad a as . El estimador también es asintóticamente normal , lo cual es un simple corolario del hecho de que es normal en muestras finitas:

varianza muestral

El estimador se llama varianza muestral , ya que es la varianza de la muestra ( ). En la práctica, se suele utilizar otro estimador en lugar del . Este otro estimador se denota , y también se llama varianza muestral , lo que representa cierta ambigüedad en la terminología; su raíz cuadrada se llama desviación estándar muestral . El estimador se diferencia por tener ( n − 1) en lugar de  n en el denominador (la llamada corrección de Bessel ):

La diferencia entre y se vuelve insignificante para n grandes . Sin embargo, en muestras finitas, la motivación detrás del uso de es que es un estimador insesgado del parámetro subyacente , mientras que está sesgado. Además, según el teorema de Lehmann-Scheffé, el estimador es uniformemente insesgado con varianza mínima ( UMVU ), [49] lo que lo convierte en el "mejor" estimador entre todos los insesgados. Sin embargo, se puede demostrar que el estimador sesgado es mejor que el en términos del criterio del error cuadrático medio (MSE). En muestras finitas, ambas y tienen una distribución chi-cuadrado escalada con ( norte − 1 ) grados de libertad:

La primera de estas expresiones muestra que la varianza de es igual a , que es ligeramente mayor que el elemento σσ de la matriz de información de Fisher inversa . Por lo tanto, no es un estimador eficiente para , y además, como es UMVU, podemos concluir que el estimador eficiente de muestra finita para no existe.

Aplicando la teoría asintótica, ambos estimadores y son consistentes, es decir, convergen en probabilidad al tamaño de la muestra . Los dos estimadores también son asintóticamente normales:

En particular, ambos estimadores son asintóticamente eficientes para .

Intervalos de confianza

Según el teorema de Cochran , para distribuciones normales la media muestral y la varianza muestral s 2 son independientes , lo que significa que no puede haber ningún beneficio al considerar su distribución conjunta . También hay un teorema inverso: si en una muestra la media muestral y la varianza muestral son independientes, entonces la muestra debe provenir de la distribución normal. La independencia entre y s se puede emplear para construir el llamado estadístico t :

Esta cantidad t tiene la distribución t de Student con ( n − 1) grados de libertad y es una estadística auxiliar (independiente del valor de los parámetros). Invertir la distribución de este estadístico t nos permitirá construir el intervalo de confianza para μ ; [50] de manera similar, invertir la distribución χ 2 del estadístico s 2 nos dará el intervalo de confianza para σ 2 : [51]

donde t k,p y χ 2k
,p
 
son los pésimos cuantiles de las distribuciones t y χ 2 respectivamente. Estos intervalos de confianza tienen el nivel de confianza 1 − α , lo que significa que los valores verdaderos μ y σ 2 quedan fuera de estos intervalos con probabilidad (o nivel de significancia ) α . En la práctica, la gente suele tomar α = 5% , lo que da como resultado intervalos de confianza del 95%.

Se pueden derivar fórmulas aproximadas a partir de las distribuciones asintóticas de y s 2 :

Las fórmulas aproximadas se vuelven válidas para valores grandes de n y son más convenientes para el cálculo manual ya que los cuantiles normales estándar z α /2 no dependen de n . En particular, el valor más popular de α = 5% da como resultado | z 0,025 | = 1,96 .

Pruebas de normalidad

Las pruebas de normalidad evalúan la probabilidad de que el conjunto de datos dado { x 1 , ..., x n } provenga de una distribución normal. Normalmente, la hipótesis nula H 0 es que las observaciones se distribuyen normalmente con una media μ y una varianza σ 2 no especificadas , frente a la alternativa H a de que la distribución es arbitraria. Se han ideado muchas pruebas (más de 40) para este problema. Los más destacados se describen a continuación:

Los gráficos de diagnóstico son más atractivos intuitivamente pero subjetivos al mismo tiempo, ya que se basan en el juicio humano informal para aceptar o rechazar la hipótesis nula.

Pruebas de bondad de ajuste :

Pruebas basadas en momentos :

Pruebas basadas en la función de distribución empírica :

Análisis bayesiano de la distribución normal.

El análisis bayesiano de datos distribuidos normalmente se complica por las muchas posibilidades diferentes que pueden considerarse:

Las fórmulas para los casos de regresión no lineal se resumen en el artículo anterior conjugado .

Suma de dos cuadráticas

forma escalar

La siguiente fórmula auxiliar es útil para simplificar las ecuaciones de actualización posterior , que de otro modo resultan bastante tediosas.

Esta ecuación reescribe la suma de dos cuadráticas en x expandiendo los cuadrados, agrupando los términos en x y completando el cuadrado . Tenga en cuenta lo siguiente acerca de los factores constantes complejos asociados a algunos de los términos:

  1. El factor tiene la forma de un promedio ponderado de y y z .
  2. Esto muestra que se puede considerar que este factor resulta de una situación en la que los recíprocos de las cantidades a y b se suman directamente, por lo que para combinar a y b , es necesario corresponder, sumar y corresponder el resultado nuevamente para volver a las unidades originales. Este es exactamente el tipo de operación realizada por la media armónica , por lo que no es sorprendente que sea la mitad de la media armónica de a y b .
forma vectorial

Se puede escribir una fórmula similar para la suma de dos vectores cuadráticos: si x , y , z son vectores de longitud k , y A y B son matrices simétricas e invertibles de tamaño , entonces

dónde

La forma xA x se llama forma cuadrática y es un escalar :

En otras palabras, resume todas las combinaciones posibles de productos de pares de elementos de x , con un coeficiente separado para cada una. Además, dado que , sólo importa la suma para cualquier elemento fuera de la diagonal de A , y no hay pérdida de generalidad al suponer que A es simétrico . Además, si A es simétrica, entonces la forma

Suma de diferencias con respecto a la media.

Otra fórmula útil es la siguiente:

Con varianza conocida

Para un conjunto de puntos de datos iid normalmente distribuidos X de tamaño n donde cada punto x individual sigue con una varianza conocida σ 2 , la distribución previa conjugada también se distribuye normalmente.

Esto se puede demostrar más fácilmente reescribiendo la varianza como precisión , es decir, usando τ = 1/σ 2 . Entonces si y procedemos de la siguiente manera.

Primero, la función de probabilidad es (usando la fórmula anterior para la suma de diferencias con respecto a la media):

Luego, procedemos de la siguiente manera:

En la derivación anterior, utilizamos la fórmula anterior para la suma de dos cuadráticas y eliminamos todos los factores constantes que no involucran  μ . El resultado es el núcleo de una distribución normal, con media y precisión , es decir

Esto se puede escribir como un conjunto de ecuaciones de actualización bayesianas para los parámetros posteriores en términos de los parámetros anteriores:

Es decir, para combinar n puntos de datos con una precisión total de (o equivalentemente, una varianza total de n / σ 2 ) y la media de los valores , obtenga una nueva precisión total simplemente sumando la precisión total de los datos a la precisión total anterior, y formar una nueva media a través de un promedio ponderado por precisión , es decir, un promedio ponderado de la media de los datos y la media anterior, cada uno ponderado por la precisión total asociada. Esto tiene sentido lógico si se piensa que la precisión indica la certeza de las observaciones: en la distribución de la media posterior, cada uno de los componentes de entrada está ponderado por su certeza, y la certeza de esta distribución es la suma de las certezas individuales. . (Para la intuición de esto, compárese la expresión “el todo es (o no es) mayor que la suma de sus partes”. Además, considere que el conocimiento de lo posterior proviene de una combinación del conocimiento de lo anterior y la verosimilitud. , por lo que tiene sentido que estemos más seguros de ello que de cualquiera de sus componentes).

La fórmula anterior revela por qué es más conveniente realizar un análisis bayesiano de priores conjugados para la distribución normal en términos de precisión. La precisión posterior es simplemente la suma de las precisiones previa y de probabilidad, y la media posterior se calcula mediante un promedio ponderado por precisión, como se describió anteriormente. Las mismas fórmulas se pueden escribir en términos de varianza intercambiando todas las precisiones, lo que produce fórmulas más feas.

Con media conocida

Para un conjunto de puntos de datos iid normalmente distribuidos X de tamaño n donde cada punto individual x sigue con una media μ conocida, el prior conjugado de la varianza tiene una distribución gamma inversa o una distribución chi-cuadrado inversa escalada . Los dos son equivalentes excepto por tener diferentes parametrizaciones . Aunque la gamma inversa se usa más comúnmente, utilizamos el chi-cuadrado inverso escalado por conveniencia. El a priori para σ 2 es el siguiente:

La función de probabilidad anterior, escrita en términos de varianza, es:

dónde

Entonces:

Lo anterior también es una distribución de chi-cuadrado inversa escalada donde

o equivalente

Reparametrizando en términos de una distribución gamma inversa , el resultado es:

Con media desconocida y varianza desconocida

Para un conjunto de puntos de datos iid normalmente distribuidos X de tamaño n donde cada punto individual x sigue con media μ desconocida y varianza desconocida σ 2 , se coloca un prior conjugado combinado (multivariado) sobre la media y la varianza, que consiste en una inversa normal -distribución gamma . Lógicamente esto se origina de la siguiente manera:

  1. Del análisis del caso con media desconocida pero varianza conocida, vemos que las ecuaciones de actualización involucran estadísticas suficientes calculadas a partir de los datos que consisten en la media de los puntos de datos y la varianza total de los puntos de datos, calculada a su vez a partir de la varianza conocida. dividido por el número de puntos de datos.
  2. Del análisis del caso con varianza desconocida pero media conocida, vemos que las ecuaciones de actualización implican suficientes estadísticas sobre los datos que consisten en el número de puntos de datos y la suma de las desviaciones al cuadrado .
  3. Tenga en cuenta que los valores de actualización posterior sirven como distribución previa cuando se manejan más datos. Por lo tanto, lógicamente deberíamos pensar en nuestros antecedentes en términos de las estadísticas suficientes que acabamos de describir, teniendo en cuenta la misma semántica tanto como sea posible.
  4. Para manejar el caso en el que se desconocen tanto la media como la varianza, podríamos colocar antecedentes independientes sobre la media y la varianza, con estimaciones fijas de la media promedio, la varianza total, el número de puntos de datos utilizados para calcular la varianza previa y la suma de las desviaciones al cuadrado. . Sin embargo, tenga en cuenta que, en realidad, la varianza total de la media depende de la varianza desconocida, y la suma de las desviaciones al cuadrado que entran en la varianza anterior (parece) depende de la media desconocida. En la práctica, esta última dependencia es relativamente poco importante: desplazar la media real desplaza los puntos generados en una cantidad igual y, en promedio, las desviaciones al cuadrado seguirán siendo las mismas. Sin embargo, este no es el caso con la varianza total de la media: a medida que aumenta la varianza desconocida, la varianza total de la media aumentará proporcionalmente y nos gustaría capturar esta dependencia.
  5. Esto sugiere que creemos un previo condicional de la media sobre la varianza desconocida, con un hiperparámetro que especifique la media de las pseudoobservaciones asociadas con el anterior y otro parámetro que especifique el número de pseudoobservaciones. Este número sirve como parámetro de escala en la varianza, lo que permite controlar la varianza general de la media en relación con el parámetro de varianza real. El prior para la varianza también tiene dos hiperparámetros, uno que especifica la suma de las desviaciones al cuadrado de las pseudoobservaciones asociadas con el prior y otro que especifica una vez más el número de pseudoobservaciones. Cada uno de los anteriores tiene un hiperparámetro que especifica el número de pseudoobservaciones y, en cada caso, esto controla la varianza relativa de ese anterior. Estos se proporcionan como dos hiperparámetros separados para que la varianza (también conocida como confianza) de los dos anteriores se pueda controlar por separado.
  6. Esto conduce inmediatamente a la distribución gamma normal-inversa , que es el producto de las dos distribuciones que acabamos de definir, con a priori conjugados utilizados (una distribución gamma inversa sobre la varianza y una distribución normal sobre la media, condicionada a la varianza) y con los mismos cuatro parámetros recién definidos.

Los priores normalmente se definen de la siguiente manera:

Las ecuaciones de actualización se pueden derivar y tienen el siguiente aspecto:

Los números respectivos de pseudoobservaciones les suman el número de observaciones reales. El nuevo hiperparámetro medio es nuevamente un promedio ponderado, esta vez ponderado por el número relativo de observaciones. Finalmente, la actualización de es similar al caso con la media conocida, pero en este caso la suma de las desviaciones al cuadrado se toma con respecto a la media de los datos observados en lugar de la media verdadera y, como resultado, es necesario agregar un nuevo término de interacción. para ocuparse de la fuente de error adicional que surge de la desviación entre la media anterior y la media de los datos.

Prueba

Las distribuciones anteriores son

Por lo tanto, el prior conjunto es

La función de probabilidad de la sección anterior con varianza conocida es:

Escribiéndolo en términos de varianza en lugar de precisión, obtenemos:

dónde

Por lo tanto, la parte posterior es (eliminando los hiperparámetros como factores condicionantes):

En otras palabras, la distribución posterior tiene la forma de un producto de una distribución normal multiplicada por una distribución gamma inversa , con parámetros que son los mismos que los de las ecuaciones de actualización anteriores.

Ocurrencia y aplicaciones

La aparición de una distribución normal en problemas prácticos se puede clasificar en cuatro categorías:

  1. Distribuciones exactamente normales;
  2. Leyes aproximadamente normales, por ejemplo cuando dicha aproximación está justificada por el teorema del límite central ; y
  3. Distribuciones modeladas como normales: la distribución normal es la distribución con máxima entropía para una media y una varianza determinadas.
  4. Problemas de regresión: la distribución normal se encuentra después de que los efectos sistemáticos se han modelado suficientemente bien.

Normalidad exacta

El estado fundamental de un oscilador armónico cuántico tiene la distribución gaussiana .

Ciertas cantidades en física se distribuyen normalmente, como lo demostró por primera vez James Clerk Maxwell . Ejemplos de tales cantidades son:

Normalidad aproximada

En muchas situaciones se producen distribuciones aproximadamente normales, como lo explica el teorema del límite central . Cuando el resultado es producido por muchos efectos pequeños que actúan de forma aditiva e independiente , su distribución será cercana a la normal. La aproximación normal no será válida si los efectos actúan de forma multiplicativa (en lugar de aditiva), o si existe una única influencia externa que tiene una magnitud considerablemente mayor que el resto de los efectos.

Normalidad asumida

Histograma de anchos de sépalo para Iris versicolor del conjunto de datos de flores de Fisher's Iris , con distribución normal superpuesta de mejor ajuste.

Sólo puedo reconocer la aparición de la curva normal –la curva laplaciana de errores– como un fenómeno muy anormal. Es aproximadamente aproximado en ciertas distribuciones; por esta razón, y debido a su hermosa simplicidad, tal vez podamos utilizarlo como una primera aproximación, particularmente en investigaciones teóricas.

-  Pearson (1901)

Existen métodos estadísticos para probar empíricamente esa suposición; consulte la sección anterior de Pruebas de normalidad.

Distribución normal acumulada ajustada a las precipitaciones de octubre; ver ajuste de distribución

Problemas metodológicos y revisión por pares.

John Ioannidis argumentó que el uso de desviaciones estándar distribuidas normalmente como estándares para validar los resultados de la investigación deja sin probar predicciones falsificables sobre fenómenos que no se distribuyen normalmente. Esto incluye, por ejemplo, fenómenos que sólo aparecen cuando se dan todas las condiciones necesarias y uno no puede sustituir a otro de forma similar a una suma, y ​​fenómenos que no están distribuidos aleatoriamente. Ioannidis sostiene que la validación centrada en la desviación estándar da una falsa apariencia de validez a las hipótesis y teorías en las que algunas, pero no todas, las predicciones falsables se distribuyen normalmente, ya que la parte de las predicciones falsables contra las que hay evidencia puede, y en algunos casos, se encuentran en una distribución no normal. partes distribuidas del rango de predicciones falsificables, así como descartar sin fundamento hipótesis para las cuales ninguna de las predicciones falsificables se distribuye normalmente como si fueran infalsables cuando en realidad hacen predicciones falsificables. Ioannidis sostiene que muchos casos de teorías mutuamente excluyentes que son aceptadas como validadas por revistas de investigación se deben a que las revistas no aceptan falsificaciones empíricas de predicciones no distribuidas normalmente, y no porque las teorías mutuamente excluyentes sean verdaderas, cosa que no pueden hacer. ser, aunque dos teorías mutuamente excluyentes pueden ser erróneas y una tercera correcta. [55]

Métodos computacionales

Generando valores a partir de la distribución normal.

La máquina de frijoles , un dispositivo inventado por Francis Galton , puede considerarse el primer generador de variables aleatorias normales. Esta máquina consta de un tablero vertical con hileras de pasadores intercalados. Se dejan caer pequeñas bolas desde arriba y luego rebotan aleatoriamente hacia la izquierda o hacia la derecha cuando golpean los bolos. Las bolas se recogen en contenedores en la parte inferior y se asientan en un patrón que se asemeja a la curva de Gauss.

En simulaciones por computadora, especialmente en aplicaciones del método Monte-Carlo , a menudo es deseable generar valores que estén distribuidos normalmente. Todos los algoritmos enumerados a continuación generan las desviaciones normales estándar, ya que N ( μ , σ 2 ) se puede generar como X = μ + σZ , donde Z es la normal estándar. Todos estos algoritmos se basan en la disponibilidad de un generador de números aleatorios U capaz de producir variables aleatorias uniformes .

Aproximaciones numéricas para la función de distribución acumulativa normal y la función cuantil normal

La función de distribución acumulativa normal estándar se utiliza ampliamente en informática científica y estadística.

Los valores Φ( x ) pueden aproximarse con mucha precisión mediante una variedad de métodos, como la integración numérica , series de Taylor , series asintóticas y fracciones continuas . Se utilizan diferentes aproximaciones dependiendo del nivel de precisión deseado.

Shore (1982) introdujo aproximaciones simples que pueden incorporarse en modelos de optimización estocástica de ingeniería e investigación de operaciones, como ingeniería de confiabilidad y análisis de inventarios. Denotando p = Φ( z ) , la aproximación más simple para la función cuantil es:

Esta aproximación ofrece para z un error absoluto máximo de 0,026 (para 0,5 ≤ p ≤ 0,9999 , correspondiente a 0 ≤ z ≤ 3,719 ). Para p < 1/2 reemplace p por 1 − p y cambie de signo. Otra aproximación, algo menos precisa, es la aproximación de un solo parámetro:

Este último había servido para derivar una aproximación simple para la integral de pérdidas de la distribución normal, definida por

Esta aproximación es particularmente precisa para la cola extrema derecha (error máximo de 10 −3 para z≥1,4). En Shore (2005) se muestran aproximaciones muy precisas para la función de distribución acumulativa, basadas en la metodología de modelado de respuesta (RMM, Shore, 2011, 2012).

Se pueden encontrar algunas aproximaciones más en: Función de error#Aproximación con funciones elementales . En particular, Sergei Winitzki en 2008 logra un pequeño error relativo en todo el dominio para la función de distribución acumulativa y también para la función cuantil mediante una fórmula explícitamente invertible.

Historia

Desarrollo

Algunos autores [64] [65] atribuyen el mérito del descubrimiento de la distribución normal a de Moivre , quien en 1738 [nota 2] publicó en la segunda edición de su La doctrina de las posibilidades el estudio de los coeficientes en la expansión binomial de ( a + b ) n . De Moivre demostró que el término medio en esta expansión tiene la magnitud aproximada de , y que "Si m o1/2n es una Cantidad infinitamente grande, entonces el Logaritmo de la Razón que un Término distante del medio por el Intervalo tiene respecto al Término medio, es ". [66] Aunque este teorema puede interpretarse como la primera expresión oscura para la ley de probabilidad normal, Stigler señala que el propio De Moivre no interpretó sus resultados como nada más que la regla aproximada para los coeficientes binomiales y, en particular, de Moivre carecía del concepto de función de densidad de probabilidad .

Carl Friedrich Gauss descubrió la distribución normal en 1809 como una forma de racionalizar el método de mínimos cuadrados .

En 1823 Gauss publicó su monografía " Theoria combineis observeum erroribus minimis obnoxiae " donde entre otras cosas introduce varios conceptos estadísticos importantes, como el método de mínimos cuadrados , el método de máxima verosimilitud y la distribución normal . Gauss utilizó M , M , M ", ... para denotar las medidas de alguna cantidad desconocida  V , y buscó el estimador más probable de esa cantidad: el que maximiza la probabilidad φ ( MV ) · φ ( M ′V ) · φ ( M “ − V ) · ... de obtener los resultados experimentales observados. En su notación, φΔ es la función de densidad de probabilidad de los errores de medición de magnitud Δ. Sin saber cuál es la función φ , Gauss exige que su método se reduzca a la respuesta bien conocida: la media aritmética de los valores medidos. [nota 3] A partir de estos principios, Gauss demuestra que la única ley que racionaliza la elección de la media aritmética como estimador del parámetro de ubicación es la ley normal de los errores: [68]

hde mínimos cuadrados ponderados no lineales[69]
Pierre-Simon Laplace demostró el teorema del límite central en 1810, consolidando la importancia de la distribución normal en estadística.

Aunque Gauss fue el primero en sugerir la ley de distribución normal, Laplace hizo importantes contribuciones. [nota 4] Fue Laplace quien planteó por primera vez el problema de agregar varias observaciones en 1774, [70] aunque su propia solución condujo a la distribución laplaciana . Fue Laplace quien calculó por primera vez el valor de la integral e t 2  dt = π en 1782, proporcionando la constante de normalización para la distribución normal. [71] Finalmente, fue Laplace quien en 1810 demostró y presentó a la academia el teorema central fundamental del límite , que enfatizaba la importancia teórica de la distribución normal. [72]

Es interesante señalar que en 1809 un matemático irlandés-estadounidense, Robert Adrian, publicó dos derivaciones esclarecedoras pero defectuosas de la ley de probabilidad normal, simultánea e independientemente de Gauss. [73] Sus obras pasaron en gran parte desapercibidas para la comunidad científica, hasta que en 1871 fueron exhumadas por Abbe . [74]

A mediados del siglo XIX, Maxwell demostró que la distribución normal no es sólo una herramienta matemática conveniente, sino que también puede ocurrir en fenómenos naturales: [75] El número de partículas cuya velocidad, resuelta en una dirección determinada, se encuentra entre x y x  +  dx es

Nombrar

Hoy en día, el concepto suele conocerse en inglés como distribución normal o distribución gaussiana . Otros nombres menos comunes incluyen distribución de Gauss, distribución de Laplace-Gauss, ley del error, ley de la facilidad de errores, segunda ley de Laplace y ley de Gauss.

El propio Gauss aparentemente acuñó el término con referencia a las "ecuaciones normales" involucradas en sus aplicaciones, donde normal tiene su significado técnico de ortogonal en lugar de habitual. [76] Sin embargo, a finales del siglo XIX algunos autores [nota 5] habían comenzado a usar el nombre distribución normal , donde la palabra "normal" se usaba como adjetivo; el término ahora se ve como un reflejo del hecho de que esta distribución se consideró típica, común y, por tanto, normal. Peirce (uno de esos autores) definió una vez lo "normal" así: "...lo 'normal' no es el promedio (o cualquier otro tipo de media) de lo que realmente ocurre, sino de lo que, a largo plazo, ocurriría". bajo ciertas circunstancias." [77] A principios del siglo XX, Pearson popularizó el término normal como designación para esta distribución. [78]

Hace muchos años llamé curva normal a la curva de Laplace-Gauss , cuyo nombre, si bien evita una cuestión de prioridad internacional, tiene la desventaja de llevar a la gente a creer que todas las demás distribuciones de frecuencia son, en un sentido u otro, "anormales".

-Pearson  (1920)

Además, fue Pearson quien escribió por primera vez la distribución en términos de la desviación estándar σ como en la notación moderna. Poco después, en el año 1915, Fisher añadió el parámetro de ubicación a la fórmula de distribución normal, expresándolo como se escribe hoy en día:

El término "normal estándar", que denota la distribución normal con media cero y varianza unitaria, entró en uso general alrededor de la década de 1950, apareciendo en los libros de texto populares de P. G. Hoel (1947) Introducción a la estadística matemática y A. M. Mood (1950) Introducción a la Teoría de la Estadística . [79]

Ver también

Notas

  1. ^ Por ejemplo, este algoritmo se proporciona en el artículo Lenguaje de programación Bc .
  2. De Moivre publicó por primera vez sus hallazgos en 1733, en un folleto Approximatio ad Summam Terminorum Binomii ( a + b ).norteen Seriem Expansi que fue designado únicamente para circulación privada. Pero no fue hasta el año 1738 que hizo públicos sus resultados. El folleto original se reimprimió varias veces; véase, por ejemplo, Walker (1985).
  3. ^ "Ciertamente se ha acostumbrado a considerar como un axioma la hipótesis de que si una cantidad ha sido determinada mediante varias observaciones directas, realizadas en las mismas circunstancias y con igual cuidado, la media aritmética de los valores observados proporciona el valor más probable, si no rigurosamente, pero al menos casi, de modo que siempre sea más seguro adherirse a él ". — Gauss (1809, sección 177)
  4. ^ "Mi costumbre de denominar a la curva Gauss-Laplaciana o curva normal nos salva de repartir el mérito del descubrimiento entre los dos grandes astrónomos matemáticos". cita de Pearson (1905, p. 189)
  5. Además de los mencionados específicamente aquí, dicho uso se encuentra en las obras de Peirce , Galton (Galton (1889, capítulo V)) y Lexis (Lexis (1878), Rohrbasser & Véron (2003)) c. 1875. [ cita necesaria ]

Referencias

Citas

  1. ^ Norton, Mateo; Khokhlov, Valentyn; Uryasev, Stan (2019). "Cálculo de CVaR y bPOE para distribuciones de probabilidad comunes con aplicación a la optimización de cartera y estimación de densidad" (PDF) . Anales de investigación de operaciones . Saltador. 299 (1–2): 1281–1315. arXiv : 1811.11301 . doi :10.1007/s10479-019-03373-1. S2CID  254231768 . Consultado el 27 de febrero de 2023 .
  2. ^ Distribución normal, Enciclopedia de Psicología Gale
  3. ^ Casella y Berger (2001, pág.102)
  4. ^ Lyon, A. (2014). ¿Por qué son normales las distribuciones normales?, The British Journal for the Philosophy of Science.
  5. ^ Jorge, Nocedal; Stephan, J. Wright (2006). Optimización numérica (2ª ed.). Saltador. pag. 249.ISBN 978-0387-30303-1.
  6. ^ ab "Distribución normal". www.mathsisfun.com . Consultado el 15 de agosto de 2020 .
  7. ^ Stigler (1982)
  8. ^ Halperin, Hartley y Hoel (1965, artículo 7)
  9. ^ McPherson (1990, pág.110)
  10. ^ Bernardo y Smith (2000, pág.121)
  11. ^ Scott, Clayton; Nowak, Robert (7 de agosto de 2003). "La función Q". Conexiones .
  12. ^ Barak, Ohad (6 de abril de 2006). "Función Q y Función de Error" (PDF) . Universidad de Tel Aviv. Archivado desde el original (PDF) el 25 de marzo de 2009.
  13. ^ Weisstein, Eric W. "Función de distribución normal". MundoMatemático .
  14. ^ Abramowitz, Milton ; Stegun, Irene Ann , eds. (1983) [junio de 1964]. "Capítulo 26, ecuación 26.2.12". Manual de funciones matemáticas con fórmulas, gráficas y tablas matemáticas . Serie de Matemáticas Aplicadas. vol. 55 (Novena reimpresión con correcciones adicionales de la décima impresión original con correcciones (diciembre de 1972); primera ed.). Washington DC; Nueva York: Departamento de Comercio de los Estados Unidos, Oficina Nacional de Normas; Publicaciones de Dover. pag. 932.ISBN 978-0-486-61272-0. LCCN  64-60036. SEÑOR  0167642. LCCN  65-12253.
  15. ^ Vaart, AW van der (13 de octubre de 1998). Estadísticas asintóticas. Prensa de la Universidad de Cambridge. doi :10.1017/cbo9780511802256. ISBN 978-0-511-80225-6.
  16. ^ Portada, Thomas M.; Thomas, alegría A. (2006). Elementos de la teoría de la información . John Wiley e hijos. pag. 254.ISBN 9780471748816.
  17. ^ Parque, Sung Y.; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Revista de Econometría . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . doi :10.1016/j.jeconom.2008.12.014. Archivado desde el original (PDF) el 7 de marzo de 2016 . Consultado el 2 de junio de 2011 . 
  18. ^ Geary RC (1936) La distribución de la "proporción de Student para muestras no normales". Suplemento de la Revista de la Royal Statistical Society 3 (2): 178–184
  19. ^ Lukács, Eugene (marzo de 1942). "Una caracterización de la distribución normal". Anales de estadística matemática . 13 (1): 91–93. doi :10.1214/AOMS/1177731647. ISSN  0003-4851. JSTOR  2236166. SEÑOR  0006626. Zbl  0060.28509. Wikidata  Q55897617.
  20. ^ abc Patel y Read (1996, [2.1.4])
  21. ^ Abanico (1991, pág.1258)
  22. ^ Patel y leer (1996, [2.1.8])
  23. ^ Papoulis, Atanasio. Probabilidad, variables aleatorias y procesos estocásticos (4ª ed.). pag. 148.
  24. ^ Winkelbauer, Andreas (2012). "Momentos y Momentos Absolutos de la Distribución Normal". arXiv : 1209.4340 [matemáticas.ST].
  25. ^ Bryc (1995, pág.23)
  26. ^ Bryc (1995, pág.24)
  27. ^ Portada y Thomas (2006, pág.254)
  28. ^ Williams, David (2001). Sopesando las probabilidades: un curso de probabilidad y estadística (Reimpreso. Ed.). Cambridge [ua]: Universidad de Cambridge. Prensa. págs. 197-199. ISBN 978-0-521-00618-7.
  29. ^ Smith, José M. Bernardo; Adrián FM (2000). Teoría bayesiana (Reimpresión ed.). Chichester [ua]: Wiley. págs.209, 366. ISBN 978-0-471-49464-5.{{cite book}}: CS1 maint: multiple names: authors list (link)
  30. ^ O'Hagan, A. (1994) Teoría avanzada de la estadística de Kendall, Vol 2B, Inferencia bayesiana , Edward Arnold. ISBN 0-340-52922-9 (Sección 5.40) 
  31. ^ ab Bryc (1995, pág.35)
  32. ^ UIUC, Conferencia 21. La distribución normal multivariada, 21.6: "Individualmente gaussiana versus conjuntamente gaussiana".
  33. ^ Edward L. Melnick y Aaron Tenenbein, "Errores especificaciones de la distribución normal", The American Statistician , volumen 36, número 4 de noviembre de 1982, páginas 372–373
  34. ^ "Distancia de Kullback Leibler (KL) de dos distribuciones de probabilidad normales (gaussianas)". Allisons.org . 5 de diciembre de 2007 . Consultado el 3 de marzo de 2017 .
  35. ^ Jordan, Michael I. (8 de febrero de 2010). "Stat260: modelado e inferencia bayesianos: el previo conjugado para la distribución normal" (PDF) .
  36. ^ Amari y Nagaoka (2000)
  37. ^ "Aproximación normal a la distribución de Poisson". Stat.ucla.edu . Consultado el 3 de marzo de 2017 .
  38. ^ ab Das, Abhranil (2021). "Un método para integrar y clasificar distribuciones normales". Revista de Visión . 21 (10): 1. arXiv : 2012.14331 . doi :10.1167/jov.21.10.1. PMC 8419883 . PMID  34468706. 
  39. ^ Bryc (1995, pág.27)
  40. ^ Weisstein, Eric W. "Distribución normal de productos". MundoMatemático . wolfram.com.
  41. ^ Lukács, Eugenio (1942). "Una caracterización de la distribución normal". Los anales de la estadística matemática . 13 (1): 91–3. doi : 10.1214/aoms/1177731647 . ISSN  0003-4851. JSTOR  2236166.
  42. ^ Basu, D.; Laha, RG (1954). "Sobre algunas caracterizaciones de la distribución normal". Sankhya . 13 (4): 359–62. ISSN  0036-4452. JSTOR  25048183.
  43. ^ Lehmann, EL (1997). Prueba de hipótesis estadísticas (2ª ed.). Saltador. pag. 199.ISBN 978-0-387-94919-2.
  44. ^ Patel y leer (1996, [2.3.6])
  45. ^ Galambos y Simonelli (2004, teorema 3.5)
  46. ^ ab Lukács y King (1954)
  47. ^ Quine, diputado (1993). "Sobre tres caracterizaciones de la distribución normal". Probabilidad y Estadística Matemática . 14 (2): 257–263.
  48. ^ Juan, S (1982). "La familia de distribuciones normales de dos piezas de tres parámetros y su ajuste". Comunicaciones en estadística: teoría y métodos . 11 (8): 879–885. doi :10.1080/03610928208828279.
  49. ^ ab Krishnamoorthy (2006, pág.127)
  50. ^ Krishnamoorthy (2006, pág.130)
  51. ^ Krishnamoorthy (2006, pág.133)
  52. ^ Huxley (1932)
  53. ^ Jaynes, Edwin T. (2003). Teoría de la probabilidad: la lógica de la ciencia. Prensa de la Universidad de Cambridge. págs. 592–593. ISBN 9780521592710.
  54. ^ Oosterbaan, Roland J. (1994). "Capítulo 6: Análisis de frecuencia y regresión de datos hidrológicos" (PDF) . En Ritzema, Henk P. (ed.). Principios y aplicaciones de drenaje, Publicación 16 (segunda edición revisada). Wageningen, Países Bajos: Instituto Internacional para la Recuperación y Mejora de Tierras (ILRI). págs. 175-224. ISBN 978-90-70754-33-4.
  55. ^ Por qué la mayoría de los resultados de las investigaciones publicadas son falsos, John PA Ioannidis, 2005
  56. ^ Wichura, Michael J. (1988). "Algoritmo AS241: los puntos porcentuales de la distribución normal". Estadísticas aplicadas . 37 (3): 477–84. doi :10.2307/2347330. JSTOR  2347330.
  57. ^ Johnson, Kotz y Balakrishnan (1995, ecuación (26.48))
  58. ^ Kinderman y Monahan (1977)
  59. ^ Levá (1992)
  60. ^ Marsaglia y Tsang (2000)
  61. ^ Karney (2016)
  62. ^ Monahan (1985, sección 2)
  63. ^ Wallace (1996)
  64. ^ Johnson, Kotz y Balakrishnan (1994, pág. 85)
  65. ^ Le Cam y Lo Yang (2000, pág.74)
  66. ^ De Moivre, Abraham (1733), Corolario I - ver Walker (1985, p. 77)
  67. ^ Stigler (1986, pág.76)
  68. ^ Gauss (1809, sección 177)
  69. ^ Gauss (1809, sección 179)
  70. ^ Laplace (1774, Problema III)
  71. ^ Pearson (1905, pág.189)
  72. ^ Stigler (1986, pág.144)
  73. ^ Stigler (1978, pág.243)
  74. ^ Stigler (1978, pág.244)
  75. ^ Maxwell (1860, pág.23)
  76. ^ Jaynes, Edwin J.; Teoría de la probabilidad: la lógica de la ciencia , cap. 7.
  77. ^ Peirce, Charles S. (c. 1909 MS), Collected Papers v.6, párrafo 327.
  78. ^ Kruskal y Stigler (1997).
  79. ^ "Usos más antiguos... (curva normal estándar de entrada)".
  80. ^ Sol, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente". Comunicaciones en estadística: teoría y métodos . 52 (5): 1591-1613. doi :10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

Fuentes

  • Aldrich, Juan; Molinero, Jeff. "Primeros usos de símbolos en probabilidad y estadística".
  • Aldrich, Juan; Molinero, Jeff. "Primeros usos conocidos de algunas de las palabras de matemáticas".En particular, las entradas para "campana y curva de campana", "normal (distribución)", "gaussiana" y "Error, ley del error, teoría de los errores, etc."
  • Amari, Shun-ichi; Nagaoka, Hiroshi (2000). Métodos de Geometría de la Información . Prensa de la Universidad de Oxford. ISBN 978-0-8218-0531-2.
  • Bernardo, José M.; Smith, Adrián FM (2000). Teoría bayesiana . Wiley. ISBN 978-0-471-49464-5.
  • Bryc, Wlodzimierz (1995). La Distribución Normal: Caracterizaciones con Aplicaciones . Springer-Verlag. ISBN 978-0-387-97990-8.
  • Casella, George; Berger, Roger L. (2001). Inferencia estadística (2ª ed.). Duxbury. ISBN 978-0-534-24312-8.
  • Cody, William J. (1969). "Aproximaciones racionales de Chebyshev para la función de error" . Matemáticas de la Computación . 23 (107): 631–638. doi : 10.1090/S0025-5718-1969-0247736-4 .
  • Portada, Thomas M.; Thomas, alegría A. (2006). Elementos de la teoría de la información . John Wiley e hijos.
  • Dia, Yaya D. (2023). "Integrales incompletas aproximadas, aplicación a la función de error complementaria". SSRN . doi :10.2139/ssrn.4487559. S2CID  259689086.
  • de Moivre, Abraham (1738). La doctrina de las probabilidades . Sociedad Matemática Estadounidense. ISBN 978-0-8218-2103-9.
  • Fan, Jianqing (1991). "Sobre las tasas óptimas de convergencia para problemas de deconvolución no paramétrica". Los anales de la estadística . 19 (3): 1257-1272. doi : 10.1214/aos/1176348248 . JSTOR  2241949.
  • Galton, Francisco (1889). Herencia Natural (PDF) . Londres, Reino Unido: Richard Clay and Sons.
  • Galambos, Janos; Simonelli, Italo (2004). Productos de variables aleatorias: aplicaciones a problemas de física y funciones aritméticas . Marcel Dekker, Inc. ISBN 978-0-8247-5402-0.
  • Gauss, Carolo Federico (1809). Theoria motvs corporvm coelestivm in sectionibvs conicis Solem ambientivm [ Teoría del movimiento de los cuerpos celestes que se mueven alrededor del Sol en secciones cónicas ] (en latín). Hambvrgi, Svmtibvs F. Perthes y IH Besser. Traducción en inglés.
  • Gould, Stephen Jay (1981). La mala medida del hombre (primera ed.). WW Norton. ISBN 978-0-393-01489-1.
  • Halperin, Max; Hartley, Herman O.; Hoel, Paul G. (1965). "Estándares recomendados para notación y símbolos estadísticos. Comité de Notación y Símbolos de la COPSS". El estadístico estadounidense . 19 (3): 12-14. doi :10.2307/2681417. JSTOR  2681417.
  • Hart, John F.; et al. (1968). Aproximaciones informáticas . Nueva York, Nueva York: John Wiley & Sons, Inc. ISBN 978-0-88275-642-4.
  • "Distribución normal", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
  • Herrnstein, Richard J.; Murray, Charles (1994). La curva de campana: inteligencia y estructura de clases en la vida estadounidense . Prensa Libre . ISBN 978-0-02-914673-6.
  • Huxley, Julián S. (1932). Problemas de crecimiento relativo . Londres. ISBN 978-0-486-61114-3. OCLC  476909537.
  • Johnson, Norman L.; Kotz, Samuel; Balakrishnan, Narayanaswamy (1994). Distribuciones univariadas continuas, volumen 1 . Wiley. ISBN 978-0-471-58495-7.
  • Johnson, Norman L.; Kotz, Samuel; Balakrishnan, Narayanaswamy (1995). Distribuciones univariadas continuas, volumen 2 . Wiley. ISBN 978-0-471-58494-0.
  • Karney, CFF (2016). "Muestreo exactamente de la distribución normal". Transacciones ACM sobre software matemático . 42 (1): 3:1–14. arXiv : 1303.6257 . doi :10.1145/2710016. S2CID  14252035.
  • Kinderman, Albert J.; Monahan, John F. (1977). "Generación por computadora de variables aleatorias utilizando la relación de desviaciones uniformes". Transacciones ACM sobre software matemático . 3 (3): 257–260. doi : 10.1145/355744.355750 . S2CID  12884505.
  • Krishnamoorthy, Kalimuthu (2006). Manual de distribuciones estadísticas con aplicaciones . Chapman y Hall/CRC. ISBN 978-1-58488-635-8.
  • Kruskal, William H.; Stigler, Stephen M. (1997). Spencer, Bruce D. (ed.). Terminología normativa: 'normal' en estadísticas y otros lugares . Estadísticas y Políticas Públicas. Prensa de la Universidad de Oxford. ISBN 978-0-19-852341-3.
  • Laplace, Pierre-Simon de (1774). "Mémoire sur la probabilité des cause par les événements". Mémoires de l'Académie Royale des Sciences de Paris (Savants étrangers), Tomo 6 : 621–656.Traducido por Stephen M. Stigler en Statistical Science 1 (3), 1986: JSTOR  2245476.
  • Laplace, Pierre-Simon (1812). Théorie analytique des probabilités [ Teoría analítica de las probabilidades ]. París, Ve. Mensajero.
  • Le Cam, Lucien; Lo Yang, Grace (2000). Asintótica en estadística: algunos conceptos básicos (segunda ed.). Saltador. ISBN 978-0-387-95036-5.
  • Leva, José L. (1992). "Un generador rápido de números aleatorios normales" (PDF) . Transacciones ACM sobre software matemático . 18 (4): 449–453. CiteSeerX  10.1.1.544.5806 . doi :10.1145/138351.138364. S2CID  15802663. Archivado desde el original (PDF) el 16 de julio de 2010.
  • Léxis, Wilhelm (1878). "Sobre la duración normal de la vida humana y sobre la teoría de la estabilidad de las relaciones estadísticas". Annales de Démographie Internationale . París. II : 447–462.
  • Lukács, Eugenio; Rey, Edgar P. (1954). "Una propiedad de distribución normal". Los anales de la estadística matemática . 25 (2): 389–394. doi : 10.1214/aoms/1177728796 . JSTOR  2236741.
  • McPherson, Glen (1990). Estadística en la Investigación Científica: Su Base, Aplicación e Interpretación . Springer-Verlag. ISBN 978-0-387-97137-7.
  • Marsaglia, George ; Tsang, Wai Wan (2000). "El método Zigurat para generar variables aleatorias". Revista de software estadístico . 5 (8). doi : 10.18637/jss.v005.i08 .
  • Marsaglia, George (2004). "Evaluación de la distribución normal". Revista de software estadístico . 11 (4). doi : 10.18637/jss.v011.i04 .
  • Maxwell, James Secretario (1860). "V. Ilustraciones de la teoría dinámica de los gases. - Parte I: Sobre los movimientos y colisiones de esferas perfectamente elásticas". Revista Filosófica . Serie 4. 19 (124): 19–32. doi :10.1080/14786446008642818.
  • Monahan, JF (1985). "Precisión en la generación de números aleatorios". Matemáticas de la Computación . 45 (172): 559–568. doi : 10.1090/S0025-5718-1985-0804945-X .
  • Patel, Jagdish K.; Leer, Campbell B. (1996). Manual de distribución normal (2ª ed.). Prensa CRC. ISBN 978-0-8247-9342-5.
  • Pearson, Karl (1901). "Sobre líneas y planos de máximo ajuste a sistemas de puntos en el espacio" (PDF) . Revista Filosófica . 6. 2 (11): 559–572. doi :10.1080/14786440109462720. S2CID  125037489.
  • Pearson, Karl (1905). "'Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson'. Una réplica". Biometrika . 4 (1): 169–212. doi :10.2307/2331536. JSTOR  2331536.
  • Pearson, Karl (1920). "Notas sobre la historia de la correlación". Biometrika . 13 (1): 25–45. doi :10.1093/biomet/13.1.25. JSTOR  2331722.
  • Rohrbasser, Jean-Marc; Véron, Jacques (2003). "Wilhelm Lexis: la duración normal de la vida como expresión de la" naturaleza de las cosas"". Población . 58 (3): 303–322. doi : 10.3917/papa.303.0303 .
  • Orilla, H (1982). "Aproximaciones simples para la función acumulativa inversa, la función de densidad y la integral de pérdidas de la distribución normal". Revista de la Real Sociedad de Estadística. Serie C (Estadística Aplicada) . 31 (2): 108-114. doi :10.2307/2347972. JSTOR  2347972.
  • Orilla, H (2005). "Aproximaciones precisas basadas en RMM para la CDF de la distribución normal". Comunicaciones en estadística: teoría y métodos . 34 (3): 507–513. doi :10.1081/sta-200052102. S2CID  122148043.
  • Orilla, H (2011). "Metodología de modelado de respuestas". Estadísticas informáticas de WIRE . 3 (4): 357–372. doi :10.1002/wics.151. S2CID  62021374.
  • Orilla, H (2012). "Estimación de modelos de metodología de modelado de respuesta". Estadísticas informáticas de WIRE . 4 (3): 323–333. doi :10.1002/wics.1199. S2CID  122366147.
  • Stigler, Stephen M. (1978). "Estadística matemática en los primeros estados". Los anales de la estadística . 6 (2): 239–265. doi : 10.1214/aos/1176344123 . JSTOR  2958876.
  • Stigler, Stephen M. (1982). "Una propuesta modesta: un nuevo estándar para lo normal". El estadístico estadounidense . 36 (2): 137-138. doi :10.2307/2684031. JSTOR  2684031.
  • Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. ISBN 978-0-674-40340-6.
  • Stigler, Stephen M. (1999). Estadísticas sobre la mesa . Prensa de la Universidad de Harvard. ISBN 978-0-674-83601-3.
  • Walker, Helen M. (1985). "De Moivre sobre la ley de la probabilidad normal" (PDF) . En Smith, David Eugene (ed.). Un libro de consulta en matemáticas . Dover. ISBN 978-0-486-64690-9.
  • Wallace, CS (1996). "Generadores rápidos pseudoaleatorios para variables normales y exponenciales". Transacciones ACM sobre software matemático . 22 (1): 119-127. doi : 10.1145/225545.225554 . S2CID  18514848.
  • Weisstein, Eric W. "Distribución normal". MundoMatemático .
  • Oeste, Graeme (2009). "Mejores aproximaciones a las funciones normales acumulativas" (PDF) . Revista Wilmott : 70–76.
  • Zelen, Marvin; Severo, Norman C. (1964). Funciones de probabilidad (capítulo 26). Manual de funciones matemáticas con fórmulas, gráficas y tablas matemáticas , de Abramowitz, M .; y Stegun, IA : Oficina Nacional de Normas. Nueva York, Nueva York: Dover. ISBN 978-0-486-61272-0.

enlaces externos