stringtranslate.com

Distribución de Pearson

Diagrama del sistema de Pearson, que muestra distribuciones de los tipos I, III, VI, V y IV en términos de β 1 (asimetría al cuadrado) y β 2 (curtosis tradicional)

La distribución de Pearson es una familia de distribuciones de probabilidad continuas . Fue publicada por primera vez por Karl Pearson en 1895 y posteriormente ampliada por él en 1901 y 1916 en una serie de artículos sobre bioestadística .

Historia

El sistema de Pearson se ideó originalmente en un esfuerzo por modelar observaciones visiblemente sesgadas . En ese momento se sabía bien cómo ajustar un modelo teórico para que se ajustara a los dos primeros cumulantes o momentos de los datos observados: cualquier distribución de probabilidad se puede extender directamente para formar una familia de escala de ubicación . Excepto en casos patológicos , se puede hacer que una familia de escala de ubicación se ajuste a la media observada (primer cumulante) y la varianza (segundo cumulante) arbitrariamente bien. Sin embargo, no se sabía cómo construir distribuciones de probabilidad en las que la asimetría (tercer cumulante estandarizado) y la curtosis (cuarto cumulante estandarizado) pudieran ajustarse con la misma libertad. Esta necesidad se hizo evidente al intentar ajustar modelos teóricos conocidos a datos observados que exhibían asimetría. Los ejemplos de Pearson incluyen datos de supervivencia, que suelen ser asimétricos.

En su artículo original, Pearson (1895, p. 360) identificó cuatro tipos de distribuciones (numeradas del I al IV) además de la distribución normal (que originalmente se conocía como tipo V). La clasificación dependía de si las distribuciones se apoyaban en un intervalo acotado, en una semirrecta o en toda la recta real ; y si eran potencialmente sesgadas o necesariamente simétricas. Un segundo artículo (Pearson 1901) corrigió dos omisiones: redefinió la distribución de tipo V (originalmente solo la distribución normal , pero ahora la distribución gamma inversa ) e introdujo la distribución de tipo VI. Juntos, los dos primeros artículos cubren los cinco tipos principales del sistema de Pearson (I, III, IV, V y VI). En un tercer artículo, Pearson (1916) introdujo más casos especiales y subtipos (VII a XII).

Rhind (1909, pp. 430–432) ideó una forma sencilla de visualizar el espacio de parámetros del sistema de Pearson, que fue posteriormente adoptada por Pearson (1916, placa 1 y pp. 430ff., 448ff.). Los tipos de Pearson se caracterizan por dos cantidades, comúnmente denominadas β 1 y β 2 . La primera es el cuadrado de la asimetría : β 1 = γ 1 donde γ 1 es la asimetría, o tercer momento estandarizado . La segunda es la curtosis tradicional , o cuarto momento estandarizado: β 2 = γ 2 + 3. (Los tratamientos modernos definen la curtosis γ 2 en términos de cumulantes en lugar de momentos, de modo que para una distribución normal tenemos γ 2 = 0 y β 2 = 3. Aquí seguimos el precedente histórico y utilizamos β 2 .) El diagrama muestra a qué tipo de Pearson pertenece una distribución concreta dada (identificada por un punto (β 1 , β 2 )).

Muchas de las distribuciones sesgadas y/o no mesocúrticas que nos resultan familiares hoy en día todavía eran desconocidas a principios de la década de 1890. Lo que ahora se conoce como distribución beta había sido utilizada por Thomas Bayes como una distribución posterior del parámetro de una distribución de Bernoulli en su trabajo de 1763 sobre probabilidad inversa . La distribución Beta ganó prominencia debido a su pertenencia al sistema de Pearson y se conoció hasta la década de 1940 como la distribución tipo I de Pearson. [1] (La distribución tipo II de Pearson es un caso especial del tipo I, pero ya no se suele destacar). La distribución gamma se originó a partir del trabajo de Pearson (Pearson 1893, p. 331; Pearson 1895, pp. 357, 360, 373–376) y se conocía como la distribución tipo III de Pearson, antes de adquirir su nombre moderno en las décadas de 1930 y 1940. [2] El artículo de Pearson de 1895 introdujo la distribución de tipo IV, que contiene la distribución t de Student como caso especial, precediendo en varios años el uso posterior de William Sealy Gosset . Su artículo de 1901 introdujo la distribución gamma inversa (tipo V) y la distribución beta prima (tipo VI).

Definición

Una densidad de Pearson p se define como cualquier solución válida para la ecuación diferencial (cf. Pearson 1895, p. 381)

con:

Según Ord, [3] Pearson ideó la forma subyacente de la ecuación (1) basándose, en primer lugar, en la fórmula para la derivada del logaritmo de la función de densidad de la distribución normal (que da una función lineal) y, en segundo lugar, en una relación de recurrencia para valores en la función de masa de probabilidad de la distribución hipergeométrica (que da la estructura lineal dividida por cuadrática).

En la ecuación (1), el parámetro a determina un punto estacionario y, por lo tanto, bajo ciertas condiciones, un modo de la distribución, ya que

se sigue directamente de la ecuación diferencial.

Dado que nos encontramos ante una ecuación diferencial lineal de primer orden con coeficientes variables , su solución es sencilla:

La integral en esta solución se simplifica considerablemente cuando se consideran ciertos casos especiales del integrando. Pearson (1895, p. 367) distinguió dos casos principales, determinados por el signo del discriminante (y por lo tanto el número de raíces reales ) de la función cuadrática

Tipos particulares de distribución

Caso 1, discriminante negativo

La distribución tipo IV de Pearson

Si el discriminante de la función cuadrática (2) es negativo ( ), no tiene raíces reales. Entonces defina

Obsérvese que α es un número real bien definido y α ≠ 0 , porque por suposición y por lo tanto b 2 ≠ 0 . Aplicando estas sustituciones, la función cuadrática (2) se transforma en

La ausencia de raíces reales es obvia a partir de esta formulación, porque α 2 es necesariamente positivo.

Ahora expresamos la solución de la ecuación diferencial (1) como función de y :

Pearson (1895, p. 362) llamó a esto el "caso trigonométrico", porque la integral

implica la función trigonométrica inversa arctan. Entonces

Por último, dejemos que

Aplicando estas sustituciones obtenemos la función paramétrica:

Esta densidad no normalizada tiene soporte en toda la línea real . Depende de un parámetro de escala α > 0 y de parámetros de forma m > 1/2 y  ν . Se perdió un parámetro cuando elegimos encontrar la solución a la ecuación diferencial (1) como una función de y en lugar de x . Por lo tanto, reintroducimos un cuarto parámetro, a saber, el parámetro de ubicación λ . De este modo, hemos derivado la densidad de la distribución de tipo IV de Pearson :

La constante de normalización involucra la función Gamma compleja (Γ) y la función Beta  (B). Nótese que el parámetro de ubicación λ aquí no es el mismo que el parámetro de ubicación original introducido en la formulación general, sino que está relacionado a través de

La distribución tipo VII de Pearson

Gráfico de densidades de Pearson tipo VII con λ = 0, σ = 1 y: γ 2 = ∞ (rojo); γ 2 = 4 (azul); y γ 2 = 0 (negro)

El parámetro de forma ν de la distribución de Pearson tipo IV controla su asimetría . Si fijamos su valor en cero, obtenemos una familia simétrica de tres parámetros. Este caso especial se conoce como distribución de Pearson tipo VII (cf. Pearson 1916, p. 450). Su densidad es

donde B es la función Beta .

Una parametrización alternativa (y una ligera especialización) de la distribución tipo VII se obtiene dejando

lo que requiere que m > 3/2. Esto implica una pequeña pérdida de generalidad pero asegura que la varianza de la distribución exista y sea igual a σ 2 . Ahora el parámetro m solo controla la curtosis de la distribución. Si m tiende a infinito mientras λ y σ se mantienen constantes, la distribución normal surge como un caso especial:

Esta es la densidad de una distribución normal con media λ y desviación estándar σ .

Es conveniente exigir que m > 5/2 y dejar

Esta es otra especialización y garantiza que existan los primeros cuatro momentos de la distribución. Más específicamente, la distribución de Pearson tipo VII parametrizada en términos de (λ, σ, γ 2 ) tiene una media de λ , una desviación estándar de σ , una asimetría de cero y un exceso de curtosis positivo de γ 2 .

Estudiantesa-distribución

La distribución tipo VII de Pearson es equivalente a la distribución t de Student no estandarizada con parámetros ν > 0, μ, σ 2 aplicando las siguientes sustituciones a su parametrización original:

Observe que se satisface la restricción m > 1/2 .

La densidad resultante es

que se reconoce fácilmente como la densidad de una distribución t de Student .

Esto implica que la distribución de tipo VII de Pearson incluye la distribución t de Student estándar y también la distribución estándar de Cauchy . En particular, la distribución t de Student estándar surge como un subcaso, cuando μ = 0 y σ 2 = 1, equivalente a las siguientes sustituciones:

La densidad de esta familia restringida de un parámetro es una t de Student estándar :

Caso 2, discriminante no negativo

Si la función cuadrática (2) tiene un discriminante no negativo ( ), tiene raíces reales a 1 y a 2 (no necesariamente distintas):

En presencia de raíces reales la función cuadrática (2) puede escribirse como

y la solución de la ecuación diferencial es por lo tanto

Pearson (1895, p. 362) llamó a esto el "caso logarítmico", porque la integral

implica solo la función logaritmo y no la función arctan como en el caso anterior.

Usando la sustitución

Obtenemos la siguiente solución de la ecuación diferencial (1):

Como esta densidad sólo se conoce hasta una constante oculta de proporcionalidad, dicha constante se puede cambiar y la densidad se puede escribir de la siguiente manera:

La distribución tipo I de Pearson

La distribución de tipo I de Pearson (una generalización de la distribución beta ) surge cuando las raíces de la ecuación cuadrática (2) son de signo opuesto, es decir, . Entonces la solución p se apoya en el intervalo . Aplicar la sustitución

donde , lo que da una solución en términos de y que se apoya en el intervalo (0, 1):

Se puede definir:

Reagrupando constantes y parámetros, esto se simplifica a:

De esto se sigue a con . Resulta que m 1 , m 2 > −1 es necesario y suficiente para que p sea una función de densidad de probabilidad adecuada.

La distribución tipo II de Pearson

La distribución de Pearson tipo II es un caso especial de la familia de Pearson tipo I restringida a distribuciones simétricas.

Para la curva tipo II de Pearson, [4]

dónde

La ordenada, y , es la frecuencia de . La distribución de tipo II de Pearson se utiliza para calcular la tabla de coeficientes de correlación significativos para el coeficiente de correlación de rango de Spearman cuando el número de elementos en una serie es menor que 100 (o 30, según algunas fuentes). Después de eso, la distribución imita una distribución t de Student estándar . Para la tabla de valores, se utilizan ciertos valores como constantes en la ecuación anterior:

Los momentos de x utilizados son

La distribución tipo III de Pearson

Definiendo

es . La distribución tipo III de Pearson es una distribución gamma o distribución de chi-cuadrado .

La distribución tipo V de Pearson

Definición de nuevos parámetros:

sigue una . La distribución tipo V de Pearson es una distribución gamma inversa .

La distribución tipo VI de Pearson

Definiendo

sigue una . La distribución de Pearson tipo VI es una distribución beta prima o distribución F .

Relación con otras distribuciones

La familia Pearson incluye, entre otras, las siguientes distribuciones:

Las alternativas al sistema de distribuciones de Pearson para ajustar distribuciones a los datos son las distribuciones parametrizadas por cuantiles (QPD) y las distribuciones metalog . Las QPD y las distribuciones metalog pueden proporcionar una mayor flexibilidad de forma y límites que el sistema de Pearson. En lugar de ajustar momentos, las QPD se ajustan típicamente a CDF empíricas u otros datos con mínimos cuadrados lineales .

Ejemplos de alternativas modernas al diagrama de asimetría versus curtosis de Pearson son: (i) https://github.com/SchildCode/PearsonPlot y (ii) el "gráfico de Cullen y Frey" en la aplicación estadística R.

Aplicaciones

Estos modelos se utilizan en los mercados financieros, dada su capacidad de parametrizarse de una manera que tenga un significado intuitivo para los operadores del mercado. Actualmente se utilizan varios modelos que capturan la naturaleza estocástica de la volatilidad de las tasas, las acciones, etc. [ ¿Cuáles? ] [ cita requerida ] y esta familia de distribuciones puede resultar una de las más importantes.

En Estados Unidos, la distribución Log-Pearson III es la distribución predeterminada para el análisis de frecuencia de inundaciones. [5]

Recientemente, se han desarrollado alternativas a las distribuciones de Pearson que son más flexibles y más fáciles de ajustar a los datos. Consulte las distribuciones metalog .

Notas

  1. ^ Miller, Jeff; et al. (9 de julio de 2006). "Distribución beta". Usos más antiguos conocidos de algunas palabras de las matemáticas . Consultado el 9 de diciembre de 2006 .
  2. ^ Miller, Jeff; et al. (7 de diciembre de 2006). "Distribución gamma". Usos más antiguos conocidos de algunas palabras de las matemáticas . Consultado el 9 de diciembre de 2006 .
  3. ^ Ord JK (1972) pág. 2
  4. ^ Ramsey, Philip H. (1 de septiembre de 1989). "Valores críticos para la correlación de orden de rango de Spearman". Revista de estadística educativa . 14 (3): 245–253. JSTOR  1165017.
  5. ^ "Directrices para determinar la frecuencia del caudal de las inundaciones" (PDF) . USGS Water . Marzo de 1982 . Consultado el 14 de junio de 2019 .

Fuentes

Fuentes primarias

Fuentes secundarias

Referencias