stringtranslate.com

Distribución de Pearson

Diagrama del sistema de Pearson, que muestra las distribuciones de los tipos I, III, VI, V y IV en términos de β 1 (asimetría al cuadrado) y β 2 (curtosis tradicional)

La distribución de Pearson es una familia de distribuciones de probabilidad continuas . Fue publicado por primera vez por Karl Pearson en 1895 y posteriormente ampliado por él en 1901 y 1916 en una serie de artículos sobre bioestadística .

Historia

El sistema Pearson fue ideado originalmente en un esfuerzo por modelar observaciones visiblemente sesgadas . En ese momento se sabía bien cómo ajustar un modelo teórico para que se ajuste a los dos primeros cumulantes o momentos de los datos observados: cualquier distribución de probabilidad se puede extender directamente para formar una familia de escala de ubicación . Excepto en casos patológicos , se puede hacer que una familia de escala de ubicación se ajuste arbitrariamente bien a la media observada (primer cumulante) y a la varianza (segundo cumulante). Sin embargo, no se sabía cómo construir distribuciones de probabilidad en las que la asimetría (tercer cumulante estandarizado) y la curtosis (cuarto cumulante estandarizado) pudieran ajustarse con la misma libertad. Esta necesidad se hizo evidente al intentar ajustar modelos teóricos conocidos a datos observados que mostraban asimetría. Los ejemplos de Pearson incluyen datos de supervivencia, que suelen ser asimétricos.

En su artículo original, Pearson (1895, p. 360) identificó cuatro tipos de distribuciones (numeradas del I al IV) además de la distribución normal (que originalmente se conocía como tipo V). La clasificación dependía de si las distribuciones se apoyaban en un intervalo acotado, en una media línea o en toda la línea real ; y si eran potencialmente sesgados o necesariamente simétricos. Un segundo artículo (Pearson 1901) corrigió dos omisiones: redefinió la distribución de tipo V (originalmente solo la distribución normal , pero ahora la distribución gamma inversa ) e introdujo la distribución de tipo VI. En conjunto, los dos primeros artículos cubren los cinco tipos principales del sistema Pearson (I, III, IV, V y VI). En un tercer artículo, Pearson (1916) introdujo más casos y subtipos especiales (VII a XII).

Rhind (1909, págs. 430–432) ideó una forma sencilla de visualizar el espacio de parámetros del sistema de Pearson, que posteriormente fue adoptada por Pearson (1916, lámina 1 y págs. 430 y siguientes, 448 y siguientes). Los tipos de Pearson se caracterizan por dos cantidades, comúnmente denominadas β 1 y β 2 . El primero es el cuadrado de la asimetría : β 1 = γ 1 donde γ 1 es la asimetría, o tercer momento estandarizado . El segundo es la curtosis tradicional , o cuarto momento estandarizado: β 2 = γ 2 + 3. (Los tratamientos modernos definen la curtosis γ 2 en términos de cumulantes en lugar de momentos, de modo que para una distribución normal tenemos γ 2 = 0 y β 2 = 3. Aquí seguimos el precedente histórico y usamos β 2 .) El diagrama de la derecha muestra a qué tipo de Pearson pertenece una distribución concreta determinada (identificada por un punto (β 1 , β 2 )).

Muchas de las distribuciones asimétricas y/o no mesocúrticas que conocemos hoy en día todavía eran desconocidas a principios de la década de 1890. Lo que hoy se conoce como distribución beta había sido utilizada por Thomas Bayes como distribución posterior del parámetro de una distribución de Bernoulli en su trabajo de 1763 sobre probabilidad inversa . La distribución Beta ganó prominencia debido a su pertenencia al sistema de Pearson y fue conocida hasta la década de 1940 como distribución Pearson tipo I. [1] (La distribución tipo II de Pearson es un caso especial del tipo I, pero generalmente ya no se destaca). La distribución gamma se originó en el trabajo de Pearson (Pearson 1893, p. 331; Pearson 1895, pp. 357, 360, 373 –376) y era conocida como distribución de Pearson tipo III, antes de adquirir su nombre moderno en las décadas de 1930 y 1940. [2] El artículo de Pearson de 1895 introdujo la distribución tipo IV, que contiene la distribución t de Student como un caso especial, anterior al uso posterior de William Sealy Gosset por varios años. Su artículo de 1901 introdujo la distribución gamma inversa (tipo V) y la distribución beta prima (tipo VI).

Definición

Una densidad de Pearson p se define como cualquier solución válida de la ecuación diferencial (cf. Pearson 1895, p. 381)

con:

Según Ord, [3] Pearson ideó la forma subyacente de la ecuación (1) basándose, en primer lugar, en la fórmula para la derivada del logaritmo de la función de densidad de la distribución normal (que da una función lineal) y, en segundo lugar , a partir de una relación de recurrencia para valores en la función de masa de probabilidad de la distribución hipergeométrica (que produce la estructura lineal dividida por cuadrática).

En la ecuación (1), el parámetro a determina un punto estacionario y, por tanto, bajo algunas condiciones, una moda de la distribución, ya que

se sigue directamente de la ecuación diferencial.

Dado que nos enfrentamos a una ecuación diferencial lineal de primer orden con coeficientes variables , su solución es sencilla:

La integral en esta solución se simplifica considerablemente cuando se consideran ciertos casos especiales del integrando. Pearson (1895, p. 367) distinguió dos casos principales, determinados por el signo del discriminante (y por tanto el número de raíces reales ) de la función cuadrática.

Tipos particulares de distribución

Caso 1, discriminante negativo

La distribución de Pearson tipo IV

Si el discriminante de la función cuadrática (2) es negativo ( ), no tiene raíces reales. Luego define

Observe que α es un número real bien definido y α ≠ 0 , porque por supuesto y por lo tanto b 2 ≠ 0 . Aplicando estas sustituciones, la función cuadrática (2) se transforma en

La ausencia de raíces reales es obvia a partir de esta formulación, porque α 2 es necesariamente positiva.

Ahora expresamos la solución de la ecuación diferencial (1) en función de y :

Pearson (1895, p. 362) llamó a esto el "caso trigonométrico", porque la integral

implica la función arctan trigonométrica inversa . Entonces

Finalmente, deja

Aplicando estas sustituciones obtenemos la función paramétrica:

Esta densidad no normalizada tiene apoyo en toda la línea real . Depende de un parámetro de escala α > 0 y de los parámetros de forma m > 1/2 y  ν . Se perdió un parámetro cuando elegimos encontrar la solución a la ecuación diferencial (1) en función de y en lugar de x . Por lo tanto, reintroducimos un cuarto parámetro, a saber, el parámetro de ubicación λ . Así hemos obtenido la densidad de la distribución de Pearson tipo IV :

La constante de normalización involucra la función Gamma compleja (Γ) y la función Beta  (B). Observe que el parámetro de ubicación λ aquí no es el mismo que el parámetro de ubicación original introducido en la formulación general, pero está relacionado a través de

La distribución de Pearson tipo VII

Gráfico de densidades de Pearson tipo VII con λ = 0, σ = 1 y: γ 2 = ∞ (rojo); γ2 = 4 (azul); y γ 2 = 0 (negro)

El parámetro de forma ν de la distribución de Pearson tipo IV controla su asimetría . Si fijamos su valor en cero, obtenemos una familia simétrica de tres parámetros. Este caso especial se conoce como distribución de Pearson tipo VII (cf. Pearson 1916, p. 450). Su densidad es

donde B es la función Beta .

Una parametrización alternativa (y una ligera especialización) de la distribución tipo VII se obtiene dejando

lo que requiere m > 3/2. Esto implica una pérdida menor de generalidad pero asegura que la varianza de la distribución exista y sea igual a σ 2 . Ahora el parámetro m sólo controla la curtosis de la distribución. Si m tiende a infinito mientras λ y σ se mantienen constantes, la distribución normal surge como un caso especial:

Esta es la densidad de una distribución normal con media λ y desviación estándar σ .

Es conveniente exigir que m > 5/2 y dejar

Esta es otra especialización y garantiza que existan los primeros cuatro momentos de la distribución. Más específicamente, la distribución de Pearson tipo VII parametrizada en términos de (λ, σ, γ 2 ) tiene una media de λ , una desviación estándar de σ , una asimetría de cero y un exceso de curtosis positiva de γ 2 .

Distribución t de Student

La distribución de Pearson tipo VII es equivalente a la distribución t de Student no estandarizada con parámetros ν > 0, μ, σ 2 aplicando las siguientes sustituciones a su parametrización original:

Observe que se cumple la restricción m > 1/2 .

La densidad resultante es

que se reconoce fácilmente como la densidad de la distribución t de Student .

Esto implica que la distribución de Pearson tipo VII incluye la distribución t de Student estándar y también la distribución estándar de Cauchy . En particular, la distribución t de Student estándar surge como un subcaso, cuando μ = 0 y σ 2 = 1, equivalente a las siguientes sustituciones:

La densidad de esta familia restringida de un parámetro es una t de Student estándar :

Caso 2, discriminante no negativo

Si la función cuadrática (2) tiene un discriminante no negativo ( ), tiene raíces reales a 1 y a 2 (no necesariamente distintas):

En presencia de raíces reales, la función cuadrática (2) se puede escribir como

y la solución de la ecuación diferencial es por tanto

Pearson (1895, p. 362) llamó a esto el "caso logarítmico", porque la integral

involucra solo la función logaritmo y no la función arctan como en el caso anterior.

Usando la sustitución

obtenemos la siguiente solución a la ecuación diferencial (1):

Dado que esta densidad sólo se conoce hasta una constante oculta de proporcionalidad, esa constante se puede cambiar y la densidad se escribe de la siguiente manera:

La distribución de Pearson tipo I

La distribución de Pearson tipo I (una generalización de la distribución beta ) surge cuando las raíces de la ecuación cuadrática (2) son de signo opuesto, es decir ,. Entonces la solución p está apoyada en el intervalo . Aplicar la sustitución

donde , que produce una solución en términos de y que se apoya en el intervalo (0, 1):

Se puede definir:

Reagrupando constantes y parámetros, esto se simplifica a:

Así sigue a con . Resulta que m 1 , m 2 > −1 es necesario y suficiente para que p sea una función de densidad de probabilidad adecuada.

La distribución de Pearson tipo II

La distribución de Pearson tipo II es un caso especial de la familia Pearson tipo I restringida a distribuciones simétricas.

Para la curva de Pearson tipo II, [4]

dónde

La ordenada, y , es la frecuencia de . La curva de Pearson tipo II se utiliza para calcular la tabla de coeficientes de correlación significativos para el coeficiente de correlación de rango de Spearman cuando el número de elementos de una serie es inferior a 100 (o 30, según algunas fuentes). Después de eso, la distribución imita una distribución t de Student estándar . Para la tabla de valores, se utilizan ciertos valores como constantes en la ecuación anterior:

Los momentos de x utilizados son

La distribución de Pearson tipo III

Definiendo

es . La distribución de Pearson tipo III es una distribución gamma o distribución chi-cuadrado .

La distribución de Pearson tipo V

Definición de nuevos parámetros:

sigue un . La distribución de Pearson tipo V es una distribución gamma inversa .

La distribución de Pearson tipo VI

Definiendo

sigue un . La distribución de Pearson tipo VI es una distribución beta prima o distribución F.

Relación con otras distribuciones

La familia Pearson incluye las siguientes distribuciones, entre otras:

Las alternativas al sistema de distribuciones de Pearson con el fin de ajustar distribuciones a los datos son las distribuciones parametrizadas por cuantiles (QPD) y las distribuciones metalog . Los QPD y los metalogs pueden proporcionar una mayor flexibilidad de formas y límites que el sistema Pearson. En lugar de ajustar momentos, los QPD generalmente se ajustan a CDF empíricos u otros datos con mínimos cuadrados lineales .

Aplicaciones

Estos modelos se utilizan en los mercados financieros, dada su capacidad de parametrizarse de una manera que tiene un significado intuitivo para los operadores del mercado. Actualmente se utilizan varios modelos que capturan la naturaleza estocástica de la volatilidad de las tasas, las acciones, etc. [ ¿cuáles? ] [ cita necesaria ] y esta familia de distribuciones puede resultar una de las más importantes.

En Estados Unidos, la distribución Log-Pearson III es la distribución predeterminada para el análisis de frecuencia de inundaciones. [5]

Recientemente, se han desarrollado alternativas a las distribuciones de Pearson que son más flexibles y más fáciles de ajustar a los datos. Vea las distribuciones de metalog .

Notas

  1. ^ Molinero, Jeff; et al. (9 de julio de 2006). "Distribución beta". Primeros usos conocidos de algunas de las palabras de matemáticas . Consultado el 9 de diciembre de 2006 .
  2. ^ Molinero, Jeff; et al. (7 de diciembre de 2006). "Distribución gamma". Primeros usos conocidos de algunas de las palabras de matemáticas . Consultado el 9 de diciembre de 2006 .
  3. ^ Ord JK (1972) pág. 2
  4. ^ Ramsey, Philip H. (1 de septiembre de 1989). "Valores críticos para la correlación del orden de rango de Spearman". Revista de Estadísticas Educativas . 14 (3): 245–253. JSTOR  1165017.
  5. ^ "Pautas para determinar la frecuencia del flujo de inundaciones" (PDF) . Agua del USGS . Marzo de 1982 . Consultado el 14 de junio de 2019 .

Fuentes

Fuentes primarias

Fuentes secundarias

Referencias