stringtranslate.com

Curtosis

En teoría de la probabilidad y estadística , la curtosis (del griego : κυρτός , kyrtos o kurtos , que significa "curvado, arqueado") es una medida de la "cola" de la distribución de probabilidad de una variable aleatoria de valor real . Al igual que la asimetría , la curtosis describe un aspecto particular de una distribución de probabilidad. Hay diferentes formas de cuantificar la curtosis para una distribución teórica y existen formas correspondientes de estimarla utilizando una muestra de una población. Diferentes medidas de curtosis pueden tener diferentes interpretaciones.

La medida estándar de la curtosis de una distribución, originada por Karl Pearson , [1] es una versión escalada del cuarto momento de la distribución. Este número está relacionado con los extremos de la distribución, no con su pico; [2] por lo tanto, la caracterización que a veces se ve de la curtosis como " pico " es incorrecta. Para esta medida, una mayor curtosis corresponde a una mayor extremidad de las desviaciones (o valores atípicos ), y no a la configuración de los datos cerca de la media .

Es común comparar el exceso de curtosis (definido a continuación) de una distribución con 0. Este valor 0 es el exceso de curtosis de cualquier distribución normal univariada . Se dice que las distribuciones con exceso de curtosis negativa son platicúrticas , aunque esto no implica que la distribución sea "plana" como a veces se afirma. Más bien, significa que la distribución produce menos valores atípicos y/o menos extremos que la distribución normal. Un ejemplo de distribución platicúrtica es la distribución uniforme , que no produce valores atípicos. Las distribuciones con un exceso de curtosis positivo se denominan leptocúrticas . Un ejemplo de distribución leptocúrtica es la distribución de Laplace , que tiene colas que asintóticamente se acercan a cero más lentamente que una gaussiana y, por lo tanto, produce más valores atípicos que la distribución normal. Es una práctica común utilizar el exceso de curtosis, que se define como la curtosis de Pearson menos 3, para proporcionar una comparación simple con la distribución normal . Algunos autores y paquetes de software utilizan "curtosis" por sí solo para referirse al exceso de curtosis. Sin embargo, para mayor claridad y generalidad, este artículo indica explícitamente a qué se refiere la curtosis sin exceso.

Las medidas alternativas de curtosis son: la L-kurtosis , que es una versión escalada del cuarto momento L ; medidas basadas en cuatro cuantiles de población o muestra . [3] Estas son análogas a las medidas alternativas de asimetría que no se basan en momentos ordinarios. [3]

Momentos de Pearson

La curtosis es el cuarto momento estandarizado , definido como

μ 4momento centralσdesviación estándarκacumulanteγ 2

La curtosis está limitada por debajo por la asimetría al cuadrado más 1: [4] : ​​432 

μ 3momento centraldistribución de Bernoulli

Una razón por la que algunos autores favorecen el exceso de curtosis es que los acumulativos son extensos . Las fórmulas relacionadas con la propiedad extensiva se expresan más naturalmente en términos de exceso de curtosis. Por ejemplo, sean X 1 , ..., X n variables aleatorias independientes para las que existe el cuarto momento, y sea Y la variable aleatoria definida por la suma de X i . El exceso de curtosis de Y es

X i

La razón para no restar 3 es que el momento desnudo se generaliza mejor a distribuciones multivariadas , especialmente cuando no se supone independencia. La cokurtosis entre pares de variables es un tensor de orden cuatro . Para una distribución normal bivariada, el tensor de cokurtosis tiene términos fuera de la diagonal que no son ni 0 ni 3 en general, por lo que intentar "corregir" un exceso resulta confuso. Es cierto, sin embargo, que los acumulativos conjuntos de grado mayor que dos para cualquier distribución normal multivariada son cero.

Para dos variables aleatorias, X e Y , no necesariamente independientes, la curtosis de la suma, X  +  Y , es

Tenga en cuenta que los coeficientes binomiales de

Interpretación

La interpretación exacta de la medida de curtosis (o exceso de curtosis) de Pearson solía ser objeto de controversia, pero ahora está resuelta. Como señala Westfall en 2014 [2] , "... su única interpretación inequívoca es en términos de la extremidad de la cola; es decir, valores atípicos existentes (para la curtosis de la muestra) o propensión a producir valores atípicos (para la curtosis de una distribución de probabilidad). " La lógica es simple: la curtosis es el promedio (o valor esperado ) de los datos estandarizados elevados a la cuarta potencia. Los valores estandarizados menores que 1 (es decir, datos dentro de una desviación estándar de la media, donde estaría el "pico") prácticamente no contribuyen en nada a la curtosis, ya que elevar un número menor que 1 a la cuarta potencia lo acerca más a cero. Los únicos valores de datos (observados u observables) que contribuyen a la curtosis de manera significativa son aquellos fuera de la región del pico; es decir, los valores atípicos. Por lo tanto, la curtosis mide únicamente los valores atípicos; no mide nada sobre el "pico".

Se han dado muchas interpretaciones incorrectas de la curtosis que involucran nociones de pico. Una es que la curtosis mide tanto el "pico" de la distribución como el peso de su cola . [5] Se han sugerido varias otras interpretaciones incorrectas, como "falta de hombros" (donde el "hombro" se define vagamente como el área entre el pico y la cola, o más específicamente como el área aproximadamente a una desviación estándar de la media ) o "bimodalidad". [6] Balanda y MacGillivray afirman que la definición estándar de curtosis "es una mala medida de la curtosis, el pico o el peso de la cola de una distribución" [5] : 114  y en su lugar proponen "definir la curtosis vagamente como la ubicación y escala - libre movimiento de la masa de probabilidad desde los hombros de una distribución hacia su centro y sus colas". [5]

interpretación de los moros

En 1986, Moors dio una interpretación de la curtosis. [7] Deja que

Xμσ

Ahora bien, por definición de curtosis y por la conocida identidad

La curtosis ahora puede verse como una medida de la dispersión de Z 2 alrededor de su expectativa. Alternativamente, puede verse como una medida de la dispersión de Z alrededor de +1 y −1. κ alcanza su valor mínimo en una distribución simétrica de dos puntos. En términos de la variable original X , la curtosis es una medida de la dispersión de X alrededor de los dos valores μ  ±  σ .

Los valores altos de κ surgen en dos circunstancias:

Entropía máxima

La entropía de una distribución es .

Para cualquiera con definida positiva, entre todas las distribuciones de probabilidad con media y covarianza , la distribución normal tiene la mayor entropía.

Dado que la media y la covarianza son los dos primeros momentos, es natural considerar la extensión a momentos superiores. De hecho, según el método del multiplicador de Lagrange , para cualquier primer n momento prescrito, si existe alguna distribución de probabilidad de forma que tenga los momentos prescritos (si es factible), entonces es la distribución de entropía máxima bajo las restricciones dadas. [8] [9]

Por expansión en serie,

. [10]

Exceso de curtosis

El exceso de curtosis se define como curtosis menos 3. Hay 3 regímenes distintos, como se describe a continuación.

mesocúrtico

Las distribuciones con cero exceso de curtosis se denominan mesocúrticas o mesokurtóticas . El ejemplo más destacado de distribución mesocúrtica es la familia de distribución normal, independientemente de los valores de sus parámetros . Algunas otras distribuciones conocidas pueden ser mesocúrticas, dependiendo de los valores de los parámetros: por ejemplo, la distribución binomial es mesocúrtica para .

leptocúrtico

Una distribución con exceso de curtosis positiva se denomina leptocúrtica o leptokurtótica . "Lepto-" significa "delgado". [11] En términos de forma, una distribución leptocúrtica tiene colas más gruesas . Ejemplos de distribuciones leptocúrticas incluyen la distribución t de Student , la distribución de Rayleigh , la distribución de Laplace , la distribución exponencial , la distribución de Poisson y la distribución logística . Estas distribuciones a veces se denominan supergaussianas . [12]

Tres funciones de densidad de probabilidad simétricas cada vez más leptocúricas; sus intersecciones están indicadas por líneas verticales.

platicúrtico

El lanzamiento de moneda es la distribución más platicúrtica.

Una distribución con exceso de curtosis negativa se denomina platicúrtica o platicurtótica . "Platy-" significa "amplio". [13] En términos de forma, una distribución platicúrtica tiene colas más delgadas . Ejemplos de distribuciones platicúrticas incluyen las distribuciones uniformes continuas y discretas y la distribución de coseno elevado . La distribución más platicúrtica de todas es la distribución de Bernoulli con p = 1/2 (por ejemplo, el número de veces que uno obtiene "cara" al lanzar una moneda una vez ) , para la cual el exceso de curtosis es −2.

Ejemplos gráficos

La familia Pearson tipo VII

pdf para la distribución de Pearson tipo VII con exceso de curtosis del infinito (rojo); 2 (azul); y 0 (negro)
log-pdf para la distribución de Pearson tipo VII con exceso de curtosis del infinito (rojo); 2 (azul); 1, 1/2, 1/4, 1/8 y 1/16 (gris); y 0 (negro)

Los efectos de la curtosis se ilustran utilizando una familia paramétrica de distribuciones cuya curtosis se puede ajustar mientras sus momentos de orden inferior y cumulantes permanecen constantes. Consideremos la familia Pearson tipo VII , que es un caso especial de la familia Pearson tipo IV restringida a densidades simétricas. La función de densidad de probabilidad está dada por

aparámetro de escalamparámetro de forma

Todas las densidades de esta familia son simétricas. El k -ésimo momento existe siempre que m  > ( k  + 1)/2. Para que exista curtosis, requerimos m  > 5/2. Entonces la media y la asimetría existen y ambas son idénticamente cero. Establecer a 2  = 2 m  − 3 hace que la varianza sea igual a la unidad. Entonces el único parámetro libre es m , que controla el cuarto momento (y acumulante) y por tanto la curtosis. Se puede repararmetrizar con , donde está el exceso de curtosis como se definió anteriormente. Esto produce una familia leptocúrtica de un parámetro con media cero, varianza unitaria, asimetría cero y exceso de curtosis arbitraria y no negativa. La densidad reparametrizada es

En el límite como se obtiene la densidad

En la otra dirección, se obtiene la densidad normal estándar como distribución límite, que se muestra como la curva negra.

En las imágenes de la derecha, la curva azul representa la densidad con exceso de curtosis de 2. La imagen superior muestra que las densidades leptocúrticas en esta familia tienen un pico más alto que la densidad mesocúrtica normal, aunque esta conclusión solo es válida para esta selecta familia de distribuciones. Las colas comparativamente más gruesas de las densidades leptocúrticas se ilustran en la segunda imagen, que traza el logaritmo natural de las densidades de Pearson tipo VII: la curva negra es el logaritmo de la densidad normal estándar, que es una parábola . Se puede ver que la densidad normal asigna poca masa de probabilidad a las regiones alejadas de la media ("tiene colas delgadas"), en comparación con la curva azul de la densidad leptocúrtica de Pearson tipo VII con un exceso de curtosis de 2. Entre la curva azul y la el negro son otras densidades de Pearson tipo VII con γ 2  = 1, 1/2, 1/4, 1/8 y 1/16. La curva roja muestra nuevamente el límite superior de la familia Pearson tipo VII, con (lo que, estrictamente hablando, significa que el cuarto momento no existe). La curva roja disminuye más lentamente a medida que uno se aleja del origen ("tiene colas gruesas").

Otras distribuciones conocidas

Funciones de densidad de probabilidad para distribuciones seleccionadas con media 0, varianza 1 y diferente exceso de curtosis
Logaritmos de funciones de densidad de probabilidad para distribuciones seleccionadas con media 0, varianza 1 y diferente exceso de curtosis

Aquí se comparan varias distribuciones bien conocidas, unimodales y simétricas de diferentes familias paramétricas. Cada uno tiene una media y una asimetría de cero. Los parámetros se han elegido para dar como resultado una varianza igual a 1 en cada caso. Las imágenes de la derecha muestran curvas para las siguientes siete densidades, en escala lineal y escala logarítmica :

Obsérvese que en estos casos las densidades platicúrticas tienen soporte acotado , mientras que las densidades con exceso de curtosis positiva o nula están apoyadas en toda la línea real .

No se puede inferir que las distribuciones de curtosis alta o baja tengan las características indicadas en estos ejemplos. Existen densidades platicúrticas con soporte infinito,

y existen densidades leptocúrticas con soporte finito.

Además, existen densidades platicúrticas con picos infinitos,

y existen densidades leptocúrticas que aparecen con la parte superior plana,

Muestra de curtosis

Definiciones

Un estimador natural pero sesgado

Para una muestra de n valores, un método de momentos estimador del exceso de curtosis poblacional se puede definir como

m 4momento muestral con respecto a la mediam 2 es el segundo momento muestral convarianza muestralxi esiésimomedia muestral

Esta fórmula tiene la representación más simple,

nn

Por ejemplo, supongamos que los valores de los datos son 0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999.

Entonces los valores son −0.239, −0.225, −0.221, −0.234, −0.230, −0.225, −0.239, −0.230, −0.234, −0.225, −0.230, −0.239, −0.230, −0.230, −0.225, − 0,230, −0,216, −0,230, −0,225, 4,359

y los valores son 0,003, 0,003, 0,002, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,002, 0,003, 0,003, 360,976.

La media de estos valores es 18,05 y el exceso de curtosis es, por tanto, 18,05 − 3 = 15,05. Este ejemplo deja claro que los datos cercanos al "medio" o al "pico" de la distribución no contribuyen a la estadística de curtosis, por lo que la curtosis no mide el "pico". Es simplemente una medida del valor atípico, 999 en este ejemplo.

Estimador insesgado estándar

Dado un subconjunto de muestras de una población, el exceso de curtosis de la muestra anterior es un estimador sesgado del exceso de curtosis de la población. Un estimador alternativo del exceso de curtosis poblacional, que es insesgado en muestras aleatorias de una distribución normal, se define de la siguiente manera: [3]

k 4insesgadocumulantek 2m 4m 2x iiésimo valorExcelMinitabSASSPSS[14]

Desafortunadamente, en muestras no normales, generalmente está sesgado.

límite superior

Un límite superior para la curtosis muestral de n ( n > 2) números reales es [15]

Varianza bajo normalidad

La varianza de la curtosis muestral de una muestra de tamaño n de la distribución normal es [16]

Dicho de otra manera, bajo el supuesto de que la variable aleatoria subyacente tiene una distribución normal, se puede demostrar que . [17] : Número de página necesario 

Aplicaciones

La curtosis muestral es una medida útil para determinar si existe un problema con los valores atípicos en un conjunto de datos. Una curtosis mayor indica un problema de valores atípicos más grave y puede llevar al investigador a elegir métodos estadísticos alternativos.

La prueba K-cuadrado de D'Agostino es una prueba de normalidad de bondad de ajuste basada en una combinación de asimetría y curtosis de la muestra, al igual que la prueba de normalidad de Jarque-Bera .

Para muestras no normales, la varianza de la varianza muestral depende de la curtosis; Para más detalles, consulte la variación .

La definición de curtosis de Pearson se utiliza como indicador de intermitencia en turbulencias . [18] También se utiliza en imágenes por resonancia magnética para cuantificar la difusión no gaussiana. [19]

Un ejemplo concreto es el siguiente lema de He, Zhang y Zhang: [20] Supongamos que una variable aleatoria tiene esperanza , varianza y curtosis. Supongamos que tomamos muestras de muchas copias independientes. Entonces

Esto muestra que con muchas muestras, veremos una que esté por encima de las expectativas con una probabilidad de al menos . En otras palabras: si la curtosis es grande, es posible que veamos muchos valores, todos por debajo o por encima de la media.

Convergencia de curtosis

Al aplicar filtros de paso de banda a imágenes digitales , los valores de curtosis tienden a ser uniformes, independientemente del rango del filtro. Este comportamiento, denominado convergencia de curtosis , se puede utilizar para detectar empalmes de imágenes en análisis forense . [21]

Otras medidas

Se proporciona una medida diferente de "curtosis" utilizando momentos L en lugar de los momentos ordinarios. [22] [23]

Ver también

Referencias

  1. ^ Pearson, Karl (1905), "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. Una réplica" [La ley del error y sus generalizaciones de Fechner y Pearson. Una réplica], Biometrika , 4 (1–2): 169–212, doi :10.1093/biomet/4.1-2.169, JSTOR  2331536
  2. ^ ab Westfall, Peter H. (2014), "Kurtosis as Peakedness, 1905 - 2014. RIP ", The American Statistician , 68 (3): 191–195, doi :10.1080/00031305.2014.917055, PMC 4321753 , PMID  25678714 
  3. ^ abc Joanes, Derrick N.; Gill, Christine A. (1998), "Comparación de medidas de asimetría y curtosis de la muestra", Revista de la Royal Statistical Society, Serie D , 47 (1): 183–189, doi :10.1111/1467-9884.00122, JSTOR  2988433
  4. ^ Pearson, Karl (1916), "Contribuciones matemáticas a la teoría de la evolución. - XIX. Segundo suplemento de una memoria sobre la variación sesgada"., Philosophical Transactions of the Royal Society of London A , 216 (546): 429–457, Código Bib : 1916RSPTA.216..429P, doi : 10.1098/rsta.1916.0009 , JSTOR  91092
  5. ^ abc Balanda, Kevin P.; MacGillivray, Helen L. (1988), "Kurtosis: A Critical Review", The American Statistician , 42 (2): 111–119, doi :10.2307/2684482, JSTOR  2684482
  6. ^ Darlington, Richard B. (1970), "¿Es la curtosis realmente 'pico'?", The American Statistician , 24 (2): 19–22, doi :10.1080/00031305.1970.10478885, JSTOR  2681925
  7. ^ Moors, JJA (1986), "El significado de curtosis: Darlington reexaminado", The American Statistician , 40 (4): 283–284, doi :10.1080/00031305.1986.10475415, JSTOR  2684603
  8. ^ Tagliani, A. (1 de diciembre de 1990). "Sobre la existencia de distribuciones máximas de entropía con cuatro y más momentos asignados". Mecánica de Ingeniería Probabilística . 5 (4): 167-170. Código Bib : 1990PEngM...5..167T. doi :10.1016/0266-8920(90)90017-E. ISSN  0266-8920.
  9. ^ Rockinger, Michael; Jondeau, Eric (1 de enero de 2002). "Densidades de entropía con una aplicación a la asimetría y curtosis condicional autorregresiva". Revista de Econometría . 106 (1): 119-142. doi :10.1016/S0304-4076(01)00092-6. ISSN  0304-4076.
  10. ^ Bradde, Serena; Bialek, William (1 de mayo de 2017). "PCA se encuentra con RG". Revista de Física Estadística . 167 (3): 462–475. arXiv : 1610.09733 . Código Bib : 2017JSP...167..462B. doi :10.1007/s10955-017-1770-6. ISSN  1572-9613. PMC 6054449 . PMID  30034029. 
  11. ^ "Lepto-".
  12. ^ Benveniste, Alberto; Goursat, Mauricio; Ruget, Gabriel (1980), "Identificación robusta de un sistema de fase no mínima: ajuste ciego de un ecualizador lineal en comunicaciones de datos", IEEE Transactions on Automatic Control , 25 (3): 385–399, doi :10.1109/tac.1980.1102343
  13. ^ "platy-: definición, uso y pronunciación - YourDictionary.com". Archivado desde el original el 20 de octubre de 2007.
  14. ^ Doane DP, Seward LE (2011) J Stat Educ 19 (2)
  15. ^ Sharma, Rajesh; Bhandari, Rajeev K. (2015), "Asimetría, curtosis y desigualdad de Newton", Rocky Mountain Journal of Mathematics , 45 (5): 1639–1643, arXiv : 1309.2896 , doi :10.1216/RMJ-2015-45-5-1639 , S2CID  88513237
  16. ^ Fisher, Ronald A. (1930), "Los momentos de la distribución de muestras normales de medidas de salida de la normalidad", Actas de la Royal Society A , 130 (812): 16–28, Bibcode :1930RSPSA.130.. .16F, doi :10.1098/rspa.1930.0185, hdl : 2440/15205 , JSTOR  95586, S2CID  121520301
  17. ^ Kendall, Maurice G.; Stuart, Alan (1969), The Advanced Theory of Statistics, Volumen 1: Teoría de la distribución (3.ª ed.), Londres, Reino Unido: Charles Griffin & Company Limited, ISBN 0-85264-141-9
  18. ^ Sandborn, Virgil A. (1959), "Medidas de intermitencia del movimiento turbulento en una capa límite", Journal of Fluid Mechanics , 6 (2): 221–240, Bibcode : 1959JFM..... 6.. 221S, doi :10.1017/S0022112059000581, S2CID  121838685
  19. ^ Jensen, J.; Helpern, J.; Ramani, A.; Lu, H.; Kaczynski, K. (19 de mayo de 2005). "Imágenes de curtosis difusional: la cuantificación de la difusión de agua no gaussiana mediante imágenes de resonancia magnética". Magn Reson Med . 53 (6): 1432-1440. doi :10.1002/mrm.20508. PMID  15906300. S2CID  11865594.
  20. ^ Él, Simai; Zhang, Jiawei; Zhang, Shuzhong (2010). "Probabilidad límite de pequeña desviación: un enfoque del cuarto momento". Matemáticas de la Investigación de Operaciones . 35 (1): 208–232. doi :10.1287/moor.1090.0438. S2CID  11298475.
  21. ^ Pan, Xunyu; Zhang, Xing; Lyu, Siwei (2012), "Exposing Image Splicing with Inconsistent Local Noise Variances", Conferencia internacional IEEE sobre fotografía computacional (ICCP) de 2012 , 28 y 29 de abril de 2012; Seattle, WA, EE. UU.: IEEE, págs. 1 a 10, doi :10.1109/ICCPhot.2012.6215223, ISBN 978-1-4673-1662-0, S2CID  14386924{{citation}}: CS1 maint: location (link)
  22. ^ Hosking, Jonathan RM (1992), "¿Momentos o momentos L ? Un ejemplo que compara dos medidas de forma distributiva", The American Statistician , 46 (3): 186–189, doi :10.1080/00031305.1992.10475880, JSTOR  2685210
  23. ^ Hosking, Jonathan RM (2006), "Sobre la caracterización de las distribuciones por sus momentos L ", Journal of Statistical Planning and Inference , 136 (1): 193–198, doi :10.1016/j.jspi.2004.06.004

Otras lecturas

enlaces externos