En teoría de probabilidad y estadística , la asimetría es una medida de la asimetría de la distribución de probabilidad de una variable aleatoria de valor real respecto de su media. El valor de asimetría puede ser positivo, cero, negativo o indefinido.
En el caso de una distribución unimodal (una distribución con un único pico), una asimetría negativa suele indicar que la cola está en el lado izquierdo de la distribución, y una asimetría positiva indica que la cola está en el lado derecho. En los casos en los que una cola es larga pero la otra es gruesa, la asimetría no obedece a una regla simple. Por ejemplo, un valor cero en la asimetría significa que las colas en ambos lados de la media se equilibran en general; este es el caso de una distribución simétrica, pero también puede ser cierto para una distribución asimétrica en la que una cola es larga y delgada, y la otra es corta pero gruesa. Por lo tanto, juzgar la simetría de una distribución dada utilizando solo su asimetría es arriesgado; debe tenerse en cuenta la forma de la distribución.
Considere las dos distribuciones de la figura que se muestra a continuación. Dentro de cada gráfico, los valores del lado derecho de la distribución se estrechan de manera diferente a los valores del lado izquierdo. Estos lados estrechos se denominan colas y brindan un medio visual para determinar cuál de los dos tipos de asimetría tiene una distribución:
La asimetría en una serie de datos a veces se puede observar no solo gráficamente sino mediante una simple inspección de los valores. Por ejemplo, considere la secuencia numérica (49, 50, 51), cuyos valores se distribuyen uniformemente alrededor de un valor central de 50. Podemos transformar esta secuencia en una distribución sesgada negativamente agregando un valor muy por debajo de la media, que probablemente sea un valor atípico negativo , p. ej. (40, 49, 50, 51). Por lo tanto, la media de la secuencia se convierte en 47,5 y la mediana es 49,5. Con base en la fórmula de sesgo no paramétrico , definido como el sesgo es negativo. De manera similar, podemos hacer que la secuencia sea sesgada positivamente agregando un valor muy por encima de la media, que probablemente sea un valor atípico positivo, p. ej. (49, 50, 51, 60), donde la media es 52,5 y la mediana es 50,5.
Como se mencionó anteriormente, una distribución unimodal con un valor de asimetría cero no implica necesariamente que dicha distribución sea simétrica. Sin embargo, una distribución unimodal o multimodal simétrica siempre tiene una asimetría cero.
La asimetría no está directamente relacionada con la relación entre la media y la mediana: una distribución con asimetría negativa puede tener su media mayor o menor que la mediana, y lo mismo ocurre con una asimetría positiva. [2]
En la noción más antigua de asimetría no paramétrica , definida como donde es la media , es la mediana y es la desviación estándar , la asimetría se define en términos de esta relación: la asimetría no paramétrica positiva/derecha significa que la media es mayor que (a la derecha de) la mediana, mientras que la asimetría no paramétrica negativa/izquierda significa que la media es menor que (a la izquierda de) la mediana. Sin embargo, la definición moderna de asimetría y la definición no paramétrica tradicional no siempre tienen el mismo signo: si bien coinciden para algunas familias de distribuciones, difieren en algunos de los casos, y combinarlas es engañoso.
Si la distribución es simétrica , entonces la media es igual a la mediana y la distribución tiene asimetría cero. [3] Si la distribución es simétrica y unimodal , entonces la media = mediana = moda . Este es el caso del lanzamiento de una moneda o la serie 1,2,3,4,... Sin embargo, tenga en cuenta que lo inverso no es cierto en general, es decir, la asimetría cero (definida a continuación) no implica que la media sea igual a la mediana.
Un artículo de revista de 2005 señala: [2]
Muchos libros de texto enseñan una regla empírica que establece que la media está a la derecha de la mediana en caso de asimetría hacia la derecha, y a la izquierda de la mediana en caso de asimetría hacia la izquierda. Esta regla falla con una frecuencia sorprendente. Puede fallar en distribuciones multimodales o en distribuciones en las que una cola es larga pero la otra es pesada . Sin embargo, lo más común es que la regla falle en distribuciones discretas en las que las áreas a la izquierda y a la derecha de la mediana no son iguales. Tales distribuciones no solo contradicen la relación que aparece en los libros de texto entre la media, la mediana y la asimetría, sino que también contradicen la interpretación que se hace de la mediana en los libros de texto.
Por ejemplo, en la distribución de los residentes adultos en los hogares estadounidenses, la asimetría es hacia la derecha. Sin embargo, dado que la mayoría de los casos es menor o igual que la moda, que también es la mediana, la media se ubica en la cola izquierda más pesada. Como resultado, la regla general de que la media está a la derecha de la mediana en caso de asimetría hacia la derecha falló. [2]
La asimetría de una variable aleatoria X es el tercer momento estandarizado , definido como: [4] [5]
donde μ es la media, σ es la desviación estándar , E es el operador de expectativa , μ 3 es el tercer momento central y κ t son los t -ésimos cumulantes . A veces se lo denomina coeficiente de asimetría del momento de Pearson , [5] o simplemente coeficiente de asimetría del momento , [4] pero no debe confundirse con otras estadísticas de asimetría de Pearson (ver más abajo). La última igualdad expresa la asimetría en términos de la relación entre el tercer cumulante κ 3 y la 1,5ª potencia del segundo cumulante κ 2. Esto es análogo a la definición de curtosis como el cuarto cumulante normalizado por el cuadrado del segundo cumulante. La asimetría también se denota a veces como Skew[ X ].
Si σ es finito y μ también es finito, entonces la asimetría se puede expresar en términos del momento no central E[ X 3 ] desarrollando la fórmula anterior:
La asimetría puede ser infinita, como cuando
donde los terceros cumulantes son infinitos, o como cuando
donde el tercer cumulante no está definido.
Algunos ejemplos de distribuciones con asimetría finita incluyen los siguientes.
Para una muestra de n valores, dos estimadores naturales de la asimetría poblacional son [6]
y
donde es la media de la muestra , s es la desviación estándar de la muestra , m 2 es el segundo momento central de la muestra (sesgado) y m 3 es el tercer momento central de la muestra (sesgado). [6] es un método de estimador de momentos.
Otra definición común de la asimetría de la muestra es [6] [7]
donde es el estimador simétrico insesgado único del tercer cumulante y es el estimador simétrico insesgado del segundo cumulante (es decir, la varianza de la muestra ). Este coeficiente de momento estandarizado de Fisher-Pearson ajustado es la versión que se encuentra en Excel y varios paquetes estadísticos, incluidos Minitab , SAS y SPSS . [7]
Suponiendo que la variable aleatoria subyacente se distribuye normalmente, se puede demostrar que las tres razones , y son estimadores insesgados y consistentes de la asimetría de la población , con , es decir, sus distribuciones convergen a una distribución normal con media 0 y varianza 6 ( Fisher , 1930). [6] La varianza de la asimetría de la muestra es, por tanto, aproximadamente para muestras suficientemente grandes. Más precisamente, en una muestra aleatoria de tamaño n de una distribución normal, [8] [9]
En muestras normales, tiene la varianza más pequeña de los tres estimadores, con [6]
Para distribuciones no normales, , y son generalmente estimadores sesgados de la asimetría de la población ; sus valores esperados pueden incluso tener el signo opuesto a la asimetría verdadera. Por ejemplo, una distribución mixta que consiste en gaussianas muy delgadas centradas en −99, 0,5 y 2 con pesos 0,01, 0,66 y 0,33 tiene una asimetría de aproximadamente −9,77, pero en una muestra de 3 tiene un valor esperado de aproximadamente 0,32, ya que generalmente las tres muestras están en la parte de valor positivo de la distribución, que está sesgada en el sentido opuesto.
La asimetría es una estadística descriptiva que se puede utilizar junto con el histograma y el gráfico de cuantiles normal para caracterizar los datos o la distribución.
La asimetría indica la dirección y la magnitud relativa de la desviación de una distribución respecto de la distribución normal.
Con una asimetría pronunciada, los procedimientos de inferencia estadística estándar, como un intervalo de confianza para una media, no solo serán incorrectos, en el sentido de que el nivel de cobertura real diferirá del nivel nominal (por ejemplo, 95%), sino que también darán como resultado probabilidades de error desiguales en cada lado.
La asimetría se puede utilizar para obtener probabilidades aproximadas y cuantiles de distribuciones (como el valor en riesgo en finanzas) a través de la expansión de Cornish-Fisher .
Muchos modelos asumen una distribución normal, es decir, los datos son simétricos respecto de la media. La distribución normal tiene una asimetría de cero, pero en realidad, los puntos de datos pueden no ser perfectamente simétricos. Por lo tanto, comprender la asimetría del conjunto de datos indica si las desviaciones respecto de la media serán positivas o negativas.
La prueba K-cuadrado de D'Agostino es una prueba de normalidad de bondad de ajuste basada en la asimetría y la curtosis de la muestra.
Se han utilizado otras medidas de asimetría, incluidos cálculos más simples sugeridos por Karl Pearson [10] (que no deben confundirse con el coeficiente de asimetría de momento de Pearson, véase más arriba). Estas otras medidas son:
La asimetría del modo de Pearson, [11] o primer coeficiente de asimetría, se define como
La asimetría mediana de Pearson, o segundo coeficiente de asimetría, [12] [13] se define como
Que es un múltiplo simple del sesgo no paramétrico .
La medida de asimetría de Bowley (de 1901), [14] [15] también llamada coeficiente de Yule (de 1912) [16] [17] se define como:
donde Q es la función cuantil (es decir, la inversa de la función de distribución acumulativa ). El numerador es la diferencia entre el promedio de los cuartiles superior e inferior (una medida de ubicación) y la mediana (otra medida de ubicación), mientras que el denominador es el rango semiintercuartil , que para distribuciones simétricas es igual a la medida de dispersión MAD . [ cita requerida ]
Otros nombres para esta medida son la medida de asimetría de Galton, [18] el índice de Yule-Kendall [19] y la asimetría cuartil, [20]
De manera similar, la medida de asimetría de Kelly se define como [21]
Groeneveld, RA y Meeden, G. (1984) describieron una formulación más general de una función de asimetría: [22] [23] [24]
La función γ ( u ) satisface −1 ≤ γ ( u ) ≤ 1 y está bien definida sin requerir la existencia de ningún momento de la distribución. [22] La medida de asimetría de Bowley es γ( u ) evaluada en u = 3/4 mientras que la medida de asimetría de Kelly es γ( u ) evaluada en u = 9/10. Esta definición conduce a una medida general de asimetría correspondiente [23] definida como el supremo de esta en el rango 1/2 ≤ u < 1. Otra medida se puede obtener integrando el numerador y el denominador de esta expresión. [22]
Las medidas de asimetría basadas en cuantiles son fáciles de interpretar a primera vista, pero a menudo muestran variaciones muestrales significativamente mayores que los métodos basados en momentos. Esto significa que, a menudo, las muestras de una distribución simétrica (como la distribución uniforme) tienen una gran asimetría basada en cuantiles, simplemente por casualidad.
Groeneveld y Meeden han sugerido, como medida alternativa de asimetría, [22]
donde μ es la media, ν es la mediana, |...| es el valor absoluto y E() es el operador de expectativa. Esto está estrechamente relacionado en su forma con el segundo coeficiente de asimetría de Pearson.
El uso de momentos L en lugar de momentos proporciona una medida de asimetría conocida como asimetría L. [25]
Un valor de asimetría igual a cero no implica que la distribución de probabilidad sea simétrica. Por lo tanto, existe la necesidad de otra medida de asimetría que tenga esta propiedad: dicha medida se introdujo en 2000. [26] Se llama asimetría de distancia y se denota por dSkew. Si X es una variable aleatoria que toma valores en el espacio euclidiano d -dimensional, X tiene una esperanza finita, X ' es una copia independiente idénticamente distribuida de X y denota la norma en el espacio euclidiano, entonces una medida simple de asimetría con respecto al parámetro de ubicación θ es
y dSkew( X ) := 0 para X = θ (con probabilidad 1). La asimetría de la distancia siempre está entre 0 y 1, es igual a 0 si y solo si X es diagonalmente simétrica con respecto a θ ( X y 2θ− X tienen la misma distribución de probabilidad) y es igual a 1 si y solo si X es una constante c ( ) con probabilidad uno. [27] Por lo tanto, existe una prueba estadística simple y consistente de simetría diagonal basada en la asimetría de la distancia de la muestra :
El medcouple es una medida robusta de asimetría invariante de escala, con un punto de ruptura del 25%. [28] Es la mediana de los valores de la función kernel.
tomado sobre todas las parejas tales que , donde es la mediana de la muestra . Puede verse como la mediana de todas las posibles medidas de asimetría cuantil.
{{cite web}}
: CS1 maint: archived copy as title (link)