Diferencia

En teoría de probabilidad y estadística , la varianza es el valor esperado de la desviación al cuadrado de la media de una variable aleatoria . La desviación estándar (DE) se obtiene como la raíz cuadrada de la varianza. La varianza es una medida de dispersión , es decir, es una medida de qué tan lejos se extiende un conjunto de números de su valor promedio. Es el segundo momento central de una distribución y la covarianza de la variable aleatoria consigo misma, y a menudo se representa por , , , o . ^[1] $Estilo de visualización: sigma ^{2}}$ ${\estilo de visualización s^{2}}$ $\nombre del operador {Var} (X)$ ${\estilo de visualización V(X)}$ $\mathbb {V} (X)$

Una ventaja de la varianza como medida de dispersión es que es más fácil de manipular algebraicamente que otras medidas de dispersión, como la desviación absoluta esperada ; por ejemplo, la varianza de una suma de variables aleatorias no correlacionadas es igual a la suma de sus varianzas. Una desventaja de la varianza para aplicaciones prácticas es que, a diferencia de la desviación estándar, sus unidades difieren de la variable aleatoria, por lo que la desviación estándar se informa más comúnmente como una medida de dispersión una vez finalizado el cálculo. Otra desventaja es que la varianza no es finita para muchas distribuciones.

Existen dos conceptos distintos, ambos denominados "varianza". Uno, como se ha comentado anteriormente, forma parte de una distribución de probabilidad teórica y se define mediante una ecuación. El otro, la varianza, es una característica de un conjunto de observaciones. Cuando la varianza se calcula a partir de observaciones, estas suelen medirse a partir de un sistema del mundo real. Si están presentes todas las observaciones posibles del sistema, la varianza calculada se denomina varianza de la población. Sin embargo, normalmente solo se dispone de un subconjunto y la varianza calculada a partir de este se denomina varianza de la muestra. La varianza calculada a partir de una muestra se considera una estimación de la varianza de la población completa. Existen múltiples formas de calcular una estimación de la varianza de la población, como se explica en la sección siguiente.

Los dos tipos de varianza están estrechamente relacionados. Para ver cómo, considere que una distribución de probabilidad teórica puede usarse como generador de observaciones hipotéticas. Si se genera un número infinito de observaciones usando una distribución, entonces la varianza de la muestra calculada a partir de ese conjunto infinito coincidirá con el valor calculado usando la ecuación de la distribución para la varianza. La varianza tiene un papel central en las estadísticas, donde algunas ideas que la usan incluyen estadísticas descriptivas , inferencia estadística , prueba de hipótesis , bondad de ajuste y muestreo de Monte Carlo .

Definición

La varianza de una variable aleatoria es el valor esperado de la desviación al cuadrado de la media de , : ${\estilo de visualización X}$ ${\estilo de visualización X}$ $\mu =\nombre del operador {E} [X]$

\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right].

Esta definición abarca las variables aleatorias generadas por procesos discretos , continuos , ni continuos ni mixtos. La varianza también puede considerarse como la covarianza de una variable aleatoria consigo misma:

\operatorname {Var} (X)=\operatorname {Cov} (X,X).

La varianza también es equivalente al segundo cumulante de una distribución de probabilidad que genera . La varianza se designa típicamente como , o a veces como o , o simbólicamente como o simplemente (se pronuncia " sigma al cuadrado"). La expresión para la varianza se puede expandir de la siguiente manera: ${\estilo de visualización X}$ $\nombre del operador {Var} (X)$ ${\estilo de visualización V(X)}$ $\mathbb {V} (X)$ $Estilo de visualización: sigma _{X}^{2}}$ $Estilo de visualización: sigma ^{2}}$

{\begin{aligned}\nombreoperador {Var} (X)&=\nombreoperador {E} \left[(X-\nombreoperador {E} [X])^{2}\right]\\[4pt]&=\nombreoperador {E} \left[X^{2}-2X\nombreoperador {E} [X]+\nombreoperador {E} [X]^{2}\right]\\[4pt]&=\nombreoperador {E} \left[X^{2}\right]-2\nombreoperador {E} [X]\nombreoperador {E} [X]+\nombreoperador {E} [X]^{2}\\[4pt]&=\nombreoperador {E} \left[X^{2}\right]-2\nombreoperador {E} [X]^{2}+\nombreoperador {E} [X]^{2}\\[4pt]&=\nombreoperador {E} \left[X^{2}\right]-2\nombreoperador {E} [X]^{2}+\nombreoperador {E} [X]^{2}\\[4pt]&=\nombreoperador {E} \left[X^{2}\right]-\nombre del operador {E} [X]^{2}\end{alineado}}

En otras palabras, la varianza de $X$ es igual a la media del cuadrado de $X$ menos el cuadrado de la media de $X.$ Esta ecuación no se debe utilizar para cálculos que utilicen aritmética de punto flotante , porque sufre una cancelación catastrófica si los dos componentes de la ecuación son similares en magnitud. Para otras alternativas numéricamente estables, consulte Algoritmos para calcular la varianza .

Variable aleatoria discreta

Si el generador de variable aleatoria es discreto con función de masa de probabilidad , entonces ${\estilo de visualización X}$ $x_{1}\mapsto p_{1},x_{2}\mapsto p_{2},\ldots ,x_{n}\mapsto p_{n}$

\operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2},

donde es el valor esperado, es decir, ${\estilo de visualización \mu}$

\mu =\sum _{i=1}^{n}p_{i}x_{i}.

(Cuando dicha varianza ponderada discreta se especifica mediante ponderaciones cuya suma no es 1, entonces se divide por la suma de las ponderaciones).

La varianza de una colección de valores igualmente probables se puede escribir como ${\estilo de visualización n}$

\operatorname {Var} (X)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}

donde es el valor medio, es decir, ${\estilo de visualización \mu}$

\mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.

La varianza de un conjunto de valores igualmente probables se puede expresar de manera equivalente, sin hacer referencia directa a la media, en términos de desviaciones al cuadrado de todas las distancias al cuadrado de los puntos entre sí: ^[2] ${\estilo de visualización n}$

\operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n^{2}}}\sum _{i}\sum _{j>i}(x_{i}-x_{j})^{2}.

Variable aleatoria absolutamente continua

Si la variable aleatoria tiene una función de densidad de probabilidad y es la función de distribución acumulativa correspondiente , entonces ${\estilo de visualización X}$ ${\estilo de visualización f(x)}$ ${\estilo de visualización F(x)}$

{\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2},\end{alineado}}

o equivalentemente,

\operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2},

¿Dónde está el valor esperado de dado por? ${\estilo de visualización \mu}$ ${\estilo de visualización X}$

\mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x).

En estas fórmulas, las integrales con respecto a y son integrales de Lebesgue y Lebesgue-Stieltjes , respectivamente. ${\estilo de visualización dx}$ $dF(x)$

Si la función es Riemann-integrable en cada intervalo finito entonces $Estilo de visualización x^{2}f(x)}$ $[a,b]\subconjunto \mathbb {R} ,$

\operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2},

donde la integral es una integral de Riemann impropia .

Ejemplos

Distribución exponencial

La distribución exponencial con parámetro $λ$ es una distribución continua cuya función de densidad de probabilidad está dada por

f(x)=\lambda e^{-\lambda x}

en el intervalo $[0, \infty)$ . Se puede demostrar que su media es

\operatorname {E}[X]=\int _{0}^{\infty }x\lambda e^{-\lambda x}\,dx={\frac {1}{\lambda }}.

Utilizando la integración por partes y haciendo uso del valor esperado ya calculado, tenemos:

{\begin{aligned}\operatorname {E} \left[X^{2}\right]&=\int _{0}^{\infty }x^{2}\lambda e^{-\lambda x}\,dx\\&=\left[-x^{2}e^{-\lambda x}\right]_{0}^{\infty }+\int _{0}^{\infty }2xe^{-\lambda x}\,dx\\&=0+{\frac {2}{\lambda }}\operatorname {E} [X]\\&={\frac {2}{\lambda ^{2}}}.\end{aligned}}

Por lo tanto, la varianza de $X$ viene dada por

\operatorname {Var} (X)=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}={\frac {2}{\lambda ^{2}}}-\left({\frac {1}{\lambda }}\right)^{2}={\frac {1}{\lambda ^{2}}}.

Dado justo

Un dado de seis caras puede modelarse como una variable aleatoria discreta, $X$ , con resultados del 1 al 6, cada uno con la misma probabilidad 1/6. El valor esperado de $X$ es Por lo tanto, la varianza de $X$ es $(1+2+3+4+5+6)/6=7/2.$

{\begin{aligned}\operatorname {Var} (X)&=\sum _{i=1}^{6}{\frac {1}{6}}\left(i-{\frac {7}{2}}\right)^{2}\\[5pt]&={\frac {1}{6}}\left((-5/2)^{2}+(-3/2)^{2}+(-1/2)^{2}+(1/2)^{2}+(3/2)^{2}+(5/2)^{2}\right)\\[5pt]&={\frac {35}{12}}\approx 2.92.\end{aligned}}

La fórmula general para la varianza del resultado, $X$ , de un dado de $n$ caras es

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left(X^{2}\right)-(\operatorname {E} (X))^{2}\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}i^{2}-\left({\frac {1}{n}}\sum _{i=1}^{n}i\right)^{2}\\[5pt]&={\frac {(n+1)(2n+1)}{6}}-\left({\frac {n+1}{2}}\right)^{2}\\[4pt]&={\frac {n^{2}-1}{12}}.\end{aligned}}

Distribuciones de probabilidad de uso común

La siguiente tabla enumera la varianza de algunas distribuciones de probabilidad comúnmente utilizadas.

Propiedades

Propiedades básicas

La varianza no es negativa porque los cuadrados son positivos o cero:

\operatorname {Var} (X)\geq 0.

La varianza de una constante es cero.

\operatorname {Var} (a)=0.

Por el contrario, si la varianza de una variable aleatoria es cero, entonces es casi seguro que es una constante, es decir, siempre tiene el mismo valor:

\operatorname {Var} (X)=0\iff \exists a:P(X=a)=1.

Cuestiones de finitud

Si una distribución no tiene un valor esperado finito, como es el caso de la distribución de Cauchy , entonces la varianza tampoco puede ser finita. Sin embargo, algunas distribuciones pueden no tener una varianza finita, a pesar de que su valor esperado sea finito. Un ejemplo es una distribución de Pareto cuyo índice satisface $k$ $1<k\leq 2.$

Descomposición

La fórmula general para la descomposición de la varianza o la ley de la varianza total es: Si y son dos variables aleatorias, y la varianza de existe, entonces $X$ $Y$ $X$

\operatorname {Var} [X]=\operatorname {E} (\operatorname {Var} [X\mid Y])+\operatorname {Var} (\operatorname {E} [X\mid Y]).

La esperanza condicional de un valor dado y la varianza condicional pueden entenderse de la siguiente manera. Dado cualquier valor particular y de la variable aleatoria Y , existe una esperanza condicional dado el evento Y = y . Esta cantidad depende del valor particular y ; es una función . Esa misma función evaluada en la variable aleatoria Y es la esperanza condicional $\operatorname {E} (X\mid Y)$ $X$ $Y$ $\operatorname {Var} (X\mid Y)$ $\operatorname {E} (X\mid Y=y)$ $g(y)=\operatorname {E} (X\mid Y=y)$ $\operatorname {E} (X\mid Y)=g(Y).$

En particular, si es una variable aleatoria discreta que asume valores posibles con probabilidades correspondientes , entonces en la fórmula para la varianza total, el primer término en el lado derecho se convierte en $Y$ $y_{1},y_{2},y_{3}\ldots$ $p_{1},p_{2},p_{3}\ldots ,$

\operatorname {E} (\operatorname {Var} [X\mid Y])=\sum _{i}p_{i}\sigma _{i}^{2},

donde . De manera similar, el segundo término del lado derecho se convierte en $\sigma _{i}^{2}=\operatorname {Var} [X\mid Y=y_{i}]$

\operatorname {Var} (\operatorname {E} [X\mid Y])=\sum _{i}p_{i}\mu _{i}^{2}-\left(\sum _{i}p_{i}\mu _{i}\right)^{2}=\sum _{i}p_{i}\mu _{i}^{2}-\mu ^{2},

donde y . Por lo tanto, la varianza total está dada por $\mu _{i}=\operatorname {E} [X\mid Y=y_{i}]$ $\mu =\sum _{i}p_{i}\mu _{i}$

\operatorname {Var} [X]=\sum _{i}p_{i}\sigma _{i}^{2}+\left(\sum _{i}p_{i}\mu _{i}^{2}-\mu ^{2}\right).

Una fórmula similar se aplica en el análisis de varianza , donde la fórmula correspondiente es

{\mathit {MS}}_{\text{total}}={\mathit {MS}}_{\text{between}}+{\mathit {MS}}_{\text{within}};

Aquí se hace referencia a la media de los cuadrados. En el análisis de regresión lineal , la fórmula correspondiente es ${\mathit {MS}}$

{\mathit {MS}}_{\text{total}}={\mathit {MS}}_{\text{regression}}+{\mathit {MS}}_{\text{residual}}.

Esto también puede derivarse de la aditividad de las varianzas, ya que la puntuación total (observada) es la suma de la puntuación prevista y la puntuación de error, donde las dos últimas no están correlacionadas.

Son posibles descomposiciones similares para la suma de desviaciones al cuadrado (suma de cuadrados, ): ${\mathit {SS}}$

{\mathit {SS}}_{\text{total}}={\mathit {SS}}_{\text{between}}+{\mathit {SS}}_{\text{within}},

{\mathit {SS}}_{\text{total}}={\mathit {SS}}_{\text{regression}}+{\mathit {SS}}_{\text{residual}}.

Cálculo a partir del CDF

La varianza poblacional para una variable aleatoria no negativa se puede expresar en términos de la función de distribución acumulativa F usando

2\int _{0}^{\infty }u(1-F(u))\,du-\left(\int _{0}^{\infty }(1-F(u))\,du\right)^{2}.

Esta expresión se puede utilizar para calcular la varianza en situaciones en las que se puede expresar convenientemente la CDF, pero no la densidad .

Propiedad característica

El segundo momento de una variable aleatoria alcanza el valor mínimo cuando se toma alrededor del primer momento (es decir, la media) de la variable aleatoria, es decir . Por el contrario, si una función continua satisface para todas las variables aleatorias X , entonces necesariamente tiene la forma , donde a > 0 . Esto también se cumple en el caso multidimensional. ^[3] $\mathrm {argmin} _{m}\,\mathrm {E} \left(\left(X-m\right)^{2}\right)=\mathrm {E} (X)$ $\varphi$ $\mathrm {argmin} _{m}\,\mathrm {E} (\varphi (X-m))=\mathrm {E} (X)$ $\varphi (x)=ax^{2}+b$

Unidades de medida

A diferencia de la desviación absoluta esperada , la varianza de una variable tiene unidades que son el cuadrado de las unidades de la propia variable. Por ejemplo, una variable medida en metros tendrá una varianza medida en metros al cuadrado. Por este motivo, a menudo se prefiere describir los conjuntos de datos a través de su desviación estándar o desviación cuadrática media en lugar de utilizar la varianza. En el ejemplo de los dados, la desviación estándar es $\sqrt 2,9 \approx 1,7$ , ligeramente mayor que la desviación absoluta esperada de 1,5.

Tanto la desviación estándar como la desviación absoluta esperada pueden utilizarse como indicadores de la "dispersión" de una distribución. La desviación estándar es más susceptible de manipulación algebraica que la desviación absoluta esperada y, junto con la varianza y su generalización, la covarianza , se utiliza con frecuencia en las estadísticas teóricas; sin embargo, la desviación absoluta esperada tiende a ser más robusta , ya que es menos sensible a los valores atípicos que surgen de anomalías de medición o de una distribución de colas excesivamente pesadas .

Propagación

Suma y multiplicación por una constante

La varianza es invariable con respecto a los cambios en un parámetro de ubicación . Es decir, si se agrega una constante a todos los valores de la variable, la varianza no cambia:

\operatorname {Var} (X+a)=\operatorname {Var} (X).

Si todos los valores se escalan mediante una constante, la varianza se escala mediante el cuadrado de esa constante:

\operatorname {Var} (aX)=a^{2}\operatorname {Var} (X).

La varianza de una suma de dos variables aleatorias está dada por

\operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y)

\operatorname {Var} (aX-bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)-2ab\,\operatorname {Cov} (X,Y)

¿Dónde está la covarianza ? $\operatorname {Cov} (X,Y)$

Combinaciones lineales

En general, para la suma de variables aleatorias , la varianza se convierte en: $N$ $\{X_{1},\dots ,X_{N}\}$

\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {Var} (X_{i})+\sum _{i\neq j}\operatorname {Cov} (X_{i},X_{j}),

ver también la identidad del general Bienaymé .

Estos resultados conducen a la varianza de una combinación lineal como:

{\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{N}a_{i}X_{i}\right)&=\sum _{i,j=1}^{N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+\sum _{i\not =j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j}).\end{aligned}}

Si las variables aleatorias son tales que $X_{1},\dots ,X_{N}$

\operatorname {Cov} (X_{i},X_{j})=0\ ,\ \forall \ (i\neq j),

Entonces se dice que no están correlacionadas . De la expresión dada anteriormente se deduce inmediatamente que si las variables aleatorias no están correlacionadas, entonces la varianza de su suma es igual a la suma de sus varianzas, o, expresado simbólicamente: $X_{1},\dots ,X_{N}$

\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {Var} (X_{i}).

Dado que las variables aleatorias independientes siempre están descorrelacionadas (véase Covarianza § Descorrelación e independencia ), la ecuación anterior se cumple en particular cuando las variables aleatorias son independientes. Por lo tanto, la independencia es suficiente, pero no necesaria, para que la varianza de la suma sea igual a la suma de las varianzas. $X_{1},\dots ,X_{n}$

Notación matricial para la varianza de una combinación lineal

Definamos como un vector columna de variables aleatorias , y como un vector columna de escalares . Por lo tanto, es una combinación lineal de estas variables aleatorias, donde denota la transpuesta de . Sea también la matriz de covarianza de . La varianza de se da entonces por: ^[4] $X$ $n$ $X_{1},\ldots ,X_{n}$ $c$ $n$ $c_{1},\ldots ,c_{n}$ $c^{\mathsf {T}}X$ $c^{\mathsf {T}}$ $c$ $\Sigma$ $X$ $c^{\mathsf {T}}X$

\operatorname {Var} \left(c^{\mathsf {T}}X\right)=c^{\mathsf {T}}\Sigma c.

Esto implica que la varianza de la media se puede escribir como (con un vector columna de unos)

\operatorname {Var} \left({\bar {x}}\right)=\operatorname {Var} \left({\frac {1}{n}}1'X\right)={\frac {1}{n^{2}}}1'\Sigma 1.

Suma de variables

Suma de variables no correlacionadas

Una razón para el uso de la varianza en preferencia a otras medidas de dispersión es que la varianza de la suma (o la diferencia) de variables aleatorias no correlacionadas es la suma de sus varianzas:

\operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\operatorname {Var} (X_{i}).

Esta afirmación se llama fórmula de Bienaymé ^[5] y fue descubierta en 1853. ^[6]^[7] A menudo se hace con la condición más fuerte de que las variables sean independientes , pero basta con que no estén correlacionadas. Por lo tanto, si todas las variables tienen la misma varianza σ ² , entonces, como la división por n es una transformación lineal, esta fórmula implica inmediatamente que la varianza de su media es

\operatorname {Var} \left({\overline {X}}\right)=\operatorname {Var} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}\right)={\frac {1}{n^{2}}}n\sigma ^{2}={\frac {\sigma ^{2}}{n}}.

Es decir, la varianza de la media disminuye cuando n aumenta. Esta fórmula para la varianza de la media se utiliza en la definición del error estándar de la media de la muestra, que se utiliza en el teorema del límite central .

Para probar la afirmación inicial, basta demostrar que

\operatorname {Var} (X+Y)=\operatorname {Var} (X)+\operatorname {Var} (Y).

El resultado general se obtiene por inducción. Comenzando con la definición,

{\begin{aligned}\operatorname {Var} (X+Y)&=\operatorname {E} \left[(X+Y)^{2}\right]-(\operatorname {E} [X+Y])^{2}\\[5pt]&=\operatorname {E} \left[X^{2}+2XY+Y^{2}\right]-(\operatorname {E} [X]+\operatorname {E} [Y])^{2}.\end{aligned}}

Utilizando la linealidad del operador de expectativa y el supuesto de independencia (o no correlación) de X e Y , esto se simplifica aún más de la siguiente manera:

{\begin{aligned}\operatorname {Var} (X+Y)&=\operatorname {E} \left[X^{2}\right]+2\operatorname {E} [XY]+\operatorname {E} \left[Y^{2}\right]-\left(\operatorname {E} [X]^{2}+2\operatorname {E} [X]\operatorname {E} [Y]+\operatorname {E} [Y]^{2}\right)\\[5pt]&=\operatorname {E} \left[X^{2}\right]+\operatorname {E} \left[Y^{2}\right]-\operatorname {E} [X]^{2}-\operatorname {E} [Y]^{2}\\[5pt]&=\operatorname {Var} (X)+\operatorname {Var} (Y).\end{aligned}}

Suma de variables correlacionadas

Suma de variables correlacionadas con tamaño de muestra fijo

En general, la varianza de la suma de $n$ variables es la suma de sus covarianzas :

\operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\sum _{j=1}^{n}\operatorname {Cov} \left(X_{i},X_{j}\right)=\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}\right)+2\sum _{1\leq i<j\leq n}\operatorname {Cov} \left(X_{i},X_{j}\right).

(Nota: La segunda igualdad proviene del hecho de que $Cov(X i, X i) = Var(X i)$ .)

Aquí, está la covarianza , que es cero para las variables aleatorias independientes (si existe). La fórmula establece que la varianza de una suma es igual a la suma de todos los elementos en la matriz de covarianza de los componentes. La siguiente expresión establece de manera equivalente que la varianza de la suma es la suma de la diagonal de la matriz de covarianza más dos veces la suma de sus elementos triangulares superiores (o sus elementos triangulares inferiores); esto enfatiza que la matriz de covarianza es simétrica. Esta fórmula se utiliza en la teoría del alfa de Cronbach en la teoría clásica de pruebas . $\operatorname {Cov} (\cdot ,\cdot )$

Por lo tanto, si las variables tienen varianza igual σ ² y la correlación promedio de distintas variables es ρ , entonces la varianza de su media es

\operatorname {Var} \left({\overline {X}}\right)={\frac {\sigma ^{2}}{n}}+{\frac {n-1}{n}}\rho \sigma ^{2}.

Esto implica que la varianza de la media aumenta con el promedio de las correlaciones. En otras palabras, las observaciones correlacionadas adicionales no son tan efectivas como las observaciones independientes adicionales para reducir la incertidumbre de la media . Además, si las variables tienen varianza unitaria, por ejemplo, si están estandarizadas, entonces esto se simplifica a

\operatorname {Var} \left({\overline {X}}\right)={\frac {1}{n}}+{\frac {n-1}{n}}\rho .

Esta fórmula se utiliza en la fórmula de predicción de Spearman-Brown de la teoría clásica de los tests. Esta converge a ρ si n tiende a infinito, siempre que la correlación media permanezca constante o converja también. Por lo tanto, para la varianza de la media de las variables estandarizadas con correlaciones iguales o correlación media convergente tenemos

\lim _{n\to \infty }\operatorname {Var} \left({\overline {X}}\right)=\rho .

Por lo tanto, la varianza de la media de un gran número de variables estandarizadas es aproximadamente igual a su correlación promedio. Esto deja en claro que la media muestral de las variables correlacionadas no converge generalmente a la media poblacional, aunque la ley de los grandes números establece que la media muestral convergerá para las variables independientes.

Suma de variables no correlacionadas con tamaño de muestra aleatorio

Existen casos en los que se toma una muestra sin saber de antemano cuántas observaciones serán aceptables según algún criterio. En tales casos, el tamaño de la muestra $N$ es una variable aleatoria cuya variación se suma a la variación de $X$ , de modo que,

\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\operatorname {E} \left[N\right]\operatorname {Var} (X)+\operatorname {Var} (N)(\operatorname {E} \left[X\right])^{2}

^[8]

lo cual se desprende de la ley de varianza total .

Si $N$ tiene una distribución de Poisson , entonces con estimador $n$ = $N.$ Por lo tanto, el estimador de se convierte en , dando (ver error estándar de la media de la muestra ). $\operatorname {E} [N]=\operatorname {Var} (N)$ $\operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)$ $n{S_{x}}^{2}+n{\bar {X}}^{2}$ $\operatorname {SE} ({\bar {X}})={\sqrt {\frac {{S_{x}}^{2}+{\bar {X}}^{2}}{n}}}$

Suma ponderada de variables

La propiedad de escala y la fórmula de Bienaymé, junto con la propiedad de la covarianza $Cov(aX, bY) = ab Cov(X, Y)$ implican conjuntamente que

\operatorname {Var} (aX\pm bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)\pm 2ab\,\operatorname {Cov} (X,Y).

Esto implica que, en una suma ponderada de variables, la variable con el mayor peso tendrá un peso desproporcionadamente grande en la varianza del total. Por ejemplo, si X e Y no están correlacionadas y el peso de X es dos veces el peso de Y , entonces el peso de la varianza de X será cuatro veces el peso de la varianza de Y.

La expresión anterior se puede extender a una suma ponderada de múltiples variables:

\operatorname {Var} \left(\sum _{i}^{n}a_{i}X_{i}\right)=\sum _{i=1}^{n}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i}\sum _{<j\leq n}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})

Producto de variables

Producto de variables independientes

Si dos variables X e Y son independientes , la varianza de su producto viene dada por ^[9]

\operatorname {Var} (XY)=[\operatorname {E} (X)]^{2}\operatorname {Var} (Y)+[\operatorname {E} (Y)]^{2}\operatorname {Var} (X)+\operatorname {Var} (X)\operatorname {Var} (Y).

De manera equivalente, utilizando las propiedades básicas de la expectativa, se obtiene mediante

\operatorname {Var} (XY)=\operatorname {E} \left(X^{2}\right)\operatorname {E} \left(Y^{2}\right)-[\operatorname {E} (X)]^{2}[\operatorname {E} (Y)]^{2}.

Producto de variables estadísticamente dependientes

En general, si dos variables son estadísticamente dependientes, entonces la varianza de su producto viene dada por:

{\begin{aligned}\operatorname {Var} (XY)={}&\operatorname {E} \left[X^{2}Y^{2}\right]-[\operatorname {E} (XY)]^{2}\\[5pt]={}&\operatorname {Cov} \left(X^{2},Y^{2}\right)+\operatorname {E} (X^{2})\operatorname {E} \left(Y^{2}\right)-[\operatorname {E} (XY)]^{2}\\[5pt]={}&\operatorname {Cov} \left(X^{2},Y^{2}\right)+\left(\operatorname {Var} (X)+[\operatorname {E} (X)]^{2}\right)\left(\operatorname {Var} (Y)+[\operatorname {E} (Y)]^{2}\right)\\[5pt]&-[\operatorname {Cov} (X,Y)+\operatorname {E} (X)\operatorname {E} (Y)]^{2}\end{aligned}}

Funciones arbitrarias

El método delta utiliza expansiones de Taylor de segundo orden para aproximar la varianza de una función de una o más variables aleatorias: consulte expansiones de Taylor para los momentos de funciones de variables aleatorias . Por ejemplo, la varianza aproximada de una función de una variable está dada por

\operatorname {Var} \left[f(X)\right]\approx \left(f'(\operatorname {E} \left[X\right])\right)^{2}\operatorname {Var} \left[X\right]

siempre que f sea dos veces diferenciable y que la media y la varianza de X sean finitas.

Varianza de la población y varianza de la muestra

Las observaciones del mundo real, como las mediciones de la lluvia de ayer a lo largo del día, normalmente no pueden ser conjuntos completos de todas las observaciones posibles que podrían hacerse. Por lo tanto, la varianza calculada a partir del conjunto finito en general no coincidirá con la varianza que se habría calculado a partir de la población completa de observaciones posibles. Esto significa que uno estima la media y la varianza a partir de un conjunto limitado de observaciones utilizando una ecuación de estimador . El estimador es una función de la muestra de n observaciones extraídas sin sesgo observacional de toda la población de observaciones potenciales. En este ejemplo, la muestra sería el conjunto de mediciones reales de la lluvia de ayer de los pluviómetros disponibles dentro de la geografía de interés.

Los estimadores más simples para la media y la varianza de la población son simplemente la media y la varianza de la muestra, la media de la muestra y la varianza de la muestra (sin corregir) ; estos son estimadores consistentes (convergen al valor de toda la población a medida que aumenta el número de muestras), pero se pueden mejorar. De manera más simple, la varianza de la muestra se calcula como la suma de las desviaciones al cuadrado sobre la media (de la muestra), dividida por n como el número de muestras . Sin embargo, el uso de valores distintos de n mejora el estimador de varias maneras. Cuatro valores comunes para el denominador son n, n − 1, n + 1 y n − 1,5: n es el más simple (la varianza de la muestra), n − 1 elimina el sesgo, n + 1 minimiza el error cuadrático medio para la distribución normal y n − 1,5 elimina principalmente el sesgo en la estimación no sesgada de la desviación estándar para la distribución normal.

En primer lugar, si se desconoce la media real de la población, entonces la varianza de la muestra (que utiliza la media de la muestra en lugar de la media real) es un estimador sesgado : subestima la varianza por un factor de ( n − 1) / n ; la corrección de este factor, que da como resultado la suma de las desviaciones al cuadrado sobre la media de la muestra dividida por n -1 en lugar de n , se denomina corrección de Bessel . El estimador resultante es insesgado y se denomina varianza de la muestra (corregida) o varianza de la muestra insesgada . Si la media se determina de alguna otra manera que no sea a partir de las mismas muestras utilizadas para estimar la varianza, entonces este sesgo no surge y la varianza se puede estimar con seguridad como la de las muestras sobre la media (conocida independientemente).

En segundo lugar, la varianza de la muestra no suele minimizar el error cuadrático medio entre la varianza de la muestra y la varianza de la población. La corrección del sesgo suele empeorar la situación: siempre se puede elegir un factor de escala que funcione mejor que la varianza de la muestra corregida, aunque el factor de escala óptimo depende del exceso de curtosis de la población (véase error cuadrático medio: varianza ) e introduce sesgo. Esto siempre consiste en reducir la escala del estimador insesgado (dividiendo por un número mayor que n − 1) y es un ejemplo simple de un estimador de contracción : uno "encoge" el estimador insesgado hacia cero. Para la distribución normal, dividir por n + 1 (en lugar de n − 1 o n ) minimiza el error cuadrático medio. Sin embargo, el estimador resultante está sesgado y se conoce como variación muestral sesgada .

Varianza de la población

En general, la varianza poblacional de una población finita de tamaño N con valores x _i está dada por donde la media poblacional es y , donde es el operador de valor esperado . ${\begin{aligned}\sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\mu ^{2}\right)\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}\\[5pt]&=\operatorname {E} [x_{i}^{2}]-\mu ^{2}\end{aligned}}$ ${\textstyle \mu =\operatorname {E} [x_{i}]={\frac {1}{N}}\sum _{i=1}^{N}x_{i}}$ ${\textstyle \operatorname {E} [x_{i}^{2}]=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)}$ ${\textstyle \operatorname {E} }$

La varianza de la población también se puede calcular utilizando ^[10]

\sigma ^{2}={\frac {1}{N^{2}}}\sum _{i<j}\left(x_{i}-x_{j}\right)^{2}={\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}.

(El lado derecho tiene términos duplicados en la suma, mientras que el lado del medio solo tiene términos únicos para sumar). Esto es así porque la varianza de la población coincide con la varianza de la distribución de probabilidad generadora. En este sentido, el concepto de población se puede extender a variables aleatorias continuas con poblaciones infinitas. ${\begin{aligned}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}\\[5pt]={}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}^{2}-2x_{i}x_{j}+x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2N}}\sum _{j=1}^{N}\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}\right)+{\frac {1}{2N}}\sum _{i=1}^{N}\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)-\mu ^{2}+{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)\\[5pt]={}&\sigma ^{2}.\end{aligned}}$

Varianza de la muestra

Varianza de muestra sesgada

En muchas situaciones prácticas, la varianza real de una población no se conoce a priori y debe calcularse de alguna manera. Cuando se trata de poblaciones extremadamente grandes, no es posible contar todos los objetos de la población, por lo que el cálculo debe realizarse en una muestra de la población. ^[11] Esto generalmente se conoce como varianza muestral o varianza empírica . La varianza muestral también se puede aplicar a la estimación de la varianza de una distribución continua a partir de una muestra de esa distribución.

Tomamos una muestra con reemplazo de n valores Y ₁ , ..., Y _n de la población de tamaño , donde n < N , y estimamos la varianza sobre la base de esta muestra. ^[12] Tomando directamente la varianza de los datos de la muestra obtenemos el promedio de las desviaciones al cuadrado : ${\textstyle N}$

{\tilde {S}}_{Y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}Y_{i}^{2}\right)-{\overline {Y}}^{2}={\frac {1}{n^{2}}}\sum _{i,j\,:\,i<j}\left(Y_{i}-Y_{j}\right)^{2}.

^[13]

(Véase la sección Varianza de la población para la derivación de esta fórmula.) Aquí, denota la media de la muestra : ${\overline {Y}}$

{\overline {Y}}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}.

Dado que las Y _i se seleccionan aleatoriamente, tanto y como son variables aleatorias . Sus valores esperados se pueden evaluar promediando el conjunto de todas las muestras posibles { Y _i } de tamaño n de la población. Esto da: ${\overline {Y}}$ ${\tilde {S}}_{Y}^{2}$ ${\tilde {S}}_{Y}^{2}$

{\begin{aligned}\operatorname {E} [{\tilde {S}}_{Y}^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j}\right)^{2}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left[Y_{i}^{2}-{\frac {2}{n}}Y_{i}\sum _{j=1}^{n}Y_{j}+{\frac {1}{n^{2}}}\sum _{j=1}^{n}Y_{j}\sum _{k=1}^{n}Y_{k}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left(\operatorname {E} \left[Y_{i}^{2}\right]-{\frac {2}{n}}\left(\sum _{j\neq i}\operatorname {E} \left[Y_{i}Y_{j}\right]+\operatorname {E} \left[Y_{i}^{2}\right]\right)+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}\operatorname {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\operatorname {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left({\frac {n-2}{n}}\operatorname {E} \left[Y_{i}^{2}\right]-{\frac {2}{n}}\sum _{j\neq i}\operatorname {E} \left[Y_{i}Y_{j}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}\operatorname {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\operatorname {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}\left(\sigma ^{2}+\mu ^{2}\right)-{\frac {2}{n}}(n-1)\mu ^{2}+{\frac {1}{n^{2}}}n(n-1)\mu ^{2}+{\frac {1}{n}}\left(\sigma ^{2}+\mu ^{2}\right)\right]\\[5pt]&={\frac {n-1}{n}}\sigma ^{2}.\end{aligned}}

Aquí se derivan en la sección Varianza de población y debido a la independencia de y se utilizan. ${\textstyle \sigma ^{2}=\operatorname {E} [Y_{i}^{2}]-\mu ^{2}}$ ${\textstyle \operatorname {E} [Y_{i}Y_{j}]=\operatorname {E} [Y_{i}]\operatorname {E} [Y_{j}]=\mu ^{2}}$ ${\textstyle Y_{i}}$ ${\textstyle Y_{j}}$

Por lo tanto, se obtiene una estimación de la varianza de la población que está sesgada por un factor de, ya que el valor esperado de es menor que la varianza de la población (varianza verdadera) por ese factor. Por este motivo, se denomina varianza de muestra sesgada . ${\textstyle {\tilde {S}}_{Y}^{2}}$ ${\textstyle {\frac {n-1}{n}}}$ ${\textstyle {\tilde {S}}_{Y}^{2}}$ ${\textstyle {\tilde {S}}_{Y}^{2}}$

Varianza de muestra imparcial

Al corregir este sesgo se obtiene la varianza muestral no sesgada , denotada : $S^{2}$

S^{2}={\frac {n}{n-1}}{\tilde {S}}_{Y}^{2}={\frac {n}{n-1}}\left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}\right]={\frac {1}{n-1}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}

Cualquiera de los dos estimadores puede denominarse simplemente varianza de la muestra cuando la versión puede determinarse por el contexto. La misma prueba también es aplicable a muestras tomadas de una distribución de probabilidad continua.

El uso del término n − 1 se denomina corrección de Bessel y también se utiliza en la covarianza de la muestra y la desviación estándar de la muestra (la raíz cuadrada de la varianza). La raíz cuadrada es una función cóncava y, por lo tanto, introduce un sesgo negativo (por la desigualdad de Jensen ), que depende de la distribución, y, por lo tanto, la desviación estándar de la muestra corregida (utilizando la corrección de Bessel) está sesgada. La estimación insesgada de la desviación estándar es un problema técnicamente complejo, aunque para la distribución normal, el uso del término n − 1,5 produce un estimador casi insesgado.

La varianza muestral no sesgada es una estadística U para la función ƒ ( y ₁ , y ₂ ) = ( y ₁ − y ₂ ) ² /2, lo que significa que se obtiene promediando una estadística de 2 muestras sobre subconjuntos de 2 elementos de la población.

Ejemplo

Para un conjunto de números {10, 15, 30, 45, 57, 52, 63, 72, 81, 93, 102, 105}, si este conjunto es toda la población de datos para alguna medición, entonces la varianza es la varianza de la población 932,743 como la suma de las desviaciones al cuadrado sobre la media de este conjunto, dividida por 12 como el número de los miembros del conjunto. Si el conjunto es una muestra de toda la población, entonces la varianza de la muestra no sesgada se puede calcular como 1017,538, que es la suma de las desviaciones al cuadrado sobre la media de la muestra, dividida por 11 en lugar de 12. Una función VAR.S en Microsoft Excel proporciona la varianza de la muestra no sesgada, mientras que VAR.P es para la varianza de la población.

Distribución de la varianza de la muestra

Al ser una función de variables aleatorias , la varianza de la muestra es en sí misma una variable aleatoria y es natural estudiar su distribución. En el caso de que Y _i sean observaciones independientes de una distribución normal , el teorema de Cochran muestra que la varianza de la muestra insesgada S ² sigue una distribución de chi-cuadrado escalada (ver también: propiedades asintóticas y una prueba elemental ): ^[14]

(n-1){\frac {S^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}

donde σ ² es la varianza de la población. Como consecuencia directa, se deduce que

\operatorname {E} \left(S^{2}\right)=\operatorname {E} \left({\frac {\sigma ^{2}}{n-1}}\chi _{n-1}^{2}\right)=\sigma ^{2},

y ^[15]

\operatorname {Var} \left[S^{2}\right]=\operatorname {Var} \left({\frac {\sigma ^{2}}{n-1}}\chi _{n-1}^{2}\right)={\frac {\sigma ^{4}}{(n-1)^{2}}}\operatorname {Var} \left(\chi _{n-1}^{2}\right)={\frac {2\sigma ^{4}}{n-1}}.

Si Y _i son independientes y se distribuyen de forma idéntica, pero no necesariamente se distribuyen de forma normal, entonces ^[16]

\operatorname {E} \left[S^{2}\right]=\sigma ^{2},\quad \operatorname {Var} \left[S^{2}\right]={\frac {\sigma ^{4}}{n}}\left(\kappa -1+{\frac {2}{n-1}}\right)={\frac {1}{n}}\left(\mu _{4}-{\frac {n-3}{n-1}}\sigma ^{4}\right),

donde κ es la curtosis de la distribución y μ ₄ es el cuarto momento central .

Si las condiciones de la ley de los grandes números se cumplen para las observaciones al cuadrado, S ² es un estimador consistente de σ ² . Se puede ver, de hecho, que la varianza del estimador tiende asintóticamente a cero. Una fórmula asintóticamente equivalente fue dada en Kenney y Keeping (1951:164), Rose y Smith (2002:264) y Weisstein (nd). ^[17]^[18]^[19]

Desigualdad de Samuelson

La desigualdad de Samuelson es un resultado que establece límites a los valores que pueden tomar las observaciones individuales en una muestra, dado que se han calculado la media de la muestra y la varianza (sesgada). ^[20] Los valores deben estar dentro de los límites ${\bar {y}}\pm \sigma _{Y}(n-1)^{1/2}.$

Relaciones con las medias armónicas y aritméticas

Se ha demostrado ^[21] que para una muestra { y _i } de números reales positivos,

\sigma _{y}^{2}\leq 2y_{\max }(A-H),

donde y _max es el máximo de la muestra, A es la media aritmética, H es la media armónica de la muestra y es la varianza (sesgada) de la muestra. $\sigma _{y}^{2}$

Este límite se ha mejorado y se sabe que la varianza está limitada por

\sigma _{y}^{2}\leq {\frac {y_{\max }(A-H)(y_{\max }-A)}{y_{\max }-H}},

\sigma _{y}^{2}\geq {\frac {y_{\min }(A-H)(A-y_{\min })}{H-y_{\min }}},

donde y _min es el mínimo de la muestra. ^[22]

Pruebas de igualdad de varianzas

La prueba F de igualdad de varianzas y las pruebas de chi cuadrado son adecuadas cuando la muestra se distribuye normalmente. La no normalidad dificulta la prueba de igualdad de dos o más varianzas.

Se han propuesto varias pruebas no paramétricas, entre ellas la prueba de Barton–David–Ansari–Freund–Siegel–Tukey, la prueba de Capon, la prueba de Mood , la prueba de Klotz y la prueba de Sukhatme. La prueba de Sukhatme se aplica a dos varianzas y requiere que ambas medianas sean conocidas e iguales a cero. Las pruebas de Mood, Klotz, Capon y Barton–David–Ansari–Freund–Siegel–Tukey también se aplican a dos varianzas. Permiten que la mediana sea desconocida, pero requieren que las dos medianas sean iguales.

La prueba de Lehmann es una prueba paramétrica de dos varianzas. Existen varias variantes de esta prueba. Otras pruebas de igualdad de varianzas son la prueba de Box, la prueba de Box-Anderson y la prueba de Moses.

Se pueden utilizar métodos de remuestreo, que incluyen el bootstrap y el jackknife , para probar la igualdad de varianzas.

Momento de inercia

La varianza de una distribución de probabilidad es análoga al momento de inercia en mecánica clásica de una distribución de masa correspondiente a lo largo de una línea, con respecto a la rotación sobre su centro de masa. ^{[ cita requerida ]} Es debido a esta analogía que cosas como la varianza se denominan momentos de distribuciones de probabilidad . ^{[ cita requerida ]} La matriz de covarianza está relacionada con el tensor de momento de inercia para distribuciones multivariadas. El momento de inercia de una nube de n puntos con una matriz de covarianza de está dado por ^[^{cita requerida}^] $\Sigma$

I=n\left(\mathbf {1} _{3\times 3}\operatorname {tr} (\Sigma )-\Sigma \right).

Esta diferencia entre el momento de inercia en física y en estadística es clara para los puntos que se agrupan a lo largo de una línea. Supongamos que muchos puntos están cerca del eje x y se distribuyen a lo largo de él. La matriz de covarianza podría verse así:

\Sigma ={\begin{bmatrix}10&0&0\\0&0.1&0\\0&0&0.1\end{bmatrix}}.

Es decir, la mayor variación se da en la dirección x . Los físicos considerarían que este tiene un momento bajo respecto al eje x , por lo que el tensor del momento de inercia es

I=n{\begin{bmatrix}0.2&0&0\\0&10.1&0\\0&0&10.1\end{bmatrix}}.

Semivarianza

La semivarianza se calcula de la misma manera que la varianza, pero solo se incluyen en el cálculo aquellas observaciones que se encuentran por debajo de la media. También se describe como una medida específica en diferentes campos de aplicación. Para distribuciones sesgadas, la semivarianza puede proporcionar información adicional que la varianza no proporciona. ^[23] ${\text{Semivariance}}={1 \over {n}}\sum _{i:x_{i}<\mu }(x_{i}-\mu )^{2}$

Para las desigualdades asociadas con la semivarianza, véase la desigualdad de Chebyshev § Semivarianzas .

Etimología

El término varianza fue introducido por primera vez por Ronald Fisher en su artículo de 1918 La correlación entre parientes bajo la suposición de herencia mendeliana : ^[24]

La gran cantidad de estadísticas disponibles nos muestra que las desviaciones de una medida humana respecto de su media siguen muy de cerca la Ley Normal de Errores y, por lo tanto, que la variabilidad puede medirse uniformemente mediante la desviación típica correspondiente a la raíz cuadrada del error cuadrático medio . Cuando hay dos causas independientes de variabilidad capaces de producir en una población por lo demás uniforme distribuciones con desviaciones típicas y , se encuentra que la distribución, cuando ambas causas actúan juntas, tiene una desviación típica . Por lo tanto, es conveniente, al analizar las causas de variabilidad, tratar el cuadrado de la desviación típica como medida de variabilidad. Llamaremos a esta cantidad la Varianza... $\sigma _{1}$ $\sigma _{2}$ ${\sqrt {\sigma _{1}^{2}+\sigma _{2}^{2}}}$

Generalizaciones

Para variables complejas

Si es una variable aleatoria escalar de valor complejo , con valores en entonces su varianza es donde es el conjugado complejo de Esta varianza es un escalar real. $x$ $\mathbb {C} ,$ $\operatorname {E} \left[(x-\mu )(x-\mu )^{*}\right],$ $x^{*}$ $x.$

Para variables aleatorias con valores vectoriales

Como una matriz

Si es una variable aleatoria con valores vectoriales , cuyos valores se consideran un vector columna, entonces una generalización natural de la varianza es donde y es la transpuesta de y, por lo tanto, es un vector fila. El resultado es una matriz cuadrada semidefinida positiva , comúnmente denominada matriz de varianza-covarianza (o simplemente matriz de covarianza ). $X$ $\mathbb {R} ^{n},$ $\operatorname {E} \left[(X-\mu )(X-\mu )^{\operatorname {T} }\right],$ $\mu =\operatorname {E} (X)$ $X^{\operatorname {T} }$ $X,$

Si es una variable aleatoria de valor vectorial y complejo, con valores en entonces la matriz de covarianza es donde es la transpuesta conjugada de ^[^{cita requerida}^] Esta matriz también es semidefinida positiva y cuadrada. $X$ $\mathbb {C} ^{n},$ $\operatorname {E} \left[(X-\mu )(X-\mu )^{\dagger }\right],$ $X^{\dagger }$ $X.$

Como escalar

Otra generalización de la varianza para variables aleatorias con valores vectoriales , que da como resultado un valor escalar en lugar de una matriz, es la varianza generalizada , el determinante de la matriz de covarianza. Se puede demostrar que la varianza generalizada está relacionada con la dispersión multidimensional de puntos alrededor de su media. ^[25] $X$ $\det(C)$

Se obtiene una generalización diferente considerando la ecuación para la varianza escalar, , y reinterpretándola como la distancia euclidiana al cuadrado entre la variable aleatoria y su media, o, simplemente, como el producto escalar del vector consigo mismo. Esto da como resultado que es la traza de la matriz de covarianza. $\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]$ $(X-\mu )^{2}$ $X-\mu$ $\operatorname {E} \left[(X-\mu )^{\operatorname {T} }(X-\mu )\right]=\operatorname {tr} (C),$

Véase también

Busque varianza en Wikcionario, el diccionario libre.

Desigualdad de Bhatia-Davis
Coeficiente de variación
Homocedasticidad
Análisis espectral de mínimos cuadrados para calcular un espectro de frecuencia con magnitudes espectrales en % de varianza o en dB
Teoría moderna de carteras
Desigualdad de Popoviciu sobre varianzas
Medidas de dispersión estadística
Transformación estabilizadora de varianza

Tipos de varianza

Referencias

^ Wasserman, Larry (2005). Toda la estadística: un curso conciso de inferencia estadística . Textos de Springer sobre estadística. p. 51. ISBN 978-1-4419-2322-6.
^ Yuli Zhang; Huaiyu Wu; Lei Cheng (junio de 2012). Algunas nuevas fórmulas de deformación sobre varianza y covarianza . Actas de la 4.ª Conferencia internacional sobre modelado, identificación y control (ICMIC2012). págs. 987–992.
^ Kagan, A.; Shepp, LA (1998). "¿Por qué la varianza?". Statistics & Probability Letters . 38 (4): 329–333. doi :10.1016/S0167-7152(98)00041-8.
^ Johnson, Richard; Wichern, Dean (2001). Análisis estadístico multivariante aplicado . Prentice Hall. pág. 76. ISBN 0-13-187715-1.
^ Loève, M. (1977) "Teoría de la probabilidad", Textos de posgrado en matemáticas , Volumen 45, 4ª edición, Springer-Verlag, pág. 12.
^ Bienaymé, I.-J. (1853) "Considérations à l'appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés", Comptes rendus de l'Académie des sciences Paris , 37, p. 309–317; copia digital disponible [1]
^ Bienaymé, I.-J. (1867) "Considérations à l'appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés", Journal de Mathématiques Pures et Appliquées, Serie 2 , Tomo 12, p. 158–167; copia digital disponible [2][3]
^ Cornell, JR, y Benjamin, CA, Probabilidad, estadística y decisiones para ingenieros civiles, McGraw-Hill, NY, 1970, págs. 178-9.
^ Goodman, Leo A. (diciembre de 1960). "Sobre la varianza exacta de los productos". Revista de la Asociación Estadounidense de Estadística . 55 (292): 708–713. doi :10.2307/2281592. JSTOR 2281592.
^ Yuli Zhang; Huaiyu Wu; Lei Cheng (junio de 2012). Algunas nuevas fórmulas de deformación sobre varianza y covarianza . Actas de la 4.ª Conferencia internacional sobre modelado, identificación y control (ICMIC2012). págs. 987–992.
^ Navidi, William (2006) Estadística para ingenieros y científicos , McGraw-Hill, pág. 14.
^ Montgomery, DC y Runger, GC (1994) Estadística aplicada y probabilidad para ingenieros , página 201. John Wiley & Sons Nueva York
^ Yuli Zhang; Huaiyu Wu; Lei Cheng (junio de 2012). Algunas nuevas fórmulas de deformación sobre varianza y covarianza . Actas de la 4.ª Conferencia internacional sobre modelado, identificación y control (ICMIC2012). págs. 987–992.
^ Knight K. (2000), Estadística matemática , Chapman y Hall, Nueva York. (proposición 2.11)
^ Casella y Berger (2002) Inferencia estadística , Ejemplo 7.3.3, pág. 331 ^{[ cita completa necesaria ]}
^ Mood, AM, Graybill, FA y Boes, DC (1974) Introducción a la teoría de la estadística , 3.ª edición, McGraw-Hill, Nueva York, pág. 229
^ Kenney, John F.; Keeping, ES (1951). Matemáticas de la estadística. Segunda parte (PDF) (2.ª ed.). Princeton, Nueva Jersey: D. Van Nostrand Company, Inc. Archivado desde el original (PDF) el 17 de noviembre de 2018, a través de KrishiKosh.
^ Rose, Colin; Smith, Murray D. (2002). "Estadística matemática con Mathematica". Springer-Verlag, Nueva York.
^ Weisstein, Eric W. "Distribución de varianza de muestra". MathWorld Wolfram.
^ Samuelson, Paul (1968). "¿Hasta qué punto se puede ser desviado?". Revista de la Asociación Estadounidense de Estadística . 63 (324): 1522–1525. doi :10.1080/01621459.1968.10480944. JSTOR 2285901.
^ Mercer, A. McD. (2000). "Límites para A–G, A–H, G–H y una familia de desigualdades del tipo de Ky Fan, utilizando un método general". J. Math. Anal. Appl . 243 (1): 163–173. doi : 10.1006/jmaa.1999.6688 .
^ Sharma, R. (2008). "Algunas desigualdades más para la media aritmética, la media armónica y la varianza". Journal of Mathematical Inequalities . 2 (1): 109–114. CiteSeerX 10.1.1.551.9397 . doi :10.7153/jmi-02-11.
^ Fama, Eugene F.; French, Kenneth R. (21 de abril de 2010). "Preguntas y respuestas: Semivarianza: ¿Una mejor medida del riesgo?". Foro Fama/French .
^ Ronald Fisher (1918) La correlación entre parientes en el supuesto de la herencia mendeliana
^ Kocherlakota, S.; Kocherlakota, K. (2004). "Varianza generalizada". Enciclopedia de ciencias estadísticas . Biblioteca en línea de Wiley. doi :10.1002/0471667196.ess0869. ISBN 0-471-66719-6.