En teoría de probabilidad, la varianza o variancia (que suele representarse comoHay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas.Existen dos conceptos distintos que se denominan "varianza".Uno, como se ha comentado anteriormente, forma parte de una distribución de probabilidad teórica y se define mediante una ecuación.Cuando la varianza se calcula a partir de observaciones, éstas se suelen medir a partir de un sistema del mundo real.Sin embargo, normalmente sólo se dispone de un subconjunto, y la varianza calculada a partir de éste se denomina varianza muestral.Los dos tipos de varianza están estrechamente relacionados.Para véase cómo, considérese que una distribución de probabilidad teórica puede utilizarse como generador de observaciones hipotéticas.Si se genera un número infinito de observaciones utilizando una distribución, entonces la varianza muestral calculada a partir de ese conjunto infinito coincidirá con el valor calculado utilizando la ecuación de la distribución para la varianza.El término varianza fue acuñado por Ronald Fisher en un artículo publicado en enero de 1919 con el título The Correlation Between Relatives on the Supposition of Mendelian Inheritance.Ya que aunque se trata de una medida sencilla, puede aportar mucha información sobre una variable en concreto.El término varianza fue introducido por primera vez por Ronald Fisher en su artículo de 1918 La correlación entre parientes en el supuesto de herencia mendeliana:[2] El gran cuerpo de estadísticas disponibles nos muestra que las desviaciones de una medida humana respecto a su media siguen muy de cerca la Ley Normal de Errores, y, por tanto, que la variabilidad puede medirse uniformemente por la desviación típica correspondiente a la raíz cuadrada del error cuadrático medio., se comprueba que la distribución, cuando ambas causas actúan conjuntamente, tiene una desviación típica: Esta definición abarca variables aleatorias generadas por procesos que son discreta, continua, ninguna de las dos, o mixtos.La varianza siempre es mayor o igual que cero.Y de esa forma no puede ser menor que cero., se define la varianza de la variable aleatoriacomo Desarrollando la definición anterior, se obtiene la siguiente definición alternativa (y equivalente): Si una distribución no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza.Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza.entonces donde y las integrales están definidas sobre el soporte de la variable aleatoriaNota: ¡Podríamos elegir Cara = 100 y Cruz = 150 u otros valores si queremos!entonces su función de densidad está dada por para, por lo que para hallar su varianza calculamos Después de integrar se puede concluir que Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a 1/6.Más aún, cuando las muestras siguen una distribución normal, por el teorema de Cochran,tiene la distribución chi-cuadrado: Dejamos tres fórmulas equivalentes para el cálculo de la varianza muestralEsta última igualdad tiene interés para interpretar los estimadoresLas aplicaciones estadísticas del concepto de la varianza son incontables.Por otro lado, la varianza al igual que la desviación estándar son muy sensibles a los valores atípicos, estos son los valores que se alejan mucho de la media o que son muy distintos a esta.Para que estas medidas no se vean tan afectadas, estos valores atípicos pueden obviarse a la hora de realizar los análisis e incluso los cálculos.También pueden emplearse otras medidas de dispersión que son más útiles en estos casos.
Visualización geométrica de la varianza de una distribución arbitraria (2, 4, 4, 4, 5, 5, 7, 9): * Se construye una distribución de frecuencias. * El centroide de la distribución da su media. * Se forma un cuadrado con lados iguales a la diferencia de cada valor respecto a la media para cada valor. * Arreglando los cuadrados en un rectángulo con un lado igual al número de valores,
n
, resulta que el otro lado es la varianza de la distribución,
σ
2
.