En estadística, la desviación típica (también conocida como desviación estándar y desvío típico) y representada de manera abreviada por la letra griega minúscula sigma σ o la letra latina s, así como por las siglas SD es una medida que se utiliza para cuantificar la variación o la dispersión de un conjunto de datos numéricos.Es algebraicamente más simple, aunque en la práctica menos robusta, que la desviación media.Supóngase que toda la población estudiada son ocho alumnos determinados de una clase en particular.Si la desviación estándar fuera cero, entonces todos los hombres tendrían una altura de exactamente 177.8 cm (el valor medio).Sin embargo, otros estimadores son mejores en algunos aspectos: el estimador no corregido (que usa N) produce un error cuadrático medio más bajo, mientras que el uso de N − 1.5 (para una distribución normal) elimina el sesgo casi por completo.Este es un estimador consistente (porque converge en probabilidad al valor de la población cuando el número de muestras llega al infinito), y posee la máxima verosimilitud estimada cuando la población está normalmente distribuida.Sin embargo, posee un sesgo estadístico, ya que el número de observaciones es generalmente demasiado bajo.El sesgo disminuye a medida que crece el tamaño de la muestra, disminuyendo como 1/N, y por lo tanto es más significativo para tamaños de muestra pequeños o moderados; paraEste estimador también tiene un error cuadrático medio uniformemente más pequeño que la desviación estándar corregida de la muestra.Al calcular la raíz cuadrada se reintroduce un sesgo (porque la raíz cuadrada es una función no lineal, que no posee la propiedad commutativa con respecto a la media), lo que produce la desviación estándar de la muestra corregida, denotada por s: Como se explicó anteriormente, mientras que s2 es un estimador no sesgado de la varianza poblacional, s sigue siendo un estimador sesgado para la desviación estándar de la población, aunque es notablemente menos sesgado que la desviación estándar de la muestra no corregida.El sesgo aún puede ser grande para muestras pequeñas (N menor de 10).A medida que aumenta el tamaño de la muestra, el valor del sesgo disminuye.A medida que se dispone de más información, la diferencia entreEl efecto matemático puede ser descrito por el intervalo de confianza o CI.En la siguiente fórmula, la letra E se interpreta como el valor esperado, es decir, la media.La tercera población tiene una desviación estándar mucho más pequeña que las otras dos porque sus valores son todos cercanos a 7.Como otro ejemplo, la población {1000, 1006, 1008, 1014} puede representar las distancias recorridas por cuatro atletas, medidas en metros.Esto tiene sentido, ya que se encuentran fuera del rango de valores que podrían esperarse razonablemente si la predicción fuera correcta y la desviación estándar se cuantificara adecuadamente (véase intervalo de predicción).Un ejemplo es la desviación media, que podría considerarse una medida más directa de la distancia promedio, en comparación con la raíz de las distancias al cuadrado inherente a la desviación estándar.Si los tres valores dados fueran todos iguales, entonces la desviación estándar sería cero y P estaría en L. Por lo tanto, es lógico suponer que la desviación estándar está relacionada con la distancia de P con respecto a L. Ese es de hecho el caso.Al utilizar la desviación estándar, se puede calcular un valor mínimo y máximo tales que el peso promedio estará dentro en un porcentaje muy alto de las ocasiones (un 99.9% o más).Si cae fuera del rango, es posible que el proceso de producción deba corregirse.Pruebas estadísticas como estas son particularmente importantes cuando la obtención de medidas es relativamente cara.[19] Como ejemplo simple, considérense las temperaturas máximas promedio diarias de dos ciudades, una interior y otra en la costa.Por lo tanto, si bien estas dos ciudades pueden tener la misma temperatura máxima promedio, la desviación estándar de la temperatura máxima diaria para la ciudad costera será menor que la de la ciudad interior, ya que, en cualquier día en particular, la temperatura máxima real es más probable que se sitúe más lejos de la temperatura máxima promedio en la ciudad interior que en la costera.Las acciones A en los últimos 20 años tuvieron un rendimiento promedio del 10 por ciento, con una desviación estándar de 20 puntos porcentuales (pp) y las acciones B, durante el mismo período, tuvieron rendimientos promedio del 12 por ciento, pero una desviación estándar más alta de 30 pp.Como base del riesgo y la rentabilidad, un inversor puede decidir que la acción A es la opción más segura, ya que los dos puntos porcentuales adicionales de la acción B no valen la desviación estándar adicional de 10 pp (mayor riesgo o incertidumbre de la rentabilidad esperada).La declaración precisa es la siguiente: Supóngase que x1, ..., xn son números reales y se define la función: Usando el cálculo infinitesimal o completando el cuadrado, es posible demostrar que σ(r) tiene un mínimo único en la media: La variabilidad también puede medirse mediante el coeficiente de variación, que es la relación de la desviación estándar con respecto a la media.A menudo, se requiere información sobre la precisión de la media obtenida.Esta denominación sustituyó a otros nombres anteriores de la misma idea: por ejemplo, Gauss usó la expresión error medio.
Ejemplo de muestras de dos poblaciones con la misma media pero con desviaciones estándar diferentes. La población representada en rojo tiene media 100 y
s
10; la azul tiene media 100 y
s
50
Visualización geométrica de la varianza de una distribución:
Imagen 1: Se construye la distribución de frecuencias.
Imagen 2: El centroide de la distribución proporciona la media.
Imagen 3: Se construye para cada valor un cuadrado cuyo lado es igual a la diferencia de cada valor respecto a la media.
Imagen 4: Se reorganizan los cuadrados en un rectángulo con un lado igual al número
de valores, resultando el otro lado igual a la varianza de la distribución
.
El color azul oscuro representa el intervalo de la desviación estándar a ambos lados de la media. Para la distribución normal, esto representa el 68.27 por ciento del conjunto; mientras que dos desviaciones estándar de la media (azul medio y oscuro) representan 95.45 por ciento; tres desviaciones estándar (azul claro, medio y oscuro) representan el 99.73 por ciento; y cuatro desviaciones estándar representan el 99.994 por ciento. Los dos puntos de la curva situados a una desviación estándar de la media son también los
puntos de inflexión
de la gráfica.
Porcentaje dentro de (
z
)
z
para el porcentaje abarcado
Regiones de probabilidad de los intervalos de la desigualdad de Chebyshov en una distribución simétrica