Desviación (estadística)

En matemáticas y estadística , la desviación sirve como medida para cuantificar la disparidad entre un valor observado de una variable y otro valor designado, frecuentemente la media de esa variable. Las desviaciones con respecto a la media de la muestra y la media de la población (o " valor verdadero ") se denominan errores y residuos , respectivamente. El signo de la desviación informa la dirección de esa diferencia: la desviación es positiva cuando el valor observado excede el valor de referencia. El valor absoluto de la desviación indica el tamaño o magnitud de la diferencia. En una muestra dada , hay tantas desviaciones como puntos de muestra . Las estadísticas de resumen se pueden derivar de un conjunto de desviaciones, como la desviación estándar y la desviación absoluta media , medidas de dispersión , y la desviación media con signo , una medida de sesgo. ^[1]

La desviación de cada punto de datos se calcula restando la media del conjunto de datos del punto de datos individual. Matemáticamente, la desviación d de un punto de datos x en un conjunto de datos se expresa mediante

$d=x-media$

Este cálculo representa la "distancia" de un punto de datos con respecto a la media y proporciona información sobre cuánto varían los valores individuales con respecto al promedio. Las desviaciones positivas indican valores superiores a la media, mientras que las desviaciones negativas indican valores inferiores a la media. ^[1]

La suma de las desviaciones al cuadrado es un componente clave en el cálculo de la varianza , otra medida de la dispersión de un conjunto de datos. La varianza se calcula promediando las desviaciones al cuadrado. La desviación es un concepto fundamental para comprender la distribución y variabilidad de los puntos de datos en el análisis estadístico. ^[1]

Tipos

Una desviación que es una diferencia entre un valor observado y el valor verdadero de una cantidad de interés (donde el valor verdadero denota el valor esperado, como la media de la población) es un error. ^[2]

Desviaciones con signo

Una desviación, que es la diferencia entre el valor observado y una estimación del valor verdadero (por ejemplo, la media de la muestra), es un residuo . Estos conceptos son aplicables a los datos en los niveles de intervalo y de proporción de la medición. ^[3]

Desviación absoluta o sin signo

La desviación absoluta en estadística es una métrica que mide la diferencia general entre puntos de datos individuales y un valor central, normalmente la media o la mediana de un conjunto de datos. Se determina tomando el valor absoluto de la diferencia entre cada punto de datos y el valor central y luego promediando estas diferencias absolutas. ^[4] La fórmula se expresa de la siguiente manera:

$D_{i}=|x_{i}-m(X)|,$ dónde

D _i es la desviación absoluta,
x _i es el elemento de datos,
m ( X ) es la medida de tendencia central elegida del conjunto de datos: a veces la media ( ), pero más a menudo la mediana . ${\overline {x}}$

La desviación absoluta promedio (DAP) en estadística es una medida de la dispersión o dispersión de un conjunto de puntos de datos en torno a un valor central, normalmente la media o la mediana. Se calcula tomando el promedio de las diferencias absolutas entre cada punto de datos y el valor central elegido. La DAP proporciona una medida de la magnitud típica de las desviaciones respecto del valor central en un conjunto de datos, lo que proporciona información sobre la variabilidad general de los datos. ^[5]

La desviación mínima absoluta (LAD) es un método estadístico utilizado en el análisis de regresión para estimar los coeficientes de un modelo lineal. A diferencia del método de mínimos cuadrados más común, que minimiza la suma de las distancias verticales al cuadrado (residuos) entre los valores observados y previstos, el método LAD minimiza la suma de las distancias verticales absolutas.

En el contexto de la regresión lineal, si ( x ₁ , y ₁ ), ( x ₂ , y ₂ ), ... son los puntos de datos, y a y b son los coeficientes que se deben estimar para el modelo lineal

$y=b+(a*x)$

Las estimaciones de desviación absoluta mínima ( a y b ) se obtienen minimizando la suma.

El método LAD es menos sensible a los valores atípicos en comparación con el método de mínimos cuadrados, lo que lo convierte en una técnica de regresión robusta en presencia de distribuciones residuales sesgadas o de cola pesada. ^[6]

Resumen de estadísticas

Desviación media con signo

En el caso de un estimador insesgado , el promedio de las desviaciones con signo en todo el conjunto de todas las observaciones con respecto al valor del parámetro de población no observado promedia cero en una cantidad arbitrariamente grande de muestras. Sin embargo, por construcción, el promedio de las desviaciones con signo de los valores con respecto al valor medio de la muestra siempre es cero, aunque la desviación con signo promedio con respecto a otra medida de tendencia central, como la mediana de la muestra, no necesita ser cero.

La desviación media con signo es una medida estadística que se utiliza para evaluar la desviación media de un conjunto de valores con respecto a un punto central, normalmente la media. Se calcula tomando la media aritmética de las diferencias con signo entre cada punto de datos y la media del conjunto de datos.

El término "con signo" indica que las desviaciones se consideran con sus respectivos signos, es decir, si están por encima o por debajo de la media. Las desviaciones positivas (por encima de la media) y las desviaciones negativas (por debajo de la media) se incluyen en el cálculo. La desviación media con signo proporciona una medida de la distancia y la dirección promedio de los puntos de datos con respecto a la media, lo que ofrece información sobre la tendencia general y la distribución de los datos. ^[3]

Dispersión

Las estadísticas de la distribución de desviaciones se utilizan como medidas de dispersión estadística .

La desviación estándar es una medida ampliamente utilizada de la dispersión de un conjunto de datos. Cuantifica la cantidad promedio de variación o desviación de los puntos de datos individuales con respecto a la media del conjunto de datos. Utiliza desviaciones al cuadrado y tiene propiedades deseables. La desviación estándar es sensible a los valores extremos, lo que la hace poco robusta . ^[7]
La desviación absoluta promedio es una medida de la dispersión en un conjunto de datos que está menos influenciada por los valores extremos. Se calcula hallando la diferencia absoluta entre cada punto de datos y la media, sumando estas diferencias absolutas y luego dividiendo por el número de observaciones. Esta métrica proporciona una estimación más sólida de la variabilidad en comparación con la desviación estándar. ^[8]
La desviación absoluta media es una estadística robusta que emplea la mediana, en lugar de la media, para medir la dispersión de un conjunto de datos. Se calcula hallando la diferencia absoluta entre cada punto de datos y la mediana, y luego calculando la mediana de estas diferencias absolutas. Esto hace que la desviación absoluta media sea menos sensible a los valores atípicos, lo que ofrece una alternativa robusta a la desviación estándar. ^[9]
La desviación absoluta máxima es una medida sencilla de la diferencia máxima entre cualquier punto de datos individual y la media del conjunto de datos. Sin embargo, es muy poco robusta, ya que puede verse influenciada desproporcionadamente por un único valor extremo. Esta métrica puede no proporcionar una medida confiable de dispersión cuando se trabaja con conjuntos de datos que contienen valores atípicos. ^[8]

Normalización

Las desviaciones, que miden la diferencia entre los valores observados y algún punto de referencia, llevan inherentemente unidades correspondientes a la escala de medición utilizada. Por ejemplo, si se miden longitudes, las desviaciones se expresarían en unidades como metros o pies. Para que las desviaciones no tengan unidades y facilitar las comparaciones entre diferentes conjuntos de datos, se puede adimensionalizar .

Un método común implica dividir las desviaciones por una medida de escala ( dispersión estadística ), utilizando la desviación estándar de la población para estandarizar o la desviación estándar de la muestra para studentizar (por ejemplo, residuo studentizado ).

Otro enfoque de la no dimensionalización se centra en el escalamiento por ubicación en lugar de por dispersión. La desviación porcentual ofrece un ejemplo de este método, que se calcula como la diferencia entre el valor observado y el valor aceptado, dividida por el valor aceptado y luego multiplicada por 100%. Al escalar la desviación en función del valor aceptado, esta técnica permite expresar las desviaciones en términos porcentuales, lo que proporciona una perspectiva clara de la diferencia relativa entre los valores observados y aceptados. Ambos métodos de no dimensionalización sirven para hacer que las desviaciones sean comparables e interpretables más allá de las unidades de medida específicas. ^[10]

Ejemplos

En un ejemplo, se toman una serie de medidas de la velocidad del sonido en un medio determinado. El valor aceptado o esperado para la velocidad del sonido en este medio, con base en cálculos teóricos, es de 343 metros por segundo.

Ahora bien, durante un experimento, diferentes investigadores realizan múltiples mediciones. El investigador A mide la velocidad del sonido como 340 metros por segundo, lo que da como resultado una desviación de -3 metros por segundo con respecto al valor esperado. El investigador B, por otro lado, mide la velocidad como 345 metros por segundo, lo que da como resultado una desviación de +2 metros por segundo.

En este contexto científico, la desviación ayuda a cuantificar en qué medida las mediciones individuales difieren del valor predicho o aceptado teóricamente. Proporciona información sobre la exactitud y precisión de los resultados experimentales, lo que permite a los investigadores evaluar la fiabilidad de sus datos e identificar potencialmente los factores que contribuyen a las discrepancias.

En otro ejemplo, supongamos que se espera que una reacción química produzca 100 gramos de un compuesto específico según la estequiometría. Sin embargo, en un experimento de laboratorio real, se realizan varios ensayos con diferentes condiciones.

En el ensayo 1, el rendimiento real medido es de 95 gramos, lo que da como resultado una desviación de -5 gramos con respecto al rendimiento esperado. En el ensayo 2, el rendimiento real medido es de 102 gramos, lo que da como resultado una desviación de +2 gramos. Estas desviaciones con respecto al valor esperado brindan información valiosa sobre la eficiencia y reproducibilidad de la reacción química en diferentes condiciones.

Los científicos pueden analizar estas desviaciones para optimizar las condiciones de reacción, identificar posibles fuentes de error y mejorar el rendimiento general y la confiabilidad del proceso. El concepto de desviación es crucial para evaluar la precisión de los resultados experimentales y tomar decisiones informadas para mejorar los resultados de los experimentos científicos.

Véase también

Referencias

^ abc Lee, Dong Kyu; En, Junyong; Lee, Sangseok (2015). "Desviación estándar y error estándar de la media". Revista Coreana de Anestesiología . 68 (3): 220. doi : 10.4097/kjae.2015.68.3.220 . ISSN 2005-6419. PMC 4452664 .
^ Livingston, Edward H. (junio de 2004). "La media y la desviación estándar: ¿qué significa todo esto?". Journal of Surgical Research . 119 (2): 117–123. doi :10.1016/j.jss.2004.02.008. ISSN 0022-4804.
^ ab Dodge, Yadolah, ed. (7 de agosto de 2003). Diccionario Oxford de términos estadísticos. Oxford University Press, Oxford. ISBN 978-0-19-850994-3.
^ Konno, Hiroshi; Koshizuka, Tomoyuki (1 de octubre de 2005). "Modelo de desviación media-absoluta". IIE Transactions . 37 (10): 893–900. doi :10.1080/07408170591007786. ISSN 0740-817X.
^ Pham-Gia, T.; Hung, TL (1 de octubre de 2001). "Desviaciones absolutas medias y medianas". Modelado matemático y computacional . 34 (7): 921–936. doi :10.1016/S0895-7177(01)00109-1. ISSN 0895-7177.
^ Chen, Kani; Ying, Zhiliang (1 de abril de 1996). "Un contraejemplo de una conjetura sobre la banda de Hall-Wellner". Anales de Estadística . 24 (2). doi : 10.1214/aos/1032894456 . ISSN 0090-5364.
^ "2. Media y desviación estándar | The BMJ". The BMJ | The BMJ: revista médica general líder. Investigación. Educación. Comentario . 2020-10-28 . Consultado el 2022-11-02 .
^ ab Pham-Gia, T.; Hung, TL (1 de octubre de 2001). "Desviaciones absolutas medias y medianas". Modelado matemático y computacional . 34 (7): 921–936. doi :10.1016/S0895-7177(01)00109-1. ISSN 0895-7177.
^ Jones, Alan R. (9 de octubre de 2018). Probabilidad, estadística y otras cosas aterradoras. Routledge. pág. 73. ISBN 978-1-351-66138-6.
^ Freedman, David; Pisani, Robert; Purves, Roger (2007). Estadísticas (4.ª ed.). Nueva York: Norton. ISBN 978-0-393-93043-6.