En teoría de probabilidad y estadística , el coeficiente de variación ( CV ), también conocido como desviación cuadrática media normalizada (NRMSD) , porcentaje RMS y desviación estándar relativa ( RSD ), es una medida estandarizada de dispersión de una distribución de probabilidad o distribución de frecuencia . Se define como la relación entre la desviación estándar y la media (o su valor absoluto ) , y a menudo se expresa como un porcentaje ("%RSD"). El CV o RSD se usa ampliamente en química analítica para expresar la precisión y repetibilidad de un ensayo . También se usa comúnmente en campos como la ingeniería o la física cuando se realizan estudios de control de calidad y R&R de calibre ANOVA , [ cita requerida ] por economistas e inversores en modelos económicos y en psicología / neurociencia .
El coeficiente de variación (CV) se define como la relación entre la desviación estándar y la media , [1]
Muestra el grado de variabilidad en relación con la media de la población. El coeficiente de variación debe calcularse solo para datos medidos en escalas que tienen un cero significativo ( escala de razón ) y, por lo tanto, permiten la comparación relativa de dos mediciones (es decir, la división de una medición por la otra). El coeficiente de variación puede no tener ningún significado para los datos en una escala de intervalo . [2] Por ejemplo, la mayoría de las escalas de temperatura (p. ej., Celsius, Fahrenheit, etc.) son escalas de intervalo con ceros arbitrarios, por lo que el coeficiente de variación calculado sería diferente según la escala utilizada. Por otro lado, la temperatura Kelvin tiene un cero significativo, la ausencia completa de energía térmica y, por lo tanto, es una escala de razón. En lenguaje sencillo, tiene sentido decir que 20 Kelvin es el doble de caliente que 10 Kelvin, pero solo en esta escala con un cero absoluto verdadero. Si bien una desviación estándar (DE) se puede medir en Kelvin, Celsius o Fahrenheit, el valor calculado solo es aplicable a esa escala. Solo la escala Kelvin se puede utilizar para calcular un coeficiente de variabilidad válido.
Las mediciones que se distribuyen de forma log-normal presentan un CV estacionario; por el contrario, la DE varía dependiendo del valor esperado de las mediciones.
Una posibilidad más robusta es el coeficiente de dispersión del cuartil , la mitad del rango intercuartil dividido por el promedio de los cuartiles (la bisagra media ), .
En la mayoría de los casos, se calcula un CV para una única variable independiente (por ejemplo, un único producto de fábrica) con numerosas medidas repetidas de una variable dependiente (por ejemplo, error en el proceso de producción). Sin embargo, los datos que son lineales o incluso logarítmicamente no lineales e incluyen un rango continuo para la variable independiente con mediciones dispersas en cada valor (por ejemplo, diagrama de dispersión) pueden ser susceptibles de cálculo de CV único utilizando un enfoque de estimación de máxima verosimilitud . [3]
En los ejemplos siguientes, tomaremos los valores dados como elegidos aleatoriamente de una población más grande de valores .
En estos ejemplos, tomaremos los valores dados como la población total de valores .
Cuando sólo se dispone de una muestra de datos de una población, el CV de la población se puede estimar utilizando la relación entre la desviación estándar de la muestra y la media de la muestra :
Pero este estimador, cuando se aplica a una muestra pequeña o de tamaño moderado, tiende a ser demasiado bajo: es un estimador sesgado . Para datos distribuidos normalmente , un estimador insesgado [4] para una muestra de tamaño n es:
Muchos conjuntos de datos siguen una distribución aproximadamente log-normal. [5] En tales casos, una estimación más precisa, derivada de las propiedades de la distribución log-normal , [6] [7] [8] se define como:
donde es la desviación estándar de la muestra de los datos después de una transformación de logaritmo natural . (En el caso de que las mediciones se registren utilizando cualquier otra base logarítmica, b, su desviación estándar se convierte a la base e utilizando , y la fórmula para permanece igual. [9] ) Esta estimación a veces se denomina "CV geométrico" (GCV) [10] [11] para distinguirla de la estimación simple anterior. Sin embargo, Kirkwood también ha definido el "coeficiente de variación geométrico" como:
Este término fue pensado para ser análogo al coeficiente de variación, para describir la variación multiplicativa en datos log-normales, pero esta definición de GCV no tiene base teórica como estimación de sí misma.
Para muchos propósitos prácticos (como la determinación del tamaño de la muestra y el cálculo de intervalos de confianza ), es lo que resulta más útil en el contexto de datos distribuidos de forma logarítmica normal. Si es necesario, esto se puede derivar de una estimación de o GCV invirtiendo la fórmula correspondiente.
El coeficiente de variación es útil porque la desviación típica de los datos siempre debe entenderse en el contexto de la media de los datos. Por el contrario, el valor real del CV es independiente de la unidad en la que se ha tomado la medida, por lo que es un número adimensional . Para la comparación entre conjuntos de datos con unidades diferentes o medias muy diferentes, se debe utilizar el coeficiente de variación en lugar de la desviación típica.
El coeficiente de variación también es común en campos de probabilidad aplicada como la teoría de renovación , la teoría de colas y la teoría de la confiabilidad . En estos campos, la distribución exponencial es a menudo más importante que la distribución normal . La desviación estándar de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es igual a 1. Las distribuciones con CV < 1 (como una distribución de Erlang ) se consideran de baja varianza, mientras que aquellas con CV > 1 (como una distribución hiperexponencial ) se consideran de alta varianza [ cita requerida ] . Algunas fórmulas en estos campos se expresan utilizando el coeficiente de variación al cuadrado , a menudo abreviado SCV. En modelado, una variación del CV es el CV(RMSD). Esencialmente, el CV(RMSD) reemplaza el término de desviación estándar con la desviación cuadrática media (RMSD) . Si bien muchos procesos naturales muestran de hecho una correlación entre el valor promedio y la cantidad de variación a su alrededor, los dispositivos sensores precisos deben diseñarse de tal manera que el coeficiente de variación sea cercano a cero, es decir, que produzca un error absoluto constante en su rango de trabajo.
En la ciencia actuarial , el CV se conoce como riesgo unificado . [13]
En el procesamiento industrial de sólidos, el CV es particularmente importante para medir el grado de homogeneidad de una mezcla de polvos. Comparar el CV calculado con una especificación permitirá definir si se ha alcanzado un grado suficiente de mezclado. [14]
En dinámica de fluidos , el CV , también conocido como porcentaje RMS , %RMS , %RMS Uniformidad o Velocidad RMS , es una determinación útil de la uniformidad del flujo para procesos industriales. El término se utiliza ampliamente en el diseño de equipos de control de la contaminación, como precipitadores electrostáticos (ESP), [15] reducción catalítica selectiva (SCR), depuradores y dispositivos similares. El Instituto de Empresas de Aire Limpio (ICAC) hace referencia a la desviación RMS de la velocidad en el diseño de filtros de tela (documento ICAC F-7). [16] El principio rector es que muchos de estos dispositivos de control de la contaminación requieren un "flujo uniforme" que ingrese y pase por la zona de control. Esto puede estar relacionado con la uniformidad del perfil de velocidad, la distribución de la temperatura, las especies de gas (como el amoníaco para un SCR o la inyección de carbón activado para la absorción de mercurio) y otros parámetros relacionados con el flujo. El porcentaje RMS también se utiliza para evaluar la uniformidad del flujo en sistemas de combustión, sistemas HVAC, conductos, entradas de ventiladores y filtros, unidades de manejo de aire, etc. donde el rendimiento del equipo se ve influenciado por la distribución del flujo entrante.
Las medidas de CV se utilizan a menudo como controles de calidad para ensayos cuantitativos de laboratorio . Si bien se puede suponer que los CV intraensayo e interensayo se calculan simplemente promediando los valores de CV entre los valores de CV para múltiples muestras dentro de un ensayo o promediando múltiples estimaciones de CV interensayo, se ha sugerido que estas prácticas son incorrectas y que se requiere un proceso computacional más complejo. [17] También se ha observado que los valores de CV no son un índice ideal de la certeza de una medición cuando el número de réplicas varía entre las muestras − en este caso, se sugiere que el error estándar en porcentaje es superior. [18] Si las mediciones no tienen un punto cero natural, entonces el CV no es una medición válida y se recomiendan medidas alternativas como el coeficiente de correlación intraclase . [19]
El coeficiente de variación cumple los requisitos para una medida de desigualdad económica . [20] [21] [22] Si x (con entradas x i ) es una lista de los valores de un indicador económico (por ejemplo, riqueza), donde x i es la riqueza del agente i , entonces se cumplen los siguientes requisitos:
c v asume su valor mínimo de cero para una igualdad completa (todos los x i son iguales). [22] Su inconveniente más notable es que no está acotado desde arriba, por lo que no se puede normalizar para que esté dentro de un rango fijo (por ejemplo, como el coeficiente de Gini , que está restringido a estar entre 0 y 1). [22] Sin embargo, es más manejable matemáticamente que el coeficiente de Gini.
Los arqueólogos suelen utilizar valores de CV para comparar el grado de estandarización de los artefactos antiguos. [23] [24] La variación en los CV se ha interpretado como un indicador de diferentes contextos de transmisión cultural para la adopción de nuevas tecnologías. [25] Los coeficientes de variación también se han utilizado para investigar la estandarización de la cerámica en relación con los cambios en la organización social. [26] Los arqueólogos también utilizan varios métodos para comparar valores de CV, por ejemplo, la prueba de razón de verosimilitud con signo modificado (MSLR) para la igualdad de CV. [27] [28]
Comparar coeficientes de variación entre parámetros utilizando unidades relativas puede dar como resultado diferencias que pueden no ser reales. Si comparamos el mismo conjunto de temperaturas en Celsius y Fahrenheit (ambas unidades relativas, donde Kelvin y la escala Rankine son sus valores absolutos asociados):
Celsius: [0, 10, 20, 30, 40]
Fahrenheit: [32, 50, 68, 86, 104]
Las desviaciones estándar de la muestra son 15,81 y 28,46, respectivamente. El coeficiente de variación del primer conjunto es 15,81/20 = 79 %. Para el segundo conjunto (que tiene las mismas temperaturas), es 28,46/68 = 42 %.
Por ejemplo, si los conjuntos de datos son lecturas de temperatura de dos sensores diferentes (un sensor Celsius y un sensor Fahrenheit) y desea saber qué sensor es mejor eligiendo el que tenga la menor variación, se equivocará si utiliza el CV. El problema aquí es que ha dividido por un valor relativo en lugar de uno absoluto.
Comparando el mismo conjunto de datos, ahora en unidades absolutas:
Kelvin: [273,15, 283,15, 293,15, 303,15, 313,15]
Clasificación: [491,67, 509,67, 527,67, 545,67, 563,67]
Las desviaciones típicas de la muestra siguen siendo 15,81 y 28,46, respectivamente, porque la desviación típica no se ve afectada por una desviación constante. Sin embargo, los coeficientes de variación ahora son ambos iguales al 5,39%.
Matemáticamente hablando, el coeficiente de variación no es completamente lineal. Es decir, para una variable aleatoria , el coeficiente de variación de es igual al coeficiente de variación de solo cuando . En el ejemplo anterior, Celsius solo se puede convertir a Fahrenheit mediante una transformación lineal de la forma con , mientras que los Kelvin se pueden convertir a Rankines mediante una transformación de la forma .
Siempre que los valores negativos y positivos pequeños de la media de la muestra se produzcan con una frecuencia despreciable, Hendricks y Robey han demostrado que la distribución de probabilidad del coeficiente de variación para una muestra de tamaño de variables aleatorias normales iid es [29].
donde el símbolo indica que la suma es solo sobre valores pares de , es decir, si es impar, suma sobre valores pares de y si es par, suma solo sobre valores impares de .
Esto es útil, por ejemplo, en la construcción de pruebas de hipótesis o intervalos de confianza . La inferencia estadística para el coeficiente de variación en datos distribuidos normalmente se basa a menudo en la aproximación de chi-cuadrado de McKay para el coeficiente de variación. [30] [31] [32] [33] [34] [35] Métodos para
Liu (2012) analiza los métodos para la construcción de un intervalo de confianza para el coeficiente de variación. [36] Cabe destacar que Lehmann (1986) derivó la distribución de muestreo para el coeficiente de variación utilizando una distribución t no central para brindar un método exacto para la construcción del IC. [37]
Los momentos estandarizados son razones similares, donde es el k -ésimo momento con respecto a la media, que también son adimensionales e invariantes en la escala. La razón entre la varianza y la media , , es otra razón similar, pero no es adimensional y, por lo tanto, no es invariante en la escala. Consulte Normalización (estadística) para obtener más razones.
En el procesamiento de señales , particularmente en el procesamiento de imágenes , la relación recíproca (o su cuadrado) se conoce como relación señal-ruido en general y relación señal-ruido (imágenes) en particular.
Otras proporciones relacionadas incluyen: